GitHub - w-sugar/-: 该仓库下提供了相关代码、数据集以及相关图片

w-sugar / - Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

该仓库下提供了相关代码、数据集以及相关图片

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
数据集		数据集
源程序		源程序
相关图片/图		相关图片/图
README.txt		README.txt

Repository files navigation

【项目介绍】
    为了能够更好的对尚未上映的电影进行客观评分，供观众进行参考和向观众推荐高质量电影，本项目以豆瓣电影网爬取的2万余部电影作为研究对象,通过Pajek和Gephi对数据集进行网络分析并将电影特征之间的相关性可视化。然后进行探索性的数据分析并利用均值、标准差及相关系数矩阵量化豆瓣评分和电影特征的联系。在此基础上筛选出5个电影特征构建电影的特征向量，基于余弦相似度的机器学习框架，通过计算特征向量的相似度构建电影评分预测模型。最后，在真实的电影数据集上给予验证。
【文件说明】
    整个文件夹包括以下几大类：源程序（内附所有相关实现代码）、数据集（内附爬虫爬取到的数据集以及数据分析用到的数据集及对其处理后的数据集） 、相关图片（内附Pajek软件和Gephi软件绘制的图片）
    “源程序”：
	  reptitle_douban:此demo实现爬取豆瓣网站上的信息；
	  Co-occurrence matrix：此demo实现共现矩阵的构建；
	  data_process:此demo实现数据集数据处理，绘制相关图表；
	  update_dataset:此demo实现对数据集dataset进行处理更新，输出的数据集用于评分预测模型；
	  predict_model:此demo实现对prediction_model数据集进行评分预测。
     “数据集”：
	  dataset:此数据集是在豆瓣网站上爬取到的内容；
	  prediction_model:此数据集是利用update_dataset源程序处理dataset数据集得到的，用于评分预测；
	  dataset_process:此数据集是处理前的原始数据集；
	  processed:此数据集是dataset_process处理后的，用于Gephi分析以及绘制相关图。
      “相关图片”：
	  该文件夹下是Gephi软件和Pajek软件绘制出的网络图。
【注意事项】
    1.运行代码前需要引入相应的库。比如说：pandas库、requests库、xlrd库、xlwt库等等，否则会出现运行错误；
    2.数据集打开前确保excel的编码方式，否则会出现乱码情况。如果出现乱码，需要调整编码方式即可。