摘 要
本系统以一个大规模网络爬虫程序所获取的网络评论数据为基础,使用了词向量,用户画像等技术,构建了一个基于影评的推荐系统。主要的工作分为两部分,首先是研究分析了豆瓣电影网站是如何防御网络爬虫程序已经应对策略,其次根据网络爬虫程序获取的大量数据构建了一个推荐系统。
关键词:大规模爬虫,用户画像,推荐系统
电影网页设计代码第一章 绪 论
1.1 背景与意义
随着中国移动互联网的迅速发展,网民数量也在大规模增长,用户在社交与电商网站上的活跃程度日趋增加。随着用户体的增加,用户在网络上留下的行为数据呈现指数级增长。面对庞
大的用户体以及如此大量的行为数据,如何从中快速、准确、有效的获取到有价值的数据,分析出用户的行为习惯以及偏好,在大规模内容的场景下,为用户提供精准的推荐服务,是现在大数据研究领域的一个热点和重点。
网络爬虫是大规模数据获取的必要程序。由于网络上数据的高潜在商业价值,商业公司均会对其进行保密,即使能够直接获取的数据也会给出层层限制。在互联网发展的二十余年里,网络爬虫程序设计和网站反爬虫程序设计共同进步发展。如何有效的进行大规模网络数据爬取,同样是在工程领域的一个热点和重点。
1.2 本系统的总体设计构思
首先通过设计一个高性能网络爬虫,对部分数据进行爬取。在数据集上进行清洗,选择一些高质量的活跃用户,设计算法,提取特征,进行回测,调整特征的选择。之后再在大规模数据集上进行运算。
1.3 本系统的主要贡献与创新
本论文以大规模爬虫获取实时豆瓣电影数据为基础,实现了用户画像系统与推荐系统,根据
历史数据得到的用户体行为分析报告,并根据用户行为以及评论数据实现了智能化的电影推荐。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论