本科毕业论文(设计)开题报告书 模板 下载本文

本科毕业论文(设计)

开题报告书

题 目 基于用户偏好的电影推荐系统

院 系 信息工程学院 年级专业 电子Q1141

姓 名

学 号 指导教师 田浩 职 称 副教授 开题时间 2015.12.11

1、 本选题研究的目的及意义

如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。

在这样的情形下,搜索引擎(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候,用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多情况下,用户其实并不明确自己的需要,或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和喜好的结果,因此出现了推荐系统,与搜索引擎对应,大家也习惯称它为推荐引擎。

随着推荐引擎的出现,用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的信息发现。如今,随着推荐技术的不断发展,推荐引擎已经在电子商务 (E-commerce,例如 Amazon,当当网 ) 和一些基于 social 的社会化站点 ( 包括音乐,电影和图书分享,例如豆瓣,Mtime 等 ) 都取得很大的成功。这也进一步的说明了,Web2.0 环境下,在面对海量的数据,用户需要这种更加智能的,更加了解他们需求,口味和喜好的信息发现机制。

2、 本选题国内外研究状况综述

在国外,对推荐引擎的研究如火如荼。Amazon 作为推荐引擎的鼻祖,它已经将推荐的思想渗透在应用的各个角落。Amazon 推荐的核心是通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比,借以预测用户可能感兴趣的商品。Amazon 采用的是分区的混合的机制,并将不同的推荐结果分不同的区显示给用户。

来自186个国家的四万多个团队经过近三年的较量,世界最大的在线影片租赁服务商Netflix 在2009年10月1日宣布,一个由工程师,统计学家,研究专家组成的团队夺得了Netflix大奖,该团队成功的将Netflix的影片推荐引擎的推荐效率提高了10%。Netflix大奖的参赛者们不断改进了影片推荐效率,Netflix的客户已经为此获益。

在国内,也有淘宝,豆瓣等网站,在进行推荐引擎的研究与应用。

豆瓣的推荐是通过“豆瓣猜”,为了让用户清楚这些推荐是如何来的,豆瓣还给出了“豆瓣猜”的一个简要的介绍。

“你的个人推荐是根据你的收藏和评价自动得出的,每个人的推荐清单都不同。你的收藏和评价越多,豆瓣给你的推荐会越准确和丰富。

每天推荐的内容可能会有变化。随着豆瓣的长大,给你推荐的内容也会越来越准。”

这一点让我们可以清晰明了的知道,豆瓣必然是基于社会化的协同过滤的推荐,这样用户越多,用户的反馈越多,那么推荐的效果会越来越准确。

相对于 Amazon 的用户行为模型,豆瓣电影的模型更加简单,就是“看过”和“想看”,这也让他们的推荐更加专注于用户的品味,毕竟买东西和看电影的动机还是有很大不同的。

另外,豆瓣也有基于物品本身的推荐,当你查看一些电影的详细信息的时候,他会给你推荐出“喜欢这个电影的人也喜欢的电影”,这是一个基于协同

过滤的应用。 淘宝京东等电商也大量应用了这种推荐系统。由于网店衣服更新速度比较快,所以淘宝按照客户所购买的服装风格和类别以及店铺进行推荐。所分类目基于淘宝网上的分类。当用户完成一项所 购衣服的评价时,会自动弹出你可能喜欢的衣服以及店铺。例如:对一件 适合通勤的衬衣做出了满意的评价,可以找到OL风格的衣服和店铺的 推荐。当然不满意的评价也会进行储存并归集到这一店铺,当一个店 铺不满意的评价达到一定数值时便不再进入推荐列表。 推荐引擎的算法已经相对成熟,但随着Hadoop,Mahout等技术的兴起,推荐引擎的研究在国内外已经进入了新的高度。 3、本选题研究的主要内容及写作提纲 本选题研究的主要内容包括了数据的搜集,清理,整合和挖掘,构建一个推荐引擎,并得出相应的推荐结果。其中数据集准备采用大量用户对不同电影的评分数据集,通过推荐引擎后得出推荐给用户的新电影。 论文写作提纲如下: 第一章:原理(包括应用背景) 个性化推荐系统必须能够基于用户之前的口味和喜好提供相关的精确的推荐,而且这种口味和喜欢的收集必须尽量少的需要用户的劳动。推荐的结果必须能够实时计算,这样才能够在用户离开网站前之前获得推荐的内容,并且及时的对推荐结果作出反馈。实时性也是推荐系统与通常的数据挖掘技术显著不同的一个特点xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx. 第二章:方案设计与比较 论文中方案的核心是选取不同的推荐算法。x 基于用户的协同过滤xxxxxxxxxxxx 基于内容项(Item-based)的协同过滤技术xxxxxxxxxxxxxxxxxxx 第三章:系统实现 推荐系统由三部分构成:行为记录模块、模型分析模块和推荐模块。行为记录模块负责记录能够体现用户喜好的行为,比如购买、下载、评分等。这部分看起来简单,其实需要非常仔细的设计。比如说购买和评分这两种行为表达潜在的喜好程度就不尽相同完善的行为记录需要能够综合多种不同的用户行为,处理不同行为的累加。模型分析模块的功能则实现了对用户行为记录的分析,采用不同算法建立起模型描述用户的喜好信息。最后,通过推荐模块,实时的从内容集筛选出目标用户可能会感兴趣的内容推荐给用户xxxxxxxxxxxxx 第四章:系统测试 设计表格,在完成的推荐系统允许的范围内输入数据集,看系统如何反应,测试2-3组数据;然后,在推荐系统不允许的范围内输入内容,看系统如何反应,2-3组数据;