2014数学建模mathorcup获奖论文

评委一评分,签名及备注 队号: 评委三评分,签名及备注 20025 评委二评分,签名及备注 选题: 评委四评分,签名及备注 B 题目:基于层次分析法与BP神经网络对书籍推荐的研究 摘 要 随着信息技术和互联网的发展,关于各类信息的评价、推荐越来越被广泛关注。本文根据一个著名网上书店的用户行为信息,分析影响用户评分的因素来建立用户对书籍的评分体系模型,进而对用户进行书籍推荐。 对于问题一,首先对原始数据筛选处理,得到用户对书籍的评价为5分的数据;考虑到不同因素对书籍评分的影响,然后再对标签、社交好友、书籍浏览量三组数据分别进行双变量相关分析,得到用户对书籍的评分分数与标签数量、用户好友数量、书籍的历史浏览量成正相关的关系,对用户对书籍评分影响程度分别为历史浏览量>用户好友人数>书籍标签数量。 对于问题二,本文分别通过建立层次分析模型和BP神经网络模型对评分进行预测。首先将三个影响评分的因素:书籍的书签数量、历史浏览量、用户的好友数量作为评分指标,建立层次评价指标体系。然后,通过建立层次分析模型,得到标签数量、历史浏览量、用户好友数量三个指标的权重:0.0813,0.6837,0.2349,进而确定用户对书籍的评分公式,再将问题中的36组数据分别进行分析,并运用评分公式得到用户对每个书籍的评分。接下来构建BP神经网络模型,先对原始数据进行筛选得到99组数据;把不同用户对书籍的标签数量、用户好友数量、书籍浏览量和对应的书籍评分作为输入量,将其他用户对书籍的评分作为输出量。选取80组数据训练该神经网络,剩余19组数据检验模型,误差在5.3%之内,最后利用该训练好的网络预测用户对书籍评分。通过两种模型的对比得出更为精确的结果。 对于问题三,本文考虑到对书籍的好评频率越高,用户对书籍的喜爱程度越高,通过对原始数据筛选得到用户未看过书的ID,选取前三本评分为五分频率最高的书籍,即为推荐给该用户的三本书籍ID,然后循环五次进行分析最终得到问题所要求的五个用户的推荐书籍ID。 关键字:书籍评分;相关分析;层次分析法;BP神经网络 基于层次分析法和BP神经网络对书籍推荐的研究

1.问题的重述

随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。此时,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。

推荐,就是解决这一矛盾的重要工具,在互联网的产品和应用中被广泛采用,包括大家经常使用的相关搜索、话题推荐、电子商务的各种产品推荐、社交网络上的交友推荐等。

我们获得了一个著名网上书店的用户行为信息,包括对于书籍的评分数据,书籍的标签信息以及用户的社交关系,请你根据数据完成以下问题。 1.分析影响用户对书籍评分的因素;

2.建立一个模型,预测predict.txt附件中的用户对书籍的评分;

3.针对predict.txt附件中的用户,给每个用户推荐3本没看过的书籍。

2.问题的分析

对于书籍的评分与推荐,主要是基于对大量统计数据的处理。所以,对于问题的解决需要抓住关键有用的数据,并对数据进行转变、筛选、分析、归纳,分析用户对书籍评分的影响因素,以此为依据,通过建立用户对书籍评分的模型,进而完成用户对书籍的评分预测和书籍推荐。 2.1问题一的分析

问题一要求分析影响用户对书籍评分的因素,是对附件中数据的综合分析,

首先对user_book_score.txt进行原始数据筛选分别得到用户对书籍的评价为1—5分的数据;考虑到不同影响因素对书籍评分的影响,然后再对其他数据进行筛选,分析,初步得到各阶段书籍的评价分数与标签数的关系、与社交好友的关系、与书籍浏览量的关系。最后对得到的数据进行科学分析和归纳总结,得到影响用户对书籍评分的因素。 2.2问题二的分析

问题二要求建立模型,预测predict.txt附件中的用户对书籍的评分。首先对标签数量,社交关系,书籍浏览量三个方面进行研究,这是一个多目标决策问题。根据问题,可以运用YAAHP层次分析软件建立总评分-准则层两层次分析模型,利用层次分析法综合分析确定各指标对总评分的权系数,并确定综合书籍评价公式,从而得到书籍评分模型,进行预测评分。其次为了更加充分的考虑模型的准确性,运用BP神经网络模型,首先建立一个神经网络结构,把不同用户对书籍的标签数量、用户好友数量、书籍浏览量和对应的书籍评分作为输入量,预测其他用户对书籍的评分作为输出量,根据已知数据训练神经网络,该过程不断调整网络结构,直到到达满意,为止,最后利用该训练好的网络进行用户对书籍评分

- 1 -

的预测。 2.3问题三的分析

问题三要求针对predict.txt附件中的用户,给每个用户推荐3本没看过的

书籍。考虑到书籍的好评频率越高,用户对书籍的喜爱程度越高,运用SPSS软件对user_book_score.txt附件进行筛选,得到所有书籍评分为五分的频率,然后在EXCEL中进行排序处理,运用LOOKUP函数筛选得到该用户未看过书的ID,选取前三本评分为五分频率最高的书籍,即为推荐给该用户的三本书籍ID,然后循环五次进行分析最终得到问题所要求的五个用户的推荐书籍ID。

3.符号约定

符号 N y x1 说明 观测样本数 用户对书籍的评分 用户浏览量的指标 用户好友人数的指标 标签数量的指标 一致性比例 x2 x3 CR 4.问题假设

1、假设影响用户对书籍评分的因素相互独立。

2、假设影响书籍评分的因素只有书籍标签,用户好友数量,书籍浏览量。 3、假设书籍的好评频率越高,用户对书籍的喜爱程度越高。

5.模型的建立与求解

5.1问题一模型的建立 5.1.1对书籍评分数据的处理

题目要求分析影响用户对书籍评分的因素,运用SPSS统计软件[1]对附件user_book_score.txt(用户评分数据)对书籍分数进行排序,然后进行筛选,从而得到评分为5分好评对应的书籍。 5.1.2书籍标签对书籍评分的影响

考虑到书籍标签的数量对书籍评分结果存在着一定的影响关系,因此要对标签数量进行综合分析。首先运用SPSS统计软件对附件book_tag.txt(书籍的标签数据)进行数据筛选,得到不同的书籍评分为5分出现的频数;然后运用EXCEL统计软件进行计数处理,得到评分为5分的所有书籍的标签数量。再次运用SPSS软件对其进行双变量相关分析[2],得到标签数量影响因素下的描述性统计量表包括均值、标准差、观测样本数,如表1所示:

- 2 -

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4