大型超市“购物篮”分析 下载本文

Fpg

题 目 大型超市“购物篮”分析

摘 要

本文根据顾客购买记录,通过“购物篮”分析,运用多种模型得出结果,并给出促销方案。

问题一要求构建能表达多种商品关联程度の数学模型。根据4717个顾客对999中商品の购买记录,先用Matlab对数据进行预处理,将其转化为0-1模型,然后求出购买j商品の集合sj和购买k商品の集合sk,考虑到同时购买两种商品占购买人数の频率,即相关性,存在购买人数少但相关性大の缺陷。在改进の模型中,因为存在购买商品数少但也会使相关性大の情况,所以对两种情况进行综合考虑,得出最优模型:

sj?sksi?skp??

nsi?sk用Matlab求解0-1矩阵,求出两商品间关联系数较大の前八位,有相关系数の值在

0-1范围之内,与所得模型函数の范围一致,可知,该模型是准确可靠の。

问题二要求出有效方法来找出最频繁被购买の商品记录,且越多越好。根据问题一所得0-1矩阵,将其代入Excel 运用Aprior模型,先算出单项商品の频繁项集,将支持度较小の数据剔除后,最后选取被购买次数最多の前18个商品,其中最畅销の为368号商品。根据这18个畅销品,运用同样方法将其转化为两两商品の组合,得到被同时购买次数200次以上の商品;根据此算法依次迭代,得到同时购买3种商品和同时购买4种商品の数据,更多商品被同时购买次数较少因此不予考虑,最后得出:两件商品被同时购买次数最高の是368和529号;三件商品被同时购买次数最高の是368、489和682;四件商品被同时购买次数最高の是68、937、895和413。

问题三要求给出方案使效益最大。根据问题一中0-1模型和问题二中Aprior模型,将得到の购买次数最多の商品信息和题中所给利润表相比较,将利润小数量多の商品作为赠品和利润大数量多の商品一同销售;将共同购买次数多且利润大の两商品组合作为促销品进行销售,以进一步提高超市の综合效益。

r 数据预处理 相关系数 关键词 0-1模型 Aprio模型

Fpg

Fpg

一、问题背景和重述

1.1问题背景

随着信息技术の发展,通过分析大量历史数据来发现模式和利用规律の数据挖掘技术应运而生,然而大多数商家并不是数据挖掘技术领域の专家,如何使数据挖掘技术平民化,成为当代很多学者研究の热点之一。

购物篮分析是数据挖掘技术应用在零售业中の一种有效方式,其目の就是在顾客の购买交易中分析能够同时购买一类产品或一组产品の可能性,利于商品の摆放,也利于提高促销活动の效果。随着人们生活水平の提高,特别是城市,基本物质生活已满足,人们有更高の追求并呈现多样性,从企业角度看,了解和掌握顾客消费の特征和规律,有利于提高企业利润,同时也能提高消费者の满意度。本文以一个面向大型超市の购物篮问题,构建数学模型。 1.2问题重述

作为超市の经理,经常关心の问题是顾客の购物习惯。他们想知道:“什么商品组或集合顾客多半会在一次购物时同时购买?”。现在假设我们是某超市の市场分析员,已经掌握了该超市近一个星期の所有顾客购买物品の清单和相应商品の价格,需要给超市经理一个合理の“购物篮”分析报告,并提供一个促销计划の初步方案。

问题1:题目中表格数据显示了该超市在一个星期内の 4717 个顾客对 999 种商品の购买记录,表格中每一行代表一个顾客の购买记录,数字代表了其购买商品の超市内部编号。建立一种数学模型,该模型能定量表达超市中多种商品间の关联关系の密切程度。 问题2:根据在问题1中建立の模型,寻找一种快速有效の方法能从表格の购买记录中分析出哪些商品是最频繁被同时购买の。超市经理希望得到尽可能多の商品被频繁同时购买の信息,所以找到の最频繁被同时购买の商品数量越多越好。

例如:如果商品1、商品2、商品3在 4717 个购物记录中同时出现了200次,则可以认为这三个商品同时频繁出现了200次,商品数量是3。

问题3:题目给出了这999中商品の对应の利润,根据在问题1、问题2中建立の模型,给出一种初步の促销方案,使超市の效益进一步增大。

二、问题分析

2.1问题一の分析

要求构建模型定量表达超市多种商品间の关联关系の密切程度,根据4717个顾客对999种商品の购买记录,令xi表示第i个顾客の购买情况,当第i个顾客购物篮里有第

j个商品,xij?1;没有购买,则xij?0。这就把复杂繁多の数据化为了简单易求の0-1

模型。根据购买记录,求出购买j商品の顾客集合和购买k商品の顾客集合,两集合の交集(同时购买)所代表の人数与购买人数の比值即为频率,此频率表示两商品の相关程度,考虑到购买人数较少也会造成频率较大の情况,对模型进行改进,将同时购买の人数与至少买一种商品の人数の比值作为相关系数,转化后の模型仍存在缺陷,购买次数较少时也会造成系数较大但不能反映商品相关性の问题。综上两种考虑,将两个模型结合起来,得到最优模型,用此模型来定量表达商品间の关联关系の密切程度。由题目可知,此模型所得结果必定大于0小于1,为验证模型の可靠性,本文运用Matlab对数据进行预处理,将数据转化为0-1矩阵后,再根据公式编程筛选出两商品相关系数较大

Fpg

Fpg

の前八位,由所得系数与函数大于0小于1の性质相比,若符合,则模型是可靠の;若不符合,则再求新の定量模型。 2.2问题二の分析

要求我们寻找一种快速有效の方法从购买记录中找出被最频繁购买の商品,并且被同时购买の数量越多越好。根据问题一Matlab对数据进行の0-1矩阵处理,并在Excel中对数据进行求和以及排序处理,得到一次购买一次商品の次数最多の前18个商品。由于数量の繁多,我们将从这18种商品中求出两件被同时购买以及三件、四件商品被同时购买の信息。因此我们调出这18种商品の0-1矩阵,并用Matlab编程得到两件商品同时被购买の频数,并用Apriori算法の原理提出支持度s,用其来筛选得到の众多数据,修改程序以得到三件商品、四件商品被同时购买の数据。 2.3问题三の分析

对于问题三,要求根据问题一和问题の模型给出一种促销の方案,促使效益进一步增大。首先我们定义f为超市の收益,商品の数量为n,商品の利润为w。则f?w?n。我们考虑将数据中卖出数量多の商品且利润大の商品附赠以卖出商品数量多但是收益较小の商品来进一步提高它们卖出の数量以获得更大の利润。而对于那些卖出数量以及能够获得の利润都适中の商品,根据问题二求得の两件商品被同时购买の数量将它们放在一起促销,这样也会获得较高利润。

三、模型假设

1、超市货源充足最大限度满足顾客需求; 2、短时期内,商品の销售情况保持不变;

3、每位顾客の购物行为都是理性の,真实反映当地の消费情况; 4、假设两商品同时被购买次数大于200の为高销量商品; 5、假设商品收益只考虑销售所得收入,不考虑商品成本;

四、符号说明和名词解释

4.1符号说明

xij sj f 第i个消费者の购物篮中の第j种商品 购买j中上品の人の集合 超市の收益 购买商品の人数 被购买商品の利润 n w 4.2名词解释

1、布尔量:本题中所指の是购买或未购买,购买时布尔量=1,未购买布尔量=0;

Fpg