2012高教社杯全国大学生数学建模竞赛A题论文最新-葡萄酒的评价 下载本文

葡萄酒的评价

摘要

本文要解决的是葡萄酒的评价问题,我们利用数理统计的知识,包括显著性差异检验、主成分分析、聚类分析、典型相关分析、逐步线性回归分析等建立数学模型,分别求解。

问题一,由题意知,要分析两组评酒员的评价结果有无显著性差异,需应用《概率统计》中的假设检验知识以及spss软件中关于两个总体均值的假设检验。检验结果表明,对于红葡萄酒,由于Pr?t的值为0.019?0.05,故拒绝原假设H.0,认为两个红葡萄酒样本总体的均值不相等,同理,对白葡萄酒,Pr?t的值为0.017?0.05,认为两个白葡萄酒样本总体的均值不相等。因此,两组评酒员的评价结果有显著性差异。而至于哪一组结果更可信,我们先计算出第一组10位评酒员对每一个葡萄酒样品(红、白葡萄酒样品数总共55)品尝评分的标准差,再将得到的55个标准差数值求和作为第一组的总标准差;同样我们将第二组10位评酒员对每一葡萄酒样品品尝评分的标准差,并且也将得到的55个标准差数值求和作为第二组的总标准差。我们最后计算出第一组的总标准差为385.49,第二组的总标准差为261.82,小于第一组的总标准差,所以第二组结果更可信。

问题二,查阅相关资料可知,糖、酸、单宁、芳香物质和色素五大指标是葡萄的主要构成物质,我们对附件2中的指标进行了简化和处理,统一选取了地位相同且具有代表性的一级指标作为分析指标;对附件3中的芳香物质,使用matlab软件,进行主成分分析,各浓缩成一个指标,其贡献率大于85%,具有统计意义。然后,对以上得到的所有指标类1,加上问题一所求的一组更可信的平均值指标,我们对这些指标进行Q型聚类分析,把酿酒葡萄分成了四个等级。

问题三,在分析酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响时,我们运用了spss软件,对红白葡萄和红白葡萄酒的理化指标类1分别进行R型聚类分析,并挑选出具有代表性的8组数据进行典型相关分析,计算出典型相关系数。使用Bartlett检验统计量,对典型相关系数作显著性检验,最后选出具有密切联系的代表性因素。

问题四,我们将酿酒葡萄和葡萄酒的一级理化指标作为自变量,而葡萄酒质量作为因变量,使用逐步线性回归方法来分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响 。运用SPSS软件建立回归模型,根据多元回归模型:y?a0??aixi求得白葡

i?1n?白萄酒质量的预报方程:y?59.274?0.477x30?0.481x29?0.842x20?0.500x5?9.405x10,

再对回归方程进行显著性检验,并得到显著性水平为0.0001。 同理可求得红葡萄酒质

?红?64.562?0.454x13?0.447x6?0.007x31?10.186x32?0.172x21,对回量的预报方程:y归方程进行显著性检验,并得到显著性水平为0.001。最后,我们进行了回代检验,得到样本的平均相对误差分别为1.99%和2.55%,从而论证了能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

关键词:显著性差异检验 主成分分析 聚类分析 典型相关分析 逐步线性回

归分析

- 1 -

一、 问题重述

葡萄酒质量是其外观、香气、口感等的综合表现。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。题中给出了某一年份一些葡萄酒的评价结果和该年份这些葡萄酒的和酿酒葡萄的成分数据。本文要建立数学模型讨论下列问题:

1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

二、问题分析

附件中的数据处理说明:

1) 在附件1第一组红葡萄酒品尝评分中,品酒员4号对样品20的色调评分数据出现了缺失,所以剔除这一列的数据。

2) 在附件2第一组白葡萄酒品尝评分中,品酒员7号对样品3号的持久性评分数据出现了异常,所以剔除这一列的数据。

3) 对于附件2和3中的没有数据的单元格,我们认为其值为0,所以将其全部赋值为0。

1. 第一题的问题分析

要分析两组评酒员的评价结果有无显著性差异,根据《概率统计》中两个总体均值的假设检验知识,若Pr?t的值小于0.05,即拒绝原假设H.0,认为两样本总体的均值不相等,若Pr?t的值大于0.05,则接受原假设,认为两个样本总体的均值相等,由此即可判断,两组评酒员的评价机构是否显著性差异。要判断哪一组的结果更加可信,我们需要通过分析其总的标准差来断定结果。所以,我们必须先求出每一组中55个样品所对应的标准差,然后将其标准差相加,得到我们最后要的总标准差。最后结果中总标准差较小的,即是稳定性较好,更加具有可靠性。

2. 第二题的问题分析

水和糖是葡萄的最主要成分,是发酵成葡萄酒的物质基础;葡萄中酸的含量,对葡萄酒的影响也很大;而单宁、色素和芳香物质在整个葡萄的物质构成中尽管所占比例非常小,但它们对葡萄的特色和风味有着非常显著的贡献;可以说葡萄中的糖、酸、单宁、芳香物质和色素是判断酿酒葡萄品质的指标性物质。因此,我们选取附件2中的一级理化指标,加上芳香物质,两者一起作为相对应的葡萄的理化指标,接着运用主成分分析和Q型聚类分析的方法将葡萄酒的样品分成四个等级。

3. 第三题问题分析

由于影响葡萄酒的主要理化指标包括:酒精度,总糖,浸出物,挥发性酸,单宁,

- 2 -

总酚,色度,色调,PH值,并且这些成分主要蕴藏于葡萄的梗,皮,果肉,及籽中,因此,葡萄酒的理化指标中我们将用到的指标是附件2中葡萄酒的一级指标以及附件3中经过整合的芳香物质指标。想要分析酿酒葡萄与葡萄酒的理化指标之间的关系,我们得分别求红葡萄与红葡萄酒的理化指标之间的联系和白葡萄与白葡萄酒的理化指标之间的联系;因此,我们得通过R型聚类分析处理,对红白葡萄和红白葡萄酒分别选取代表性指标,通过对这些代表性指标的典型相关分析,反映酿酒葡萄和葡萄酒的理化指标之间的联系,最后使用Bartlett检验统计量,对典型相关系数作显著性检验。

4. 第四题问题分析

要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,我们将酿酒葡萄与葡萄酒的理化指标合在一起作为新指标来分析此新指标对葡萄酒质量的影响。我们借助逐步线性回归方法,从方程中剔除无统计学作用的自变量,从而简化了计算,得到回归方程,最后进行回代检验。

三、模型假设

1) 我们是通过聘请一批评酒员进行品评,每个评酒员在对葡萄酒进行品尝后对其分类

指标打分,然后求和得到其总分来确定葡萄酒的质量。 2) 假设每个评酒员品酒后对其分类指标打分是相互独立的,评酒员之间并未相互讨论。 3) 假设给评酒员品评的葡萄酒是生产出来不久的,葡萄酒并未超过保质期,不影响评

酒员的品评。

4) 假设葡萄酒的质量不受酿酒技术以及其他外在因素的影响,只考虑本题中所给因素

的影响。

5) 假设影响葡萄和葡萄酒的性质主要是附件中提到的一级指标,二级指标的影响几乎

忽略不计。

6) 假设葡萄的芳香物质和葡萄酒的芳香物质分别作为一级指标,各包含在葡萄和葡萄

酒的理化指标中,论文中做出这种限定。

四、 符号说明

Pr :显著性检验中的概率值; t :t检验中的t值; ? :预报方程的因变量; yxi :预报方程的第i个自变量;

ai :预报方程xi项的系数;

五、模型的建立与求解

问题一

附件1中两组评酒员评价结果的求解:

第一组中10位品酒员分别对每一份红葡萄酒样品品尝,评分的平均值作为这一红葡萄酒样品的得分,第二组中10位品酒员分别对每一份红葡萄酒样品品尝,评分的平均值作为这一红葡萄酒样品的得分,得到每个样品最后得分对照表(表1)如下,其中

- 3 -