葡萄酒评价模型的设计与求解 下载本文

葡萄酒评价模型的设计与求解

黄亚坤, 韩磊,王梦瑶

(安徽师范大学数学计算机科学学院,安徽,芜湖,241000)

关键词:T检验;改进K均匀聚类分析;模拟退火;广义回归神经网络

摘 要:针对葡萄酒质量评价的多样性和复杂性等问题,围绕评酒员评价的差异性、酿酒葡萄的分级、理化指标对葡萄酒质量的影响分别建立模型,并对结果进行了详细的分析。首先采用置信区间法降低同一酒样的变异系数,按照其方差贡献率进行综合评分,在此基础上,通过组内评价指标变异度的检验,进行二次方差检验两组评分结果的可信度;对于葡萄酒的分类,利用数据挖掘提取方法,得出主成分,为了改进K均值聚类算法的局限性,提高聚类的有效性;最后考虑多维变量之间的关系,提出了基于广义神经网络模型,研究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响程度。并通过实际数据进行仿真,结果显示了提出的模型具有一定的合理性和有效性。 中图分类号:O235 文献标识码:A 文章编号: (2013) 04

The design and solution of wine evaluation model

Huang Yakun, Han Lei, Wang Yang.

(School ofMathematics& Computer Science, Anhui Normal University, Wuhu241000,China )

Key words:T inspect; Improved K uniform clustering analysis; Simulated annealing; Generalized regression neural network

Abstract:In this paper , we aim at the issue of quality assessment , and center on the Significant difference of the tasting members’ evaluation results and reliability、classification of wine grape、the contact between the physical and chemical indicators of the wine grape and wine、the effect and evaluation of the physical and chemical indicators of the wine grape and wine to the quality of the port wine , build models respectively and do a detailed analysis of the result. Firstly we using the confidence interval method to reduce the coefficient of variation of the same wine sample, in accordance with its variance contribution rate of the composite score, on this basis, we do the second variance test two sets of ratings results credible by group evaluation variability inspection; To the classification of wine, our data mining extraction method obtained the principal components, in order to improve the limitations of the K-means clustering algorithm, to improve the effectiveness of the clustering simulated annealing; Finally, we consider the relationship between the multi-dimensional variables, we propose training relevant sample data based on generalized neural network model to study the impact of the physical and chemical indicators of the quality of the wine in the wine grape and wine; simulation and actual data, the results show that the proposed model has a rationality and effectiveness.

组不同评酒员的评价结果有无显著性差异;二、根

1 问题背景 据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡

萄进行分级;三、研究酿酒葡萄和葡萄酒的理化指

目前,葡萄酒质量的鉴别主要靠感官分析和理标对葡萄酒质量的影响。

[1]

化指标分析的方法进行评价,如确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。2 模型假设与符号说明 每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。针对特定的背景,为了更好的进行问题说明,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关给出以下假设和相关符号说明 系,葡萄酒和酿酒葡萄检测的理化指标会在一定程(1)两组评酒员在对酒样进行评价的过程中不存度上反映葡萄酒和葡萄的质量。 在此基础上,本文在明显偏好,评价总体较客观; 针对网上搜索的相关葡萄酒和酿酒葡萄的成分数(2)葡萄酒的质量客观上与酿酒葡萄的好坏 直接据。从数学建模角度,讨论以下问题:一、分析两有直接关系,主观上与评酒员的评分有直接关系;

(3)从制酒过程中,假设葡萄酒的理化指标对酿酒葡萄的理化指标具有一定的依赖关系。 相关符号说明:

Cx:样本X的变异度向量

Cy:样本Y的变异度向量

t:t 检验变量

U?{u1,u2,....,un}:等级划分模型的因素集 ??:样本的协方差矩阵

U1,V1:第一对典型变量

3 问题分析

葡萄酒已成为人们生活中常见的饮品,如何确定葡萄酒质量逐渐成为人们讨论的热点。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本文旨在对相关真实数据的分析基础上,分析感官分析在评酒师之间的差异性与可信性;同时从多元统计分析的角度分析葡萄酒的质量与酿酒葡萄自身等的理化性质之间的关系;在此之上,从感官分析和理化指标分析角度,给出一个合理的评判葡萄酒的质量体系。

针对问题一,采用置信区间法降低同一酒样的变异系数,然后对酒样多种指标评分进行主成分分析,按照其方差贡献率进行综合评分;针对两组评酒员的评分结果是否可信问题,采用组内评价指标变异度的检验,进行二次方差检验两组评分结果的可信度。问题二,我们进行对二级指标进行主成分分析,同时利用数据挖掘方法进行数据特征提取,将该数据与其他相应理化指标进行合并后做主成分分析得出 8 个主成分。K均值聚类算法其自身存在的多种局限性,采用模拟退火思想K均匀聚类方法做出了改进,具有并行性和渐近收敛性,提高聚类的有效性。

问题三采用一般的非线性回归无法处理多维变量之间的关系,提出基于广义神经网络模型对数据的70%样本数据进行训练,研究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响程度;并通过30% 样本数据进行测试,论证了用葡萄和葡萄酒的理化

指标来评价葡萄酒质量的影响程度的合理性。

4 模型的建立和求解

4.1 模型一 4.1.1 模型的准备

两组评酒员在实践中,由于多种因素的共同作

用,成员间存在异质性[2]。由文献[3]可知,对数据的标准化法提高了同一酒样的变异系数,真实反映样品间的差异。本文对搜集的数据采用置信区间法处理。置信区间法处理方法为:通过计算所有品酒员对用一酒样的平均值为wi,标准差为?j,则存在品酒员i对酒样j评价的置信区间为 wi??j。其中,wi是酒样j的平均值,?j是酒样 j的标准差。

对原始数据的处理过程为:若品酒员i对酒样j的评价?ij在其置信区间范围内就可以使用;反之将对数据做以下逐步调整至Wij,使对同一酒样的评价值都处于wi??j范围内,即:

W??wij??j ,(wij?j)ij????wij??j ,(w?j) (1)

ij4.1.2 模型的建立

通过上述分析,针对分析两组评酒员的评价结

果的差异比较,分别对不同葡萄酒进行差异检验,给出如下模型:

(1)两组评价结果的差异性分析

通过两组评酒员对酒样的综合评分矩阵分别对不同葡萄酒的评价进行差异检验。我们采用配对实验的t检验[4]进行分析。

设两个总体为Np(u1,?1),Np(u2,?2)现抽取两个样本:

X(a)?(Xa1,Xa2,...,Xap)',a?1,2,...,n

Y?a??(Ya1,Ya2,...,Yap)',a?1,2,...,m

对假设H0:uZ?0,H1:uZ?0进行检验。

1) 针对n?m的情形

令Z(i)?X(i)?Y(i),i?1,2,...,n,

?1nZn?Z(i)?X?Y

i?1假设H0成立时,构造检验统计量为:

t?Z?uzZS?t(0.05/n,m)

ZSZ2(?Z)2其中SS?Z?ZnZ?n,SZ?n?1 2)针对n?m的情形

在此,不妨设nm,同理

令 Z(i) ?X(i) ?Y(i) ,i?1,2,...,n

Z?11mX?nY 假设H0成立时,构造检验统计量为:

t?Z?uzZS?t(0.05/n,m)(2)

ZSZ

2(SZ,Sn?Z??Z)2其中SnZ?nZ?mn?1 若t值小于其边界临界值,则接受零假设,认

为两组实验之间无显著性差异。

若t值大于其边界临界值,则拒绝零假设,认为两组实验之间有显著性差异。 (2)可信性分析

根据上述处理得到的数据,我们采用综合均值和标准差来对每组评判进行可信度的分析。

设两个总体为Np(u1,?1),Np(u2,?2)。现分别从两个总体中抽取一个样本:

X(a)?(Xa1,Xa2,...,Xap)',a?1,2,...,n

Y?a??(Ya1,Ya2,...,Yap)',a?1,2,...,m

若分析两组数据的可信度,由于同一酒样十位评酒员的评分具有离散性的,因此需从每组内的变异向量入手。设:

x,Sx分别为样本一的均值向量和方差向量,x,Sx分别为样本二的均值向量和方差向量。则按

照变异度的定义,X,Y两个样本的变异度向量分别可以表示为:

cSxSyx?x,cy?y 若cx?cy,说明样本一内部变异程度相对越稳

定,样本一判断的可信度相对较高;

若cx?cy,说明样本二内部变异程度相对越稳定,样本二判断的可信度相对较高。

4.1.3 模型求解与结果分析

(1)根据上述建立的方差假设检验模型,结合数据处理后所得到的综合评分矩阵 通过十个品酒员对每一酒样的分数评估,算出评价均值向量与评价标准差向量。

令:c?a?b

建立假设、确定检验水准:

H0:uc?0H1:uc?0??0.05

将数值带入检验统计量t:t?C?ucS?C cSc其中,由于我们分白酒、红酒两种情况做差异

性分析,所以根据可以利用四个综合得分矩阵进行两组配对比较实验,带入数据计算出两个t统计量指标的值。

通过对处理后的数据进行求解得出:

t1?1.7841,t2?1.7805

查t界值表可知,

t(0.05/26,26)?1.706,t(0.05/27,27)?1.703

实验通过未通过零假设检验,则得出结论:不