基于葡萄酒理化指标的葡萄酒分级

河南科技

2014.NO.08

Journal of Henan Science and Technology

工业工程与技术

基于葡萄酒理化指标的葡萄酒分级

刘 婵 江 伟

(塔里木大学 信息工程学院,新疆 阿拉尔 843300)

摘 要:现有的葡萄酒评价方法很大程度上带有主观因素。 为了对葡萄酒进行客观分级,首先进行数据预处理,然后在分析葡萄 及葡萄酒的理化指标的基础上,利用因子分析法进行分析。 得出红葡萄酒有三个公因子,白葡萄酒有四个公因子,以及各样品公因子 的相应得分。 最后利用聚类方法将样品分为红葡萄酒 5 类,白葡萄酒 4 类,并根据同类样品质量得分将酿酒葡萄进行了分级,红葡萄 酒分成5 个级别,白葡萄酒分成4 个级别。

关键词:假设检验;因子分析;聚类分析;分级

中图分类号:TS262 文献标识码:A 文章编号:1003-5168(2014)16-0030-02

1 引言

当 今,葡萄酒文化已成为全人类的文化,它被越来越多的

人所关注。 因此,对葡萄酒评价的知识需求也急剧上升,更多的

人加入到品尝与鉴定葡萄酒的行列之中。 现如今,确定葡萄酒质

量时,一般是聘请一批有资质的评酒员进行品评。 每个评酒员对

葡萄酒进行品尝后对其分类指标打分,然后求和得到总分,从而

确定葡萄酒的质量。 这种评价方法未免带有主观因素。

考 虑到酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关 系 , 葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡

萄酒和葡萄的质量。 因此,考虑通过相关理化指标建立葡萄酒质

量的评价模型来得到客观理性的评价结论, 根据酿酒葡萄的理

化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

本文数据来自 2012 年全国大学生数学建模竞赛 A 题,先

对酿酒葡萄的理化指标和葡萄酒质量的数据进行预处理, 选出

合理数据。 接着,利用因子分析法进行分析,建立模型求解,得出

各样品的得分。 然后利用 ward 聚类法对酿酒葡萄进行聚类,再

根据各类葡萄对应葡萄酒的质量对酿酒葡萄进行分级。

2 模型的建立与求解

对于问题根据酒葡萄的理化指标和葡萄酒的质量对这些

酿酒葡萄进行分级,我们需要对酒葡萄的理化指标进行筛选,选

出合理数据。 接着,利用因子分析法进行分析,得出各样品的因

子得分,然后利用聚类分析法对酿酒葡萄进行分类,最后根据各

类酿酒葡萄对应的葡萄酒的质量(第二组专家打分的平均值)的

平均值,确定各类酿酒葡萄应处的级别。

图 1 因子分析的特征跟及其贡献率

图 2 公因子的因子载荷

2.1 用因子分析法求公因子及得分

[1]

葡萄酒的质量对葡萄进行分析,我们采用因子分析法。 过程及结 果如下:

因子分析(P 模型)的数学模型:设 xi(i=1,2,… ,p)为 p 个 变量,如果表示为

xi=ai1F1+ai2F2+…+aimFm+εi(m≤p)

即 X=AF+ε,F1,F2, …Fm称为公共因子,是不可观测的变

量 ,A=(aij)p×m 为因子载荷阵。aij 表示第 i 个变量在第个因子上的

载 荷(loading),εi 是特殊因子,是不能被前 m个公共因子包含的

部分,并且满足 Cov(F,ε)=0,F,ε 不关联。

利用 SAS 软件编程求解,运行得到以下一系列结果。

对于红葡萄的分析我们选取红酿酒葡萄的部分理化指标 氨基酸,蛋白质 1,蛋白质 2,VC1,VC2,总糖 1 总糖 2,总糖 3 和

图 2 是确定的因子载荷阵系数,得到初始的特征向量。由

于对于实际问题,公因子的实际意义不好解释。 因此考虑将指

标的系数极值化,即让系数趋于 1 或 0,趋于 1 说明公共因子与

该指标密切相关,趋于 0 说明相关程度低。 因此,要做因子旋转

实现系数的极值化。 本题中采用方差最大化正交旋转法进行因

子旋转。 因子旋转结果见下图 3。

个因子, 记为 F1,F2,F3, 贡献率分别为 45.78% ,32.56% ,

13.71%。

图 1 显示了 9 个因子的特征值、因子贡献率等,通常确定 因子个数时,要求因子累计贡献率大于 80%。 结果表明应选取 3

图 3 方差最大化正交因子旋转结果 根据因子

得分系数,可以得到以下因子得分函数:

30

(4)重复第 2 步直到全部合为一类。

聚 类分析法分为最短距离法,最长距离法,中间距离法,重

心 法,类平均法,可变类平均法,可变法和利差平均和法 8 种方

法 。 本文选取利差平方和法进行聚类,如图 4 和图 5。

由因子分析得到的三个公因子都是综合因子, 并非 9 个因 子中的几个,每个因子都分别由理化指标氨基酸、蛋白质 1、蛋白 质 2、VC1、VC2、总糖 1、总糖 2、总糖 3 和葡萄酒的质量及其对 应的系数构成, 系数的数值反映出这些理化指标对于公因子的 贡献度。

根据以上得到的因子得分函数, 可以计算出各个样本的因 子得分,见下表 1。

样品编号 表 1 部分样品因子得分

红葡萄酒因子得分总分1

图 4 红葡萄酒动态聚类结果

总分2 -0.0938 -0.18094 0.60979 -0.33198 0.24926 -0.02509 -0.24658 0.11004 0.11004 4.88061 -0.12296 -0.19721 -0.24186 -0.38586 -0.27427 -0.25275 -0.32593 -0.22513 -0.22297 -0.37821 0.09573 -0.29892 -0.25561 -0.38683 -0.47637 -0.22482 -0.40885. 总分3 白葡萄酒因子得分总分1 [1,2]2.2 用聚类分析法进行酿酒葡萄分级

2.2.1 聚类分析前的一般步骤

(1)确定聚类类型,对样品聚类成 Q 型分类,对变量聚类成

R 型分类。

(2)数据预处理,如数据变换等。

(3)为了将样品进行分类,就需要研究样品之间的关系。 通

酒样品2 酒样品3 酒样品4 酒样品5 酒样品6 酒样品7 酒样品8 酒样品9 酒样品10 酒样品11 酒样品12 酒样品13 酒样品14 酒样品15 酒样品16 酒样品17 酒样品18 酒样品19 酒样品20 酒样品21 酒样品22 酒样品23 酒样品24 酒样品25 酒样品26 酒样品27 酒样品28 酒样品1 0.05967 3.0163 -0.62304 0.08371 1.58616 0.08001 0.18891 -0.18891 -0.76959 0.03848 1.53492 -0.43038 -0.62871 -1.09631 -0.16237 0.19864 0.73119 -0.011 -0.36798 0.79359 0.71102 0.09964 -0.27556 -2.22688 -1.39461 -0.56232 -0.00676 1.22598 0.68086 -0.4566 0.36337 -0.50553 -1.37689 2.63053 2.63053 -0.49241 -0.9312 -1.0394 0.44426 0.86072 -1.09769 0.30072 0.03159 -0.74268 -0.456 0.45858 0.41722 -0.90553 -0.14724 -0.49942 -0.57749 0.2977 -0.5514 -0.56295 总分2 总分3 0.61891 -0.77446 0.7549 0.13466 -0.21115 -0.99096 -1.49954 0.60207 0.88887 -1.28152 1.20357 -1.18002 -1.49954 0.60207 0.88887 -1.28152 1.20357 -1.18002 -0.84039 0.71522 -0.85776 0.01279 1.47045 1.03475 1.44641 -0.26761 0.93167 -0.64429 0.54357 -1.01352 -0.17727 -0.87682 -0.11025 1.04664 -0.16673 -0.49964 0.09046 0.99497 -0.96486 -0.68351 -0.16673 -0.49964 0.09046 0.99497 -0.96486 -0.68351 0.34185 1.52879 -1.83675 -0.03353 2.12533 0.08423 -0.29074 2.50818 -1.29877 -0.08236 2.716 -0.64236 1.86811 -0.37215 0.1724 -0.40517 -0.99223 -0.60594 -0.3464 -0.85812 -0.6329 0.93289 -0.99223 -0.60594 -0.3464 -0.85812 -0.6329 0.93289 -0.15076 2.39427 1.34853 -0.42312 -0.16892 -0.205 0.00739 -0.04636 -0.46038 -0.62708 0.68775 -0.40385 2.09562 0.41764 1.32834 0.04143 -1.4057 -0.15998 0.20808 0.38708 0.27679 -2.0152 -1.70353 -0.15998 0.20808 0.38708 0.27679 -2.0152 -1.70353 0.56648 0.20562 0.22596 0.66175 -0.17084 0.72063 -0.46526 0.12761 1.38038 总分4

小确定各类的级别,分级结果见下表 2 和表 3。

表 2 红酿酒葡萄聚类结果

得分 红葡萄样品 1,2,5,13,14,16,17,19,20,21,23 8.909 第一类 4,15,24,25,26,27 8.667 第二类 8,9 8.9 第三类 3,6,11,12,7, 18,22 8.629 第四类 10 8.4 第五类 图 5 红葡萄酒动态聚类结果 计算各类内各样品酒整

体评价的平均值, 依据平均值的大

级别 一级 三级 二级 四级 五级 表 3 白酿酒葡萄聚类结果 白葡萄样品 得分 级别 一级 四级 二级 三级 第一类 第二类 第三类 第四类 1,4,21, 12,13,18, 19,22 2,3,5,6,9,10,15,16,20,23,25,26, 28 7,8,11,14,17,24,27 9.4 8.98 9.3231 9.2286 3 总结

本文运用了统计分析法中的因子分析和聚类分析来对葡萄 酒进行分级。 因子分析是根据原始数据的信息进行组合,找出影 响变量的公因子,化简数据。 通过旋转使得因子变量更具有可解 释性,清晰性高。聚类分析模型的结果直接,结论形式明确。

常有以下两种方法:1)用相似系数。 性质相近的相似系数的绝对 值接近于 1,彼此不相干的相似系数的绝对值越近于 0。2)计算 距离。 将样品视为 P 维空间的一点,计算不同样品的距离,距离 接近的点归为一类,距离远的点归为不同类。

(4)计算距离矩阵或相似矩阵 D。

参考文献:

[1]汪晓银,周保平.数学建模与数学实验[M].北京:科学出版

社,2011,3.

[2]阮敬,SAS 统计分析从入门到精通[M].北京:人民邮电出

版社,2009,12.

2.2.2 聚类分析的一般步骤

(1)每个样本独自成类,Gi{Xi}(i=1,2,…,n)。

(2)由距离矩阵或相似性系数矩阵 D,找到当前最小的 Dij, 并将类 Gr={Gi,Gj}合为一类得到一个新类 Gr={Gi,Gj}。

(3)重新计算类间的距离,得到新的矩阵 D。

作者简介:

刘婵(1985—),女,陕西清涧人,硕士,讲师,主要从事数学 教育与数学建模指导工作。

31

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4