基于支持向量机(SVM)的音乐情感分类 下载本文

龙源期刊网 http://www.qikan.com.cn

基于支持向量机(SVM)的音乐情感分类

作者:陈维华

来源:《软件工程》2016年第12期

摘 要:如今数字化信息对人们的生活产生了巨大的影响,对于爱好音乐的人们来说大量的歌曲信息如果进行有效的分类,如何对这些音乐进行分类,从而进行有效的信息检索是信息处理领域的研究热点。通过对音乐的乐理知识的深入分析,能够有效的提取出反应音乐情感的特征向量,运用支持向量机(SVM)实现了对音乐的情感分类。实验结果表明,所运用的分类方法准确有效。

关键词:支持向量机;MIDI文件;音乐情感分类 中图分类号:TP391.4 文献标识码:A 1 引言(Introduction)

音乐作为大众娱乐主要方式之一,不仅为大众提供美妙的听觉享受,同时其本身也具有丰富的情感内涵,具有很强的情感调节功能,满足听众的情感需求。目前很多大型音乐网站都需要高效的检索和推荐功能,而音乐情感则是音乐检索与推荐工作的重要依据之一。目前音乐的感情多数是根据听众或者专家对于音乐的评价作为感情标签,其工作量相当大,而且不同认知水平的人对于同一段音乐有不同的评价。随着计算机与人工智能技术的发展,音乐感情的自动识别成为国内外学者研究的热点问题之一。

现有的音乐情感研究模型,可分为基于文本关键词模型和基于音频参数模型两种。David Torres等人[1]根据乐曲的歌词信息,识别乐曲的情感类型。Yuan-Yuan shi等人[2]通过构建一个调制频谱分析系统,从压缩的音乐文件中提取节奏信息,通过分析音乐节奏的变化实现对音乐感情的分类。M.wang等人[3]通过提取音乐的频谱信息,利用支持向量机实现对于音乐情感的分类。Cyril Laurier和Perfeto Herrera等人利用音乐波形文件的频谱特征,利用支持向量机实现音乐的情感分类。

本文从乐谱创作的角度出发,以音乐网站音乐推荐系统对于音乐情感需求为背景,提出通过对音乐的MIDI文件解析得到音乐的感情特征组成六维感情特征向量,利用支持向量机(SVM)实现对音乐表达的情感进行具体分类。 2 Thayer情感模型(Thayer emotion model)

目前,对于音乐情感分类所采用的模型主要包括Thayer情感模型、威廉.冯特情感模型、Hevner情感模型、Russell情感模型和Plutchik情感模型等,其中Thayer情感模型是二维情感模型[4]纵坐标表示的是能量维度,从“平静的”到“活力的”变化,反映的是主体的情感活跃程度,横坐标表示的是压力维度,从“消极”到“积极”的变化,反映了主体的主观感受,从而将音

龙源期刊网 http://www.qikan.com.cn

乐情感划分为具有代表性的四类:兴奋的、愤怒的、悲伤的和放松的。如图1所示为Thayer情感模型采用的能量维度和压力维度与乐理理论所对应的情感表达方式具有较好的对应关系,因此本文将采用Thayer情感模型,利用支持向量机将乐曲的表达情感分为四类。

MIDI文件是音乐文件的一种存储形式,它以字节的形式对乐曲进行描述,使用数字编码描述乐谱的基本特征[4]。多数MIDI文件都是多音轨文件,其中的主旋律和伴奏旋律都分布在不同的音轨上,通常将主旋律所在的音轨称之为主音轨,其包含了音乐的主要情感信息。因此通过分析主音轨的情感就可以识别出该段音乐所表达的感情。目前比较成熟的主旋律提取方法是根据信息熵理论定义音轨特征的熵值,然后由MIDI文件的音轨信息熵和其他重要特征组成特征向量构建随机森林分类器,进而提取MIDI文件的主旋律。实验证明,该方法的正确率达到93%以上。

音乐是音符的有机组合,其不同的组合形式不同的旋律,表达不同的情感。每个音符都有自身的音高、音长和音强等信息,但每首音乐并不是由单个的音符所表达,而是通过不同的音符之间的组合表达旋律,抒发感情。因此音乐的旋律、节奏也是感情表达的重要方面。因此,本文通过对MIDI文件的解析,可以得到的基本数据信息包括音高、音长、音强和节拍等信息,本文分别定义为、、和。

音乐是由不同的音符组合在一起,其组合规律形成自身的特点,表达着各种感情。包括音程、旋律、节奏等高层次的音乐特征。因此本文定义如下表达音乐情感的向量空间。 音高:音高是音乐的基本要素之一,其高低及其变化是音乐内容和感情的表达的重要方式。本文分别定义音高均值和音高方差表示乐曲的音高水平和音高变化: 音高均值定义为: (1)

其中,n表示乐段音符的个数,表示音符的音高。 音高变化定义为: (2)

音强:音乐的强度是音乐表达感情的重要方式之一。通过音强的变化可以进一步加强和丰富音乐的情感。本文用音强均值和音强方差来衡量音乐的音强及音强变化: 音强均值定义为: (3)

龙源期刊网 http://www.qikan.com.cn

音强变化定义为: (4)

旋律:旋律是由连续音符以特定的顺序组织起来形成的,它是音乐情感重要的表现手段之一,反映了音乐的走向信息。通常包括时间信息和走向信息。因此本文用根音的时值作为时间信息,前后的音高的差值作为走向信息,定义如下: (5)

节奏:节奏是音乐中规律性出现的强弱和长短的现象,是音乐情感的重要表现手段。本文用紧张性和稳定性两个特征来表征音乐的节奏,具体定义如下: (6) (7)

因此,对于任何一段乐曲,都可以找到一个7维的向量表示其感情特征。 4 支持向量机理论(Support vector machine theory)

支持向量机是统计学习理论发展的产物,针对有限样本情况,建立了一套完整、规范的基于统计的机器学习理论和方法,大大减少了算法设计的随意性,被广泛的应用于模式识别、函数逼近、概率密度估计、降维等领域。 4.1 线性支持向量机 4.1.1 两类线性可分的情况

设训练样本输入为,=1,,;,对应的输出为,其中+1和-1则代表两分类的类别标识,则存在分类的超平面,其方程可表达为。为保证所有样本能够分类正确且存在分类间隔,须满足如下约束条件: (8)

在约束条件(1)下,最小化函数为: (9)

采用拉格朗日(Lagrange)乘数法求解该具有线性约束的二次规划问题。引入(Lagrange)乘子,得到对偶的最优化问题