浅议统计语言学在作家语言风格研究中的实际应用 下载本文

龙源期刊网 http://www.qikan.com.cn

浅议统计语言学在作家语言风格研究中的实际应用

作者:万晓雯

来源:《现代语文》2018年第02期

摘要:统计语言学是应用统计数学的方法来研究语言现象的语言学科,研究领域广泛,学界常常运用统计语言学,通过分析语言单位的出现频率及作家的用词频率、词长分布和句长分布,确定作家的写作风格。通过“判定《静静的顿河》作者”“证明《红楼梦》是否出自一人之手”两个案例可以看出,统计语言学的研究方法在进入文学研究领域后,取得了非常好的实用效果。但是,在实际应用中,除了各类词汇等可控变量,还有其他潜在因素导致统计语言学的结论有时并非绝对精准。通过进行多方面、深层次地原因分析和推断,我们发现,要得到准确的研究结果,必须做好研究的前期准备,要选择具有相似语言环境的语料,要注意避开文学语言的形象思维影响,不能滥用统计语言学研究方法,并在操作过程中严格控制各种变量,以科学的思想指导研究。

关键词:统计语言学 语言风格研究 实际应用

作为大数据时代语言学研究的一个热点领域,统计语言学(statistical linguistics)属于数理语言学的一个分支,涉及语言学、计算机科学和数学等多个学科门类,是应用数理统计、概率论和信息论等统计数学的方法来研究语言现象的语言学科。 一、统计语言学的研究领域

相较于自然科学,人文科学的研究多涉及人(包括研究者本人)的大脑,因此很容易导致“自我中心性错误”和“内省性错误”。无论是过多地依赖本人的经验,还是过多地依赖自己的内省来做出判断,都会导致研究缺乏客观性与科学性,其价值是有限的。统计语言学则是倡导用科学的方法进行实验,进而得出结论,“特别注重语言本身的系统性和动态性特点,强调语言描写的真实性和精确性”。

从其研究内容看,统计语言学大致可分为语音统计学、词汇统计学、语法统计学和语义统计学,分别研究语言的语音、词汇、语法和语义的统计特征。从其功能看,统计语言学可分为描述统计与推断统计:描述统计的作用是对数据进行整理、归纳和总结,压缩数据,把握其一般性的特征和全貌;推断统计则是根据描述统计提供的结果,进一步对有关联系加以推断。 “统计语言学可用来发现语言学内在规律(词频与词排序之间的关系)、常用词和非常用词、词语搭配、短语获取、语言习得、语域变异以及作品风格分析等领域。”可以看到,统计语言学的研究领域广泛,但其中最主要、最熟稔的实际应用,当属通过语言单位的出现频率及作家的用词频率、词长分布和句长分布,确定作家的写作风格。统计语言学进入文学研究领域

龙源期刊网 http://www.qikan.com.cn

后,还催生出了另一个学科,即文艺风格学,一种应用现代语言学成果和技术来分析研究文学作品的边缘学科。如苏联学者用该方法研究赫尔岑、屠格涅夫的语言风格,国内也有人用这种方法研究巴金、曹禺、老舍等人的语言风格。 二、统计语言学与语言风格研究

黎运汉在《汉语风格学》中指出:“语言表现风格是综合运用风格手段的结果,从调音、遣词、择句到设格、谋篇等的风格手段,综合地反映在一篇文章、一部作品,或一种语体,或一个作家的作品,或一个时代的作家的作品,或一个民族的作家的作品里,这就从成了他们各自的表现风格。”换言之,语言风格的差异,正是由于作者使用特定语言单位的频率不同而造成的。于是,通过对语言结构特征的分析,我们可以比较直观地感受到不同文体与不同作者的风格,得出不同作者语言风格的同一性或区别性特征,而不仅仅是通过一系列描述型的论述,阐述文体或者语言风格问的差异。统计语言学的诞生,使语言单位的出现频率和分布数据变得重要,成为一种彰显作家语言风格的数学特征。

运用统计语言学判定作家风格的数学特征,其具体过程是:选取两位作家的公认代表作品作为语料样本,首先对样本进行分词处理,以文本为基本单位计算各类语言要素在文本中所占的频率和百分比,根据两个样本的平均值,比较语言要素分布是否具有差异。一般而言,为了测试数学统计特征是否能够有效辨别不同作家语言风格,还可以选用一个作家的其他作品为语料样本,计算该样本与统计所用语料样本的相关性。

鉴于其在判定作家风格方面的显著功效,统计语言学也被成功地运用到“作者考证”这个充满争议的研究领域中。在通过分析匿名文章的写作风格进而判定其真正作者方面,统计语言学也展现出了非常好的应用效果。以往,当某本名著的作者产生争议时,我们只能够凭借经验、历史文献和作家生平记录来进行考证。如今有了统计语言学,我们可以通过严谨的数据分析,提出更有说服力的证据。 三、实际应用案例

(一)《静静的顿河》的作者纠纷案

统计语言学最著名的实际应用,就是成功破解了文学史上关于《静静的顿河》的作者纠纷案。

《静静的顿河》在苏联文学史上占有较高的地位。此书全景式地描写了俄国内战时期顿河流域的社会景观,甚至有人将其与《战争与和平》等名著相提并论。然而自从《静静的顿河》第一册出版,就饱受剽窃的质疑。原因是作者肖洛霍夫少年参军,仅仅接受了几年正规教育,青年时期就能写出如此高水准的长篇小说,实在让文学界人士难以信服。更令人疑惑的是,肖洛霍夫本人生前对于自己剽窃的指控一直未曾公开表态。直到1999年,《静静的顿河》手稿被找到,经鉴定,有605页手稿是肖霍洛夫的笔迹,还有285页是肖洛霍夫的家人代为誊写

龙源期刊网 http://www.qikan.com.cn

的。但随即有人提出反对意见,声称该手稿其实是对克留柯夫原稿的抄写,并不能消除肖霍洛夫剽窃的嫌疑。于是,《静静的顿河》一书真正作者的争议,伴随着各种各样的谣言和似真似假的匿名诽谤,众说纷纭,真相始终扑朔迷离。学者们做出的各种学术考证,也始终难以让读者们普遍接受,更不用说使学界信服。

挪威奥斯陆大学的前苏联文学教授盖尔克其萨对肖洛霍夫、克留柯夫其他代表作品和《静静的顿河》分别采样,对三部作品的平均句长、句长分档、不同词类及其在句中的顺序、某些词汇特点、词频等进行了统计和分析,整理、归纳总结这些数据后,得出了令人信服的结论。为了更好地对比,盖尔克其萨把《静静的顿河》、肖洛霍夫的其他代表作品及克留柯夫的代表作品分成了三组,逐一研究统计:

首先研究的是一部作品中不同的词汇量与总词汇量的百分比,三组的数据分别为64.6%、65.5%和58.9%。其中克留科夫的作品的百分比明显低于肖霍洛夫的作品和《静静的顿河》。因此可以推断,克留柯夫的作品具有重复使用相同词汇的特点。

其次研究的是词汇分布频率,选取20个俄文中常见的词汇,比较这些词汇占作品中的全部词汇的百分比,三组的数据分别为23.3%、22.8%、26.2%,明显可以看出肖霍洛夫的作品与《静静的顿河》更为接近。

最后研究的是作品中出现过一次的词汇所占的百分比,三组的数据分别为81.9%、80.9%和76.9%。克留柯夫的作品仍然与另外两部表现出较大的差异

研究表明,所有参数都存在一致的趋势,但克留柯夫作品的与《静静的顿河》之间,存在着显著的统计差异。《静静的顿河》的语言风格与肖洛霍夫作品的语言风格几乎完全一致,与克留柯夫的作品语言风格却存在较大差异,这就令人信服地证明了《静静的顿河》的真正作者。由此可见,统计语言学的介入,使苏联文学界的这宗多年悬而未决的疑案真相得以明晰。 (二)《红楼梦》后四十回作者归属案

在中国,作为四大名著之一的《红楼梦》自问世以来就有很多悬而未决的问题,尤其是关于《红楼梦》是否出于一人之手的争论。从前,普遍的说法是:《红楼梦》的前八十回是曹雪芹所作,后四十回系时代稍后的高鹗所作;或者认为前八十回与后四十回不是同一人所作;再者便是坚持认为前八十回、后四十回均为曹雪芹一人所作。可以看到,问题的焦点聚集在后四十回的作者归属问题上。自清代以来,做“红学”研究的学者们对这一问题虽历经多方考证,仍然是莫衷一是、众说纷纭。

然而,在统计学进入文学研究领域,统计语言学的研究成果被引入红学研究之后,这一结论又面临着新的挑战。1981年,美国威斯康星大学的讲师陈炳藻发表的论文《从词汇上的统计论的作者问题》中,通过对重要关键词的词频统计与分析得出后四十回仍为曹雪芹所写的结论。陈炳藻同时还另选了《儿女英雄传》作为对照组进行比较研究,具体方法是从每组里任选