小区物业管理系统设计与实现本科毕业论文 下载本文

3.另外如果它们只有语义相同, 这名用户将被询问输入这条习惯用语和它的翻译的各个词源语言。

对于每一种情况, 这个词在这条习惯用语中的位置同样需要记录下来, 用于统计单词位置的改变。例如,英语中的new blood, 这里形容词在名词的前面, 它在葡萄牙语中的同义词为sangue novo (blood new),这里形容词在名词的后面。如果有更多的同义词存在, 那么同样的方法应用于每一个同义词。在那以后,如果没有同义词, 则显示下条成语,用户通过相同的方法继续。 4.测试数据

为了测试这个设计, 这个数据库当前包含 100 条从Collins Cobuild习惯用语字典中抽取的高使用率的英语习惯用语样本(Villavicencio 和Copestake, 2002) 。他们被当作起始点( 源语言种子)来收集翻译其在其它语言中的同义词。最初,在英语和其它语言之间的映射被测试过, 但是目标是扩展这个数据库,使它支持任意两个语言的习惯用语之间的映射。该数据库既可以本地访问也可以通过网络访问,以便不同地方的用户浏览数据库,并获得有关他们本国语言的习惯用语的信息。 5.Web界面

第一步在注释过程中将规定目标语言, 然后从原始注释中随意选择英语习惯用语的序号。当前, 语言选择在任何情况下是基于串和不规格化的, 这是为了避免限制那些少数人使用的语言的范围。这个接口另外有一个基于cookie的工具来识别用语数据维护用途的注释,也可以连接多进程注释。

图1:提供一个翻译和基础的特性

图2:单词队列(1)

选择好语言后, 注释者按顺序完成这100条英语习惯用语中的每一条,补充目标语言中的同义词。对于每一个目标语言的习惯用语,都要求注释者给出关于它的内在改变的判断,以及词性的评估以及对等于源语言习惯用语的语法。在图 1中, 我们提供一个no azul 翻译in the black的注释界面。

其次这个接口给注释者一个队列窗口来指出两个习惯用语的相对词性。在目标语言习惯用语的词性与源语言习惯用语一致的情况下,它由匹配于每一个目标语言所对应的源语言所组成,并且这个接口简单地提供注释者一个源语言单词的列表,来完成队列。( 参见图2 new blood 和sangue novo的事例); 在提交队列时,系统检查该队列是最大的——也就是所有对立语言中一个或多个词的映射——发出一个警告,非连接词被找到。 如果习惯用语的词性不一样,另一方面,将提供用语在目标语言中的非连接词的翻译注释的额外专栏 (参见图3 in the black 和 no azul的事例) 。需要注意,可能会有部分的词性相对应(参见no 和 in the), 并且因此, 我们为词性对等的习惯用语提供了单词队列。如果没有遇到这些情况,我们将发出一个警告。目前, 我们不尝试对语法不对等的习惯用语做更一步的分类, 也不对语法对等的习惯用语的结构类型进行分类。

在注释完每个习惯用语对以后, 系统将给注释者一个对源语言习惯用语进行翻译的额外增加的选项, 或选择进行对下条习惯用语。此外, 注释者可以对没有目标语言对等词的源语言进行标注(参见图1) 。

图3:单词队列(2)

该网络接口在lingo.stanford.edu/cgi-bin/annotate/mli.cgi公示。 6.词汇数据库

报纸中关于这项工作的报道叙述了一个巨大的计划来发展词汇数据库(Copestake 等, 2004) 。这个词汇数据库,起初用在语法发展环境内。它为词根与文法的结合提供一种资源, 也就是语法,语义和信息。此外文法信息还与簿记信息(譬如语言和方言) 和其它信息有联系。例如通过连接一个包含详细的全范围词汇的语义数据库,我们可以为一代人提供一个有效的索引,或者某种用途的数据资源。在语法发展环境中存在的这些基本的词汇成分提供了超过两种方法的大量的有利条件,包括维护的简单性,效率以及受益于利用从二级资源处获得的簿记信息及数据。

通过获得数据库功能性的优势,我们可以将本文讨论的习惯用语数据库中的习惯用语与词汇数据库中的惯用条目连接起来。

和基本单一的词汇条目一样,例如bombard,词汇数据库支持多词表示。这些我们可以划分为两类:这些考虑内部变异,那些则没有。

首先考虑那些考虑到内部变异的习惯用语。例如spill the beans和它的内部变异。在词汇数据库中我们使用模板联合每一个习惯用语。该模板详细说明了该习惯用语的组成所必须的语法和语义。例如spill the beans 和 rock the boat在语法上由动词和名词组成; 在第一国例子我们需要了解这个动词是(一个惯用语形式) 动词spill; 在第二国例子, 我们需要了解( 一个惯用语形式) 动词rock;等等。我们也需要了解单一的词汇包括惯用的条目会被扩大。(这些惯用的单一的型式通过不惯用的基本单一条目中的某些最重要的语法信息来获得。举例来说,惯用的spill只是在指定的惯用的语义上区别于不惯用的spill)。关于获得诸如文法里的习惯用语的编码的特殊方法见(Copestake 等, 2002) 。

不考虑内部变异的那些习惯用语(例子ad hoc) 可以同基本简单条目一样的方法来简单的处理。

上面提到的习惯用语的两个分类的大纲储存在词汇数据库中两个截然不同的表格中。每一个习惯用语用一个唯一的标识符编入索引。利用两个数据资源中的习惯用语的标识符,习惯用语数据库中的条目连接到包含语法和其它信息的词汇数据库中,并且通过词汇数据库潜在的促进信息资源的发展。 7.讨论

多语种习惯用语数据库为语言学、计算机语言学和心理语言学的使用提供了一个重要的信息, 并考虑比较不同的现象使用不同的语言。例如,有这样一种情况,在语言家庭中,有相似的习惯用语,并且它们的改变也有相同点。这为我们更好的理解交叉语言的习惯用语的规律性提供了基础。相反, 语义映射也为主张习惯

用语为普通的暗喻提供了有力的支持(Neumann, 1999)。此外对不同语言的相同习惯用语的灵活性做不同程度的分析也是有价值的(即在两种语言中分析习惯用语idiom avoidance (Laufer, 2000)), 并且某些习惯用语在不同语言中的出现(或不出现)也许也有影响(比如历史研究 )。最后,这个数据库包含的数据来自同样语言的不同的报告人, 并且为那些研究个体直觉变化的人提供了空间, 比如修改作用和语义队列。 8.结论

这篇文章概述了一个多语种习惯用语数据库的构建。这个数据库设定为使得习惯用语的基本特性为统一的式样,通过英语这个人工国际语种作为同时连接英语语法的工具。

我们的主要短期目标是收入尽可能多的语言并继续研究习惯用语的交叉语言。我们也希望扩展注释过程的范围来分析不同语言中的习惯用语的语法的关系。

致 谢

历经半年多的艰苦工作,我的论文终于完稿,在此谨向所有给予我关怀和帮助的人致以真诚的谢意。

首先,要特别感谢我的指导老师赵芳老师,感谢他几个月以来给予我的极大帮助。他在繁忙的工作中,时时关心我的生活,督促我的学习,及时帮我解决设计与学习中的困难,并把多年来积累的丰富经验传授给我。对我的谆谆教诲将使我受益终生。

再次,我要感谢那些在大学学习期间给教授过我的每位老师,是他们教会了我很多专业知识,是他们让我对计算机有了浓厚的兴趣。老师们在学术上的执著和热情深深感染着我,在此,向各位老师表示诚挚的敬意和真心的感谢!

感谢同学,在学习上他们给了我很大的帮助,在课题研究中他们给了我很多帮助,正因为有了他们,我才可以独立的完成本次的毕业设计。在此,我向他们表示我诚挚的谢意!

感谢我身边的朋友,我的论文的顺利完成与他们的支持和帮助是分不开的。 感谢所有关心、支持和帮助过我的人们。