龙源期刊?/p>
http://www.qikan.com.cn
Unicode
标准下古籍数字化的异体字处理
作者:高天?/p>
来源:《现代语?/p>
(
语言研究
)
?/p>
2011
年第
09
?/p>
?/p>
要:古籍数字化需要遵循世界通用?/p>
Unicode
标准?/p>
Unicode
标准在设计时并未考虑?/p>
异体字的特点,因此不能很好地解决古籍中的异体字问题。在
Unicode
标准下,通过建立异体
字数据库、使?/p>
XML
标记等方法能够较好地解决异体字问题?/p>
关键词:
Unicode
古籍数字?/p>
异体?/p>
Unicode
字符集的全称?/p>
?/p>
通用多八位编码字符集
?/p>
?/p>
Universal Multiple-Octet Coded
Character Set
),它支持现今世界各种不同语言的书面文本的交换、处理及显示。自
Unicode
标准产生后,它已经成为全世界通用软件以及互联网信息传输的基础字符集。由于具有良好的
国际通用性和跨平台兼容性,为方便国际交流和知识的传承,
Unicode
也成为学术界所遵循?/p>
基本字符标准?/p>
一?/p>
Unicode
设计原则与异体字
为保证其良好的通用性、可继承性及高效性,
Unicode
在制定之初就规定了若干设计原
则。其中和异体字关系较大的?/p>
?/p>
字符、非字形
?/p>
原则?/p>
Unicode
标准对字符和字形加以区别?/p>
字符是具有语义值的用以书写语言的最小组成要素的抽象表示。字形反映的是字符呈现的?/p>
状。与字符相比,字形是作为一个或多个字符的特殊表现形式出现在屏幕上的
[1]
?/p>
P15
),?/p>
一原则在计算机上表现为同一字符在不同字体下显示风格的区别,此即所谓的
?/p>
数码异体
”[2]
?/p>
同一组数码异体字的内码完全一样,只是由于其所链接的字体文件不同,所以才导致其显示的
差异?/p>
纸本古籍中所存在的严格意义上的异体字,即
?/p>
音义完全相同仅字形不?/p>
?/p>
的异体字,和
?/p>
数码异体
?/p>
的本质是一样的,各异体字形只是在刻写过程中和外形结构上有所区别。由此,?/p>
古籍数字化的过程中,根据
Unicode
?/p>
?/p>
字符、非字形
?/p>
原则,刻写异体字应该也具有相同的?/p>
码点,其外形的差别可以通过制作不同的字体,根据需要调用所需字体来实现?/p>
实际上,
Unicode
标准中已经收录了相当数量的刻写异体字。《汉语大字典》后附的
?/p>
异体
字表
?/p>
中所列的
11900
组异体字中,绝大部分已被
Unicode
标准收录。并且在
Unicode
的最新版
本中,还在不断地增加新的异体字。比如最新的
Unicode6.0
版本中新增的两个汉字编码?/p>
CJK