《现代汉语常用字表》说明
为了适应语文教学、词书编纂以及汉字机械处理和信息处理等各方面的需要,国家语言文字工作委员会汉字处从年月开始研制现代汉语常用字表。年月国家语委邀请教育、语言、信息处理等方面专家对字表草案进行论证;同年月委托山西大学计算机科学系作抽样检验。国家教委有关部门参加了字表草案的修订工作。国家语委汉字处根据各方面提出的意见对字表草案进行整理修正,于年月制订出现代汉语常用字表。 【统计资料】
制订现代汉语常用字表是在过去工作及其取得的成果基础上进行的,所用统计资料包括以下种:
.语体文应用字汇(字)年月 陈鹤琴 .常用字选(字)年月 四川省教育科学院
.常用汉字登记表(字)年月 中央人民政府教育部社会教育司 .常用字表(字)年月 中央人民政府教育部公布 .识字正音字表(字)年月 中国大辞典编纂处 .普通话常用字表(字)年月 山东省教育厅
.常用字表(字)年月 北京市教育局中小学教材编审处 字表(字)年 中国文字改革委员会汉字组
.汉字频度表(常用字部分字)年月七四八工程查频组 .增订字表年月 中国文字改革委员会汉字组
.信息交换用汉字编码字符集·基本集(一级字个)年月 国家标准局发布 .六年制小学语文统编教材生字表(字)年 人民教育出版社 .常用构词字典(字)年月 中国人民大学语言文字研究所
.社会科学、自然科学综合汉字频度表(常用字部分字)年月 北京航空学院计算机科学与工程系 中国文字改革委员会汉字处
.汉字频率表(字)年月 北京语言学院语言教学研究所 从通用字的资料中选用了以下种:
.印刷通用汉字字形表(字)年月 中华人民共和国文化部和中国文字改革委员会联合发布。
.现代汉语词典年月 中国社会科学院语言研究所 .新华字典年 商务印书馆
.标准电码本(字)年 中华人民共和国邮电部
年度新闻信息流通频度(字)年月新华社技术研究所【时间范围】
常用字表选材的时间范围是从至年。在此时间区域内采用不等密度抽样,即抽样量按时间顺序递增,以近期的资料为主要抽样对象。社会用字与政治、经济、文化的发展有着密切的关系,不同时期的用字情况有所不同。如果仅依某一短时期的用字情况选取常用字则有时间的局限性。适当把统计的时间拉长,纵观各个不同时期的用字情况,则可以衡量字的使用是否稳定。选取使用稳定的字,可以避免选字的偶然性。 【分布和使用度】
拟订常用字表时,还统计了汉字在不同学科的分布和使用度。统计汉字在不同学科的分布,可以衡量某个字的使用分布是否均匀。如某个字在单一学科中使用频度较高,但在其他学科中却很少出现,这说明它的分布是不均匀的。与此相反,有的字不仅使用频率较高,而且能在多学科中出现,这说明它的分布是均匀的。选取分布均匀的字,可以避免选字的片面性。我们以年月北京航空学院计算机科学与工程系和中国文字改革委员会汉字处合作统计的《现代汉语用字频度表》作为统计汉字使用分布的资料。该资料有十科用字频度表:.文体生活用字频度表;.历史哲学用字频度表;.政治经济用字频度表;.新闻报道用字频度表;.文学艺术用字频度表;.建筑运输用字频度表;.农林牧渔用字频度表;.轻工业用字频度表;.重工业用字频度表;.基础知识用字频度表。
使用度是将汉字的使用频率与该字在各个学科中的分布进行综合考虑的一种计算方法。计算汉字使用度的公式是:
上述公式的计算条件是假定各个分科的抽样量是均匀的。其中,是号字在第类语料中的相对频率,是号字在综合类里的相对频率,是语料的分类数,是号字的散布系数,是号字的标准分布偏差,是号字的使用度,是号字的出现字次。我们在统计汉字的使用度时,对上述公式进行了调整,调整后的公式是:
其中,和都是我们采用的号字的散布系数,是号字的分布系数。【选字原则】
拟订常用字表的选字原则是:
.根据汉字的使用频率,选取使用频率高的字;
.在使用频率相同的情况下,选取学科分布广、使用度高的字;
.根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字;
.根据汉字的实际使用(语义功能)情况斟酌取舍。有些字,在书面语中很少使用,进行用字统计时往往统计不到,但在社会日常生活中却很常用,像这类字,也应适当选取。
以上条选字原则是综合运用的,不单纯依据某一原则决定取舍。【抽样检验】
为了检验常用字表中选收的常用字是否合理,我们委托山西大学计算机科学系利用计算机抽样统计万字的语料,检测选收的常用字的使用频率。抽样材料包括:年月的《人民日报》(除去插图、广告、标题、非汉字符号,计万字);年月的《北京科技报》(除去插图、广告、标题、非汉字符号,计万字);年《当代》第三期 (除去插图、标题、非汉字符号,计万字)。
检测结果是:常用字覆盖率达,次常用字覆盖率达 ,合计(字)覆盖率达,说明《现代汉语常用字表》是符合实际的。