Você está na página 1de 32

汉字规范与

规范汉字表的研制
2008.11.8
《规范汉字表》的研制情况
 《规范汉字表》是国家当代书写现代汉语通用语文本
、处理现代社会与民众直接相关的大规模信息所通用
的汉字集合,体现国家当代通用汉字在字量、字形等
方面的规范。《字表》共分三级:
 一级字表为基本通用字,是书写现代汉语文本使用效
度最高、规范作用最大的汉字的集合,是九年制义务
教育基本用字,即常用字字集。
 二级字为次通用字,是使用频度仅次于常用字、在常
用字基础上有所扩展的社会通用字,是知识阶层和现
代汉语专业出版物所需的扩展用字;
 三级字表是从人名用字、地名用字、科技用字和基础
教育文言文用字中选择的准通用字,即一二级字表未
能收入而在上述四个领域中使用频度仍然较高的字。
《规范汉字表》的配套工作
 新的《规范汉字表》研制完毕后,与《规范汉字
表》配套的《规范汉字字典》正在统稿阶段。
 与《规范汉字表》配套的《指南》也在积极编写
中。《指南》说明了《字表》研制的理念,新旧
规范的承袭和差异,应用的范围、方法、原则,
并提供了新的《异体字整理表》和《简繁字对照
表》。
 《规范汉字表》将在各个领域应用,关于新规范
的理念与应用原则,将靠第一线的工作者们广泛
宣传和细致指导。
信息时代是汉字规范的必要性
更加突显的时代
我国现代汉字规范工作酝酿于 20
世纪初期。新中国成立后,由于一些领导
人的提倡,这项事业由学术层面转为国家
行为, 20 世纪 50 年代以来的汉字规范
政策,重要的是由国务院直接发布的,一
般的或补充性质的,也是在国务院批转的
情况下,由文化、教育、出版或语言文字
主管部门单独或联合发布的。
这些文件的发布和半个世纪的贯彻实
践,为我国人民的语言文字生活注入了新的内
容,形成了全国人民尤其是语言文字工作者牢
不可破的规范意识和遵循规范的用字习惯,减
少了各个领域使用汉字的难度,对文化、教育
、出版和科技的发展,起到了无形地重要推动
作用。试想一下,在幅员辽阔、人口众多的中
国,政治经济如此统一的情况下,如果没有通
用层面的汉字规范,仅仅是国家政令和基础教
育这两项,书写不一的汉字将要带给人们多少
麻烦,就可以知道“规范”二字具有多大的分量
了!
 中国正在实施的创新型国家的伟大战略中,信息化
成为实现这一目标的重要支撑。有人说:“现在的
文字已经很少手写,计算机的贮存空间又这样大,
规范的必要性已经逐渐减退了。”
 事实上,在信息时代,发展政治、经济、文化的重
要条件,是及时和准确地获得和传播必要的信息。
计算机成为传播信息的工具,实现了信息传播的高
速度远距离和高度的社会化。
 有了汉字这种传播载体的标准化,才能实现信息传
播的速度和信度。在这种情况下,汉字规范的作用
就更加突显出来。
汉字规范的科学性
 汉字是记录汉语的符号,一般情况下,它的产生、发展都是
自然进行的。在汉字自然发展的过程中,内在的矛盾不断产
生。汉字在为全民所应用的长期过程中,受到各种内在关系
和外在力量的相互制约而产生自组织现象,调节着简与繁、
多与省、乱与整的诸多矛盾,适应着社会的需要。
 尽管有客观规律操纵着汉字的存在与发展,处在某一具体阶
段的汉字,从总体看,矛盾的存在是绝对的,平衡则是相对
的,自发调节这些矛盾达到平衡的状态需要经过相当长的时
间。因此,在一定时期,为了需要必须进行人为的规范时,
目的是使汉字内部矛盾的调节在短期内奏效。
 所以,它必须符合汉字发展的客观的规律,一旦违背了汉字
发展和使用的规律,那就必然使文字符号更难使用,更不切
合社会的需要,与规范的初衷背道而驰。汉字规范的科学性
就是在人为调节诸多矛盾时,必须遵循或不能违背汉字自身
的发展规律。
汉字的字量既要够用又需要控制
汉字有多少就够用了?要看我们用字的目的是什么
? 基础教学用字是最起码的;各学科学术著作用
字相对多了一些专业术语用字;特殊领域用字还要
多一些;古籍整理用字恐怕要算最多的了。最多能
多到多少字种?
汉字实际的需要量比已经积累的字书、字库的用量
要少得多。多出来的字有三个来源:第一种是不同
历史层面不同字体的积淀;第二种是辞书储存汉字
时增加的无用例的错别字;第三种是重复造的字。
这些字就共时的使用而言都是冗余的字样。
储备求全,使用求纯。二者之间,存在着一个整理
的问题,《规范汉字表》要提供合理的字量,还要
选出真正有用的字。
汉字的字数多多益善是一种认识上的误区
汉字经历数千年的发展,各种字体的
构形首先积淀到《说文》小篆层面。《说文
》小篆通过系统的字理分析,优选了少量的
字样,用“六书”的前四书进行穷尽分析,构
建了一个汉字的构形系统。这个构形系统是
理想化的,它影响了今文字的构形,但它没
能控制汉字在楷书层面上字数的增多,字书
和字符集收字现在已经达到 8-9 万字,有些
字库正在向 13 万飙升,还在通过多方面的搜
集无限增多。
冗余字无限增多是一种灾难
识字难(学习吃力,浪费记忆)
信息处理难(浪费贮存空间,接受与发出
信息浪费人力与时间)
辨认寻找难(规律被破坏,索引不好设,
“暗里寻他千百度”)
付出这样困难的代价,收获又是什么呢?
对专业人士来说,可能扩大了 0.1% 的古
书阅读量;对普及层面来说,仅仅能够满
足“识字多”的虚荣心,其他都是负作用

不要利用计算机的存储量来做无意义甚至
有害的事,纵容垃圾字泛滥。
普及性古籍用字的字量和字频与
现代汉语用字的比较

普及性 与现代汉 与现代汉语高


总字数 字种数 语 3500 常
古 籍 用字比较 频字字种差异
前 100 字共字 47
“ 三百千 共字 字
2708 1462
“ 四” 书 74·27% 前 300 字共字 190
前 100 字共字 64
” 字
共字 字
56764 2320
76 ·76% 前 300 字共字 127

近世楷书的字量举例
 从断代的需要出发,由宋人手写后雕刻的宋
版书中抽样选取文本总字数 200471 字,共
整理出 4856 字种
 从 18401 首宋诗的 1060696 字中整理出的
不重复单字 4520 个
 二者合并去重共 5100 多字
 累计魏至清代楷书的实际用字可以得出:楷
书书写和印刷的古籍字种 12760 字,其中用
字量超过 3 个的字种 7540 字,可以称为通
用字的 5540 字,与宋代几乎取齐
覆盖率与使用价值
累积覆盖率

120

100

80
累积覆盖率

60

40

20

0
1 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 8000
累积覆盖率 4.272976.28889.52894.78997.27398.55699.22699.58399.77999.88799.94499.97399.98799.99499.99799.999 100
字数

高增长
临界点
缺字与三级字表的通用性
第一,通用要考虑阅读的频度。例如,前面说到的西
医药名、饮食营养学中的化学元素用字,文本的使用
率并不高;但阅读的几率却可以达到千家万户。又如
,基础教育语文教材的文言用字,也有少部分不属于
社会通用字,但是每年的教材印刷必须使用,历届老
师、学生、家长必须面对,也是需要统一字形而进入
规范的。
第二,通用要考虑储备领域。以汉字为载体的信息,
一部分是在流通领域通行的,还有一部分是储备领域
必须的。例如姓名,除了知名人士,一般的姓名在社
会通用层面上使用度不会太高;地名,除了大城市、
著名景点,一般的地名在社会通用层面上使用度也比
较有限,根据字频和使用度不能将它们收集出来。但
是,无所不往的邮政、金融、交通等事业,无人不用
的身份证、户籍卡、学历证书、病历卡等证件,必须
储备可能用到的汉字。如果在信息处理上不去对这些
字进行规范,也会引起社会信息储备和使用的混乱。
异体字问题
异体字属于强迫一部分汉字“退役”,异体字的定
义必须严格,不该“退役”的“退役”就会影响表达

《一异表》存在正字义项不能包含非正字的现象。
例如:熔(镕):在“溶化;溶解”义项上两者都
可使用,但在“ 1 、熔铸金属的模具。 2 、规范
,模式”义项上只能作“鎔”。又如:修(脩):
在“干肉;旧时送给老师的酬金”等义项上只能用
“脩”,其他义项相同。
《一异表》 存在完全不通用字。即:现代汉语中
,正字与非正字不具有相同的记词职能。其中包
括无关的同音字、不同音的近义词以及非本国用
字等。如上文所举的“諂(謟)”“咱(倃)”,在
音义上均不相关。
异体字要科学处理。
在字表中恢复的异体字举例
1. 误做异体字取消 , 群众已经自动恢复 : 皙
( xi1 )
2. 群众喜欢用做人名的字或有影响的人名用字 : 堃
(坤 kun1 )、喆(哲 zhe2 )、昇(升
sheng1 )、淼(渺 miao3 )等
3. 姓氏用字:仝( tong2 )
4. 地名用字 : 砦( zhai4 )、邨(村 cun1)
汉字规范的社会应用性
 汉字规范在某些社会应用领域具有强制性,特别是基
础教育、出版印刷、信息处理这三个领域,虽然属于
专业领域,但同时也涉及国内和海外学习汉语汉字的
所有人群,如何使这些受众使用方便,这不能不是一
个出发点。
 中国历史上的汉字规范有两种情况:一种是权威的学
术规范,它是由一些影响较大的学者通过他们的著作
来实现的,例如许慎的《说文解字》 。另一种是权
力的强制规范,它是通过政治力量来对汉字的应用规
则作出硬性规定的,如唐代的《干禄字书》。这种规
范一旦实行,就会成为社会用字的现实,使用者从不
习惯到慢慢习惯,即使其中人为的规定从理论上看有
不尽然合理之处,习惯成自然,也就具有了社会性。
 我国 50 年代以来发布的规范,是属于专家和权力相
结合的规范,在方法上是最理想的。
协调好科学性与社会性的关系
 重视科学性,依照汉字的内在规律进行规范,是符
合汉字发展长远利益的;但是,汉字是一种社会运
用的符号,它的人文性决定了完全符合数理逻辑的
理想汉字实际上并不存在。
 在广大的使用领域,在计算机高超的贮存技术面前
,理论有时显得非常“低能”——这“低能”有些是因
为理论缺乏实践的考验,还不够完善;还有一些是
因为应用领域瞬息万变的形势,是滞后的理论研究
无法反映的。
 大众和专业领域的需求是不同的,分开层次解决问
题更能切合需要。
 科学性与社会性一致的地方,应当大胆处理;科学
性与社会性产生矛盾的地方,要认真协调,理论有
时要做必要的让步。
一简对多繁的问题

两岸的交流日益频繁,信息的沟通要
求速度和信度。
两岸共同的追求是利用计算机技术求
得简繁汉字准确的、快速的自动转换
,但是在转换中出现了较大的误差。
汉字简化系统第一种字用合并

 汉字的繁难不只是笔画的繁多,更因为表意
文字字数的繁多。
 因为注意到减少字数,简化汉字采用了较多
的同音替代进行简化,或合并了一些已经分
化了的字形。例如:
 干—干(干犯)、干(枝榦)、干(幹練、幹
事)、亁(亁燥、亁脆)
 舍—舍(房舍)、舍(捨棄)
汉字简化系统第二种字用合并
也是为了减少字数,简化汉字取消了一批
异体字,而这批异体字有一部分不是严格
的异体字,无法用正字取代。例如:
分化字:背—揹,布—佈,欲—慾
同源通用字:玩—翫,游—逰,志—誌
部分通用字:雕—鵰,哄—閧,斤—觔
同音借用字:,修—脩
 齣 -- 出
“ 齣”是不组词的自由语素,专用做
量词。前面有数词和指代词,但“出来”的“
出”前面也有有量词“一”和极个别其他量词
的时候:
一出去就不回来
太阳一出来天就亮了
六出祁山
面 -- 麵
他一面点钱,一面骂骂咧咧
这是从前面茶棚里留声机上放出来的。
 发 -- 發、髮

由此生发出各种新问题
 生髮油用来生发
 板 -- 闆

管他新板子老板子,作成家具涂上漆都
一样
语言文字研究与技术的结合
 统计简繁对应的多种情况,根据多种情况
制订简繁对应的词语表
 建立简繁平行词语库,将其引进高精度简
繁智能转换系统
 增加词库中语词的单位,包括与转换环境
相关的词组、多字段
 解决不等距离的单向区别字对转换字的干
预问题
 寻求便利用户的个别转换的技术处理方法
控制类推的问题

简化汉字第二表规定了“可作简化偏旁
用的简化字和简化偏旁”,共收 132 个简化
字和 14 个不成字的偏旁。这就是类推。在通
用字范围内,类推的原则已经贯彻,有些辞
书无限类推 , 超出了规定的范围。
类推的优势与弊病
 保持汉字的系统,易于识别。
 总体减少笔画,书写方便。
 改变字的结构,使字理模糊。有些字破坏
了汉字的美观性。
 出现了一些同形字。
 形成了一个新的“系统”,使古今距离与两
岸距离越来越远。
《规范汉字表》实行“有限类推简化”
按《简化字总表》第二表规定的 132 字与 14 个偏
旁的范围类推,不扩大范围。《简化字总表》第一
表的繁体字作构字部件时,无论是整体或使局部一
律不类推简化。如“讏”,不能简化为“(上)卫
(下)言”,也不能把上面部件居中的“韋”简化为“
韦”。
采用“部分代替全体”原则简化的字(如“亲”、“产”
、“从”、“丰”、“广”、“乡”、“杀”、“与”、“云”
等),以及结构产生变化的字(如“备”、“荐”、“
双”、“义”等),原则上只在第一层次构字时类推
,以保持原字的结构不受影响。
采用以上原则产生难以识别的怪异字或产生同形字
,可以灵活处理。
《字表》以外的字不再类推
怎样使用《规范汉字表》
规范汉字表根据普遍社会应用层面规定了字级、
字量和字形,必须严格执行,个人习惯在社会用
字上要服从社会,服从法律。
人名、地名、科技用字要服从规范,受到一定的
限制。
文言、手写是力求规范,另行处理。
在教育、教学领域制定应用字表,既要遵循规范
汉字表的规定,又不能简单截用其中的一段使用。
教学要遵循循序渐进的原则,由易到难,而社会
普遍应用层面的字频,与汉字的难易度和构形相
互依存的系统是不一致的。
三种语料库部分汉字频次比较
汉字 中 国 发 年 成 种 分 体 物
国家语委平 13 21 29 33 43 50 52 73 80
衡语料库频

科普与教育 9 26 31 39 24 37 36 38 18
综合语料库
频次
适合第一学 132 15 6 10 3 223 119 251 29 54 1 26
段儿童文学 9 4
语料库频次
分清“不规范字”与“未规范字”
“ 规范汉字”对应着的两个不同的概念:
一个是“不规范的字”。已经有了规范汉字,在通用层面上书
写现代汉语文本时,仍然去用其他字形,就属于不规范字。
例如:我们认定“泪”为规范字,“淚”是它的严格异体字,
不应当出现在现代汉语文本中。我们规定“险”“检”“剑”“俭
”为规范字,一般不要在简化汉字文本里再出现“險” “檢”“
劍”“儉”这样的繁体字。错别字就更是不规范的字了。
另一个是“未规范字”,也就是没有被收入规范汉字表中、也
不对应任何一个规范字的字。“未规范字”又称“表外字”,
在需要使用的时候,是可以使用的。例如,规范汉字表说明
,只是要求新生儿起名字时,限制用字表中的字,而字表发
布前已经有的人名用字,即使不在字表中,只要不是错别字
,仍然可以使用。因为这些字仅仅是没有进行规范,或有待
于今后继续规范,是不能与“不规范字”等同的。
推行《规范汉字表》的几个问题
 提高社会各界对规范的认识和实行规范的
自觉性,同时也消除对待规范过分的紧张
心理。
 求得理论的一致与思想的一致。宣传科学
性,普及汉字知识。
 面向社会上多种不同需求的人群。力争
《字表》在和谐的氛围里顺利推行。
欢迎讨论,谢谢!

Você também pode gostar