首页>检索页>当前

“查无此字”:数字时代的“书同文”难题何解

发布时间:2025-07-18 来源:新华每日电讯

目前国内信息系统普遍能无障碍处理的汉字仅2万出头,这意味着最新强制性国家标准收录的近10万汉字,超七成都是生僻字

人名、地名、方言、古籍中都有生僻字。目前户籍系统中人名生僻字接近5000个,据媒体报道,有专家估计,全国约有6000万“姓名生僻字人”。这些人被信息系统“拒之门外”,在数字化时代,处处遭遇掣肘。如果算上地名、方言、古籍中的生僻字,可能受影响的规模更大,涉及的领域更广生僻字困境,源自40多年来快速信息化产生的“技术欠债”。近年来,随着一大批生僻字被补录进强标,这个老大难问题理应迎刃而解,但现实并非如此

25岁的文辰(上部为龙,下部为天)未曾料到,名字里意为“飞龙在天”的“(上部为龙,下部为天)”字,反让自己在数字化浪潮中“龙困浅滩”。

但凡和实名制相关的场景,他都可能陷入“系统无法识别”的困境。上学、就医、通信、网购、出行……别人在手机上点几下就能办妥的事,他都得大费周章。

“(上部为龙,下部为天)字看似结构简单,但对国内信息系统来说,却是个生僻字。生僻字常被简单归结为“字形复杂、鲜为人知”的字,但实际上是信息系统“不认识”的字:输入法敲不出,界面显示不出,打印机打不出,核验比对通不过。

工业和信息化部电子工业标准化研究院(下称电标院)做过测试,目前国内信息系统普遍能无障碍处理的汉字仅2万出头,这意味着最新强制性国家标准(简称强标)收录的近10万汉字相比,超七成都是生僻字。

人名、地名、方言、古籍中都有生僻字。中国科学院软件研究所高级工程师刘汇丹介绍,目前户籍系统中人名生僻字接近5000个。据媒体报道,有专家估计,全国约有6000万“姓名生僻字人”。这些人被信息系统“拒之门外”,在数字化时代,处处遭遇掣肘。如果算上地名、方言、古籍中的生僻字,可能受影响的规模更大,涉及的领域更广。

生僻字困境,源自快速信息化产生的“技术欠债”。近年来,随着一大批生僻字被补录进强标,这个老大难问题理应迎刃而解,但现实并非如此。

image.png

生僻字字墙。受访者供图

查无此字

江西上饶的万(左部为王,右部为乐),仅仅是不同证件上就有不下8个“名字”:万瓅、万LI、万王乐、万Li4……五花八门。已过不惑之年的他,对这堆“名字”很无奈。

真名亮不了相,只能怪“(左部为王,右部为乐)”字太生僻。办事员打不出来,就用拆字、拼音、繁体字,甚至找个长得像的字替代——能用的法子全用上了。从2002年高考报名“查无此字”开始,这个带“乐”的字,23年来给他带来一堆“苦”。

数字化浪潮还没到来的那些年,实名制要求也没那么多,他的麻烦处于“潜伏期”。靠着各种“花名”,或用家人的名义办事,勉强还能混过去。可这几年,处处都要实名制,那些“花名”全不管用了。他办事处处碰壁,连“我是我”都证明不了,几乎寸步难行。

很多像他一样的“姓名生僻字人”,实名电话卡、银行卡、社保卡办不了,工资领不到,公积金取不出,退税退不了,医院挂不上号,学籍认证不了,坐高铁乘飞机都得提前开证明……整个儿被挡在数字生活大门外!

北京姑娘姜(寒字下部两点改为鸟)吟查公积金时傻眼了:工作过的4家单位信息系统都打不出“(寒字下部两点改为鸟)”字,愣是拼凑出好几个“花名”,对应着好几个公积金账户!她想把4个账户合并成1个,往公积金中心跑了十几趟,反复证明“我是我”,跑断腿、磨破嘴才办成。

“名字中的(寒字下部两点改为鸟),取自李白《秋夜于安府送孟赞府兄还都序》中的‘鸿(寒字下部两点改为鸟)凤立,不循常流’,意思是高飞。没想到没飞起来,却让我摔了个大跟头!”姜(寒字下部两点改为鸟)吟叹道,“社保、养老金、学历认证……处处是坎,我折腾不起了,也不想再折腾了。”

厦门的单亲妈妈张(左部为王,右部为乐)旋没想到自己名字的麻烦还殃及孩子——孩子名字没生僻字,可从办出生证、打疫苗到上学,但凡要填家长名字的时候,系统总通不过。

不少“姓名生僻字人”无奈改名换姓。2023年,云南丽江一个傈僳族村寨,全村的(上部为鸟,下部为甲,鸟少一横,nià)姓村民改姓“鸭”,几百年的“以鸟为图腾”的氏族文化,差点失传。在陕西,不少“(上部为亩,下部为心)”姓无奈改为惠。云南的“(上部为此,下部为夕)”姓也无奈改为“所”或“索”。“改姓意味着背叛祖先,是最忌讳的,也是最痛苦的。”来自云南的(上部为此,下部为夕)宏说。

那些改名换姓的人,麻烦并未因此消失,户口簿里的生僻字“曾用名”,时不时会冒出来添堵,比如,升学、求职、办保险……

除了人名,生僻字还常出现在地名、古籍和方言里。今年全国两会,全国人大代表刘建明建议,把浙江绍兴(左部为,右部为央)(左部为犭,右部为茶)湖中的(左部为,右部为央)、(左部为犭,右部为茶)两字纳入强标。(左部为,右部为央)(左部为犭,右部为茶)湖得名于湖中一种叫(左部为,右部为央)(左部为犭,右部为茶)的小鱼,有八九百年的历史了。因(左部为,右部为央)(左部为犭,右部为茶)均为生僻字,在相关政策规划、文旅宣传中,只能拆成“犭央犭茶”。

山东泰安的石(上部为分,下部为石)社区居民也觉得憋屈。村名用了400多年,既有遍地泰山石的含义,又包含老祖宗“分石见玉”的手艺,如今改成“石蜡”,居民们常用的还是“石((上部为分,下部为石))”!社区干部宋绍娇直摇头:“老祖宗造的‘((上部为分,下部为石))’字,智慧着呢!改为虫字边的‘蜡’,我们村的历史不就断了吗?”

同样被改名的,还有山东日照的古村(左部为冫,右部为口)子村、石家庄的东(左部为更,右部为差) (左部为更,右部为取)村、广东英德的下(左部为石,右部为太)镇……每个地名生僻字涉及数百至数万人,这些字存在于人们的日常书写与口语中,却无法进入数字世界。

中华书局古联(北京)数字传媒科技有限公司古籍实验室主任苏瑞欣,从事古籍数字化工作已有10年。“古籍数字化,就是采用数字技术,将古籍文献中的文字、符号、图形转化为能够被电子计算机识别的数字符号。”她对生僻字困境深有体会,“我们啃古籍,每千字就能碰上俩生僻字拦路。这些年攒下的生僻字,少说也有两万个。就是这些字,愣是卡住了古籍数字化的脖子,绊住了文化传承和传播的腿。”

“每一个生僻字姓名、地名、方言的背后,都能挖掘出一段独特的历史和文化,蕴藏着‘我们从哪来’的密码,带着强烈的文化和情感认同,更是传统文化的重要组成部分。”绍兴市非遗保护协会会长、绍兴文史研究馆副馆长何俊杰说,“为图省事,贸然改动、消除生僻字,把它们排斥在数字化大门之外,都是不可取的。”

“老GBK”还在用

一个生僻字如何才能进入信息系统?得先有“身份证号”——编码。

电标院中文信息研究室主任黄姗姗打了个比方:“字就像人,编码是身份证号,字形就是照片。不同字体就像同一个人穿着不同衣服。可电脑认字不‘看脸’,只认编码。没编码的字,系统根本不认识。”

教电脑“认字”,我国从1980年发布《信息交换用汉字编码字符集》(简称GB 2312)就开始了。初代汉字“身份证号”,只发了不到7000个,根本不够用。1995年,GB 2312升级为《汉字内码扩展规范》(简称GBK),汉字“身份证号”扩展到2.1万个。

随着国际信息交流越来越频繁,1993年全球通用的统一码(Unicode)横空出世,意在为全世界的文字搞个“联合国编码”。其中汉字部分的编码标准为中日韩越统一表意文字编码(简称CJKV),最初收录的汉字只有2万出头,被称为基本集。此后,在此基础上,以扩充集的形式增补汉字,目前已从扩充集A增至扩充集I,已收录近10万汉字。

我国的汉字编码工作采取“国际标准先行,国家标准同步”的方式进行。2000年,我国强标《信息技术 中文编码字符集》(简称GB 18030)发布,收录基本集和扩充集A;又经2005年和2022年两度修订,目前已对齐Unicode扩充集I。

对于一个生僻字来说,能获得“身份证号”并不容易。黄姗姗介绍,从挖掘发现、文献考据,到向国际标准化组织递交提案,再经各个国家和地区代表的多轮讨论、审定通过,整个过程即便顺利,也得3至5年。

更让人头疼的是,国内标准同步国际标准也面临一系列复杂的流程。2022年新强标修订发布与上一次相隔就达17年之久。

“新强标收录近10万字,覆盖我国绝大部分人名、地名用生僻字以及文献等专业领域的用字,能够满足各类使用需求。”黄姗姗说。

然而,不少人仍向记者反馈,这个被寄予厚望的新强标发布几年后,“生僻字困境”并未彻底解决。

目前我国不少信息系统仍在使用30年前发布的GBK。很多生僻字即便千辛万苦挤进国标,面对使用GBK的老系统,照样变成“?”。

关注“姓名生僻字人”的全国人大代表、全国台联副会长周琪调研发现,很多地方的人社、医院、保险、证券、电信、民航、交管等系统还是只认GBK,个别系统甚至只支持45年前发布的GB 2312。

“GBK不是正式国标,只是个指导文件,早在2000年就被废止了。然而,很多大学教材还在以GB 2312或GBK为标准,而一些技术人员在开发系统和软件时,仍默认使用GBK。”周琪说。

曾有“姓名生僻字人”想在相关部门的官网上留言,希望加快解决生僻字困境,却根本无法反映,因为被卡在实名注册环节。刘汇丹解释,不少部门官网或业务系统实名注册时,只支持GBK内2万多个汉字。

(左部为冫,右部为口)子村支书付冠强告诉记者,经过村民十多年的努力,(左部为冫,右部为口)字已被纳入新强标,但相关部门的系统迟迟不升级,村名迟迟恢复不了。“就差临门一脚了,大伙只能干着急。”

“字”为“正”

系统迟迟不更新,又急需用生僻字,怎么办?一些机构只得造字应急。

刘汇丹解释,编码的国家标准和国际标准都划定了“自留地”(私用用户区,PUA),允许用户造字。但因此带来的副作用也不小:不同机构造的同一个字,编码可能不同;即使同一机构,不同的人造的同一个字,审核不严也可能出现“一字多码”。

2004年,公安部开始换发二代身份证,但户籍系统只支持GBK。一代身份证允许手写生僻字,而二代身份证只能机打。为了解决身份证和户口本人名、地名生僻字的录入和打印问题,户籍管理部门在系统里造了4700多个生僻字。

中国社会科学院语言研究所《新华字典》编辑室编辑姚越坦言,《新华字典》也使用了自造字,很多人取名翻字典,找的字也可能是生僻字,比如,前文提到的文辰(?龙天),名字就源于父母翻《新华字典》。

image.png

《新华字典》《现代汉语词典》里的生僻字。新华每日电讯记者张典标摄

“自造字不严谨,谁都可以造。”一家银行信息技术部门的负责人何建说,自造字只是权宜之计,在机构内部单机或单个系统内临时使用没问题,但不宜对外使用、交换、传输。等日后有了正式编码,自造字理应剔除,及时“转正”,避免“一字多码”。

而现实是,自造字“遍地开花”。各地各部门“闭门造字”,编码各搞一套,都强调以自己为准。结果数字世界一团“乱码”:“(上部为龙,下部天)”字多出3个“兄弟”,“(左部为王,右部为乐)”和“(左部为韦,右部为华)”都是“六胞胎”!模样都差不多,系统却当作不同的字。

更让人头疼的是,各个机构造字用的编码一直未公开,究竟造了哪些字,外界也不得而知,也堵住了这些生僻字正常“转正”的路。

国内一家输入法公司曾“另起炉灶”,自造400多个生僻字,结果添了乱。用户用这个输入法打“(左部为王,右部为乐)”,在户籍系统就变成了“(上部为广,下部为英)”;输入“左部为韦,右部为华)”,户籍系统蹦出来个“左部为山,右部为含)”。

“一字多码”“一码多字”现象直接阻碍了信息跨系统流通,有时竟出现一家单位内部的不同系统都互不相认。当事人也懵圈:“以前是压根打不出字,现在字打出来了,系统倒打起架来了?”

苏瑞欣也犯愁:“我们在古籍数字化工作中,对付生僻字也用自造字,但不支持跨平台、跨系统阅读,换个系统就乱码,不利于文献流传、文化传承。”

在她看来,很多生僻字是打开古代社会文化的钥匙,也藏着老祖宗的智慧。她举例说:“清代戏曲选集《缀白裘》中有个‘(左部为扌,右部为虐)手(左部为扌,右部为虐))脚’,(左部为扌,右部为虐))是生僻字,我们审查文意之后,认为(左部为扌,右部为虐))与蹑同义。从这个字也能窥见古人造字的巧思。”

她介绍,中华书局正在给古籍里的生僻字办“正规身份证”——向国际标准化组织提交未编码生僻字,让古籍更完整进入信息系统,追赶上数智时代,甚至被AI读懂,更好实现传统文化传承与传播。

何建建议清理整顿自造字乱象:“各个机构先理清自造字台账,没有正式编码的字,尽快收录进国际标准和国家标准;有正式编码的,抓紧‘转正’,只有这样才能实现数字化时代的‘书同文’,即一字一码、互联互通,打破生僻字困局。”

“纸上强制”

早在新强标GB 18030-2022实施前,不少“姓名生僻字人”已经开始“自救”。

骨子里有一股“不服周”劲头的文辰(上部为龙,下部为天),2020年开始争取在身份证上“正名”,逐个攻破银行卡开户、微信、驾驶证等难关,至今已经解决九成以上的生僻字难题。

“身经百战”的他,常在“姓名生僻字交流群”里当“客服”,已帮助不下200个“战友”。

“个人问题如果能推动业务部门系统升级,这是最理想的。但有的机构选择‘打补丁’的方式,只解决单个人的问题,而不升级系统,结果是治标不治本。”他感慨,并非每次努力都有效果,“有的系统不支持生僻字,反馈了六七年,一直没进展”。

在个人“自救”同时,一些地方和行业也在尝试改造业务系统。

2021年,上海通过集中采购公安人口信息专用字库,建立生僻字云服务平台,对群众常见服务事项涉及的信息系统进行生僻字改造。目前,上海社区事务受理中心受理的190个事项中,七成以上可支持生僻字。

然而,参与改造的上海市经信委工作人员李泽坦言:“很多信息系统是国家层面的垂直系统,上海没法改,能改的只是上海市内的系统。”

李泽还提醒,一个地方有成千上万个信息系统,盘根错节。越是信息化程度高的地方,改造难度反而越大。要提前规划,多个关联系统必须同步改造。

在金融领域,2022年6月,央行发布《金融服务生僻字处理指南》,要求业务系统满足目前对人名、地名生僻字的使用需求。这一年,很多“姓名生僻字人”领到了自己第一张实名银行卡,能够正常转账、取款、换汇。目前建行、中信、招商等100多家银行已能够基本支持生僻字处理。

但参与编写《金融服务生僻字处理指南》的何建透露,很多地方银行业务系统仍处在“隐秘的角落”,不支持生僻字。

显然,数字化时代,生僻字困境绝非仅凭一地、一行之力就能彻底解决,必须全国一盘棋——用同一套编码,铺一条互联、互通、互认的“信息高速路”!

新强标分为三个实现级别,对不同行业作了不同的规定:所有具备中文信息处理和交换功能的产品,均应满足包含2.7万余字的级别一;级别二比级别一多出196个字,操作系统、数据库管理软件等系统软件和支撑软件应实现这一级别;而所有的政务服务和公共服务的信息技术产品和信息系统,均应实现包含近10万字的级别三。

然而,不少部门仍“按兵不动”,没有采纳已实施的强标。万(左部为王,右部为乐)曾亮出手机里的新强标去某柜台办事,得到的回复却是“没听过国标,我们内部有一套自己的标准,得按我们的来”。

在某支付平台从事标准化工作的技术专家路波一语道破:“强标本该长牙齿,如果有机构不执行,应该由监管部门处罚,但目前GB 18030-2022由谁来监管,如何处罚,尚未明确。从效果上看,这个强标仍停留在‘纸面强制’上。”

“但GB 18030-2000发布也有25年了,很多机构没落实,也没见到谁被罚。”路波无奈地说,如果这一“技术负债”再拖,代价只会越大。“就像给信息系统看病一样,不能讳疾忌医,小病拖大。”

周琪建议,相关部门应加强监管,定期收集和巡检市场上的产品和系统,对不达标的产品和系统限期整改或下架处理。

参与新强标修订的刘汇丹认为,强标难落地的另外一个原因,是很多公共服务机构认为,为了几个生僻字而改造业务系统不划算,甚至“吃力不讨好”。

黄姗姗介绍,目前信息系统的生僻字改造,在技术上已有可借鉴的路径,成本也从几年前的数百万元降到如今的百万元以内。

生僻字关乎社会民生,也关乎历史文化传承。“彻底解决生僻字困境,需要多个部门合作,统筹推进,让数据多跑腿,群众少跑路。”刘汇丹说。(应受访者要求,何建、李泽、路波、姚越均为化名)

0 0 0 0
分享到:

相关阅读

最新发布
热门标签
点击排行
热点推荐

工信部备案号:京ICP备05071141号

互联网新闻信息服务许可证 10120170024

中国教育报刊社主办 中国教育新闻网版权所有,未经书面授权禁止下载使用

Copyright@2000-2022 www.jyb.cn All Rights Reserved.

京公网安备 11010802025840号