如今,我们用手机、电脑等电子设备处理中文信息已经习以为常,而在40多年前,这是一件难以想象的事情。
系列报道《新中国的第一》带您走近新中国第一个计算机中文信息处理系统——汉字激光照排。
四十多年前,我国的计算机还主要用于科学运算和国防尖端工程,系统里没有精密汉字。报纸、书刊主要用铅制的活字排版印刷,手工挑字、人工排版效率很低。为此,新中国在年8月设立国家重点科技攻关项目“工程”,研发汉字信息处理系统。最难的一步,就是让精密汉字进入计算机。当时还在北大当教员的王选和妻子陈堃銶,参与了这项工程的研究。
北京大学王选计算机研究所教授中国科学院与中国工程院院士王选夫人陈堃銶:英文有二十六个字母,大小写共五十二个。我们(汉字)常用字就有六七千,至少有十几种字号,还有不同的字体,这样一算至少有好几千兆。当时我们用的计算机内存外存加起来六兆多,这个存储量当时就是一个非常大的难题。
年,王选用“参数表示规则笔画,轮廓表示不规则笔画”这种独一无二的方法,把几千兆的汉字字形信息,大大压缩后存进了只有几兆内存的计算机,这是新中国在世界上,首次把精密汉字存入了计算机。经过四年的连续攻关,王选团队又采用当时超前的激光照排技术,成功从计算机里输出了汉字。
年7月,新中国诞生第一张用“计算机-激光汉字编辑排版系统”整张输出的中文报纸。此后,从成功排出样书《伍豪之剑》,到在新华社中实用成功,汉字激光照相排版系统成为新中国第一个计算机中文信息处理系统,后来不仅风靡全国,也出口到日本和欧美等发达国家。
陈堃銶:他们日本说为什么要买中国的?就是觉得是最好。我们中国人是很聪明的,真是,就只要我们能够踏踏实实地干。王选有句话,要走向世界,中国人有这个能力。
改革开放40多年来,王选团队自主研发的一系列高科技成果,不仅颠覆性改造了新中国的新闻出版印刷行业,也在世界范围内推动了中文信息化的全面发展,电子书、新闻类应用软件等广泛应用在日常生活中。
北京大学王选计算机研究所所长郭宗明:在如今大数据、人工智能的时代,我们研究跨媒体的检索、生成等技术,让中文信息处理插上了人工智能的翅膀,使得人们的生活更加个性化、智能化。
如今,工程已经过去了40多年,中文信息处理的研究已经从用计算机处理和显示汉字字形,转向了用计算机对汉字语义的理解和再生成。根据深度学习算法,计算机可以模仿手写笔迹造字,也可以写文章、作诗,还能把文字、音频、图像、视频,都转化为同一标准的表达方式,中文信息处理迈入人工智能时代。