火鸡

百度输入法AI助聊发展过程

发布时间:2022/10/18 15:24:07   
控制白癜风扩散 http://m.39.net/news/a_5951572.html

曾几何时,中国人谈起计算机,就离不开“中文”二字。

掰开手指算来,如今还在中国IT届叱咤风云的人物,多少不是靠“中文”起家:联想、巨人靠的是汉卡,四通靠的是中文打字机,方正靠的是中文印刷排版,中文之星、新浪靠的是中文平台,如此数来,不一而足!而中文领域,最基本的就是汉字的输入输出问题,谁能很好地解决它,谁就在商海之战中拔到头筹、奠定胜机。

事情好像如此简单,解决输入输出问题就能挣大钱?这么幼稚的结论恐怕是10年前的想法了。虽然有号称“当代毕升”的王选,让我们的印刷告别了铅与火,让汉字的输出有了质的飞跃,但是却不能让汉字的输入有半点轻松。随着中国人的大把大把钞票流入微软与Intel的口袋,中国的汉字输入却已经捞不到半点油水了。除了五笔字型收点授权费,自然码收点注册费养活四五口人,智能狂拼炒作一番,弄点新的知名度,谁还能说我挣了多少多少钱?

中文输入法,这位被所有中文电脑使用者折磨多年的“半老徐娘”,已经引不起大众的注意,看来只好涂点脂抹些粉,乔装打扮一番或者隐姓埋名,或者下嫁他人!本来是名门望族的大家闺秀,却落得个惨度余年的结果,当年的万马奔腾、门庭若市,一时间万马齐喑、门可罗雀。

纵使这样,还有好事者在暗暗使劲:我就不信这个邪,凭我的姿色与出身,还不能养出个国色天香的女儿?也有不愁吃穿的主,心想闲着也是闲着,我自己弄个猫狗,权当女儿养着,高兴时带出来遛遛,干你何事?

我今天也闲来无事,看看到底有哪些半老徐娘和国色天香,值得咱探究她们的近况和身世。

一、键盘输入在约10年前,朋友的一块汉卡上已经提供了汉语拼音串连续输入就能出来汉字的输入法,但这位哥们也没卖出几块,就找不到踪影了,这可能是最早见到的实际使用的“语句”输入法了。

后来年左右中文之星的1.3版本提供了新拼音输入法,一直到现在,人们还认为是最方便的输入法之一。能够做到单个字词的即时显示,就是一边打拼音,同时显示汉字,键盘敲错能够马上看见,没有的词语,选择一次后就能记住,以及一些键位的巧妙设计,如空格确认、逗号句号选重码、模糊音容错等已经成了当今所有拼音输入法的必有功能。此时的产品还有智能ABC,在年初的北京大学出版社,编辑对笔者说,出了一种很好用的输入法,具有类似新拼音的功能,还能够快速输入一些符号,键入v以后不用切换输入英文,还可以按笔划输入不认识的汉字,这就是早期的智能ABC,后来与微软合作不错,几乎所有的的Windows中文版本都OEM了它,但是这个软件可能在当时就基本成型,快10年了,也没有多少新的功能与改动。

其实不管是智能ABC还是新拼音,它们技术上可能都源于20世纪80年代末期张普、李慧勤等人主持的项目PJS,其中也许有合作关系。

到了年,有一件事对中国的输入法发展起了重要作用。在10月18日,北京语言学院旁边的一个小白楼中的隆光威尔和邦得尔俩公司合作成立Autoway(自通)中文平台项目组,公司当时准备开发DOS和WINDOWS环境的中文平台和字处理软件,胃口很大,也集中了一些较强的开发力量,由于经费的问题,后来在年调整目标,专门开发Autoway输入法,在下半年推出了一种外挂于Windows环境的能够连续进行汉字序列输入的系统,该软件请了语言界名人周有光等人题字,后来在电台、报社宣传,着实风光一把。该输入法最大的特点是用户只管连续输入拼音,系统每隔几个拼音就自动将前面的汉字显示出来,到一定的长度后,汉字就会自动或者由用户按回车键进入到应用软件的编辑器,不需要人工分词,但是由于正确率较低以及操作界面、使用方便性等问题,没有大面积推广。

在年,输入法出了一匹“黑马”,碰巧该厂商叫做北京黑马公司。其“黑马输入法”只能在DOS下用,现在笔者还有当时买的正版,是几张软盘,如果在Windows下面用的话,该输入法就提供一个DOS界面,用户输入一句话的拼音串,按一下回车,转变成汉字,存放在一个文本文件中,再拷贝到别的应用软件。现在看来这个软件是非常不好用的,但是凭借该厂商在中文校对方面的经验、资料和积累的资金,一步一步发展,到了年,还在不断完善与升级。

不管是“自通”还是“黑马”,都号称开了汉字整句输入(又称语句输入)的先河,但实际上除了笔者前面提到的汉卡有这个功能外,最早的还可以追溯到20世纪80年代末期的哈工大。当时该校的博士生王晓龙进行了汉字分词方面研究,并申请了课题,写出了“最小分词问题及其解法”方面的论文。

其后王晓龙研发了InSun输入法,就是一种基于整句的输入系统,20世纪90年代初也只是做一些演示、成果展览之类,听说偶尔也卖给了日本的一些公司,用于某些专用打字机使用,后来多年未见动静。在90年代中期,以10万美元卖给了微软,当然这个价格满不错的了。于是乎,从Windows95中文版开始,也就有了大家看到的“微软拼音输入法”,虽然口伐者诸多,但微软采取类似的方式,还弄到了智能ABC,“免费”发送给中国用户。但这种“免费”是形式上的,实质上,其价钱已经算计在Windows操作系统中,最终还是算在使用者头上。其结果是苦了输入法研发者和厂家。

即使是微软提供的拼音输入法,也不见得好用,曾经有人讥讽说该输入法就好像是感冒了揩鼻涕,按理说,有了一点鼻涕,就应该赶紧擦掉,不要等它老长了掉到嘴上才去管,可微软拼音却不,让你敲了很长,再返过头去修改,由于智能化程度不高,错的莫明其妙,如果是对着稿子敲,还好找错,如果是想打,也忘了自己该选那些词。

不能够与所敲拼音同步显示汉字(微软拼音是滞后一个字、自通是滞后几个字、黑马拼音是需要最后确认才出现汉字),以及错误转换很高、修改拼音选择汉字不方便等成了早期语句输入法的死穴,大大限制了它们的使用,老百姓还在继续用新拼音或智能ABC,但是它们存在不支持GBK汉字以及长期没有新功能升级的缺陷,加之语句输入法的不成熟,使得中国输入法几乎险入了前所未有的低谷。

这种沉寂在年被打破,功劳首推共享软件的出现。由于互联网的开始普及,网络的威力越来越大,新的个人力量开始凸现。出现了拼音之星、万能码和智能五笔等新的输入法。

ow拼音之星是由谭亚军发明的,是一种包含全拼、双拼和谭码的单字、词语、短语和语句输入系统,可能作者认识到了传统词语输入法和语句输入法的优缺点,因此设计了一种完全“实时显示”的方式,不管输入多少拼音,每个字母按下去,汉字就同时显示,拼音有错误,用户就会立即发现,又由于支持自动分词与整句输入,用户不用去担心是输入一个词语还是一句话,系统都能够进行处理,如果没有该词语,系统也能够自动学习并存盘,似乎具有了词语输入法的方便性与整句输入法的智能性,还值得一提的是利用双拼加偏旁或笔划的谭码也能够实现词语或整句输入,能够进一步加快打字的速度,这恐怕是别的输入法所不具备的。

该输入法只要一张软盘就可安装,程序小巧、稳定,很少出现运行错误,整句智能化程度也达到实用水准,因此该软件在~年放到网上,反映强烈,一些功能也为以后的输入法所仿效,如“实时显示”、像输入拼音一样输入各种符号、智能识别数字标点和符号、快速选择多种双拼编码等,而且是当时除了在Win9x环境也能够在WinNT中使用的极少输入法之一,使得拼音之星拥有了广大用户群。中文之星网站也长期推介下载,金山公司的WPS全线捆绑销售。“飞翔鸟”在年底评测说“拼音之星在功能上要明显优于微软拼音输入法(2.0版),绝对是一颗耀眼的明星。这里面不乏溢美之词,但绝对表明利用拼音方式将词语输入的方便性与整句输入的智能性结合起来是输入法的方向之一。

拼音之星采用了外挂技术,类似于中文之星或者Richwin等中文平台,因此在中西文Windows下面都能用,这本来是一个好的构思,但是因此带来的一些问题也较多,在中文Windows环境,由于不是Windows自身的标准输入法IME格式,如果安装不正确就可能有乱码,这个问题也给拼音之星等外挂输入法带来负面影响,到了最新的拼音之星build1.3这个问题才真正解决。

又因为拼音之星以前的版本没有提供拼音与汉字分两行同时显示的操作模式,当拼音输入错误需要修改时,虽然可以按一下方括号[或者]就能将汉字变回拼音并且同时可以移动光标(不需要用左右方向键),手指的移动幅度相对较小,本来是个好的设计,但是有别于传统操作方式,因此用户并不知晓,让人感觉修改拼音还是不够方便。因此到了千禧世纪版2.0以后,拼音之星在操作界面上,又完全复古,像中文之星新拼音那样,提供上下两行即显示所有键入拼音字母,又显示自动转换的汉字串。

采用外挂技术设计输入法,当然也有独特好处,如克服了标准IME(如智能ABC等)吃标点、在西文Windows中不能用、在西文应用软件中不能做到光标跟随等缺陷。

输入法另一个发展方向是功能的多元化。这方面的代表是“万能码”,即现在的“万能五笔”。万能码是一种将拼音、五笔、英文、笔划结合的一种字词输入法,不需要切换既可以使用多种功能,例如输入“苹果”这个词,可以键入它的拼音“pingguo”,也可以用五笔编码输入,还可以用英文apple输入,因此对于已经习惯于传统输入法的拼音或者五笔用户,很容易使用万能码。

在早期的版本中,万能码以拼音作为主要设计方式,因此类似新拼音可以实时造词,但是拼音的功能不强大,远不如拼音之星、新拼音,因此曾有人建议万能码的作者邓世强将重点放在五笔上,主推“万能五笔”,同时兼顾多元输入方式,此系统发展不错,曾经得过“十大共享软件”称号。该输入法的最大缺点在于由于采用菜单选择太多,而菜单界面设计零乱,用户无所适从;在中文Windows下面的乱码以及拼音单字、词语不多的缺陷也是限制该输入法进一步推广的因素。

智能五笔则是另一个充分吸收五笔精华,将五笔发扬光大的典范。王码公司可能做梦也没有想到,竟然有这么多人在替自己出主意。智能五笔在五笔上面,做了很多文章,包括五笔的编码提示,提示词库中是否存在某个词语,以前输入过的多个汉字能够用一串五笔简码快速输入,词库较大(因为用五笔编码,词库大则重码也较多),这是很多用户喜爱的缘由。不过软件本身质量设计存在问题,界面不好看、菜单零乱,操作键位的设计随意性等充分反映了个人共享软件的局限。

到了年出现了另外几个拼音输入法:拼音加加、自由拼音输入法和考拉输入法。拼音加加实际上是原来参与中文之星新拼音设计的廖恒毅的重出江湖之作,小巧、程序稳定、键位设计比较合理,加之新添的一些功能,如不用切换就输入西文,类似智能ABC的用笔划输入不认识的汉字以及用简拼快速输入多种符号的特点,使得该输入法受到了词语输入者的喜欢,与拼音之星、智能五笔、万能五笔一起在长城中文飓风中OEM销售。

但是拼音加加的缺点很明显,词库太小,两个以上词语连续输入就要不停地选词、按空格确认。自由拼音输入法最大的特点是公开了源码(操作方式与功能没有多少新鲜之处),因此相继为不少输入法爱好者参照,编制自己的输入法。考拉输入法刚开始推出时,在清华BBS上推介,操作方式几乎完全仿制了中文之星的新拼音,但是克服了新拼音在某些系统下字体特小的缺陷,受到网友的好评。从一开始,考拉的作者就在软件说明中声明要卖掉。后来还真的卖给了紫光公司,在年改进成了紫光拼音输入法。

这款输入法最大的特点也是完全忠于新拼音的操作方式,提供了一个很大的词库,在后续的版本如2.2和2.3中,增加了智能组词,也就是说用户连续输入9个字以内的拼音串,系统能够自动转换成汉字,而不论是否有这个词语,系统根据词频高频先见的方式给出一个词语串的组合,增强了操作的流畅性。还值得一提的是紫光拼音输入法善于吸收其余输入法的优点,如拼音之星的实时显示、智能识别符号、自定义字符串,拼音加加的不切换用Enter直接键入西文,最终成了用户喜欢的输入法。但是紫光拼音输入法有一些明显缺点,由于程序设计的缺陷,在稳定性方面没有拼音之星和拼音加加好,很多版本经常出现输入法引擎出错、用户词库一大就出错没法使用,在2.3版本得到改善,但是还会出现切换应用程序时画面闪动,在一些西文软件如Dreamweaver中出现输入条时隐时现,在某些应用程序中出现乱码的问题,影响了软件的正常使用。

年老牌的新天地分家专门成立中文之星公司,主推一种叫做智能狂拼的整句输入法,本质上它与微软拼音、黑马拼音和拼音之星的语句输入类似,但是这个公司非常善于宣传,智能狂拼Ⅰ一经推出,就开始进行了铺天盖地的广告攻势,并宣称首次推出了整句输入法,在年又发布了升级的智能狂拼Ⅱ。智能狂拼给输入法领域无异于打了一剂强心针,虽然中文之星还是没有挣到多少银子,但是中国又重新开始注意起中文之星--这个中国IT昔日的软件霸主,此时的年,中国与世界一样处在网络的狂热之中,而中文之星曾经的竞争对手--四通利方,早已完成了融资的初级阶段,以中国第一中文门户新浪网的身份,在准备美国纳斯达克上市,怪不得中文之星此时太需要一些注意了。

智能狂拼的界面还是不错的,可以自定义多种颜色、字体,大小可以像Windows窗口一样随意拉伸,修改拼音与选择重码比微软拼音有了改善,拼音到汉字转换的正确性也还不错,尤其是学习了大量的古文诗句和名人格言,使得智能狂拼一时间号称是智能程度最高的,但是它的自学习性却比不上拼音之星和拼音加加。自学习性主要表现在两个方面:一个是单独输入一个拼音串,初次不准确可以修改,然后下次键入同样的拼音或者简拼应该能够得到所需的结果,这个方面对于传统词输入法是得心应手的;另一方面是从正在输入的语句中学习相应的词语,而这个难度有点大,目前所有的系统都不尽如意。智能狂拼的很明显的缺点是过于庞大,为了增加1%~2%的转换准确性,增加了数百兆的磁盘开销,一个输入法比操作系统还臃肿,这个招可能只有急了眼的人才会想出。

还有一个软件,叫做自然码,这是一个老牌输入法,在功能设计上有很多细微之处,采用双拼加偏旁或笔划的音形结合方式编码,提供了一种快速输入汉字的途经,大词库是它的特点,在DOS时代曾经风光一时,程序设计也很独特。只是进入Windows时代后,发展迟缓,在菜单设计上也欠考虑,比较零乱,与前面介绍的万能五笔和智能五笔有同样的问题,加之迟迟难以推出NT版本,让很多老用户忍痛割爱,投入新输入法的怀抱。在年,自然码也受到整句输入的影响,推出了转换速度缓慢、准确率较低、不好修改的整句输入功能,但实在难用,以至于不能实用。到了推出的新版,在整句输入上面有了较大提高,不用切换即可利用汉字偏旁代码选择重码的方式设计巧妙,倘若进一步改善,减少操作的复杂与二义性,发扬光大,还是大有前途的。

打字机与换笔史话

“指动字成,字成指动;任你如何至诚,如何机智;

难叫他收回成命消去半行,任你眼泪流完也难洗掉一字。”

上述这首小诗,摘引自中古波斯诗人欧玛尔.海亚姆的名作《鲁拜集》。《鲁拜集》在我国,除了文学爱好者之外,知道它的人为数不多,可是在英语通行的地区,它类似于我国的《唐诗三百首》,是家喻户晓的诗集。上述小诗,正是《鲁拜集》中的第七十一首,它指的是什么呢?或许你会脱口而出——“打字机”。

的确,使用拼音文字国家的人,大都把它看成打字机的写真。据美国《读者文摘》亚洲版记载,一位女打字员,当她的高级打字机出了毛病时,就幽默地引用这首诗,说明她不应该负任何责任。我们知道,在欧玛尔.海亚姆生活的那一时代,打字机还远未出世。但是,打字机的影响如此深入人心,以致造成了大家以为它与拼音文字是同时来到人世的错觉。

打字机的诞生,曾被西方历史学家称为是“人类文化史上继造纸术和印刷术之后的第三项文化工具的发明”。把打字机与我国的两大书写发明并列,在中国人的眼里似乎不可思议,它却给拼音文字“打”出“书写革命”的“福音书”。

拉丁文字圈与汉字文字圈,“两足鼎立”的局面,持续了相当长的历史。当汉字和拼音文字分别走向了自己的成熟期以后,书写革命的锋芒,消消地会聚到了另一焦点。

自文字成熟以来,两大文字圈的芸芸众生,案牍书写的首要工具大体相同。以手握“笔”,蘸墨水,写于“纸”上的模式,支配了人类千百年的书写。仅就“笔”而言,似乎东西方也只有软硬的差异。

中国人习惯于用“毛笔”,笔头软软的毛笔被列入了“文房四宝”之首,有所谓羊毫、鸡毫、狼毫、兔毫、虎毫、豹毫;史书记载蒙恬发明秦笔时,是以“鹿毛为柱,羊毛为被”;而王羲之书写《兰庭序》所用之笔,则由老鼠的胡须制成;更有人采用猩猩毛甚至婴儿的胎发来制造软笔,可谓奇思异想,为改善汉字书写工具费尽心机。

欧洲大陆上的人们,偏爱较硬的笔。在淘汰了古代的“苇杆笔”后,“羽管笔”被使用了数百年之久。现代英语里“笔”这个单词pen,就是来自拉丁文中的penna,意思是“羽毛”。我们常常在电影里看到欧洲贵族用一片弯弯的羽毛优雅地签字,圣经中也有传教士用羽管笔抄写福音书的自画像。据说,火鸡和鹅翅膀上的羽毛,是制作笔的最佳材料,而用左翼的羽毛管做笔,对右手写字的人最为适宜。用羽毛写字固然高雅,但一支笔写不了几天就会磨损,西方人很早以前就开始寻找更耐久的材料。罗马时代有了青铜笔尖,但钢制的笔尖直到19世纪才开始批量生产。

如果两大文字圈的人都只是着重于“笔”本身的改进,恐怕没有什么奇迹可能发生,至多只是在西方人的“自来水笔”风靡全球后,被中国人接受成为手写汉字的日常工具,根本不可能动摇汉字书写传统的牢固根基。

奇迹发生在18世纪后期,首先是英国,然后法国、美国、德国,先后发动了第一次工业革命,率先告别了以人力、畜力为动力的农业时代。

工业革命的奇迹始终与各式各样的“机”伴生伴长:从詹姆斯.哈格里沃斯发明的“珍妮纺纱机”开始,钟表匠凯依和木匠海斯创造了第一台水力驱动的纺纱机;修理工出身的詹姆斯.瓦特完成了他的第一台蒸汽机;工程师乔治.斯蒂芬森为世界上第一条铁路提供了“蒸汽机车”……

在机械化的喧嚣声中,为拼音文字书写铺路的机器迅速加入了合唱的行列,这是直接“威胁”到笔在书写领域之垄断地位的一种“写字机”。

世界上第一台打字机究竟是由谁在何时何地发明,各种资料说法不尽相同。可能是由于中国人对发明打字机的成果看不上眼,国内系统介绍它的文章寥寥无几。就是一些英文打字讲义和教材,也只是在前言里顺便提一两句而已。我们只能根据所搜罗的若干零星资料(包括英语原文)进行归纳和整理。

记录时间最早的是英国女皇安妮逝世的那年,即1714年,一位名叫亨利.米尔的英国人首先登记了发明专利。据说米尔发明的这种机器,“无论什么文章都可以用它写在羊皮纸上,其整洁清晰的程度与印刷品毫无区别”。然而,没有人知道它的模样,甚至不能够描述它看上去象什么东西。

据美国人讲,第一个美国打字机专利是底特律市的威廉.奥斯丁.伯特于1829年注册,它的名字是“伯特家庭字母打字机”。

奥地利人认为,第一台有纪念意义的打字机是细木匠彼得.米坚霍费尔于1864年制作。这种打字机的接触杆是木制的,木杆的前端钉上许多小针,组成不同的字母。当木杆打在纸上时,小针就把字母印在纸上——这一点倒与现代的“针式打印机”十分相似。

还有其他一些说法,比如法国马赛的“与钢笔书写一样快”的机器等等。当时这种机器的发明者,大概多为木匠、钟表匠或机械工匠。有关打字机诞生各种争论,预示着当时这种新的书写工具已受到人们普遍的

转载请注明:http://www.aideyishus.com/lktp/1907.html

------分隔线----------------------------