多媒体

  初识多媒体
  怎样与多媒体打交道
  缤纷世界的背后
  来来往往多媒体
  多媒体时代的通行证
  如何把精彩留给自己
  新的世纪从多媒体开始

移动通信

计算机网络

智能网

光通信

微波通信

卫星通信

交换网

接入网

电信管理网

 

    
  电信博物馆 > 多媒体 > 怎样与多媒体打交道 > 低眉信手续续弹

 


联机手写汉字识别系统

  一、问题的由来和意义

  汉字如何进入计算机,一直是中国人使用电脑的一大难题。自从汉字编码的方案发明以来,熟记编码、键盘敲入,曾一度成为汉字输入的唯一模式。但是,汉字编码,包括音码、形码及其混合类型对于一般的老百姓来说,有一定的问题:音码虽然容易掌握,但对于发音不准的人,输入常会出错,且重码率太高,不会读音的字更是无法输入;形码可以高速输入,特别适合于看稿输入,对于无稿输入的人用来就有一定的不便。现在形码无一定的标准,种类繁多,且都需要强记大量拆分方案,对于普通人来说,学习起来有困难。另外,不管音码还是形码,都是基于键盘输入的,现在一些微机,袖珍到容不下键盘的程度(如掌上电脑PDA),编码输入就没有用武之地了。

  随着计算机技术的发展和大众化的趋势,在越来越强的呼声下,一种新的汉字输入方法――联机手写汉字识别的输入法诞生了。这种输入方法,是完全以平常的习惯,把要输入的汉字写在一块叫书写板的设备上(实际上是一种数字化仪,现在有的与屏幕结合起来,可以显示笔迹),这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,由计算机软件自动完成识别,并用机器内部的方式保存、显示。

  这种汉字输入方法,具有不需要记忆编码方案、不需要键盘操作的优点,特别适合于普通人使用,有着极大的市场潜力。但是,这种输入方法能否最终为人们接受,主要取决于识别技术是否能够满足人们的需要,具体地说,就是对使用者的限制要小,识别准确率要高。而就目前这一技术的发展状况来看,还没有达到成熟的程度,特别是对自然书写的识别率方面还不能达到实用要求。

  二、联机手写汉字识别技术的发展及现状

  联机手写字符识别的发展历史可以追溯到本世纪五十年代,伴随着手写板硬件(一种捕捉笔尖轨迹的数字化仪)的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到八十年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始研究完全无限制的整句识别技术。

  联机手写汉字识别技术相对起步较晚。1981年,IBM公司E.F.Yhap等推出了第一套较为成熟的联机手写汉字识别系统。该系统是基于对汉字进行笔划、字根编码的思想进行识别的。系统中每个汉字用72种字根拼成,而每个字根又可分解为42 种笔划的组合,通过对笔划和字根的判定识别所输入的汉字。而对字根进行的编码树表示又使得系统对通常的笔顺变化具有一定容忍能力。当时对920个汉字的实验结果时正确率91.1%,对2260个测试,识别率为79 .9%(第一次使用)。书写者要求使用工整楷书。

  1988年我国刘迎建等人提出利用笔段为基元的联机手写汉字识别技术。该方法把汉字分为笔段、笔划、字根、单字和词组五个层次,分别用模糊属性文法进行描述,以启发式模板引导匹配。该系统采用了对笔段进行基于位置关系的排序方法,摆脱了对笔顺的依赖。识别字典可达到6763~12000字。对于手写正楷汉字,熟练用户的识别率可达95%以上,已经具有了一定的实用性。目前,刘迎建等人仍在进行联机手写汉字识别技术的研究与开发,其产品“汉王九九”联机手写识别系统在国内的市场占有率目前占据首位。

  台湾也正在进行联机手写汉字识别方法的研究。由于采用不同的思路,台湾的产品在连笔处理方面具有一定的优势,而对于笔顺的限制相对比较严格。从有限的一些资料来看,它们大致是基于笔段串的动态规划方法的。目前大陆市场上的“博士笔”、“精品识别系统”等,其技术都来自台湾的公司。

  值得注意的是,国外一些大公司也开始注意联机手写汉字识别这一领域。Motorala、Microsoft、Apple 等大公司均已经投资于该方向的研究。由于资金雄厚,并且具有很强的软、硬件优势,其势头不可小视。国内研究人员应该奋起努力,把这一具有浓厚文化特色的研究课题的主流掌握在中国人自己手中。

[上一页] [下一页]