智能造字中的基元识别

智能造字中的基元识别

报告人： 黄坚

专业：模式识别

一. 课题的目的和意义

1. 当前汉字的显示主要使用字库的方式

优点：数据量少，使用简单，字体美观

基本满足了信息发展的需要

缺点：不符合汉字识字的认知规律

不能很好地传承汉字文明

很难建立稳定的标准

不能满足社会各个领域的特殊要求。

一. 课题的目的和意义

2. 课题的背景

上世纪九十年代，周浩华提出用生成笔画进而生成汉字的研究，得出了可以不用字库进行造字的结论。

皮佑国根据认知心理学原型认证机理提出了智能造字的概念，以汉字中的偏旁部首为基础选取汉字的基元，然后象拼音文字一样用基元拼合生成汉字，采用智能造字方式取代字库方式。

一. 课题的目的和意义

3. 课题的目的

在智能造字过程中，对汉字进行编码是一项很基础、很重要但又是很枯燥乏味的工作。由于目前这项工作主要由手工来完成，所以很费时，又容易出错，而且很难查错，给后期的参数获取工作带来很大的麻烦。此外，由于每个人的认识水平不一，同一个字会有不同的结构划分，很难形成一个一致的认识。基元识别是实现自动编码的最重要环节。

一. 课题的目的和意义

4. 课题的意义

目前的智能造字系统中，虽然已经可以构造出大部分的汉字，但是，这个造字平台的大部分工作都得手工来完成，并没有完全实现智能造字。其中，映射知识的获取已经基本上可以实现自动获取了，只要再能实现结构的自动识别，那么整个造字流程都可以由计算机来完成而不需我们的干预，从而真正实现智能造字。

二. 简易文献综述

字符识别方法目前主要有基于模板匹配算法和基于人工神经网络算法。基于模板匹配算法首先将分割后的字符二值化，并将其尺寸大小缩放为字符数据库中模板的大小，然后与所有的模板进行匹配，最后选最佳匹配作为结果。基于人工神经元网络的算法有两种：一种是先对待识别字符进行特征提取，然后用所获得特征来训练神经网络分配器；另一种方法是直接把待处理图像输入网络，由网络自动实现特征提取直至识别出结果。

三. 课题的研究内容，具体工作

1. 智能造字理论基础

三. 课题的研究内容，具体工作

1. 智能造字理论基础

知识库用来存放汉字的结构编码知识、基元编码知识以及基元的映射知识，在知识库中，采用了层次语义网络的方式保存智能造字中的汉字结构和基元知识，根据汉字分层特点提取组成基本语义关系，然后把语义关系汇集，从而构建整个汉字集的语义网络作为知识库。

下一页