手写体汉字识别是汉字识别中较复杂的一种。手写体识别一种是边写边识别的,一种是写后识别的。前者相对来说简单点,现在这方面的技术也比较成熟了。我们目前研究的是后者,也就是写后识别,这方面在国内还没有比较成熟的技术。据说国外(香港,台湾)已经做的比较成熟了,但他们的主要是面对繁体字。我们做的主要是简体字。可能在原理上一样,但他们具体的技术我们还没有深入研究。
目前,我做的特征提取这一块的。采用的方法目前在国内还没有类似的。我们是通过提取汉字的顶点和顶点间相应的邻接矩阵来识别一个汉字。按照常理来说这两者(汉字和顶点特征向量)是一一对应的,但在实际中是不一定的。因为不通的人写的字可能顶点书目都不一样。比如说“田”有人可能就写的中间不合并在一起,那这样顶点书目就未必是9个了。所以我们还要按照一定的规则来处理。
我目前想的处理过程是这样。第一步:提取顶点及对应的方向向量。(通过深度搜索)。第二步:合并给定阀值内的顶点。目的是去噪。因为在细化后的字体里面可能回出现一些细小的支没。第三:顶点分离。目的是实现单个字体的定点数目唯一。
到目前为止,我已经比较完美的完成了第一步。在所有的测试字体中(有基本笔画,简单字,复杂字)都符合我期望的一个值。第一步是丶彩腔 F渲兄饕枷胧巧疃人阉鳌5虻サ纳疃人阉魇遣恍械摹F渲斜冉瞎丶氖欠较蛩阉鞯闹罩固跫的确定。这个很值得探讨的?/DIV>
其实我现在在想通过汉字的顶点及方向来识别,到不如直接提取汉字的笔画了,这样更符合人识别的思路,而且感觉效果应该好很多。
这方面先参考下其他的资料,再具体确定吧。
目前的这个结果应该说无论是提取笔画还是其他,都是很方便的。