基于统计结构特征的联机手写汉字识别方法
申请专利号 CN200510011510.X
专利申请日 2005.04.01
名称 基于统计结构特征的联机手写汉字识别方法
公开(公告)号 CN1664846
公开(公告)日 2005.09.07
类别 物理
颁证日
优先权
申请(专利权) 清华大学
地址 100084北京市100084-82信箱
发明(设计)人 丁晓青;鲁湛;刘长松;陈彦;彭良瑞;方弛
国际申请
国际公布
进入国家日期
专利代理机构
代理人
摘要
基于统计结构特征的联机手写汉字识别方法,属于汉字识别技术领域,其特征在于:先对处理的字符对象进行预处理,以消除噪声干扰,消除部分书写变形并把待识汉字所占空间映射到一个固定大小的位置;提取包括方向特征和边缘特征在内的能很好反映联机手写汉字特征在内的统计结构特征,再把得到的这些原始特征使用线性鉴别分析方法压缩变换为识别特征;最后采用改进了的高斯二次分类器模型完成训练和识别,该模型用一个事先设定的常数值代替较小的特征值以消除较小的特征值估计不准确对分类性能的不利影响。本发明的平均识别率为98.43%,取得令人满意的效果。
主权项
1.基于统计结构特征的联机手写汉字识别方法,其特征在于,它是在主频为Pentium IV-1.7GHz的计算机上依次按以下步骤实现的,整个实现过程由训练阶段和识别阶段分别构 成: 训练阶段: 步骤1.预处理,它依次含有以下步骤: 步骤1.1:上述计算机通过一种数字化图像采集设备实时地对人的书写笔迹进行采样,得 到的一个联机手写汉字的笔迹为:P(x1,y1),P(x2,y2),...,P(xi,yi),(break),P(xi+1,yi+1),...,P(xN, yN); 其中,(break)标记代表两个自然笔划间抬笔和落笔的中断;所述笔迹是在联机手写一 个汉字时对笔尖的移动轨迹进行采样得到的一系列从时间上依次排列的点坐标,所述点坐标 共有N个; 步骤1.2:上述计算机去除孤立点噪声,即从上述笔迹点序列中去除只由一两个点组成的 笔划; 步骤1.3:滤除锯齿形噪声,即上述计算机对上述笔迹中每一个坐标点的相邻点的坐标值 进行加权平均,以通过低通滤波来形成新的坐标点Xi′,Yi′: