印刷体蒙古文字符识别方法-字符识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

印刷体蒙古文字符识别方法

来源：互联网发布日期：2011-09-21 21:38:02 浏览：10507次

导读：印刷体蒙古文字符识别方法，其特征在于，它在对字符对象进行必要预处理后，首先对输入的单个字符进行预分...

印刷体蒙古文字符识别方法

印刷体蒙古文字符识别方法，其特征在于，它在对字符对象进行必要预处理后，首先对输入的单个字符进行预分类，将其划分到恰当的字符类别子集中去，然后提取能很好反映字符结构特点的方向特征，在此基础上，利用特征整形、ＬＤＡ变换提取最具鉴别性的优化特征，把该特征送入ＭＱＤＦ分类器判定字符所属类别；在由图像采集设备和计算机组成的系统中，它依次含有以下步骤：　　　　训练阶段：　　　　第１步：在计算机中设定以下参数：　　　　字符类别总数ｃ；　　　　归一化后字符高度Ｍ、字符宽度Ｎ；　　　　基本特征平面分块参数ｕ↓［０］、ｖ↓［０］、ｕ↓［１］、ｖ↓［１］，其中　　　　ｕ↓［０］为基本特征平面中子区域的高度，　　　　ｖ↓［０］为基本特征平面中子区域的宽度，　　　　ｕ↓［１］为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数，　　　　ｖ↓［１］为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数；　　　　原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈（０，１）；　　　　特征变换时ＬＤＡ截取维数ｒ；　　　　第２步：字符样本的采集　　　　第２．１步：用图像采集设备扫描输入多字体多字号的印刷体蒙古文的文本，利用已有算法进行去噪声、二值化等必要的预处理；　　　　第２．２步：对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符，再对每个字符的图像标定其对应的正确的字符内码，然后把相同字符类别对应的原始字符图像提取出来，保存为用以训练和测试的单字样本集；　　　　第２．３步：定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息，保存标定结果，形成字符类别预分类信息集；它依次含有以下步骤：　　　　第２．３．１步：形成字符空间区域信息，用ＺＩ表示：　　　　用文本行的基线Ｂａｓｅｌｉｎｅ将字符所占据的空间区域在水平方向上分为三个区，从左到右依次为：基线左方的左侧区域Ｌｅｆｔ　　Ｚｏｎｅ、基线所在的基准区域Ｂａｓｅ　　Ｚｏｎｅ、基线右方的右侧区域Ｒｉｇｈｔ　　Ｚｏｎｅ；　　　　检测输入字符χ在三个空间区域中的分布情况，根据χ占据的区域，给ＺＩ赋值如下：　　　　若χ仅占据左侧区域和基准区域，则ＺＩ＝０；　　　　若χ同时占据左侧区域、基准区域和右侧区域，则ＺＩ＝１；　　　　第２．３．２步：形成字符形式信息，用ＦＩ表示：　　　　蒙古文字符集中的基本字母在实际文本中表现为４种字符形式：首写形式、中间形式、尾写形式、单写形式；输入字符χ必定为这４种字符形式中的一种，依据χ与其左右字符的连接关系判断它的形式信息；　　　　若χ在其上侧和下侧均不与其它字符直接相连，则χ为单写形式字符，令ＦＩ＝０；　　　　若χ在其上侧不与其它字符直接相连，而在其下侧与其它字符直接相连，则χ为首写形式字符，令ＦＩ＝１；　　　　若χ在其上侧和下侧均与其它字符直接相连，则χ为中间形式字符，令ＦＩ＝２；　　　　若χ在其上侧与其它字符直接相连，而在其下侧不与其它字符直接相连，则χ为尾写形式字符，令ＦＩ＝３；　　　　第２．３．３步：依据同一字符类别的不同单字样本的预分类信息相一致的准则对属于各字符类别的单字样本的预分类信息进行检查纠错后保存起来，形成字符类别预分类信息集；　　　　第３步：字符类别子集的划分　　　　设待处理字符全集为Ω＝｛ω↓［１］，ω↓［２］，…，ω↓［ｃ］｝；　　　　将第２．３步得到的字符类别预分类信息，用一个向量Ｉ↓［ＰＣ］↑［ω↓［ｍ］］＝［ＺＩ，ＦＩ］↑［Ｔ］表示，ｍ＝１，２，…，ｃ；依据Ｉ↓［ＰＣ］↑［ω↓［ｍ］］将Ω划分成２×４个字符类别子集Ω↓［ｋ］，ｋ＝１，２，…，８，Ω↓［ｋ］包含的字符类别数为ｃ↓［ｋ］，使　　　　Ω↓［ｍ］∩Ω↓［ｎ］＝φ，ｍ≠ｎ，　　　　Ω＝＊Ω↓［ｋ］，　　　　＊ｃ↓［ｋ］＝ｃ；　　　　其中φ表示空集；由以上划分得　　　　＊ω↓［ｌ］，ω↓［ｎ］∈Ω↓［ｋ］，Ｉ↓［ＰＣ］↑［ω↓［ｌ］］≡Ｉ↓［ＰＣ］↑［ω↓［ｎ］］　　　　若用Ｉ↓［ＰＣ］↑［Ω↓［ｋ］］表示Ω↓［ｋ］中各字符类别子集的共同的预分类信息向量，则Ω↓［ｋ］表示为：　　　　Ω↓［ｋ］＝｛ω↓［ｍ］｜ω↓［ｍ］∈Ω，Ｉ↓［ＰＣ］↑［ω↓［ｍ］］＝Ｉ↓［ＰＣ］↑［Ω↓［ｋ］］｝，ｋ＝１，２，…，８　　　　第４步：特征提取　　　　第４．１步：象素特征分配，它依次含有以下步骤：　　　　第４．１．１步：　　　　设原始二值字符图像为：　　　　＊＊＊　　　　其中Ｗ为原始二值字符图像宽度，　　　　Ｈ为原始二值字符图像高度，　　　　Ｂ（ｉ，ｊ）为图像位于第ｉ行、第ｊ列的象素点的值，ｉ＝０，１，…，Ｈ－１，ｊ＝０，１，…，Ｗ－１；　　　　用双线性插值方法对［Ｂ（ｉ，ｊ）］↓［Ｈ×Ｗ］进行归一化处理得到高度为Ｍ、宽度为Ｎ的归一化字符点阵图像：　　　　＊＊＊　　　　第４．１．２步：　　　　设字符图

相关热词： 印刷体蒙古文字符识方法

印刷体蒙古文字符识别方法
来源：互联网发布日期：2011-09-21 21:38:02 浏览：10507次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

印刷体蒙古文字符识别方法 来源：互联网 发布日期：2011-09-21 21:38:02 浏览：10507次