基于阿拉伯字符集的印刷体字符识别方法-字符识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

基于阿拉伯字符集的印刷体字符识别方法

来源：互联网发布日期：2011-09-26 13:45:37 浏览：9929次

导读：基于阿拉伯字符集的印刷体字符识别方法，其特征在于，它在对字符对象进行必要预处理后，首先对输入的单个...

基于阿拉伯字符集的印刷体字符识别方法

基于阿拉伯字符集的印刷体字符识别方法，其特征在于，它在对字符对象进行必要预处理后，首先对输入的单个字符进行预分类，将其划分到恰当的字符类别子集中去，然后提取能很好反映字符结构特点的方向特征，在此基础上，利用特征整形、ＬＤＡ变换和Ｋ－Ｌ变换提取最具鉴别性的优化特征，把该特征送入ＭＱＤＦ分类器判定字符所属类别；在由图像采集设备和计算机组成的系统中，它依次含有以下步骤：　　　　训练阶段：　　　　第１步：在计算机中设定以下参数：　　　　字符类别总数ｃ；　　　　归一化后字符高度Ｍ、字符宽度Ｎ；　　　　基本特征平面分块参数ｕ↓［０］、ｖ↓［０］、ｕ↓［１］、ｖ↓［１］，其中　　　　ｕ↓［０］为基本特征平面中子区域的高度，　　　　ｖ↓［０］为基本特征平面中子区域的宽度，　　　　ｕ↓［１］为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数，　　　　ｖ↓［１］为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数；　　　　原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈（０，１）；　　　　特征变换时ＬＤＡ截取维数ｒ↓［１］、Ｋ－Ｌ变换截取维数ｒ↓［２］；　　　　第２步：字符样本的采集　　　　第２．１步：用图像采集设备扫描输入多字体多字号基于阿拉伯字符集的维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文的文本，利用已有算法进行去噪声、二值化等必要的预处理；　　　　第２．２步：对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符，再对每个字符的图像标定其对应的正确的字符内码，然后把相同字符类别对应的原始字符图像提取出来，保存为用以训练和测试的单字样本集；　　　　第２．３步：定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息，保存标定结果，形成字符类别预分类信息集；它依次含有以下步骤：　　　　第２．３．１步：形成字符空间区域信息，用ＺＩ表示：　　　　用文本行的引线Ｈｅａｄｌｉｎｅ和基线Ｂａｓｅｌｉｎｅ将字符空间区域在垂直方向上分为三个区，从上到下依次为：引线上方的上层区域Ｕｐｐｅｒ　　Ｚｏｎｅ、基线和引线之间的基准区域Ｂａｓｅ　　Ｚｏｎｅ、基线下方的下层区域Ｌｏｗｅｒ　　Ｚｏｎｅ；　　　　检测输入字符ｘ在三个空间区域中的分布情况，根据ｘ占据的区域，给ＺＩ赋值如下：　　　　若ｘ仅占据上层区域，则ＺＩ＝１；　　　　若ｘ同时占据上层区域和基准区域，则ＺＩ＝２；　　　　若ｘ同时占据上层区域、基准区域和下层区域，则ＺＩ＝３；　　　　若ｘ仅占据基准区域，则ＺＩ＝４；　　　　若ｘ同时占据基准区域和下层区域，则ＺＩ＝５；　　　　第２．３．２步：形成字符形式信息，用ＦＩ表示：　　　　阿拉伯字符集中的基本字母在实际文本中表现为４种字符形式：首写形式、中间形式、尾写形式、独立形式；输入字符ｘ必定为这４种字符形式中的一种，依据ｘ与其左右字符的连接关系判断它的形式信息：　　　　若ｘ在其右侧不与其它字符直接相连，而在其左侧与其它字符直接相连，则ｘ为首写形式字符，令ＦＩ＝１；　　　　若ｘ在其右侧和左侧均与其它字符直接相连，则ｘ为中间形式字符，令ＦＩ＝２；　　　　若ｘ在其右侧与其它字符直接相连，而在其左侧不与其它字符直接相连，则ｘ为尾写形式字符，令ＦＩ＝３；　　　　若ｘ在其右侧和左侧均不与其它字符直接相连，则ｘ为独立形式字符，令ＦＩ＝４；　　　　第２．３．３步：形成字符构成部件信息，用ＣＩ表示：　　　　对输入字符ｘ进行连通性分析，根据其部件的构成情况分成两类：　　　　若ｘ由主体部件和附加部件两部分组成，则ＣＩ＝１；　　　　若ｘ仅由一个不可分割的部件构成，则ＣＩ＝２；　　　　第２．３．４步：依据同一字符类别的不同单字样本的预分类信息相一致的准则对属于各字符类别的单字样本的预分类信息进行检查纠错后保存起来，形成字符类别预分类信息集；　　　　第３步：字符类别子集的划分　　　　设待处理字符全集为Ω＝｛ω↓［１］，ω↓［２］，…，ω↓［ｃ］｝；　　　　将第２．３步得到的字符类别预分类信息，用一个向量Ｉ↓［ＰＣ］↑［ω↓［ｍ］］＝［ＺＩ，ＦＩ，ＣＩ］↑［Ｔ］表示，ｍ＝１，２，…，ｃ；　　　　依据Ｉ↓［ＰＣ］↑［ω↓［ｍ］］将Ω划分成５×４×２个字符类别子集Ω↓［ｋ］，ｋ＝１，２，…，４０，Ω↓［ｋ］包含的字符类别数为ｃ↓［ｋ］，使　　　　　Ω↓［ｍ］∩Ω↓［ｎ］＝＊，ｍ≠ｎ，　　　　Ω＝＊Ω↓［ｋ］，　　　　＊ｃ↓［ｋ］＝ｃ；　　　　　其中＊表示空集；由以上划分得　　　　＊ω↓［ｌ］，ω↓［ｎ］∈Ω↓［ｋ］，Ｉ↓［ＰＣ］↑［ω↓［ｌ］］≡Ｉ↓［ＰＣ］↑［ω↓［ｎ］］　　　　若用Ｉ↓［ＰＣ］↑［Ω↓［ｋ］］表示Ω↓［ｋ］中各字符类别子集的共同的预分类信息向量，则Ω↓［ｋ］表示为：　　　　Ω↓［ｋ］＝｛ω↓［ｍ］｜ω↓［ｍ］∈Ω，Ｉ↓［ＰＣ］↑［ω↓［ｍ］］＝Ｉ↓［ＰＣ］↑［Ω↓［ｋ］］｝，ｋ＝１，２，…，４０　　　　第４步：特征提取　　　　第４．１步：提取字符轮廓，它依次含有以下步骤：　　　　第４．１．１步：　　　　设原始二值字符图像为：　　　　＊＊＊　　　　其中Ｗ为原始二值字符图像宽度，　　　　Ｈ为原始二值字符图像高度，　　　　Ｂ（ｉ，ｊ）为图像位于第ｉ行、第ｊ列的象素点的值，ｉ＝０，１，…，Ｈ－１，ｊ＝０，１，…，Ｗ－１；　　　　用双线性插值方法对［Ｂ（ｉ，ｊ）］↓［Ｈ×Ｗ］进行归一化处理得到高度为Ｍ、宽度为Ｎ的归一化字符点阵图像：　　　　＊＊＊　　　　第４．１．２步：　　　　设字符图像其笔划所对应的点为黑象素点，用“１”表示、背景所对应的点为白象素点，用“０”表示，即：　　　　＊＊＊　　　

相关热词： 基于阿拉伯字符集印刷体字符识方法

基于阿拉伯字符集的印刷体字符识别方法
来源：互联网发布日期：2011-09-26 13:45:37 浏览：9929次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

基于阿拉伯字符集的印刷体字符识别方法 来源：互联网 发布日期：2011-09-26 13:45:37 浏览：9929次