基于阿拉伯字符集的印刷体字符识别方法
基于阿拉伯字符集的印刷体字符识别方法,其特征在于,它在对字符对象进行必要预处理后,首先对输入的单个字符进行预分类,将其划分到恰当的字符类别子集中去,然后提取能很好反映字符结构特点的方向特征,在此基础上,利用特征整形、LDA变换和K-L变换提取最具鉴别性的优化特征,把该特征送入MQDF分类器判定字符所属类别;在由图像采集设备和计算机组成的系统中,它依次含有以下步骤: 训练阶段: 第1步:在计算机中设定以下参数: 字符类别总数c; 归一化后字符高度M、字符宽度N; 基本特征平面分块参数u↓[0]、v↓[0]、u↓[1]、v↓[1],其中 u↓[0]为基本特征平面中子区域的高度, v↓[0]为基本特征平面中子区域的宽度, u↓[1]为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数, v↓[1]为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数; 原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈(0,1); 特征变换时LDA截取维数r↓[1]、K-L变换截取维数r↓[2]; 第2步:字符样本的采集 第2.1步:用图像采集设备扫描输入多字体多字号基于阿拉伯字符集的维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文的文本,利用已有算法进行去噪声、二值化等必要的预处理; 第2.2步:对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符,再对每个字符的图像标定其对应的正确的字符内码,然后把相同字符类别对应的原始字符图像提取出来,保存为用以训练和测试的单字样本集; 第2.3步:定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息,保存标定结果,形成字符类别预分类信息集;它依次含有以下步骤: 第2.3.1步:形成字符空间区域信息,用ZI表示: 用文本行的引线Headline和基线Baseline将字符空间区域在垂直方向上分为三个区,从上到下依次为:引线上方的上层区域Upper Zone、基线和引线之间的基准区域Base Zone、基线下方的下层区域Lower Zone; 检测输入字符x在三个空间区域中的分布情况,根据x占据的区域,给ZI赋值如下: 若x仅占据上层区域,则ZI=1; 若x同时占据上层区域和基准区域,则ZI=2; 若x同时占据上层区域、基准区域和下层区域,则ZI=3; 若x仅占据基准区域,则ZI=4; 若x同时占据基准区域和下层区域,则ZI=5; 第2.3.2步:形成字符形式信息,用FI表示: 阿拉伯字符集中的基本字母在实际文本中表现为4种字符形式:首写形式、中间形式、尾写形式、独立形式;输入字符x必定为这4种字符形式中的一种,依据x与其左右字符的连接关系判断它的形式信息: 若x在其右侧不与其它字符直接相连,而在其左侧与其它字符直接相连,则x为首写形式字符,令FI=1; 若x在其右侧和左侧均与其它字符直接相连,则x为中间形式字符,令FI=2; 若x在其右侧与其它字符直接相连,而在其左侧不与其它字符直接相连,则x为尾写形式字符,令FI=3; 若x在其右侧和左侧均不与其它字符直接相连,则x为独立形式字符,令FI=4; 第2.3.3步:形成字符构成部件信息,用CI表示: 对输入字符x进行连通性分析,根据其部件的构成情况分成两类: 若x由主体部件和附加部件两部分组成,则CI=1; 若x仅由一个不可分割的部件构成,则CI=2; 第2.3.4步:依据同一字符类别的不同单字样本的预分类信息相一致的准则对属于各字符类别的单字样本的预分类信息进行检查纠错后保存起来,形成字符类别预分类信息集; 第3步:字符类别子集的划分 设待处理字符全集为Ω={ω↓[1],ω↓[2],…,ω↓[c]}; 将第2.3步得到的字符类别预分类信息,用一个向量I↓[PC]↑[ω↓[m]]=[ZI,FI,CI]↑[T]表示,m=1,2,…,c; 依据I↓[PC]↑[ω↓[m]]将Ω划分成5×4×2个字符类别子集Ω↓[k],k=1,2,…,40,Ω↓[k]包含的字符类别数为c↓[k],使 Ω↓[m]∩Ω↓[n]=*,m≠n, Ω=*Ω↓[k], *c↓[k]=c; 其中*表示空集;由以上划分得 *ω↓[l],ω↓[n]∈Ω↓[k],I↓[PC]↑[ω↓[l]]≡I↓[PC]↑[ω↓[n]] 若用I↓[PC]↑[Ω↓[k]]表示Ω↓[k]中各字符类别子集的共同的预分类信息向量,则Ω↓[k]表示为: Ω↓[k]={ω↓[m]|ω↓[m]∈Ω,I↓[PC]↑[ω↓[m]]=I↓[PC]↑[Ω↓[k]]},k=1,2,…,40 第4步:特征提取 第4.1步:提取字符轮廓,它依次含有以下步骤: 第4.1.1步: 设原始二值字符图像为: *** 其中W为原始二值字符图像宽度, H为原始二值字符图像高度, B(i,j)为图像位于第i行、第j列的象素点的值,i=0,1,…,H-1,j=0,1,…,W-1; 用双线性插值方法对[B(i,j)]↓[H×W]进行归一化处理得到高度为M、宽度为N的归一化字符点阵图像: *** 第4.1.2步: 设字符图像其笔划所对应的点为黑象素点,用“1”表示、背景所对应的点为白象素点,用“0”表示,即: ***