多字体多字号印刷体藏文字符识别方法-字符识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：多字体多字号印刷体藏文字符识别方法，其特征在于，提出了针对属于非方块字的印刷体藏文字符特点的归一化...

多字体多字号印刷体藏文字符识别方法

多字体多字号印刷体藏文字符识别方法，其特征在于，提出了针对属于非方块字的印刷体藏文字符特点的归一化方案：将字符图像以基线，即上平线，为分界点分解成互不交叠的两个子图像，对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次Ｂ样条函数插值的大小归一化方法；提取能充分反映藏文字符组成信息的四方向线素特征，利用线性鉴别分析ＬＤＡ压缩降维后得到紧凑的字符特征向量；采用基于置信度分析的粗、细两级分类策略进行字符类别的判决，粗、细分类器分别采用带偏差的欧氏距离ＥＤＤ和修正的二次鉴别函数ＭＱＤＦ；在由图像采集设备和计算机组成的系统中，它依次含有以下步骤：　　　　（１）设定：　　　　（１．１）本发明处理的藏文字符类别总数ｃ＝５９２；　　　　（１．２）归一化后字符宽度Ｍ、高度Ｎ；　　　　位置归一化参数β；　　　　（１．３）提取方向线素特征时，划分的子区域宽度Ｍ↓［０］、高度Ｎ↓［０］；　　　　子区域中各方块的特征向量对整个子区域特征向量的加权系数α↓［Ａ］，α↓［Ｂ］，α↓［Ｃ］，α↓［Ｄ］；　　　　（１．４）粗分类器ＥＤＤ中的参数Ｃ，θ↓［ｋ］，γ↓［ｋ］，其中ｋ＝１，２，…，５９２；　　　　（１．５）置信度阈值Ｃｏｎｆ↓［ＴＨ］；　　　　（２）字符样本的采集　　　　通过扫描仪向计算机输入印有多字体多字号藏文字符的文本，利用已有方法进行除噪声、二值化等必要预处理后，将藏文文本进行切分以分离单个字符，对每个字符的图像标定其对应的正确的字符的内码，由此完成用以训练和测试的藏文字符单字样本的采集，建立训练样本数据库；　　　　（３）归一化处理，包含字符位置和大小的归一化　　　　（３．１）定位单个藏文字符的基线位置　　　　设原始字符图像为［Ｆ（ｉ，ｊ）］↓［Ｗ×Ｈ］，　　　　其中Ｗ为图像宽度，Ｈ为图像高度，图像位于第ｉ行第ｊ列的象素点的值为Ｆ（ｉ，ｊ），ｉ＝１，２，…，Ｈ，ｊ＝１，２，…，Ｗ，　　　　计算字符图像的水平投影Ｖ（ｉ），ｉ＝１，２，…，Ｈ为：　　　　Ｖ（ｉ）＝＊Ｆ（ｉ，ｊ），　　　　则基线所在位置的纵坐标值Ｐ↓［Ｉ］为：　　　　Ｐ↓［Ｉ］＝ａｒｇｍ＊ｘ（Ｖ（ｉ）－Ｖ（ｉ－ｌ）），ｉ＝２，３，…，Ｈ；　　　　（３．２）以基线为分界点将输入图像分离成两个子图像　　　　［Ｆ（ｉ，ｊ）］↓［Ｗ×Ｈ］可以看作两个子图像［Ｆ↓［１］（ｉ，ｊ）］↓［Ｗ×Ｈ↓［１］］、［Ｆ↓［２］（ｉ，ｊ）］↓［Ｗ×Ｈ↓［２］］的纵向拼接，　　　　其中［Ｆ↓［１］（ｉ，ｊ）］↓［Ｗ×Ｈ↓［１］］为基线以上部分，即上元音部分；［Ｆ↓［２］（ｉ，ｊ）］↓［Ｗ×Ｈ↓［２］］为基线以下部分，两者没有交叠而是纵向组合在一起合成［Ｆ（ｉ，ｊ）］↓［Ｗ×Ｈ］，且Ｈ↓［１］＋Ｈ↓［２］＝Ｈ，由Ｐ↓［Ｉ］和字符顶部的纵坐标的差值可确定出Ｈ↓［１］的大小；　　　　对应的，归一化后的目标字符图像［Ｇ（ｉ，ｊ）］↓［Ｍ×Ｎ］也可以看作两个子图像［Ｇ↓［１］（ｉ，ｊ）］↓［Ｍ×Ｎ↓［１］］、［Ｇ↓［２］（ｉ，ｊ）］↓［Ｍ×Ｎ↓［２］］的纵向拼接，　　　　其中Ｍ为目标图像的宽度，Ｎ为图像高度；［Ｇ↓［１］（ｉ，ｊ）］↓［Ｍ×Ｎ↓［１］］为基线以上部分图像，即上元音部分；［Ｇ↓［２］（ｉ，ｊ）］↓［Ｍ×Ｎ↓［２］］为基线以下部分；两者也没有交叠而是纵向组合成［Ｇ（ｉ，ｊ）］↓［Ｍ×Ｎ］，且设定Ｎ↓［１］＝Ｎ／４，Ｎ↓［２］＝３Ｎ／４；　　　　（３．３）位置归一化参考点Ｕ↓［ｋ］（ｕ↓［Ｉｋ］，ｕ↓［Ｊｋ］），ｋ＝１，２的选择　　　　［Ｆ↓［ｋ］（ｉ，ｊ）］↓［Ｗ×Ｈ↓［ｋ］］，ｋ＝１，２重心和外边框中心分别为Ａ↓［ｋ］（ａ↓［Ｉｋ］，ａ↓［Ｊｋ］），ｋ＝１，２和Ｂ↓［ｋ］（ｂ↓［Ｉｋ］，ｂ↓［Ｊｋ］），ｋ＝１，２　　　　其中　　　　＊＊＊　　　　则Ｕ↓［ｋ］（ｕ↓［Ｉｋ］，ｕ↓［Ｊｋ］），ｋ＝１，２取介于Ａ↓［ｋ］（ａ↓［Ｉｋ］，ａ↓［Ｊｋ］），ｋ＝１，２与Ｂ↓［ｋ］（ｂ↓［Ｉｋ］，ｂ↓［Ｊｋ］），ｋ＝１，２之间的一点，即：　　　　＊＊＊　　　　其中β为常数且０≤β≤１；　　　　移动输入图像点阵，使该参考点，位于目标点阵［Ｇ↓［ｋ］（ｉ，ｊ）］↓［Ｍ×Ｎ↓［ｋ］］，ｋ＝１，２的几何中心，从而完成输入字符的位置归一化；　　　　（３．４）大小归一化　　　　因［Ｆ↓［ｋ］（ｉ，ｊ）］↓［Ｗ×Ｈ↓［ｋ］］，ｋ＝１，２与［Ｇ↓［ｋ］（ｉ，ｊ）］↓［Ｍ×Ｎ↓［ｋ］］，ｋ＝１，２之间的关系为：　　　　Ｇ↓［ｋ］（ｉ，ｊ）＝Ｆ↓［ｋ］（ｉ／ｒ↓［ｉ］，ｊ／ｒ↓［ｊ］），ｋ＝１，２，　　　　其中ｒ↓［ｉ］和ｒ↓［ｊ］分别为ｉ和ｊ方向的尺度变换因子：ｒ↓［ｉ］＝Ｎ↓［ｋ］／Ｈ↓［ｋ］，ｒ↓［ｊ］＝Ｍ／Ｗ；采用三次Ｂ样条函数进行插值运算；　　　　　对于给定（ｉ，ｊ），令：　　　　＊＊＊　　　　其中：＊＊＊，［·］为取整函数；　　　　插值过程可表示为：　　　　Ｇ↓［ｋ］（ｉ，ｊ）＝Ｆ↓［ｋ］（ｐ↓［０］＋Δ↓［ｐ］，ｑ↓［０］＋Δ↓［ｑ］）＝＊Ｆ↓［ｋ］（ｐ↓［０］＋ｍ，ｑ↓［０］＋ｌ）Ｒ↓［Ｂ］（ｍ－Δ↓［ｐ］）Ｒ↓［Ｂ］（－（ｌ－Δ↓［ｑ］）），　　　　式中的Ｒ↓［Ｂ］（ｚ）为三次Ｂ样条函数：　　　　Ｒ↓［Ｂ］（ｚ）＝１／６［（ｚ＋２）↑［３］Ｗ（ｚ＋２）－４（ｚ＋１）↑［３］Ｗ（ｚ＋１）＋６ｚ↑［３］Ｗ（ｚ）－４（ｚ－１）↑［３］Ｗ（ｚ－１）］，　　　　其中Ｗ（ｚ）为阶跃函数，＊＊＊；　　　　（４）提取藏文字符的四方向线素特征　　　　（４．１）字符轮廓提取　　　　扫描整个字符点阵，对于某个位置的黑象素，若它的８邻域中的黑象素和背景象素的个数均大于０，则保留该黑象素，否则，将该黑象素设为背景象素；这样，得到归一化后的字符图像［Ｇ（ｉ，ｊ）］↓［Ｍ×Ｎ］的轮廓图像［Ｇ′（ｉ，ｊ）］↓［Ｍ×Ｎ］；　　　　（４．２）方向线素特征的形成　　　　首先，对于字符轮廓点阵［Ｇ′（ｉ，ｊ）］↓［Ｍ×Ｎ］中的每一个黑象素（ｉ，ｊ），根据它与相邻的另外两个黑象素的之间的位置关系，赋予它横、竖、撇、捺四种线素，并记为一个４维向量Ｘ（ｉ，ｊ）＝（ｘ↓［ｖ］，ｘ↓［ｋ］，ｘ↓［ｐ］，ｘ↓［ｏ］）↑［Ｔ］；　　　　将整个大小为Ｍ×Ｎ的字符轮廓图像［Ｇ′（ｉ，ｊ）］↓［Ｍ×Ｎ］均匀划分为（２Ｍ／Ｍ↓［０］－１）×（２Ｎ／Ｎ↓［０］－１）个宽度为Ｍ↓［０］、高度为Ｎ↓［０］的子区域，每个子区域又进一步划分成互相嵌套的、大小依次为（Ｍ↓［０］／４）×（Ｎ↓［０］／４）、（Ｍ↓［０］／２）×（Ｎ↓［０］／２）、（３Ｍ↓［０］／４）×（３Ｎ↓［０］／４）和Ｍ↓［０］×Ｎ↓［０］的Ａ、Ｂ、Ｃ、Ｄ等４个小方块；每个上小方块的特征向量Ｘ↓［Ａ］＝（ｘ↓［ｖ］，ｘ↓［ｋ］，ｘ↓［ｐ］，ｘ↓［ｏ］）↑［Ｔ］、Ｘ↓［Ｂ］＝（ｘ↓［ｖ］，ｘ↓［ｋ］，ｘ↓［ｐ］，ｘ↓［ｏ］）↑［Ｔ］、Ｘ↓［Ｃ］＝（ｘ↓［ｖ］，ｘ↓［ｋ］，ｘ↓［ｐ］，ｘ↓［ｏ］）↑［Ｔ］、Ｘ↓［Ｄ］＝（ｘ↓［ｖ］，ｘ↓［ｋ］，ｘ↓［ｐ］，ｘ↓［ｏ］）↑［Ｔ］表示为该方块内所有黑象素特征向量的和：　　　　Ｘ↓［Ａ］＝＊Ｘ（ｉ，ｊ），　　　　Ｘ↓［Ｂ］＝＊Ｘ（ｉ，ｊ），　　　　Ｘ↓［Ｃ］＝＊Ｘ（ｉ，ｊ），　　　　Ｘ↓［Ｄ］＝＊Ｘ（ｉ，ｊ），　　　　整个子区域的方向线素特征向量Ｘ↓［Ｓ］＝（ｘ↓［ｖ］，ｘ↓［ｋ］，ｘ↓［ｐ］，ｘ↓［ｏ］）↑［Ｔ］由该子区域中各方块特征向量的加权和来表示：　　　　Ｘ↓［Ｓ］＝α↓［Ａ］Ｘ↓［Ａ］＋α↓［Ｂ］Ｘ↓［Ｂ］＋α↓［Ｃ］Ｘ↓［Ｃ］＋α↓［Ｄ］Ｘ↓［Ｄ］，　　　　其中α↓［Ａ］，α↓［Ｂ］，α↓［Ｃ］，α↓［Ｄ］为介于０和１之间的常数；这样，从每个子区域都可以得到一个４维特征向量后，将所有子区域的特征向量按顺序排列在一起组成的表示输入字符的４（２Ｍ／Ｍ↓［０］－１）×（２Ｎ／Ｎ↓［０］－１）维原始方向线素特征向量；　　　　（５）特征变换　　　　设藏文字符类别数为ｃ，第ω类字符的训练样本数为Ｏ↓［ω］，ω＝１，２，…，ｃ，则对该字符类别的训练样本采用上述方法提取四方向线素特征后，得到特征向量集合为｛Ｘ↓［１］↑［ω］，Ｘ↓［２］↑［ω］，…，Ｘ↓［Ｏ↓［ω］］↑［ω］｝，其中Ｘ↓［ｋ］↑［ω］（ｋ＝１，２，…，Ｏ↓［ω］）是４（２Ｍ／Ｍ↓［０］－１）×（２Ｎ／Ｎ↓［０］－１）维向量；　　　　利用ＬＤＡ变换对原始特征压缩如下：　　　　首先计算每个字符类ω（１≤ω≤ｃ）特征向量的中心μ↓［ω］、所有字符类的特征向量的中心μ、类间散度矩阵Ｓ↓［ｂ］和平均类内散度矩阵Ｓ↓［ｗ］：　　　　＊＊＊　　　　Ｓ↓［ｂ］＝＊（μ↓［ω］－μ）（μ↓［ω］－μ）↑［Ｔ］，　　　　Ｓ↓［ｗ］＝＊（Ｘ↓［ｋ］↑［ω］－μ↓［ω］）（Ｘ↓［ｋ］↑［ω］－μ↓［ω］）↑［Ｔ］，　　　　寻找变换矩阵Φ，使得ｔｒ［（Φ↑［Ｔ］Ｓ↓［ｗ］Φ）↑［－１］（Φ↑［Ｔ］Ｓ↓［ｂ］Φ）］达到最大，则ＬＤＡ相应的特征变换为Ｙ＝Φ↑［Ｔ］Ｘ，这里Ｙ是最具判别性的ｄ维特征；　　　　（６）对输入字符所属类别的判断，即对未知类别的字符图像，提取特征，与识别库中已有的数据进行比较，以确定其正确的字符代码；　　　　（６．１）设计分类器　　　　对由ＬＤＡ压缩得到的特征向量Ｙ，计算各字符的均值向量＊（ω＝１，２，…，ｃ）和各字符的特征向量在每一维上的方差σ↓［ｓ］↑［ω］（ω＝１，２，…，ｃ，ｓ＝１，２，…，ｄ），ｄ为Ｙ的维数，　　　　＊＊＊　　　　其中每个藏文字符类别ω（１≤ω≤ｃ）的特征集合为｛Ｙ↓［１］↑［ω］，Ｙ↓［２］↑［ω］，…，Ｙ↓［Ｏ↓［ω］］↑［ω］｝，将各字符的鉴别特征均值向量和各维的方差存入鉴别特征数据库文件中，同时将通过实验得到的分类器的参数存入库文件中；　　　　（６．２）分类判决　　　　对未知类别的输入字符图像，首先进行位置归一化和大小归一化处理，再提取四方向线素特征Ｘ，利用ＬＤＡ线性变换矩阵Φ将原始方向线素特征Ｘ变换成Ｙ＝Φ↑［Ｔ］Ｘ＝（ｙ↓［１］，ｙ↓［２］，…，ｙ↓［ｄ］）↑［Ｔ］，ｄ是变换后特征的维数；　　　　从库文件中读取所有字符类的均值向量＊＊＊，（ω＝１，２，…，ｃ）和各字符类的各维的方差σ↓［ｓ］↑［ω］（ω＝１，２，…，ｃ，ｓ＝１，２，…，ｄ），计算Ｙ到＊的带偏差的欧氏距离Ｄ（Ｙ，＊）：　　　　＊＊＊　　　　其中　　　　＊＊＊　　　　将所有经过计算的Ｄ（Ｙ，＊），ω＝１，２，…，ｃ按照由小到大的顺序重新排序，选出前Ｌ（１≤Ｌ≤ｃ）个距离及其所代表的字符类别码ｅ↓［ｋ］，ｋ＝１，２，…，Ｌ组成粗分类候选集ＣａｎＳｅｔ＝｛（ｅ↓［１］，Ｄ↓［１］），（ｅ↓［２］，Ｄ↓［２］）…，（ｅ↓［Ｌ］，Ｄ↓［Ｌ］）｝，Ｄ↓［１］≤Ｄ↓［２］≤…≤Ｄ↓［Ｌ］；　　　　计算ＣａｎＳｅｔ中首字符的识别置信度Ｃｏｎｆ（ＣａｎＳｅｔ）　　　　Ｃｏｎｆ（ＣａｎＳｅｔ）＝Ｄ↓［２］－Ｄ↓［１］／Ｄ↓［１］，　　　　若Ｃｏｎｆ（ＣａｎＳｅｔ）高于一定的阈值Ｃｏｎｆ↓［ＴＨ］，直接将（ｅ↓［１］，Ｄ↓［１］）作为输入字符的识别结果输出，即认为输入字符属于ｅ↓［１］所对应的字符类别，且识别距离是Ｄ↓［１］；否则，计算Ｙ到ＣａｎＳｅｔ中各内码所对应的字符类别的ＭＱＤＦ鉴别距离Ｑ（Ｙ，＊），ω＝１，２，…，Ｌ：　　　　＊＊＊　　　　若＊＊＊，则该输入字符属于ｅ↓［τ］所对应的字符类别，即＊＊＊。清华大学

多字体多字号印刷体藏文字符识别方法
来源：互联网发布日期：2011-09-26 13:45:44 浏览：10647次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

多字体多字号印刷体藏文字符识别方法 来源：互联网 发布日期：2011-09-26 13:45:44 浏览：10647次