光学字符识别(OCR)的技术应用二 2005年06月22日 中国包装网 作者:
2.汉字识别应用
汉字已有数千年的历史,也是世界上使用人数最多的文字。然而,汉字是非字母化、非拼音化的文字,因此,快速高效地将汉字输人计算机,是信息处理的一个关键问题。人工键入速度慢而且劳动强度大,对于大量已有的文档资料,汉字自动识别输人就成为了最佳的选择。它在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。
对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。印刷汉字识别的过程主要包括:
扫描输人文本图像——图像的预处理-图像版面的分析