展会信息港展会大全

维哈柯(汉英)阿(英)印刷文档识别系统
来源:互联网   发布日期:2011-09-16 10:13:41   浏览:9945次  

导读: 作者:未知或未标注文章录入:1成果简介我国西部开发和全球信息化发展迫切需要解决新疆地区维吾尔、哈萨克、柯尔克孜民族文字以及国际上与之相近的阿拉伯文字的文档识别技术难题。由于阿拉伯文体系的字符与汉藏语系、拉丁语系的文字截然不同,连写字符多,字...

  作者:未知或未标注  文章录入:1成果简介 我国西部开发和全球信息化发展迫切需要解决新疆地区维吾尔、哈萨克、柯尔克孜民族文字以及国际上与之相近的阿拉伯文字的文档识别技术难题。由于阿拉伯文体系的字符与汉藏语系、拉丁语系的文字截然不同,连写字符多,字符相似程度高,字符识别难度大;且阿拉伯文体系的文本书写方向为从右向左,实际文档中具有与之相反从左向右的英文或汉字混排,解决双向混排文字的印刷文档识别问题具有重要的学术价值和巨大的应用前景。由清华大学主持研制,并和新疆大学合作开发了维哈柯(汉英)阿(英)印刷文档识别系统。该系统于2004年8月10日通过了教育部组织的技术鉴定。维哈柯(汉英)阿(英)印刷文档识别系统能识别印刷多字体的维哈柯文和阿拉伯文字符,并能识别处理维哈柯文混排汉英或阿拉伯文混排英文的文档,是集版面分析、文本行字切分、识别、双向混排文档图文对照编改等技术于一体的完整的维哈柯文和阿拉伯文文档识别的实用系统。维哈柯(汉英)阿(英)印刷文档识别系统主要技术指标达到了国际领先水平,为维哈柯阿文纸介质文档经扫描识别转化为电子文档提供了有效的工具,将对维哈柯阿文档信息数字化发挥重要的作用。 2技术指标 主要技术内容包括: (1)提出并采用了基于统计识别的、统计和结构相结合的维哈柯阿文字符识别方法,包括非方块多字体维哈柯阿文字母定位和规一化方案、维哈柯阿文字符识别特征的选择和优化方案等。单字符识别率达99.4%以上。 (2)针对连写维哈柯阿文本连写字符没有明确边界及大小的切分困难,提出了基于维哈柯阿文本基线分析的、在候选切分点中寻求最优切分点的字符切分算法,有效地解决了阿拉伯字符形式多种、形状多变、极相似字多、连写字符切分困难的阿拉伯类文字文档识别难题。文本识别率达96%以上。 (3)系统还解决了从右至左书写的维哈柯阿文字与从左至右书写的汉字或英文混排文档的识别问题,通过字符类别辨识,结合汉、英文字识别核心技术,最终完成了实用的高性能维哈柯(汉英)阿(英)印刷文档识别系统。 3合作方式 商谈。 4联系方式 清华大学科技开发部。

 

赞助本站

人工智能实验室

相关热词: 维哈 汉英 印刷文 档识 别系

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港