展会信息港展会大全

求PDF文档的光学字符识别(OCR)软件
来源:互联网   发布日期:2011-08-29 21:49:06   浏览:9105次  

导读:求PDF文档的光学字符识别(OCR)软件 ,国学数典论坛...

comme 发表于 2010-11-24 09:42:56

求PDF文档的光学字符识别(OCR)软件 本帖最后由 comme 于 2010-11-24 09:46 编辑

有没有人在用一种光学文字识别软件,该软件可以识别PDF文档的图片,并将识别所得文本写成隐形的PDF文本层?

lijiahao 发表于 2010-11-24 14:56:52

用过一个叫慧视的小软件,识别效果还行。不过好像不能完成楼主说的第2个功能。

芳草何处 发表于 2010-11-24 15:35:47

本论坛介绍的ABBYY FineReader 10 即有此功能。

comme 发表于 2010-11-24 15:44:51

本帖最后由 comme 于 2010-11-24 16:02 编辑

我现在准备为 PDF 补丁丁 0.3 开发一个自动生成书签的功能,该功能可以识别文本 PDF 文档的样式,并将符合指定样式的文本生成书签。
如果上述软件识别后的结果文本中有样式差别(例如,对于图片PDF页面的大字标题,生成后的隐形文本也具有比较大字体),那就可以用 PDF 补丁丁 0.3 的新功能自动生成书签。起码可以免却人工制作书签的部分烦恼。

strnghrs 发表于 2010-11-25 08:25:22

Adobe Acrobat 8 Professional

comme 发表于 2010-11-25 08:45:21

本帖最后由 comme 于 2010-11-25 08:52 编辑

ABBYY 和 Adobe 都是恐龙级软件呀。

昨天装了 ABBYY 试用过一下,是可以保留识别前的文本尺寸,但是那个吃内存的劲儿,真符合其恐龙软件的胃口尺寸,处理起来却像蜗牛一样,而且有时候重新保存的 PDF 会走样,看起来和原始文档相差很大。
虽然如此,识别一下还是颇有帮助。

fqma 发表于 2010-11-25 10:41:53

回复 6# comme


    我以前试过至少5种以上光学字符识别(OCR)软件,包括ABBYY 和 Adobe等,PDF文本档(不是图片)识别(OCR)效果很好,可以满足你的要求,但是识别速度超慢。

于是我采用DJVU识别(OCR)软件(如Lizardtech Document Express Enterprise,Lizardtech Document Express Editor6.01等)来
识别(OCR)DJVU文本档,识别(OCR)速度很快,效果也很好。

如果兄能搞出DJVU(或PDG)书签自动生成软件,对电子书检索软件(EXE,CHM等)的制作是重大突破!

comme 发表于 2010-11-25 11:19:10

本帖最后由 comme 于 2010-11-25 11:22 编辑

感谢 fqma 兄,但补丁丁只有 PDF 处理功能,冇有 DJVU 或 PDG。

我试用 ABBYY 识别了一个文档,居然无法保存识别后的整个文档为 PDF,说是什么 TTFParser 错误,郁闷。

采真子 发表于 2010-11-25 11:55:23

你在网上搜搜CAJViewer 7.02,这是一款自动识别PDF等文档的阅读器,不过识别效果并不是特别理想,也有可能是我的PDF文档不是很清晰的缘故。
我昨天下载了清华紫光OCRTH-OCRv9.0简体中文破解版,用起来还不错,300pdi清晰度的图片,错误率基本上在0.5%以下。不过这个软件不能直接之别pdf\djvu等文件,只能先转换成单个图片然后批量导入才能开始识别;其次也不能进行批量识别,只有一个个的来。相对来说,这个软件还是比较好用的。

comme 发表于 2010-11-25 17:22:51

装了一个 Adobe Acrobat X 试用一下,识别速度比 ABBYY 快,但识别后的文本效果不太理想。图片文档中,本来是相同级别的标题,对应的识别文本尺寸相差不少。基本上没法用来自动生成书签。
用 ABBYY 识别,相同级别标题的文本尺寸比较接近,比较好处理,可惜就是识别速度奇慢,而且保存 PDF 时出现莫名奇妙的 TTFParser 错误。
CAJViewer 可以将字符识别的结果存入 PDF 文档么? 回复 10# comme
CAJViewer 可以将字符识别的结果存入 PDF 文档么?
回你这个问题,是可以转成 pdf !用tinypdf转吧,效果比abbyy生成的pdf要清晰。 回复 1# comme

用 ABBYY FineReader 10 Professional Edition  吧!ocr 横行的效果达98%准确,直行文字,效果不佳,有待改良! 汉王pdfocr,尚书中文ocr都可以,体积在100M以下,识别率在98%以上 本帖最后由 comme 于 2010-11-26 09:10 编辑

CajViewer 没办法将识别的结果写到 PDF 文档里面吧?

汉王pdfocr 连 PDF 里面的一些 TIFF 都打不开,不能用。
识别后可以写入 PDF 并且可以分析抽取标题的,基本只有用 ABBYY。但那东西吃内存快、干活慢的样子真让人讨厌。无法原样保留原始 PDF、必须完全识别文档页面才能保存为 PDF 也让人不爽。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港