求PDF文档的光学字符识别（OCR）软件-字符识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

求PDF文档的光学字符识别（OCR）软件

来源：互联网发布日期：2011-08-29 21:49:06 浏览：9105次

导读：求PDF文档的光学字符识别（OCR）软件 ,国学数典论坛...

comme 发表于 2010-11-24 09:42:56

求PDF文档的光学字符识别（OCR）软件本帖最后由 comme 于 2010-11-24 09:46 编辑

有没有人在用一种光学文字识别软件，该软件可以识别PDF文档的图片，并将识别所得文本写成隐形的PDF文本层？

lijiahao 发表于 2010-11-24 14:56:52

用过一个叫慧视的小软件，识别效果还行。不过好像不能完成楼主说的第2个功能。

芳草何处发表于 2010-11-24 15:35:47

本论坛介绍的ABBYY FineReader 10 即有此功能。

comme 发表于 2010-11-24 15:44:51

本帖最后由 comme 于 2010-11-24 16:02 编辑

我现在准备为 PDF 补丁丁 0.3 开发一个自动生成书签的功能，该功能可以识别文本 PDF 文档的样式，并将符合指定样式的文本生成书签。
如果上述软件识别后的结果文本中有样式差别（例如，对于图片PDF页面的大字标题，生成后的隐形文本也具有比较大字体），那就可以用 PDF 补丁丁 0.3 的新功能自动生成书签。起码可以免却人工制作书签的部分烦恼。

strnghrs 发表于 2010-11-25 08:25:22

Adobe Acrobat 8 Professional

comme 发表于 2010-11-25 08:45:21

本帖最后由 comme 于 2010-11-25 08:52 编辑

ABBYY 和 Adobe 都是恐龙级软件呀。

昨天装了 ABBYY 试用过一下，是可以保留识别前的文本尺寸，但是那个吃内存的劲儿，真符合其恐龙软件的胃口尺寸，处理起来却像蜗牛一样，而且有时候重新保存的 PDF 会走样，看起来和原始文档相差很大。
虽然如此，识别一下还是颇有帮助。

fqma 发表于 2010-11-25 10:41:53

回复 6# comme

我以前试过至少5种以上光学字符识别（OCR）软件，包括ABBYY 和 Adobe等，PDF文本档（不是图片）识别（OCR）效果很好，可以满足你的要求，但是识别速度超慢。

于是我采用DJVU识别（OCR）软件(如Lizardtech Document Express Enterprise，Lizardtech Document Express Editor6.01等)来
识别（OCR）DJVU文本档，识别（OCR）速度很快，效果也很好。

如果兄能搞出DJVU（或PDG）书签自动生成软件，对电子书检索软件（EXE，CHM等）的制作是重大突破！

comme 发表于 2010-11-25 11:19:10

本帖最后由 comme 于 2010-11-25 11:22 编辑

感谢 fqma 兄，但补丁丁只有 PDF 处理功能，冇有 DJVU 或 PDG。

我试用 ABBYY 识别了一个文档，居然无法保存识别后的整个文档为 PDF，说是什么 TTFParser 错误，郁闷。

采真子发表于 2010-11-25 11:55:23

你在网上搜搜CAJViewer 7.02，这是一款自动识别PDF等文档的阅读器，不过识别效果并不是特别理想，也有可能是我的PDF文档不是很清晰的缘故。
我昨天下载了清华紫光OCRTH-OCRv9.0简体中文破解版，用起来还不错，300pdi清晰度的图片，错误率基本上在0.5%以下。不过这个软件不能直接之别pdf\djvu等文件，只能先转换成单个图片然后批量导入才能开始识别；其次也不能进行批量识别，只有一个个的来。相对来说，这个软件还是比较好用的。

comme 发表于 2010-11-25 17:22:51

装了一个 Adobe Acrobat X 试用一下，识别速度比 ABBYY 快，但识别后的文本效果不太理想。图片文档中，本来是相同级别的标题，对应的识别文本尺寸相差不少。基本上没法用来自动生成书签。
用 ABBYY 识别，相同级别标题的文本尺寸比较接近，比较好处理，可惜就是识别速度奇慢，而且保存 PDF 时出现莫名奇妙的 TTFParser 错误。
CAJViewer 可以将字符识别的结果存入 PDF 文档么？回复 10# comme
CAJViewer 可以将字符识别的结果存入 PDF 文档么？
回你这个问题，是可以转成 pdf ！用tinypdf转吧，效果比abbyy生成的pdf要清晰。回复 1# comme

用 ABBYY FineReader 10 Professional Edition 吧！ocr 横行的效果达98%准确，直行文字，效果不佳，有待改良！汉王pdfocr，尚书中文ocr都可以，体积在100M以下，识别率在98%以上本帖最后由 comme 于 2010-11-26 09:10 编辑

CajViewer 没办法将识别的结果写到 PDF 文档里面吧？

汉王pdfocr 连 PDF 里面的一些 TIFF 都打不开，不能用。
识别后可以写入 PDF 并且可以分析抽取标题的，基本只有用 ABBYY。但那东西吃内存快、干活慢的样子真让人讨厌。无法原样保留原始 PDF、必须完全识别文档页面才能保存为 PDF 也让人不爽。

相关热词： 求PDF文档的光学字符识别（OCR）软件

求PDF文档的光学字符识别（OCR）软件
来源：互联网发布日期：2011-08-29 21:49:06 浏览：9105次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

求PDF文档的光学字符识别（OCR）软件 来源：互联网 发布日期：2011-08-29 21:49:06 浏览：9105次