Less Paper, Cleaner desk
By 阿杜.Steward
Shanghai
纯HOW-TO Guide,教你把扫描版文件识别成真正电子版。
这几周有个大作业,很多纸质资料要在我的组员之间热情洋溢地传来传去。但是很不绿色环保,搜索起来很麻烦,有些还要person2person传,感觉非常不好。
身为骨灰级的用户,我决定写个OCR 教程。OCR是Optical Character Recognition 的缩写,也就是文字识别技术。
首先,你会发现平时我们接触到的doc,pdf 有两类,
- 一种是电子版,又称soft copy, searchable text 等等
- 另一种是扫描版,本质就是一张图。缺点是文件体积大,清晰度差,不能复制粘贴,不能搜索。
OCR就是能把第二种文件识别出文字,转化为第一种文件的技术。支持OCR的软件很多(eg.Adobe Acrobat,注意不是 Adobe Reader,Evernote,支持中文好的例如汉王,清华紫光等)
Quick Intro
身为骨灰级用户的我推荐最powerful的 Abbyy FineReader。
需要准备的测试工具和原材料包括
1)2003年购入的Casio数码相机一台
2)发黄的课本 (FINANCIAL STATEMENT ANALYSIS (7th Edition) 作者Charles H.Gibson,图书馆有 )。
操作过程很简单,用相机把书页拍成图片即可。用软件转换前可以设置一些参数(例如识别区域等等)。As usual,身为骨灰级用户的我采用一切保持default 值的方法。一页的文档大概15秒内的转换时间。
下载原文档 图片
下载转换后的doc 文档
7 Comentários:
呵呵,以前做翻译,Abbyy是必备装备,我还记得那个时候用的是8 ,不知道这么多年过去现在出到几了。。。那时候论坛上人家发这个软件都说:俄罗斯人,除了卡巴,就是这个软件做得好了。友情提示:英文一切OK,其他语言通常要加一个语言包,不然会有乱码。
中文估计要来 made in China 的了 ^^
可怜google library班友日日做同样既野……
顺便借地卖下广告,终于开始独立空间既co-administrator生涯~
http://www.imperialcollege.info
to Mr.aa,
我刚想说这个!我也想加入.....
不是这么可怜吧!!哈哈
reply to
"Anonymous Mr.aa said...
可怜google library班友日日做同样既野……"
十分有用,谢谢!Steward 你的博客真是太伟大了。刚刚给你发了email :P
Post a Comment