Wednesday, October 15, 2008

Less Paper, Cleaner desk

By 阿杜.Steward
Shanghai


纯HOW-TO Guide,教你把扫描版文件识别成真正电子版。



这几周有个大作业,很多纸质资料要在我的组员之间热情洋溢地传来传去。但是很不绿色环保,搜索起来很麻烦,有些还要person2person传,感觉非常不好。


身为骨灰级的用户,我决定写个OCR 教程。OCR是Optical Character Recognition 的缩写,也就是文字识别技术。

首先,你会发现平时我们接触到的doc,pdf 有两类,

- 一种是电子版,又称soft copy, searchable text 等等
- 另一种是扫描版,本质就是一张图。缺点是文件体积大,清晰度差,不能复制粘贴,不能搜索。

OCR就是能把第二种文件识别出文字,转化为第一种文件的技术。支持OCR的软件很多(eg.Adobe Acrobat,注意不是 Adobe Reader,Evernote,支持中文好的例如汉王,清华紫光等)

Quick Intro

身为骨灰级用户的我推荐最powerful的 Abbyy FineReader
需要准备的测试工具和原材料包括
1)2003年购入的Casio数码相机一台
2)发黄的课本 (
FINANCIAL STATEMENT ANALYSIS (7th Edition) 作者Charles H.Gibson,图书馆有 )。

操作过程很简单,用相机把书页拍成图片即可。用软件转换前可以设置一些参数(例如识别区域等等)。As usual,身为骨灰级用户的我采用一切保持default 值的方法。一页的文档大概15秒内的转换时间。

book_shot_pdf


下载原文档 图片
下载转换后的doc 文档

7 Comentários:

HL said...

呵呵,以前做翻译,Abbyy是必备装备,我还记得那个时候用的是8 ,不知道这么多年过去现在出到几了。。。那时候论坛上人家发这个软件都说:俄罗斯人,除了卡巴,就是这个软件做得好了。友情提示:英文一切OK,其他语言通常要加一个语言包,不然会有乱码。

阿杜.Steward said...

中文估计要来 made in China 的了 ^^

Mr.aa said...

可怜google library班友日日做同样既野……

Mr.aa said...

顺便借地卖下广告,终于开始独立空间既co-administrator生涯~
http://www.imperialcollege.info

阿杜.Steward said...

to Mr.aa,

我刚想说这个!我也想加入.....

阿杜.Steward said...

不是这么可怜吧!!哈哈

reply to

"Anonymous Mr.aa said...

可怜google library班友日日做同样既野……"

YanHui said...

十分有用,谢谢!Steward 你的博客真是太伟大了。刚刚给你发了email :P

Widget By Devils Workshop

  ©i Steward | Notes from a native Chinese student. Template by Dicas Blogger.

TOPO