Less Paper, Cleaner desk

Wednesday, October 15, 2008

Less Paper, Cleaner desk

By 阿杜.Steward
Shanghai

纯HOW-TO Guide，教你把扫描版文件识别成真正电子版。

这几周有个大作业，很多纸质资料要在我的组员之间热情洋溢地传来传去。但是很不绿色环保，搜索起来很麻烦，有些还要person2person传，感觉非常不好。

身为骨灰级的用户，我决定写个OCR 教程。OCR是Optical Character Recognition 的缩写，也就是文字识别技术。

首先，你会发现平时我们接触到的doc,pdf 有两类，

- 一种是电子版,又称soft copy, searchable text 等等
- 另一种是扫描版，本质就是一张图。缺点是文件体积大，清晰度差，不能复制粘贴，不能搜索。

OCR就是能把第二种文件识别出文字，转化为第一种文件的技术。支持OCR的软件很多(eg.Adobe Acrobat,注意不是 Adobe Reader,Evernote，支持中文好的例如汉王，清华紫光等)

Quick Intro

身为骨灰级用户的我推荐最powerful的 Abbyy FineReader。
需要准备的测试工具和原材料包括
1）2003年购入的Casio数码相机一台
2）发黄的课本 (FINANCIAL STATEMENT ANALYSIS (7th Edition) 作者Charles H.Gibson，图书馆有 )。

操作过程很简单，用相机把书页拍成图片即可。用软件转换前可以设置一些参数（例如识别区域等等）。As usual，身为骨灰级用户的我采用一切保持default 值的方法。一页的文档大概15秒内的转换时间。

下载原文档图片
 下载转换后的doc 文档

7 Comentários:

Anonymous said...: 呵呵，以前做翻译，Abbyy是必备装备，我还记得那个时候用的是8 ，不知道这么多年过去现在出到几了。。。那时候论坛上人家发这个软件都说：俄罗斯人，除了卡巴，就是这个软件做得好了。友情提示：英文一切OK，其他语言通常要加一个语言包，不然会有乱码。; November 1, 2008 at 9:14 PM
阿杜.Steward said...: 中文估计要来 made in China 的了 ^^; November 1, 2008 at 9:21 PM
Anonymous said...: 可怜google library班友日日做同样既野……; November 1, 2008 at 9:42 PM
Anonymous said...: 顺便借地卖下广告，终于开始独立空间既co-administrator生涯～
http://www.imperialcollege.info; November 1, 2008 at 9:43 PM
阿杜.Steward said...: to Mr.aa,

我刚想说这个！我也想加入.....; November 1, 2008 at 9:49 PM
阿杜.Steward said...: 不是这么可怜吧！！哈哈

reply to

"Anonymous Mr.aa said...

可怜google library班友日日做同样既野……"; November 2, 2008 at 12:03 AM
Anonymous said...: 十分有用，谢谢！Steward 你的博客真是太伟大了。刚刚给你发了email ：P; November 2, 2008 at 11:32 PM

Linkbar

Wednesday, October 15, 2008

Less Paper, Cleaner desk

7 Comentários:

About this Blog

Update & Upcoming Content

Update & Upcoming Content

Search isteward

Recent Comments

Recent Posts

Categories

Blog Archive

Stay Connected with Readers

Live Traffic

Disclaimer

Friends Blogs

Consultants' Blogs

Bankers' Blogs