ITEEDU

Tesseract-ocr的支持平台

Tesseract 已经测试的可以支持的平台如下：

Ubuntu 6.06 (x86/32, x86/64)
Ubuntu 6.10 (x86/32, x86/64)
Windows (x86/32) with Visual C++ Express 2008

当然，还有可能支持其他平台，只是目前还没有得到官方的测试而已。

recent Linux distributions (x86/32, x86/64)
Mac OS X (x86, PPC)

Windows平台测试

在google中下载tesseract-ocr-setup-3.00.exe；chi_sim.traineddata.gz中文支持包。
安装完毕，将中文支持包放入安装目录的tessdata中。
在命令行中操作，进入安装目录，在改目录中事先放入要测试的图片，比如：6.tif；输入命令：tesseract.exe 6.tif 6 –l chi_sim
在该目录下即可出现一个6.txt的文件，内容就是6.tif图片中的数据。
缺陷：速度很慢，8.5Kb的图片，识别完毕，大概需要20s左右。
问题：虽然在windows下边也可以识别jpg文件，但是识别效果极差。
对于tif文件的扫描效果还行。
本想在windows下安装了Visual C++ Express 2008，然后在windows下边进行开发，最后还必须移植到linux下边。而且vs2008较大，安装起来麻烦。后经思考，还是直接在Linux下边直接进行开发，以后移植问题也会较少哦……

Linux平台测试

我在公司的电脑上通过ubuntu-10.04-desktop-i386.iso，安装了双系统，配置完毕系统后，我进入了开发环境的搭建。
在我的理解中，tesseract就是一个C++的可跨平台的源码级工具。它的特点是，在不同的环境下运行该工具，对其源码进行重新编译即可。这一点有些类似于Qt。
所以在linux下边有2肿安装模式：

通过sudo apt-get install命令；
将tesseract源码通过./configuer；Make，make install来完成安装。

测试结果再次表明：

处理只有英文字符的图片时，速度是很快的，几乎在1~2秒左右就完成了；
处理只有汉语字符的图片时，速度就较为慢了，一般在5~6秒左右；
处理英汉混搭的图片时，速度最慢，一般在20秒左右，让人有些灰心……

测试的图片文字都在十几行左右。