ITEEDU

Tesseract-ocr的支持平台

站长原创,版权所有ITEEDU,2011-07-01

Tesseract 已经测试的可以支持的平台如下:

  • Ubuntu 6.06 (x86/32, x86/64)
  • Ubuntu 6.10 (x86/32, x86/64)
  • Windows (x86/32) with Visual C++ Express 2008

当然,还有可能支持其他平台,只是目前还没有得到官方的测试而已。

  • recent Linux distributions (x86/32, x86/64)
  • Mac OS X (x86, PPC)

Windows平台测试

在google中下载tesseract-ocr-setup-3.00.exe;chi_sim.traineddata.gz中文支持包。
安装完毕,将中文支持包放入安装目录的tessdata中。
在命令行中操作,进入安装目录,在改目录中事先放入要测试的图片,比如:6.tif;输入命令:tesseract.exe 6.tif 6 –l chi_sim
在该目录下即可出现一个6.txt的文件,内容就是6.tif图片中的数据。
缺陷:速度很慢,8.5Kb的图片,识别完毕,大概需要20s左右。
问题:虽然在windows下边也可以识别jpg文件,但是识别效果极差。
对于tif文件的扫描效果还行。
本想在windows下安装了Visual C++ Express 2008,然后在windows下边进行开发,最后还必须移植到linux下边。而且vs2008较大,安装起来麻烦。后经思考,还是直接在Linux下边直接进行开发,以后移植问题也会较少哦……

Linux平台测试

我在公司的电脑上通过ubuntu-10.04-desktop-i386.iso,安装了双系统,配置完毕系统后,我进入了开发环境的搭建。
在我的理解中,tesseract就是一个C++的可跨平台的源码级工具。它的特点是,在不同的环境下运行该工具,对其源码进行重新编译即可。这一点有些类似于Qt。
所以在linux下边有2肿安装模式:

      • 通过sudo apt-get install命令;
      • 将tesseract源码通过./configuer;Make,make install来完成安装。

测试结果再次表明:

  • 处理只有英文字符的图片时,速度是很快的,几乎在1~2秒左右就完成了;
  • 处理只有汉语字符的图片时,速度就较为慢了,一般在5~6秒左右;
  • 处理英汉混搭的图片时,速度最慢,一般在20秒左右,让人有些灰心……

测试的图片文字都在十几行左右。