2017-02-13

在python中使用pytesseract进行简单的OCR

Tesseract是一款由HP实验室开发由Google维护的开源OCR引擎，通过这个引擎我们可以进行简单的OCR任务。

首先安装pytesseract

1	pip install pytesseract

其实python中这个模块只是简单的把这个软件包装了一下，在电脑的临时文件夹中tesseract输出OCR识别出的内容为txt，然后去读取他。在windows下使用时建议用3.05.00dev版，4.00.00dev版出现了点问题，暂时没有研究。
另外还要指定tesseract程序的位置，代码如下：

1	pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

还要修改pytesseract.py，将第165行改为:

1	f = open(output_file_name,encoding='utf-8')

如果不指定编码格式为UTF-8的话，读取时会出现错误。

我写了一个小DEMO，能够自动弹出指定的图片，用鼠标点两个点后能自动裁剪出两点框出的区域，并进行识别，代码如下：

from PIL import Image
import pygame
import time
import pytesseract
 
sourceFileName = "test.jpg"
avatar = Image.open(sourceFileName)
width = avatar.size[0]
highth = avatar.size[1]
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
 
pygame.init()
screen = pygame.display.set_mode([width,highth])
your_image = pygame.image.load(sourceFileName)
number = 0
position1 = (0,0)
position2 = (0,0)
while 1:
    screen.blit(your_image, [0, 0])
    for event in pygame.event.get():
        if event.type == pygame.QUIT:
            exit()
    if pygame.mouse.get_pressed()[0]:
        position = pygame.mouse.get_pos()
        if number == 0:
            position1 = position
        if number == 1:
            position2 = position
        pygame.display.set_caption(str(position))
        time.sleep(1)
        number += 1
    if number == 2:
        break
    pygame.display.flip()
 
region = (position1[0],position1[1],position2[0],position2[1])
cropImg = avatar.crop(region)
cropImg.save('corp.jpg')
content = pytesseract.image_to_string(cropImg,lang='chi_sim')
print(content)

从google上随便找了个图片

框选整个图片的话，效果如下：

框选指定的文字的话，效果比较好，比如文件夹这三个字

能够准确的识别出来
tesseract在识别纯中文或者纯英文时效果不错，遇到中英混合以及各种符号，或者类似及大小写（如O，o，0）时效果较差，建议搭配opencv对图片进行各种裁剪或者直接使用深度学习进行识别。