在python中使用pytesseract进行简单的OCR

Tesseract是一款由HP实验室开发由Google维护的开源OCR引擎,通过这个引擎我们可以进行简单的OCR任务。

首先安装pytesseract

1
pip install pytesseract

其实python中这个模块只是简单的把这个软件包装了一下,在电脑的临时文件夹中tesseract输出OCR识别出的内容为txt,然后去读取他。在windows下使用时建议用3.05.00dev版,4.00.00dev版出现了点问题,暂时没有研究。
另外还要指定tesseract程序的位置,代码如下:

1
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

还要修改pytesseract.py,将第165行改为:

1
f = open(output_file_name,encoding='utf-8')

如果不指定编码格式为UTF-8的话,读取时会出现错误。

我写了一个小DEMO,能够自动弹出指定的图片,用鼠标点两个点后能自动裁剪出两点框出的区域,并进行识别,代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
from PIL import Image
import pygame
import time
import pytesseract

sourceFileName = "test.jpg"
avatar = Image.open(sourceFileName)
width = avatar.size[0]
highth = avatar.size[1]
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

pygame.init()
screen = pygame.display.set_mode([width,highth])
your_image = pygame.image.load(sourceFileName)
number = 0
position1 = (0,0)
position2 = (0,0)
while 1:
screen.blit(your_image, [0, 0])
for event in pygame.event.get():
if event.type == pygame.QUIT:
exit()
if pygame.mouse.get_pressed()[0]:
position = pygame.mouse.get_pos()
if number == 0:
position1 = position
if number == 1:
position2 = position
pygame.display.set_caption(str(position))
time.sleep(1)
number += 1
if number == 2:
break
pygame.display.flip()

region = (position1[0],position1[1],position2[0],position2[1])
cropImg = avatar.crop(region)
cropImg.save('corp.jpg')
content = pytesseract.image_to_string(cropImg,lang='chi_sim')
print(content)

从google上随便找了个图片
1.jpg
框选整个图片的话,效果如下:
1.png
框选指定的文字的话,效果比较好,比如文件夹这三个字
2.png
能够准确的识别出来
tesseract在识别纯中文或者纯英文时效果不错,遇到中英混合以及各种符号,或者类似及大小写(如O,o,0)时效果较差,建议搭配opencv对图片进行各种裁剪或者直接使用深度学习进行识别。