Você está na página 1de 3

Tutorial - Classe Wrapper PyTesser - Tesseract

Grupo PyOCR - Engenharia de Software 2


Pr-requisito: interpretador Python instalado. Obs.: Testamos a PyTesser com a verso do Python 2.7.3. Dependncias da classe: PIL A PIL necessria para trabalhar com imagens em memria. Voc pode fazer o download da PIL no link abaixo: http://www.pythonware.com/products/pil/ A verso da PIL testada foi a 1.1.7 para win32 para Python 2.7 Link direto: http://effbot.org/downloads/PIL-1.1.7.win32-py2.7.exe A instalao da PIL no oferece dificuldades, para instalar basta clicar duas vezes no executvel e seguir os passos do instalador. Para fazer o download do PyTesser basta ir no link abaixo: http://code.google.com/p/pytesser/ Basta ir na aba de Downloads e clicar no arquivo ZIP:

Todos os arquivos que voc necessita para usar o tesseract esto nesse arquivo ZIP. A nica coisa que no vem mesmo a PIL que j foi discutida.

Eu precisei alterar uma coisinha no arquivo pytesser.py, pois eu estava tendo problemas com caminho, quando chamava de outra pasta. A alterao pequena, veja abaixo o arquivo original:

Essa linha 14 eu comentei, importei o mdulo os e logo acima da linha que comentei fiz: tesseract_exe_name = os.path.abspath(os.path.dirname(__file__) + '/tesseract.exe' ) O novo arquivo ficou:

Agora iremos testar a classe PyTesser. Para testar, coloquei no mesmo diretrio uma pasta chamada tesseract que onde iro ficar os arquivos que estavam dentro do ZIP pytesser que foi feito o download. Criei tambm uma pasta chamada imagens e um arquivo chamado teste_ocr.py. Dentro da pasta imagens coloquei uma imagem chamada teste.png, veja:

Dentro da pasta tesseract, coloquei um arquivo chamado ocr.py, segue o cdigo:

Esse arquivo, basta obter uma instncia de OCR e executar passando o diretrio da imagem. Depois disso basta obter o texto da imagem atravs da funo getTexto(). Por ltimo, temos o arquivo teste_ocr.py, o cdigo segue abaixo:

Veja que na linha 1 foi importado de tesseract (eu havia criado uma pasta tesseract) o mdulo ocr (eu criei um arquivo chamado ocr.py e coloquei dentro da pasta tesseract). Linha 4: obtive uma instncia de OCR(). Linha 5: chamei a funo executar() passando o diretrio da imagem. A imagem teste.png est na pasta imagens. Linha 6: utilizei a funo print() para exibir os dados retornados da funo getTexto().

Você também pode gostar