Autor Tópico: OCR Tesseract e gscan2pdf  (Lida 1530 vezes)

Offline olinto

  • Usuário Ubuntu
  • *
  • Mensagens: 139
    • Ver perfil
OCR Tesseract e gscan2pdf
« Online: 11 de Dezembro de 2008, 00:47 »
Olá,

Segui diversas dicas e instalei o ocr tesseract e o gscan2pdf.

Minha intenção é passar para texto as tabelas de uns documentos que tenho em pdf.

Abri o pdf no Gimp, selecionei a tabela e salvei como tif.

Abri o gscan2pdf, importei a imagem e selecionei OCR indicando a língua português.

Tudo que foi dado foi:
ÉE CE I 2 E 5 E
l.II'\IIII)A;I:)Eî II)A; îî ISE ÉQÇÃ
È Éê;5 I I_

Esta é a mesma saída de quando uso o tesseract pela linha de comando.

Alguém tem idéia do que possa estar acontecendo?

Obrigado.

Antônio



Antônio Olinto
Linux User 455618
Ubuntu User 31203