Extrair texto de PDF e arquivos de imagem


Tem um documento em PDF do qual você gostaria de extrair todo o texto? E quanto aos arquivos de imagem de um documento digitalizado que você deseja converter em texto editável? Estes são alguns dos problemas mais comuns que eu vi no local de trabalho ao trabalhar com arquivos.

Neste artigo, vou falar sobre várias maneiras diferentes de tentar extrair texto de um PDF ou de uma imagem. Seus resultados de extração irão variar dependendo do tipo e da qualidade do texto no PDF ou imagem. Além disso, os resultados variam de acordo com a ferramenta usada. Portanto, é melhor experimentar o máximo possível de opções abaixo para obter os melhores resultados.

Extrair texto da imagem ou PDF

A maneira mais simples e rápida de começar é experimentar um serviço online de extração de texto em PDF. Estes são normalmente gratuitos e podem dar-lhe exatamente o que você está procurando, sem ter que instalar nada no seu computador. Aqui estão dois que usei com muito bons a excelentes resultados:

ExtractPDF

extractpdf

ExtractPDF é uma ferramenta gratuita para capturar imagens, texto e fontes de um arquivo PDF. A única limitação é que o tamanho máximo do arquivo PDF é de 10 MB. Isso é um pouco pequeno; então, se você tiver um arquivo maior, tente alguns dos outros métodos abaixo. Escolha seu arquivo e clique no botão Enviar arquivo. Os resultados são normalmente muito rápidos e você deve ver uma prévia do texto quando clicar na aba Texto.

download text

Também é um bom benefício adicional que extrai imagens fora do arquivo PDF também, apenas no caso de você precisar deles! No geral, a ferramenta on-line funciona muito bem, mas encontrei alguns documentos em PDF que me dão uma saída engraçada. O texto foi extraído, mas por algum motivo, haverá uma quebra de linha após cada palavra! Não é um problema enorme para um arquivo PDF curto, mas certamente um problema para arquivos com muito texto. Se isso acontecer com você, tente a próxima ferramenta.

OCR On-line

Online OCR geralmente tendem a funcionar para os documentos que não foram convertidos corretamente com ExtractPDF Por isso, é uma boa ideia experimentar os dois serviços para ver quais deles oferecem uma saída melhor. O OCR on-line também tem alguns recursos mais interessantes que podem ser úteis para qualquer pessoa com um arquivo PDF grande que precise converter apenas o texto em algumas páginas, em vez de todo o documento.

A primeira coisa a fazer é ir à frente e crie uma conta gratuita. É um pouco chato, mas se você não criar a conta gratuita, ela converterá parcialmente o PDF em vez do documento inteiro. Além disso, em vez de poder carregar apenas um documento de 5 MB, você pode enviar até 100 MB por arquivo com uma conta.

online ocr

Primeiro , escolha um idioma e escolha o tipo de formato de saída desejado para o arquivo convertido. Você tem algumas opções e pode escolher mais de uma, se quiser. Em documento de várias páginas, você pode selecionar números de páginae escolher apenas as páginas que deseja converter. Então você seleciona o arquivo e clica em Converter!

online ocr docs

Após a conversão, você será levado à seção Documentos (se estiver logado), onde você poderá ver quantas páginas livres disponíveis você ainda tem e links para baixar seus arquivos convertidos. Parece que você tem apenas 25 páginas gratuitas por dia, portanto, se precisar de mais do que isso, terá que esperar um pouco ou comprar mais páginas.

OCR on-line fez um excelente trabalho ao converter meus PDFs porque foi capaz de manter o layout real do texto. No meu teste, peguei um documento do Word que usava marcadores, tamanhos de fonte diferentes, etc. e os converti para um PDF. Em seguida, usei o OCR on-line para convertê-lo de volta no formato do Word e ele era aproximadamente 95% igual ao original. Isso é bastante impressionante para mim.

Além disso, se você estiver procurando converter uma imagem em texto, o Online OCR pode fazer isso tão facilmente quanto extrair texto de arquivos PDF.

Gratuito OCR on-line

Já que estamos falando de imagem para texto OCR, deixe-me mencionar outro bom site que funciona muito bem em imagens. OCR on-line gratuito foi muito bom e muito preciso ao extrair texto das minhas imagens de teste. Eu tirei algumas fotos do meu iPhone de páginas de livros, panfletos, etc e fiquei surpreso com o quão bem ele foi capaz de converter o texto.

free online ocr

Escolha seu arquivo e clique no botão Upload. Na tela seguinte, há algumas opções e uma prévia da imagem. Você pode cortá-lo se não quiser fazer o OCR. Em seguida, basta clicar no botão OCR e o texto convertido aparecerá abaixo da visualização da imagem. Ele também não tem nenhuma limitação, o que é realmente bom.

Além dos serviços on-line, há dois conversores PDF freeware que quero mencionar no caso de você precisar de um software sendo executado localmente no seu computador para executar as conversões. Com os serviços on-line, você sempre precisará de uma conexão com a Internet e isso pode não ser possível para todos. No entanto, percebi que a qualidade das conversões dos programas freeware era significativamente pior do que a dos sites.

Extrator de Texto A-PDF

Extrator de Texto A-PDF é freeware que faz um bom trabalho ao extrair texto de arquivos PDF. Depois de baixá-lo e instalá-lo, clique no botão Abrir para escolher o arquivo PDF. Em seguida, clique em Extrair texto para iniciar o processo.

apdf extractor

Ele perguntará a você um local para armazenar o arquivo de saída de texto e começará a extrair . Você também pode clicar no botão Opção, que permite escolher apenas algumas páginas para extrair e o tipo de extração. A segunda opção é interessante porque extrai o texto em diferentes layouts e vale a pena tentar todos os três para ver qual deles oferece a melhor saída.

Piloto PDF2Text

Piloto PDF2Text faz um bom trabalho de extrair texto. Não tem opções. você acabou de adicionar arquivos ou pastas, converter e esperar pelo melhor. Funcionou bem em alguns PDFs, mas para a maioria deles, havia vários problemas.

pdf2text

Basta clicar em Adicionar arquivos e, em seguida, clicar em >Converter. Quando a conversão estiver concluída, clique em Browse para abrir o arquivo. Sua milhagem varia de acordo com esse programa, por isso, não espere muito.

Além disso, vale a pena mencionar que, se você estiver em um ambiente corporativo ou puder obter uma cópia do Adobe Acrobat do trabalho, poderá realmente obter resultados muito melhores. O Acrobat obviamente não é gratuito, mas tem opções para converter PDF para Word, Excel e HTML. Também faz o melhor trabalho de manter a estrutura do documento original e converter textos complicados.

Como extrair textos de imagens e PDFs escaneados

Postagens relacionadas:


13.11.2014