Docling: como transformar PDFs em dados para usar com IA

10 minutos de leitura 13/04/2026 • Atualizado 3 meses atrás 5xp

Se você já tentou usar PDFs em um chatbot ou sistema de RAG, provavelmente esbarrou no mesmo problema: o arquivo parece organizado para humanos, mas chega bagunçado para a IA. Títulos viram texto solto, tabelas quebram, a ordem de leitura se perde e o resultado costuma ser uma recuperação pior, respostas mais fracas e gasto desnecessário de tokens. É justamente nesse cenário que o Docling ganhou espaço. Em março de 2026, o projeto soma cerca de 56,8 mil estrelas no GitHub e se apresenta como uma biblioteca open source voltada a transformar documentos em dados estruturados para fluxos de IA generativa.

É uma biblioteca open source voltada a transformar documentos em dados estruturados para fluxos de IA generativa. Em outras palavras, não é um extrator de texto genérico, mas algo pensado desde o início para esse tipo de pipeline.

O que é o Docling?

O Docling é uma biblioteca Python que converte documentos para uma representação estruturada chamada DoclingDocument. Na prática, isso significa pegar arquivos como PDF, DOCX, PPTX, HTML, planilhas e imagens e transformá-los em um formato mais útil para aplicações de IA. Esse conteúdo pode ser exportado como Markdown, JSON, HTML, texto simples e outros formatos.

O ponto central não é apenas “extrair texto”. O valor do Docling está em preservar o que realmente importa para que a máquina entenda melhor o documento: hierarquia de seções, tabelas, figuras, cabeçalhos, rodapés, bounding boxes, ordem correta de leitura e metadados de proveniência.

Pense assim: a maioria das ferramentas de extração de texto trata um PDF como um bloco linear. O Docling tenta entender o documento como estrutura. Essa diferença tem impacto direto na qualidade do que você entrega para o modelo.

Por que PDFs brutos costumam ser ruins para IA?

Sistemas de RAG funcionam melhor quando o modelo consulta uma base externa confiável antes de gerar a resposta. Em vez de depender apenas do que aprendeu no treino, ele busca trechos relevantes e usa esse contexto para responder.

O problema é que, se a ingestão do documento for ruim, o RAG inteiro fica ruim também.

Quando a estrutura se perde na extração, os chunks ficam piores. Chunks piores geram embeddings que representam mal o conteúdo. E, quando a recuperação traz trechos menos úteis, a resposta final sofre, mesmo que o modelo seja bom.

Não é um problema glamouroso de resolver. No entanto, é justamente aí que a maior parte dos sistemas de RAG falha na prática, muito antes de qualquer discussão sobre qual modelo usar ou qual estratégia de retrieval adotar. O Docling foi desenhado para atacar essa etapa de preparação dos documentos, preservando estrutura e oferecendo chunking nativo quando isso fizer sentido.

O que o Docling faz na prática?

Na prática, o Docling ajuda em pelo menos seis frentes:

Converte documentos para formatos melhores para IA, como Markdown e JSON;
Reconhece estrutura, como títulos, parágrafos e ordem de leitura;
Extrai tabelas com exportação para Markdown, HTML e DataFrame;
Aplica OCR em PDFs escaneados ou baseados em imagem;
Identifica e extrai fórmulas em LaTeX;
Classifica e descreve imagens, gráficos e figuras para uso em pipelines multimodais.

Outro detalhe importante é a variedade de formatos suportados. Além de PDF, tem uma lista a mais de formatos: DOCX, XLSX, PPTX, Markdown, HTML, CSV, imagens como PNG, JPEG, TIFF e WEBP, além de áudio e vídeo em cenários específicos. Para quem constrói agentes ou chatbots que precisam lidar com documentação real de empresas, em que quase nunca tudo está em PDF, isso amplia bastante as possibilidades.

Quer entender melhor por que essa é a ferramenta que o professor Rodrigo usa para alimentar as IAs? Veja o vídeo completo a seguir:

Por que isso é útil para RAG, chatbots e agentes?

Quando você prepara um documento direito, as etapas seguintes ficam mais simples. Um chatbot consulta trechos com melhor contexto. Um sistema de RAG indexa chunks mais coerentes. Um agente navega por seções, tabelas e imagens com menos improviso.

Além disso, como o Docling trabalha com uma representação unificada do documento, fica mais fácil escolher se você quer exportar tudo em Markdown ou operar diretamente sobre o objeto estruturado, dependendo do que o seu caso de uso pede.

Esse encaixe com o ecossistema de IA também aparece nas integrações oficiais. O projeto mantém integração com LangChain e LlamaIndex, e o LangChain mostra o uso do DoclingLoader para carregar documentos já com exportação em Markdown ou em chunks prontos para uso posterior.

Como instalar o Docling

A instalação básica é direta:

pip install docling

pip install docling

Exemplo básico: converter um PDF em Markdown

O uso mais simples do Docling é converter um arquivo e exportar o resultado em Markdown:

from docling.document_converter import DocumentConverter

source = "arquivo.pdf"  # pode ser caminho local ou URL
converter = DocumentConverter()
doc = converter.convert(source).document

markdown = doc.export_to_markdown()
print(markdown)

from docling.document_converter import DocumentConverter

source = "arquivo.pdf"  # pode ser caminho local ou URL
converter = DocumentConverter()
doc = converter.convert(source).document

markdown = doc.export_to_markdown()
print(markdown)

Esse é o tipo de saída que costuma funcionar muito melhor em pipelines de IA do que um texto cru retirado do PDF. Em vez de perder a noção de seções e componentes, o modelo recebe um conteúdo mais legível e mais próximo da estrutura original.

A diferença pode parecer pequena em um documento simples. Em um relatório de 80 páginas, com sumário, seções, subseções e tabelas espalhadas, ela é grande.

Como extrair tabelas de PDFs e levar para o Pandas

Uma das partes mais interessantes do Docling é a extração de tabelas. Isso é muito valioso em relatórios, papers, propostas comerciais, documentos financeiros e materiais técnicos, que são exatamente os tipos de documento que costumam aparecer em projetos reais.

from docling.document_converter import DocumentConverter

result = DocumentConverter().convert("arquivo.pdf")
doc = result.document

for i, table in enumerate(doc.tables):
    df = table.export_to_dataframe(doc)
    print(f"Tabela {i + 1}")
    print(df.head())

from docling.document_converter import DocumentConverter

result = DocumentConverter().convert("arquivo.pdf")
doc = result.document

for i, table in enumerate(doc.tables):
    df = table.export_to_dataframe(doc)
    print(f"Tabela {i + 1}")
    print(df.head())

O método export_to_dataframe() entrega um DataFrame do Pandas pronto. Isso une duas etapas que normalmente ficam separadas em projetos de dados: leitura do documento e tratamento das informações. Você pode usar o Docling para fazer a leitura do PDF e, logo depois, trabalhar os dados com Python, Pandas, visualização ou automações, sem precisar de um pipeline separado para cada coisa.

Pandas Python: Como usar a ferramenta #1 de análise de dados

OCR, fórmulas e imagens: onde o Docling vai além

O Docling também consegue ir além do texto, por exemplo o Docling pode usar:

OCR para PDFs escaneados ou baseados em imagem, com suporte a Tesseract, EasyOCR, RapidOCR e o OCR nativo do macOS.
Reconhecimento de fórmulas com conversão para LaTeX.
Classificação de imagens por tipo, como gráfico, diagrama, assinatura e foto.
Descrição textual de figuras com modelos de visão, para pipelines multimodais.

Isso é muito útil em documentos acadêmicos, relatórios com gráficos e materiais digitalizados, em que boa parte do conteúdo relevante não está no texto corrido.

Na prática, significa que um agente pode não apenas “ler um PDF”, mas entender que determinada parte é uma tabela, que outra é uma fórmula e que uma imagem pode ser um gráfico ou um diagrama. Em sistemas multimodais, esse nível de detalhe melhora bastante a qualidade do grounding. O modelo passa a ter contexto sobre o que está vendo, e não apenas sobre o texto ao redor.

Como extrair texto de imagem com OCR e OpenAI: um guia completo

Como usar o Docling com LangChain

Se a ideia for integrar o Docling a uma pipeline maior, o caminho com LangChain é o melhor caminho:

from langchain_docling.loader import DoclingLoader

loader = DoclingLoader(file_path="arquivo.pdf")
docs = loader.load()

print(docs[0].page_content[:500])

from langchain_docling.loader import DoclingLoader

loader = DoclingLoader(file_path="arquivo.pdf")
docs = loader.load()

print(docs[0].page_content[:500])

O DoclingLoader suporta dois modos principais: exportar cada documento como Markdown ou gerar documentos já fragmentados para uso posterior. Isso reduz bastante o trabalho manual de ingestão em aplicações de RAG. Você não precisa escrever a lógica de chunking do zero se não quiser.

LangChain: o que é, como funciona e como usar com IA em Python

Quais formatos o Docling suporta?

Um dos pontos fortes do Docling é justamente a variedade de formatos de entrada como PDF, DOCX, PPTX, XLSX, HTML, Markdown, imagens e outros tipos, todos convertidos para a mesma representação unificada. Isso facilita a vida de quem precisa montar uma pipeline que lê diferentes tipos de arquivo e entrega tudo em um formato padronizado.

Ou seja: o Docling não é só para PDF. Ele faz ainda mais sentido quando você precisa lidar com documentação real de empresas, em que os arquivos chegam de formas variadas, às vezes Word, às vezes PowerPoint, às vezes um HTML exportado de algum sistema interno.

Vantagens do Docling em relação a abordagens mais simples

É possível extrair texto de PDF com ferramentas mais simples. O problema é que elas resolvem apenas a parte mais superficial. Quando entram em cena tabelas com múltiplas colunas, layout em duas colunas, figuras, fórmulas, OCR e necessidade de preservar hierarquia de leitura, uma extração básica começa a mostrar os limites.

Cuidados antes de usar em produção

Apesar de útil, o Docling não resolve tudo automaticamente. OCR, reconhecimento de tabelas e enriquecimento de fórmulas aumentam o tempo de processamento. Em documentos grandes, vale habilitar apenas o que for necessário para o seu caso.

PDFs escaneados exigem OCR, e isso depende de instalar o backend correto, como Tesseract, EasyOCR ou outro. Antes de colocar qualquer pipeline em produção, teste com os tipos de documento que você usa de verdade. A qualidade da saída varia bastante dependendo do arquivo, da resolução, do layout e do tipo de conteúdo.

Vale a pena aprender Docling?

Se você trabalha com RAG, chatbots, busca semântica ou agentes que precisam consultar documentos reais, sim. Ele resolve um problema que aparece cedo em quase todo projeto desse tipo: transformar arquivos feitos para leitura humana em dados realmente úteis para a IA.

Um bom sistema de IA começa com uma boa preparação dos dados. E, quando a fonte são PDFs, apresentações, páginas HTML, planilhas e documentos escaneados, essa etapa de preparação importa muito mais do que parece.

Onde aprender a construir agentes de IA com Python

Entender o Docling é um bom passo para quem quer trabalhar com RAG, chatbots e agentes de IA. Mas ele é só uma parte do stack.

A Formação Engenheiro de Agentes de IA, da Asimov Academy, foi criada com esse objetivo. Nela, você aprende a programar em Python do zero e a desenvolver sistemas com as principais LLMs do mercado, como ChatGPT, DeepSeek e Claude, além de modelos locais, como Llama e Mistral, e modelos abertos do Hugging Face.

Além dos cursos, a formação inclui projetos avançados construídos passo a passo, para fixar o conhecimento e construir portfólio.

Se o seu objetivo não é apenas entender o que o Docling faz, mas aprender a construir aplicações reais com agentes, essa formação é seu próximo passo.

Formação Engenheiro de Agentes de IA

Domine os frameworks de criação de agentes de IA mais avançados da atualidade e aprenda a transformar qualquer LLM em um agente!

Comece agora

Você também pode gostar:

BLOG

Claude Code em 2026: skills, plugins e como usar

Rebeca Honório • 2 meses atrás

BLOG

IA agêntica: o que é, como funciona e as mudanças na automação

Rebeca Honório • 28 dias atrás

BLOG

As melhores IAs para criar vídeos em 2026: guia completo

Rebeca Honório • 1 mês atrás

BLOG

IA no futebol: o que está mudando o jogo dentro e fora de campo

Rebeca Honório • 14 dias atrás

BLOG

Gemini Spark: agente de IA do Google que trabalha 24h por dia

Rebeca Honório • 1 mês atrás

BLOG

IA para criar sites: as 6 melhores ferramentas (com e sem código)

Rebeca Honório • 2 meses atrás

BLOG

OpenClaw vs Hermes Agent: qual agente de IA escolher em 2026?

Rebeca Honório • 13 dias atrás

BLOG

Melhor IA para auxiliar na programação em 2026

Rebeca Honório • 1 mês atrás

Cursos de programação gratuitos com certificado

Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:

Conteúdos gratuitos
Projetos práticos
Certificados
+20 mil alunos e comunidade exclusiva
Materiais didáticos e download de código

Inicie agora

Comentários

30xp

Comentar

Faça parte da discussão Crie sua conta gratuita e compartilhe
sua opinião nos comentários Entre para a Asimov