Extração de Tabelas de PDF e Geração de Planilha XLSX com Llama Parse

O objetivo deste projeto é extrair uma tabela de um arquivo PDF e gravar os dados em uma planilha no formato XLSX. Para a extração, utilizamos a API Llama Parse.

Posted by : Rodrigo on Feb 28, 2025

Categoria : python

1 — Introdução

O objetivo deste projeto é extrair uma tabela de um arquivo PDF e gravar os dados em uma planilha no formato XLSX. Para a extração, utilizamos a API Llama Parse.

O código do projeto está disponível no seguinte repositório: extracao_pdf_com_ia.

2 — Fluxo do Processo

Definição da Consulta:
- A primeira etapa do processo envolve a definição da consulta que a API irá interpretar. Para este projeto, a seguinte consulta foi utilizada: ``` Este pdf contém tabelas com as colunas ITEM, PRODUTO, DESCRIÇÃO, QTD, UNIDADE, VALOR REF.
Eu gostaria de obter as tabelas, use o separador .

Exemplo de como você deve separar: coluna: ITEM|PRODUTO|DESCRIÇÃO|QTD|UNIDADE|VALOR REF. Linha: 10|BORRACHA BRANCA|BORRACHA ESCOLAR, PARA APAGAR|1000|Caixas|11,26 ```
Extração e Tratamento de Dados:
- A resposta da API será tratada para garantir que os dados estejam devidamente formatados e prontos para serem gravados na planilha.
Geração da Planilha XLSX:
- Após o tratamento dos dados, eles são salvos em um arquivo XLSX, organizados conforme a estrutura original da tabela extraída do PDF.

3 — Vídeo com Demonstração

Você pode assistir à demonstração do processo completo no vídeo a seguir: