Extrator de PDFs de Autuações Ambientais do IBAMA
LGPL-3.0 License
Esse script baixa, converte e limpa arquivos PDFs de autuaes ambientais gerados pelo IBAMA. O resultado exportado para CSV.
Metodologia:
Testado em Python 3.9.5 (pode funcionar em outras verses, mas no garantido).
pip install -r requirements.txt
apenas extrair baixar e extrair
time python -m autuacoes.spider data/download/ data/output/autuacao.csv.gz
01/janeiro a 31/dez
--log-level
: nvel de logging do script (padro: INFO)--start-year
: ano inicial do download (padro: 1980)--end-year
: ano final (padro: ano atual)em CSVs, utilizando o algoritmo rects-boundaries
da extrao de PDFs da
biblioteca rows.
python -m autuacoes.parser arquivo.pdf arquivo.csv
Voc pode utilizar o arquivo que vem com esse repositrio como exemplo (como so 64 pginas, ir demorar em torno de 1min35s):
time python -m autuacoes.parser data/amazonas-2010.pdf data/amazonas-2010.csv