autuacoes-ambientais-ibama

Extrator de PDFs de Autuações Ambientais do IBAMA

LGPL-3.0 License

Stars
8

Extrator de PDFs de Autuaes Ambientais do IBAMA

Esse script baixa, converte e limpa arquivos PDFs de autuaes ambientais gerados pelo IBAMA. O resultado exportado para CSV.

Metodologia:

  • Para cada estado brasileiro:
    • acessa o site do IBAMA (linkar form)
    • preenche o estado
    • para cada ano desde 1980 ao ano atual:
      • preenche data de incio/fim
      • baixa e salva o PDF (estado/ano)
      • extrai os dados do PDF e converte para CSV
  • Criei um programa que acessa a pgina https://servicos.ibama.gov.br/ctf/publico/areasembargadas/ConsultaPublicaAreasEmbargadas.php e ento:
  • Na parte "Consulta Pblica", marca "autuaes ambientais"
  • Na parte "Dados da Infrao", seleciona um dos estados (o programa pode passar por todos os estados - mas esse caso, s fiz para o PA)
  • Preenche o perodo de 01/01/ANO at 31/12/ANO, onde "ANO" varia de 1980 ao ano atual (o programa roda uma vez para cada ano possvel, porque o mximo permitido 1 ano)
  • Baixa o PDF resultante da busca
  • Converte o PDF para CSV
  • Limpa o arquivo CSV (corrige nomes de municpios, adiciona cdigo IBGE dos municpios etc.)

Instalando

Testado em Python 3.9.5 (pode funcionar em outras verses, mas no garantido).

pip install -r requirements.txt

Utilizao

apenas extrair baixar e extrair

time python -m autuacoes.spider data/download/ data/output/autuacao.csv.gz

01/janeiro a 31/dez

  • --log-level: nvel de logging do script (padro: INFO)
  • --start-year: ano inicial do download (padro: 1980)
  • --end-year: ano final (padro: ano atual)

Extrator

em CSVs, utilizando o algoritmo rects-boundaries da extrao de PDFs da biblioteca rows.

python -m autuacoes.parser arquivo.pdf arquivo.csv

Voc pode utilizar o arquivo que vem com esse repositrio como exemplo (como so 64 pginas, ir demorar em torno de 1min35s):

time python -m autuacoes.parser data/amazonas-2010.pdf data/amazonas-2010.csv
Related Projects