Conjunto de scripts que roda scripts de coleta, extração e limpeza de dados do Brasil.IO
LGPL-3.0 License
Esse repositrio possui scripts que so utilizados para rodar os scripts que capturam dados do Brasil.IO, mas voc pode utiliz-lo para rodar qualquer crawler que desejar. Siga os seguintes passos:
data
para salvar os dados - tanto os dedata/download
e data/output
);run.sh
com o comando principal que seu script irworker.sh all
passando os parmetros relativos a seu script,./worker.sh all https://github.com/turicas/socios-brasil.git
Voc precisar do Docker e a primeira vez que executar o comando ele demorar
um pouco para baixar as imagens base. O cdigo ser rodado utilizando o
herokuish, que um software livre
que simula o processo de criao de imagens do Heroku -
por padro, somente a linguagem Python suportada (caso queira utilizar outra,
altere o runtime.txt
).
O comando worker.sh all
executar os seguintes passos:
$git_url
e coloc-lo em[diretrio temporrio]/code
(diretrio na mquina host, no no container);Dockerfile
, .dockerignore
e runtime.txt
desse[diretrio temporrio]/code
;$USER/$project_name:$git_commit
) a partir de [diretrio temporrio]/code
;run.sh
dentro da imagem;Ao final do processo voc poder acessar [diretrio temporrio]/data
na
mquina host para acessar os arquivos gerados pelo script.