data-worker

Conjunto de scripts que roda scripts de coleta, extração e limpeza de dados do Brasil.IO

LGPL-3.0 License

Stars
7

data-worker

Esse repositrio possui scripts que so utilizados para rodar os scripts que capturam dados do Brasil.IO, mas voc pode utiliz-lo para rodar qualquer crawler que desejar. Siga os seguintes passos:

  • Crie um script que baixa/converte/limpa os dados que deseja (seu script
    dever utilizar o diretrio data para salvar os dados - tanto os de
    download quanto os de sada, sugesto: data/download e data/output);
  • Crie um script chamado run.sh com o comando principal que seu script ir
    executar;
  • Crie um repositrio Git de cdigo pblico com seu script;
  • Clone esse repositrio;
  • Rode o comando worker.sh all passando os parmetros relativos a seu script,
    como no exemplo:
./worker.sh all https://github.com/turicas/socios-brasil.git

Voc precisar do Docker e a primeira vez que executar o comando ele demorar um pouco para baixar as imagens base. O cdigo ser rodado utilizando o herokuish, que um software livre que simula o processo de criao de imagens do Heroku - por padro, somente a linguagem Python suportada (caso queira utilizar outra, altere o runtime.txt).

O comando worker.sh all executar os seguintes passos:

  • Clonar o repositrio em $git_url e coloc-lo em
    [diretrio temporrio]/code (diretrio na mquina host, no no container);
  • Copiar os arquivos Dockerfile, .dockerignore e runtime.txt desse
    repositrio para [diretrio temporrio]/code;
  • Executar a criao da imagem do container (de nome
    $USER/$project_name:$git_commit) a partir de [diretrio temporrio]/code;
  • Executar o script run.sh dentro da imagem;

Ao final do processo voc poder acessar [diretrio temporrio]/data na mquina host para acessar os arquivos gerados pelo script.