Skip to content

Scripts

A seguir, a lista de scripts com suas respectivas responsabilidades e localizações no repositório.

FonteScriptDescriçãoLocalização
Diário Oficial da Uniãocoleta_dou_html.pyColeta de edições em formato HTML do DOU.do_all/
coleta_dou_pdf.pyColeta de edições em formato PDF do DOU.do_all/
Diário Oficial de SPdoesp_html.pyColeta de edições em HTML do DOESP.do_esp/
doesp_oficial_pdf.pyColeta de edições em PDF do DOESP.do_esp/
Diários Municipais (Franca)main.pyScript principal que orquestra a coleta dos DOMs.do_all/
Legislativo: Câmaraanais_camara.pyColeta dos Anais da Câmara dos Deputados.do_br_camara/
diarios_camara.pyColeta dos Diários da Câmara dos Deputados.do_br_camara/
Legislativo: Senadoanais_republica.pyColeta dos Anais da República (via Senado).do_br_senado/
diarios_senado_congressoColeta dos Diários do Senado e do Congresso.do_br_senado/
senado_relatorio_mensais.pyColeta dos Relatórios Mensais da Presidência.do_br_senado/
senado_relatorio_presidencia.pyColeta dos Relatórios da Presidência.do_br_senado/
Legislativo: Congressoanais_constituintesColeta dos Anais das Assembleias Constituintes.do_br_congresso/
diarios_congresso.pyColeta dos Diários do Congresso Nacional.do_br_congresso/

Esta seção descreve como executar os scripts listados acima. O sistema foi projetado para rodar em ambiente Linux com o gerenciador de pacotes Conda.

✅ Pré-requisito Obrigatório: Ambiente Virtual

Section titled “✅ Pré-requisito Obrigatório: Ambiente Virtual”

Para que os scripts funcionem e encontrem as bibliotecas necessárias, é obrigatório ativar o ambiente virtual env_diariosbr a partir da pasta raiz do projeto.

Se você ainda não possui o ambiente criado, execute na raiz do projeto:

Terminal window
conda env create -f environment.yml

🤖 Opção A: Execução Automática (Via Script Geral)

Section titled “🤖 Opção A: Execução Automática (Via Script Geral)”

Foi desenvolvido um script automatizado que carrega o ambiente Conda, navega pelos diretórios corretos e executa todos os coletores em sequência.

Localização: exemplos/rodar_tudo.sh

  1. Dê permissão de execução (apenas na primeira vez):

    Terminal window
    chmod +x $HOME/codigo/diariosbr/exemplos/rodar_tudo.sh
  2. Execute o script:

    Terminal window
    $HOME/codigo/diariosbr/exemplos/rodar_tudo.sh

💡 Dica: Se você precisa desconectar o SSH enquanto a coleta roda (pois demora várias horas), utilize o nohup:

Terminal window
nohup $HOME/codigo/diariosbr/exemplos/rodar_tudo.sh &
Aqui está **apenas** a parte da Execução Manual, em formato cru (raw), pronto para copiar.

🛠️ Opção B: Execução Manual (Script por Script)

Section titled “🛠️ Opção B: Execução Manual (Script por Script)”

Caso seja necessário rodar apenas um coletor específico ou realizar testes, siga este procedimento manual.

1. Ative o Ambiente Virtual na raiz do projeto: Este passo é crucial para carregar as dependências corretamente.

Terminal window
cd $HOME/codigo/diariosbr && conda activate env_diariosbr

2. Navegue até a pasta do script e execute: Consulte a Tabela Catálogo Detalhado de Scripts para saber a pasta correta (Localização) de cada arquivo.

Exemplo - Para rodar o Diário Oficial da União:

Terminal window
cd do_all
python coleta_dou_html.py

Exemplo - Para rodar os Diários Municipais:

Terminal window
cd do_all
python main.py

Exemplo - Para rodar dados da Câmara:

Terminal window
cd do_br_camara
python diarios_camara.py