Scripts
Catálogo Detalhado de Scripts
Section titled “Catálogo Detalhado de Scripts”A seguir, a lista de scripts com suas respectivas responsabilidades e localizações no repositório.
| Fonte | Script | Descrição | Localização |
|---|---|---|---|
| Diário Oficial da União | coleta_dou_html.py | Coleta de edições em formato HTML do DOU. | do_all/ |
coleta_dou_pdf.py | Coleta de edições em formato PDF do DOU. | do_all/ | |
| Diário Oficial de SP | doesp_html.py | Coleta de edições em HTML do DOESP. | do_esp/ |
doesp_oficial_pdf.py | Coleta de edições em PDF do DOESP. | do_esp/ | |
| Diários Municipais (Franca) | main.py | Script principal que orquestra a coleta dos DOMs. | do_all/ |
| Legislativo: Câmara | anais_camara.py | Coleta dos Anais da Câmara dos Deputados. | do_br_camara/ |
diarios_camara.py | Coleta dos Diários da Câmara dos Deputados. | do_br_camara/ | |
| Legislativo: Senado | anais_republica.py | Coleta dos Anais da República (via Senado). | do_br_senado/ |
diarios_senado_congresso | Coleta dos Diários do Senado e do Congresso. | do_br_senado/ | |
senado_relatorio_mensais.py | Coleta dos Relatórios Mensais da Presidência. | do_br_senado/ | |
senado_relatorio_presidencia.py | Coleta dos Relatórios da Presidência. | do_br_senado/ | |
| Legislativo: Congresso | anais_constituintes | Coleta dos Anais das Assembleias Constituintes. | do_br_congresso/ |
diarios_congresso.py | Coleta dos Diários do Congresso Nacional. | do_br_congresso/ |
📚 Procedimentos de Execução
Section titled “📚 Procedimentos de Execução”Esta seção descreve como executar os scripts listados acima. O sistema foi projetado para rodar em ambiente Linux com o gerenciador de pacotes Conda.
✅ Pré-requisito Obrigatório: Ambiente Virtual
Section titled “✅ Pré-requisito Obrigatório: Ambiente Virtual”Para que os scripts funcionem e encontrem as bibliotecas necessárias, é obrigatório ativar o ambiente virtual env_diariosbr a partir da pasta raiz do projeto.
Se você ainda não possui o ambiente criado, execute na raiz do projeto:
conda env create -f environment.yml🤖 Opção A: Execução Automática (Via Script Geral)
Section titled “🤖 Opção A: Execução Automática (Via Script Geral)”Foi desenvolvido um script automatizado que carrega o ambiente Conda, navega pelos diretórios corretos e executa todos os coletores em sequência.
Localização: exemplos/rodar_tudo.sh
Passo a Passo:
Section titled “Passo a Passo:”-
Dê permissão de execução (apenas na primeira vez):
Terminal window chmod +x $HOME/codigo/diariosbr/exemplos/rodar_tudo.sh -
Execute o script:
Terminal window $HOME/codigo/diariosbr/exemplos/rodar_tudo.sh
💡 Dica: Se você precisa desconectar o SSH enquanto a coleta roda (pois demora várias horas), utilize o nohup:
nohup $HOME/codigo/diariosbr/exemplos/rodar_tudo.sh &
Aqui está **apenas** a parte da Execução Manual, em formato cru (raw), pronto para copiar.🛠️ Opção B: Execução Manual (Script por Script)
Section titled “🛠️ Opção B: Execução Manual (Script por Script)”Caso seja necessário rodar apenas um coletor específico ou realizar testes, siga este procedimento manual.
1. Ative o Ambiente Virtual na raiz do projeto: Este passo é crucial para carregar as dependências corretamente.
cd $HOME/codigo/diariosbr && conda activate env_diariosbr2. Navegue até a pasta do script e execute:
Consulte a Tabela Catálogo Detalhado de Scripts para saber a pasta correta (Localização) de cada arquivo.
Exemplo - Para rodar o Diário Oficial da União:
cd do_allpython coleta_dou_html.pyExemplo - Para rodar os Diários Municipais:
cd do_allpython main.pyExemplo - Para rodar dados da Câmara:
cd do_br_camarapython diarios_camara.py