Skip to content
View 0rakul0's full-sized avatar
😍
😍

Organizations

@ipeadata-lab

Block or report 0rakul0

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
0rakul0/README.md

Jefferson Silva dos Anjos

Engenheiro de Dados com atuacao em IA aplicada, RAG, NLP e sistemas orientados a dados para politicas publicas.

Atuo na construcao de pipelines de ingestao e processamento massivo, integracao de LLMs, bancos vetoriais, APIs e bases analiticas de larga escala. Desde 2022 trabalho em projetos de Engenharia de Dados e Inteligencia Artificial no IPEA, com foco em dados publicos, sistemas juridicos e recuperacao semantica. Atualmente sou mestrando em Ciencia da Computacao no CEFET, consultor em projeto do IPEA em parceria com a CEPAL/ONU e, desde junho de 2026, tambem atuo no Instituto de Seguranca Publica (ISP) como Engenheiro de Dados.

Foco atual:

  • Engenharia de Dados e ETL em larga escala
  • RAG, GraphRAG e busca semantica
  • NLP aplicado a documentos tecnicos e juridicos
  • Web scraping e automacao de coleta de dados publicos
  • APIs, bancos relacionais e bancos vetoriais

Stack principal:

  • Python, SQL e R
  • Pandas, Polars, PyTorch e TensorFlow
  • FastAPI, Streamlit e Docker
  • PostgreSQL, MySQL, SQLite, MongoDB e Qdrant
  • Linux, MLflow e logging estruturado

Estatisticas

Projetos publicos

Estatisticas do GitHub de Jefferson Silva dos Anjos

Linguagens mais usadas por Jefferson Silva dos Anjos

Projetos em destaque

Os projetos abaixo sao os que melhor representam meu trabalho atual em dados, IA aplicada e sistemas de uso real.

Pipeline de ingestao documental e recuperacao semantica para publicacoes tecnicas do IPEA.

  • Ingestao automatizada de PDFs com controle operacional em SQLite
  • Pipeline de extracao, chunking, embeddings e indexacao vetorial hibrida
  • Qdrant + Dense + Sparse + ColBERT para busca semantica mais robusta
  • API para consulta com LLM sobre acervo institucional

Sistema de revisao editorial com IA para arquivos DOCX, PDF e JSON, com execucao via CLI e interface web.

  • Arquitetura multiagente com especializacao por tipo de revisao
  • Pipeline estruturado de extracao, validacao e consolidacao
  • Saida em DOCX comentado e JSON para uso operacional real
  • Boa demonstracao de orquestracao, heuristicas e integracao com LLMs

Projeto de consolidacao de bases estaduais e federais sobre convenios, transferencias e despesas relacionadas a OSCs.

  • ETL para fontes heterogeneas com schema padronizado por UF
  • Auditoria de qualidade e carga analitica em SQLite
  • Parsers por estado e trilhas separadas para estados e capitais
  • Forte aderencia a uso publico, rastreabilidade e analise territorial

Projetos aplicados e de exploracao

Base historica de nomeacoes e exoneracoes a partir de diarios oficiais, com camada analitica temporal.

  • Conversao e estruturacao de diarios oficiais em dados consultaveis
  • Extracao de eventos administrativos com foco em transparencia publica
  • Analises temporais e dashboards sobre movimentacoes por representante e orgao
  • Projeto com potencial forte para inteligencia publica e monitoramento institucional

Automacao de coleta de diarios oficiais com foco em execucao incremental e operacao continua.

  • Web scraping com Selenium
  • Organizacao automatica de PDFs por periodo e caderno
  • Controle de atualizacao e logging operacional
  • Base importante para pipelines juridicos e documentais maiores

Experimento com grafos de conhecimento aplicados a sistemas RAG.

API para recuperacao semantica e geracao de respostas com LLM.

Pipeline de embeddings e indexacao vetorial com Qdrant.

Diferenciais tecnicos

  • Construcao de pipelines end-to-end, da coleta ao consumo analitico
  • Experiencia com documentos nao estruturados, PDFs e texto juridico
  • Integracao de LLMs com sistemas reais e bases institucionais
  • Atuacao em projetos de dados publicos, pesquisa aplicada e sistemas criticos
  • Coautoria em publicacao tecnica do IPEA

Formacao

  • Bacharel em Ciencia da Computacao - UniCarioca
  • Pos-graduacao em Ciencia de Dados - UniCarioca
  • Pos-graduacao em Inteligencia Artificial e Computacional - UFV
  • Mestrando em Ciencia da Computacao - CEFET

Links

Pinned Loading

  1. graphRAG_perplexity graphRAG_perplexity Public

    estudos de langgraph

    Python 1

  2. RAG_QDRANT_LLM RAG_QDRANT_LLM Public

    projeto dedicado para fazer analise de dados de vinhos usando um banco vetrial qdrant e usando RAG com llama

    Python 1

  3. RAG_FASTAPI RAG_FASTAPI Public

    portifolio

    Python 1

  4. DevOps_Diarios DevOps_Diarios Public

    sistema automatico para baixar diarios oficias

    Python 2

  5. cotacoes_backEnd cotacoes_backEnd Public

    desenvolvimento de um rastreador de ações minuto a minuto

    HTML

  6. 0rakul0_Voice 0rakul0_Voice Public

    plugin para o discord

    HTML 4