Engenheiro de Dados com atuacao em IA aplicada, RAG, NLP e sistemas orientados a dados para politicas publicas.
Atuo na construcao de pipelines de ingestao e processamento massivo, integracao de LLMs, bancos vetoriais, APIs e bases analiticas de larga escala. Desde 2022 trabalho em projetos de Engenharia de Dados e Inteligencia Artificial no IPEA, com foco em dados publicos, sistemas juridicos e recuperacao semantica. Atualmente sou mestrando em Ciencia da Computacao no CEFET, consultor em projeto do IPEA em parceria com a CEPAL/ONU e, desde junho de 2026, tambem atuo no Instituto de Seguranca Publica (ISP) como Engenheiro de Dados.
Foco atual:
- Engenharia de Dados e ETL em larga escala
- RAG, GraphRAG e busca semantica
- NLP aplicado a documentos tecnicos e juridicos
- Web scraping e automacao de coleta de dados publicos
- APIs, bancos relacionais e bancos vetoriais
Stack principal:
- Python, SQL e R
- Pandas, Polars, PyTorch e TensorFlow
- FastAPI, Streamlit e Docker
- PostgreSQL, MySQL, SQLite, MongoDB e Qdrant
- Linux, MLflow e logging estruturado
Os projetos abaixo sao os que melhor representam meu trabalho atual em dados, IA aplicada e sistemas de uso real.
Pipeline de ingestao documental e recuperacao semantica para publicacoes tecnicas do IPEA.
- Ingestao automatizada de PDFs com controle operacional em SQLite
- Pipeline de extracao, chunking, embeddings e indexacao vetorial hibrida
- Qdrant + Dense + Sparse + ColBERT para busca semantica mais robusta
- API para consulta com LLM sobre acervo institucional
Sistema de revisao editorial com IA para arquivos DOCX, PDF e JSON, com execucao via CLI e interface web.
- Arquitetura multiagente com especializacao por tipo de revisao
- Pipeline estruturado de extracao, validacao e consolidacao
- Saida em DOCX comentado e JSON para uso operacional real
- Boa demonstracao de orquestracao, heuristicas e integracao com LLMs
Projeto de consolidacao de bases estaduais e federais sobre convenios, transferencias e despesas relacionadas a OSCs.
- ETL para fontes heterogeneas com schema padronizado por UF
- Auditoria de qualidade e carga analitica em SQLite
- Parsers por estado e trilhas separadas para estados e capitais
- Forte aderencia a uso publico, rastreabilidade e analise territorial
Base historica de nomeacoes e exoneracoes a partir de diarios oficiais, com camada analitica temporal.
- Conversao e estruturacao de diarios oficiais em dados consultaveis
- Extracao de eventos administrativos com foco em transparencia publica
- Analises temporais e dashboards sobre movimentacoes por representante e orgao
- Projeto com potencial forte para inteligencia publica e monitoramento institucional
Automacao de coleta de diarios oficiais com foco em execucao incremental e operacao continua.
- Web scraping com Selenium
- Organizacao automatica de PDFs por periodo e caderno
- Controle de atualizacao e logging operacional
- Base importante para pipelines juridicos e documentais maiores
Experimento com grafos de conhecimento aplicados a sistemas RAG.
API para recuperacao semantica e geracao de respostas com LLM.
Pipeline de embeddings e indexacao vetorial com Qdrant.
- Construcao de pipelines end-to-end, da coleta ao consumo analitico
- Experiencia com documentos nao estruturados, PDFs e texto juridico
- Integracao de LLMs com sistemas reais e bases institucionais
- Atuacao em projetos de dados publicos, pesquisa aplicada e sistemas criticos
- Coautoria em publicacao tecnica do IPEA
- Bacharel em Ciencia da Computacao - UniCarioca
- Pos-graduacao em Ciencia de Dados - UniCarioca
- Pos-graduacao em Inteligencia Artificial e Computacional - UFV
- Mestrando em Ciencia da Computacao - CEFET
- Email: jefferson.ti@hotmail.com.br
- LinkedIn: jeffersondosanjos
- Lattes: lattes.cnpq.br/4924247830911437
- ORCID: 0009-0001-6304-3513
- Hugging Face: 0rakul0
