Estamos em busca de um Cientista de Dados Sênior para liderar iniciativas de extração e estruturação de informações a partir de documentos estruturados e não estruturados. O profissional será responsável por desenvolver e aprimorar soluções baseadas em Processamento de Linguagem Natural (NLP), Inteligência Artificial Generativa e modelagem de regras como grafos para identificação de entidades e extração automatizada de informações.

Responsibility and Attributions

● Desenvolver pipelines de NLP/GenAI para extração de informações de documentos de diferentes formatos (PDFs, imagens digitalizadas, documentos estruturados e não estruturados) utilizando extração e reconhecimento de entidades e relacionamentos.

● Implementar técnicas de IA Generativa para aprimorar a extração de dados.

● Criar pipelines eficientes para extração, limpeza e estruturação de dados textuais.

● Desenvolver modelos baseados em grafos para representação e inferência de regras a partir de textos e entidades extraídas.

● Colaborar com equipes de engenharia de dados e software para integração de modelos em sistemas de produção.

● Monitorar e avaliar a performance dos modelos, propondo melhorias contínuas.

● Explorar e implementar técnicas de aprendizado de máquina supervisionado, não supervisionado e auto-supervisionado para extração, enriquecimento e processamento das informações extraídas.

Requirements and Qualifications

● Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística ou área relacionada.

● Experiência comprovada em NLP, incluindo técnicas clássicas (regex, TF-IDF, word embeddings) e avançadas (transformers, BERT, GPT, LLMs).

● Experiência com extração de entidades e modelagem de regras em documentos complexos.

● Conhecimento em representação de conhecimento usando grafos, como ontologias e frameworks baseados em Graph Neural Networks (GNNs).

● Experiência com bibliotecas e frameworks como spaCy, NLTK, Stanford NLP, Hugging Face Transformers, OpenAI API, Neo4j, NetworkX.

● Forte conhecimento em Python e bibliotecas de machine learning (TensorFlow, PyTorch, Scikit-learn).

● Experiência com bancos de dados relacionais e NoSQL.

● Familiaridade com técnicas de OCR para extração de texto de imagens e documentos escaneados.

Benefits

Pagamos 22 dias úteis de férias + 1/3

Plano de saúde pago 100% para o colaborador e 70% dependentes

Flash de 1080,00

Additional Information

● Conhecimento de serviços cloud aplicados ao problema descrito, plus em GCP.

● Experiência em ferramentas de IA Generativa para NLP, como OpenAI, Hugging Face, ou modelos open-source similares, com utilização de fine tuning e RAG.

● Experiência com processamento de documentos jurídicos, médicos ou financeiros.

● Experiência no deploy de modelos de IA escaláveis em ambientes cloud (AWS, GCP, Azure).

● Experiência com arquiteturas de deep learning aplicadas à NLP.