Estamos em busca de uma pessoa Data Engineer para estruturas e otimizar nossa infraestrutura de dados, garantindo a escalabilidade e a confiabilidade do pipeline que alimenta análises sobre milhões de reuniões de vendas. Nosso objetivo é transformar grandes volumes de dados em aprendizados valiosos sobre o que funciona e o que não funciona quando se trata do mercado de vendas no Brasil e na América Latina.
Você será responsável por desenvolver e manter pipelines eficientes, garantir a qualidade e acessibilidade dos dados para o time de Data Science e Produto, e contribuir para a evolução contínua da arquitetura de dados da MeetRox.
Você fará parte de uma área em construção, então espere contribuir com as escolhas de tecnologia e como a área se desenvolve ao longo do tempo.
- No que você irá trabalhar
- Contribuir na construção e gerenciamento do Data Lake e no desenho de uma arquitetura de dados baseada no modelo de medalhão (bronze, silver, gold), considerando o uso futuro de Spark para processar grandes volumes de dados;
- Desenhar, implementar e manter pipelines de dados que integrem diversas fontes como CRMs (ex.: Salesforce, HubSpot) e plataformas de comunicação (ex.: Slack, WhatsApp, Intercom, Zendesk) ao ecossistema da MeetRox, garantindo confiabilidade, escalabilidade e qualidade;
- Automatizar processos de ingestão e transformação de dados, incluindo orquestração e monitoramento de pipelines (curto prazo: uso de Meltano; médio/longo prazo: adoção de ferramentas adicionais como Airflow ou dbt);
- Criar e gerenciar estruturas de dados que facilitem o trabalho de analistas e cientistas de dados, fornecendo dados estruturados e otimizados para análise e modelagem;
- Definir e implementar boas práticas de governança de dados;
- Monitorar, diagnosticar e solucionar problemas relacionados a pipelines de dados e integrações;
- Utilizar tecnologia de ponta para resolver problemas reais para pessoas reais.
- O que buscamos
- Habilidade em Python, SQL e Spark avançado para manipulação, limpeza e transformação de grandes volumes de dados;
- Vivência prévia com arquiteturas de Data Lake e ferramentas de processamento distribuído (como Spark, Hadoop, etc.);
- Experiência com ferramentas de orquestração de dados (Airflow, dbt, Luigi, Prefect, etc.) e/ou soluções de CI/CD para pipelines de dados;
- Conhecimento em ambientes de cloud (AWS, GCP ou Azure), incluindo serviços de armazenamento, banco de dados e segurança;
- Excelentes habilidades de comunicação - somos uma empresa remota, comunicação assíncrona e escrita clara são fundamentais;
- Vontade de aprender e evoluir nas tecnologias que usamos, em um ambiente de inovação e constante mudança.
- São diferenciais
- Familiaridade com a estruturação de dados em camadas (bronze, silver, gold), bem como práticas de governança e catalogação de dados;
- Experiência com engenharia de Machine Learning (MLOps), facilitando o deploy e a manutenção de modelos;
- Vivência em startups de alto crescimento.
- Sobre o time de dados
Você trabalhará diretamente com o CTO e a Principal Data Scientist, em um time pequeno, mas extremamente competente. Procuramos uma pessoa do bem, que valorize a criação de sistemas impactantes, sinta orgulho do que constrói e goste de colaborar, aprender e ensinar. Adoramos tecnologia, mas acreditamos que ela existe para servir as pessoas. Se você quer fazer parte da construção de uma startup em um ambiente com muita oportunidade de crescimento e aprendizado, queremos falar com você.