Exploração de Dados
Após a concepção e tipicamente como parte do estudo de viabilidade de ML, o próximo passo é confirmar o acesso aos recursos e, em seguida, mergulhar profundamente nos dados disponíveis por meio de workshops de exploração de dados.
Objetivo do Workshop de Exploração de Dados
O objetivo do workshop de exploração de dados é o seguinte:
-
Garantir que a equipe tenha acesso aos dados e recursos computacionais necessários para o estudo de viabilidade de ML.
-
Certificar-se de que os dados fornecidos têm qualidade e são relevantes para a solução de ML.
-
Certificar-se de que a equipe do projeto tenha um bom entendimento dos dados.
-
Certificar-se de que os SMEs (Especialistas em Assunto) necessários estejam presentes no Workshop de Exploração de Dados.
-
Listar as pessoas necessárias para o workshop de exploração de dados.
Acesso a Recursos
Antes de iniciar os workshops de exploração de dados, é importante confirmar que você tem acesso aos recursos necessários (incluindo dados).
Abaixo está uma lista de exemplo de perguntas a serem consideradas antes de iniciar um workshop de exploração de dados.
- Quais são os requisitos para a criação de uma conta para que a equipe possa acessar dados e recursos computacionais?
- Existem requisitos de segurança para acessar recursos (assinaturas, Recursos Azure, gerenciamento de projetos, etc.), como VPN, autenticação de dois fatores (2FA), jump boxes, etc.?
- Acesso aos dados:
- Está localizado localmente ou já está no Azure?
- Se estiver localizado localmente, podemos mover os dados necessários para o Azure sob a assinatura apropriada? Quem tem permissão para mover os dados?
- O acesso aos dados é aprovado do ponto de vista legal e de conformidade?
- Computação:
- É necessário uma VPN para a equipe do projeto acessar esses nós de computação (Máquinas Virtuais, clusters Databricks, etc.) de seus PCs/Macs de trabalho?
- Alguma restrição para acessar o sistema de dados de origem a partir desses nós de computação?
- Se quisermos criar recursos de computação, quem tem permissão para fazê-lo?
- Repositório de código-fonte:
- Você tem alguma preferência quanto à localização do repositório de código-fonte?
- Gerenciamento de backlog e planejamento de trabalho:
- Você tem alguma preferência quanto ao gerenciamento de backlog e planejamento de trabalho, como Azure DevOps, Jira ou qualquer outra coisa?
- Se for um sistema existente, são necessárias contas especiais/configurações de sistema para acessar?
- Linguagem de programação:
- Python/PySpark é a linguagem preferida?
- Existem processos de aprovação interna para as bibliotecas Python/PySpark que desejamos usar neste projeto?
Workshop de Exploração de Dados
Os principais objetivos dos workshops de exploração incluem o seguinte:
- Compreender e documentar as características, localização e disponibilidade dos dados.
- Qual é a ordem de grandeza dos dados atuais (por exemplo, GB, TB)? Isso é relevante?
- Como a organização decide quando coletar dados adicionais ou adquirir dados externos? Existem exemplos disso?
- Compreender a qualidade dos dados. Já existe uma estratégia de validação de dados em vigor?
- Que dados foram usados até agora para analisar projetos recentes baseados em dados? O que se mostrou mais útil? O que não foi útil? Como isso foi avaliado?
- Que dados internos adicionais podem fornecer insights úteis para a tomada de decisões baseada em dados para projetos propostos? Quais dados externos podem ser úteis?
- Quais são as possíveis restrições ou desafios no acesso ou incorporação desses dados?
- Como os dados foram coletados? Existem viéses óbvios devido à forma como os dados foram coletados?
- Que mudanças na coleta de dados, codificação, integração, etc., ocorreram nos últimos 2 anos que podem afetar a interpretação ou disponibilidade dos dados coletados?