Escolar Documentos
Profissional Documentos
Cultura Documentos
REFERÊNCIAS��������������������������������������������������������������������������������������������������������������������������������������� 13
1. Entendimento do problema.
3. Desenvolvimento de um modelo.
Fonte: <https://www.researchgate.net/figure/Figura-1-O-ciclo-de-vida-dos-dados-segundo-a-DataONE_fig1_339566217>.
O ciclo de vida dos dados tem início no planejamento. Aqui, definimos o que
coletaremos, como coletaremos e quais cuidados teremos durante a coleta.
A qualidade dos dados deve ser garantida nas etapas de coleta e garantia. A
etapa de garantia executa a verificação das práticas de coleta definidas na etapa
de planejamento.
Perceba que o ciclo de vida DataOne foi planejado pensando em dados cien-
tíficos, contudo as práticas que observamos aqui são facilmente incorporadas ao
mundo empresarial, uma vez que o processo da Ciência de Dados possui as mes-
mas características, diferenciando-se apenas pelo rigor da comunicação científica
que temos na academia, que é diferente do mundo corporativo.
Embora o ciclo de vida DataOne seja bem consistente, ele ainda é incompleto
para atender às necessidades de um processo da Ciência de Dados. Para comple-
mentar estas necessidades, temos o framework CRISP-DM (Cross Industry Standard
Process for Data Mining).
Compreensão Entendimento
do Domínio dos Dados
Preparação
dos Dados
Distribuição
Modelagem
Avaliação
Mas, neste caso, estamos tratando de domínios de negócios, aqui entendido por
conjuntos de sistemas ou áreas funcionais de uma empresa. Mas também, podemos
utilizar como domínio de conhecimento, como a Biologia, a Engenharia, o Direito,
entre outros. Desta forma, trazemos uma semântica ou um significado específico
aos elementos de dados do projeto. Sendo assim, a Compreensão do Domínio
Em seguida, a Preparação dos Dados será efetuada para gerar um novo dataset
com as características necessárias aos modelos que performaremos. Observe, na
Figura 2, que a preparação e a modelagem andam juntas, pois o resultado da pre-
paração atende à modelagem e a modelagem encaminha as características para
o preparo.
Assim, o modelo está pronto para ser colocado em produção. Veja que um mo-
delo pode atender a um estudo pontual ou pode ser inserido em um processo
organizacional.
Muitas vezes (muitas mesmo), temos que voltar para a modelagem e proceder
ajustes ao modelo. É muito comum calibrar algoritmos, proceder testes com bases
de treino e teste variadas e fazer benchmark com algoritmos similares para ver
o que performa melhor para aquele conjunto de dados. Mesmo depois de tudo
pronto, temos que efetuar revisões constantes quando o modelo é inserido a um
processo organizacional, para verificar se ainda está gerando resultados satisfató-
rios, considerando a variação oriunda da inserção de novos dados ao modelo.
Antes da etapa de apresentação, temos uma área de Analytics, que está perfor-
mando demandas de EDA (Análise Exploratória de Dados) e para Data Warehouse,
no qual teremos a estruturação de dashboards para a visualização de indicadores
ou disponibilização de dados para consumo em outras aplicações organizacionais.
Montar uma arquitetura não é uma tarefa simples e demandará muitos estudos
até chegar a um resultado ideal.
Ao longo de sua formação como cientista de dados, você conhecerá outras ar-
quiteturas e ferramentas disponíveis no mercado. Enquanto escrevo estas linhas,
novos produtos estão surgindo no mercado. É muito difícil conhecer tudo, mas
temos que ter domínio da situação para propor aplicações efetivas para os proble-
mas que enfrentaremos.
Saiba mais
No site, podemos ver uma versão com melhor resolução e caminhar pelos
diversos logos de produtos disponíveis no mercado.
Bons estudos!
SKIENA, S. S. The Data Science Design Manual. New York: Springer, 2017.
TURCK, M. Red hot: The 2021 Machine Learning, AI and Data (MAD) landscape. Matt
Turck, 28 set. 2021. Disponível em: <https://mattturck.com/data2021/>. Acesso em: 13
dez. 2021.