INT CIEN DAD - Texto de Apoio - Aula 2

AULA 2
Introdução a Ciência de Dados

Professor Fábio Lopes
PROCESSO DA CIÊNCIA DE DADOS�� 3
CICLO DE VIDA DOS PROJETOS DA CIÊNCIA DE DADOS�� 3
ARQUITETURAS E FERRAMENTAS DE APOIO�� 9
REFERÊNCIAS�� 13
AULA 2 - Introdução a Ciência de Dados

PROCESSO DA CIÊNCIA DE DADOS
CICLO DE VIDA DOS PROJETOS DA CIÊNCIA DE DADOS
Sabemos da existência de dados em abundância, com disponibilidade e cres-

cimento exponencial. Tudo isso com um grande potencial analítico e longe de
esgotar desafios para a Ciência de Dados.
Historicamente, estes estudos eram direcionados para estatísticos, que apli-

cavam sua expertise matemática na análise dos dados para resolver questões de
negócios. Mas, hoje, entendemos que as habilidades necessárias vão além da ma-
temática, somando-se conhecimentos em computação e negócios.
Não obstante, agregamos técnicas de aprendizagem de máquina e mineração

de dados para entender os padrões que os dados nos apresentam e gerar novos
insights aos contextos que estamos envolvidos.
Considerando os conjuntos de fatores envolvidos, acrescentaremos a isso um

muito importante para o cientista de dados que é a curiosidade. Perguntar sobre
questões diversas e formar hipóteses que podem ser testadas está no dia a dia
desse profissional.
Assim, podemos concluir que a Ciência de Dados é uma disciplina multifacetada

que traz a aplicação de algoritmos a conjuntos de dados de grande volume em um
processo analítico com diversas atividades encadeadas em um grafo acíclico que
chamamos de pipeline.
O processo da Ciência de Dados é a base de tudo que estudaremos, em termos

da Ciência de Dados.
Mas, antes, entenderemos o conceito de processo. Podemos definir o termo

“processo” como sendo uma sequência contínua de atividades que apresentam
certa unidade, ou que representam certa regularidade, estruturada para resultar
em um produto específico.
Segundo Chapman e colegas (KOTU; DESHPANDE, 2018), estudos ou trabalhos

que envolvem o relacionamento e a descoberta de padrões com atividades iterati-
vas em conjuntos de dados é coletivamente conhecido como o processo da Ciência
de Dados.

3
Segundo Skiena (2017), existem três razões para a atual explosão desta área:
1. Novas tecnologias estão colaborando, como possibilidades de coleta de

grandes volumes de dados.
2. A computação avançou para processarmos dados com novas formas e

escalas.
3. Empresas de tecnologia, como AWS e Google, têm apresentado resultados

interessantes com o poder computacional analítico, com histórias de sucesso
em diversas áreas.
Tecnologias e dados são insumos do processo da Ciência de Dados.
O processo da Ciência de Dados, em linhas gerais, envolve as seguintes tarefas:
1. Entendimento do problema.
2. Preparação dos dados.
3. Desenvolvimento de um modelo.
4. Aplicação do modelo a um dataset.
5. Desenvolvimento e manutenção do modelo.
Como em qualquer projeto, é necessário entender o problema, o risco assumido

ao aceitar o projeto e as condicionantes que enfrentaremos para alcançar os obje-
tivos definidos.
Muitas vezes, temos dificuldades em concretizar metas do projeto devido aos

aspectos multifacetados que assumiremos nesta empreitada.
Entre os aspectos, podemos citar a tecnologia envolvida, a aquisição dos con-

juntos de dados, as habilidades do time, o tempo de execução, o compliance, as
questões culturais, entre outras.
É importante para o cientista de dados conhecer esses aspectos do projeto, para

estruturar estratégias de como enfrentá-los, ou até para justificar um eventual de-
clínio do projeto, considerando a inviabilidade dos objetivos propostos.

4
A preparação dos dados é um ponto fundamental dos projetos de Ciência de
Dados. Sem dados, não podemos fazer nada; logo, entender como os adquiriremos
e onde processaremos estes dados está em destaque entre os aspectos iniciais
do projeto, assim como o custo da operação de aquisição e o armazenamento de
dados.
Para o planejamento da coleta e do uso dos dados, podemos adotar os passos

definidos no DataONE, disponível em <https://www.dataone.org/>. Esta organiza-
ção objetiva definir padrões para a coleta, a manutenção e o compartilhamento
de dados de pesquisa. A Figura 1 apresenta as etapas do ciclo de vida dos dados,
proposto por esta organização.
Figura 1 – O ciclo de vida dos dados segundo a DataONE
Fonte: <https://www.researchgate.net/figure/Figura-1-O-ciclo-de-vida-dos-dados-segundo-a-DataONE_fig1_339566217>.
O ciclo de vida dos dados tem início no planejamento. Aqui, definimos o que
coletaremos, como coletaremos e quais cuidados teremos durante a coleta.
A qualidade dos dados deve ser garantida nas etapas de coleta e garantia. A
etapa de garantia executa a verificação das práticas de coleta definidas na etapa
de planejamento.
A etapa de descrição trata da construção dos metadados (dados sobre os da-

dos). Este ponto é muito importante para a organização dos dados armazenados, a
qualidade do processo, o compartilhamento, o reuso e o futuro descarte, além de
manter documentado quais dados são estes, como foram coletados, questões de
sensibilidade etc.

5
A etapa de preservação está preocupada com as questões de armazenamento,
como onde armazenaremos e como armazenaremos.
A etapa de descoberta está preocupada com a exploração dos dados e também é

conhecida como análise exploratória dos dados. Assim, teremos um conhecimento
registrado mais amplo sobre o que coletamos.
A integração pode ser entendida como a etapa na qual enriquecemos os dados.

Aqui, temos o enriquecimento com outras bases de dados do mesmo tipo, por
exemplo, se pesquisamos a meteorologia, podemos reunir dados de outras locali-
dades, criando um mosaico regional, mas também podemos pensar em agregar
ao dataset outros dados. Por exemplo, se temos dados socioeconômicos de uma
cidade, podemos enriquecer o dataset com dados de saúde.
Por fim, a análise é a etapa na qual trabalhamos a descoberta de padrões, utili-

zando modelos e algoritmos de Inteligência Artificial e Machine Learning.
As lições aprendidas neste ciclo são incorporadas a um novo ciclo, iniciando-se

pelo planejamento.
Perceba que o ciclo de vida DataOne foi planejado pensando em dados cien-
tíficos, contudo as práticas que observamos aqui são facilmente incorporadas ao
mundo empresarial, uma vez que o processo da Ciência de Dados possui as mes-
mas características, diferenciando-se apenas pelo rigor da comunicação científica
que temos na academia, que é diferente do mundo corporativo.
No mundo empresarial, nos valemos de ferramentas de coleta, de modo auto-

matizado, utilizando conectores em aplicações diversas como redes sociais, aplica-
ções transacionais, ou até mesmo para registrar a navegação dos usuários de um
site. Em todas estas situações, entendemos ser necessário construir um processo
pensando em todas as etapas vistas acima.
Embora o ciclo de vida DataOne seja bem consistente, ele ainda é incompleto
para atender às necessidades de um processo da Ciência de Dados. Para comple-
mentar estas necessidades, temos o framework CRISP-DM (Cross Industry Standard
Process for Data Mining).
O termo “framework” remete a um conjunto de ferramentas e práticas que po-

demos generalizar e adotar em um determinado contexto.

6
O CRISP-DM foi desenvolvido por um consórcio de empresas envolvidas com
a mineração de dados. As etapas desenvolvidas nesse framework são largamente
adotadas para o desenvolvimento de soluções na Ciência de Dados. A Figura 2
apresenta um diagrama esquemático do framework.
Figura 2 – Diagrama esquemático do framework CRISP-DM
Compreensão Entendimento
do Domínio dos Dados
Preparação
dos Dados
Distribuição
Modelagem
Avaliação
Adaptado de: Chapman et al. (2000).
Observe que iniciamos o processo pela compreensão do domínio.
O “domínio” é um termo utilizado para definir um conjunto de valores possíveis

para um atributo específico. Em outras palavras, quais são os valores permitidos para
uma coluna de dados em uma tabela. Também utilizamos o termo “domínio” para
definir o nome relativo de um site ou portal, por exemplo <www.mackenzie.br>.
Mas, neste caso, estamos tratando de domínios de negócios, aqui entendido por
conjuntos de sistemas ou áreas funcionais de uma empresa. Mas também, podemos
utilizar como domínio de conhecimento, como a Biologia, a Engenharia, o Direito,
entre outros. Desta forma, trazemos uma semântica ou um significado específico
aos elementos de dados do projeto. Sendo assim, a Compreensão do Domínio

7
significa entender o contexto organizacional e/ou o contexto da aplicação na qual
o projeto será implementado. Daí saem os requisitos de projeto que atenderemos.
Na Engenharia de Software, temos um conjunto de práticas para eliciar requisi-

tos. Podemos, inicialmente, classificá-los com funcionais e não funcionais, onde os
funcionais são necessidades diretas ao atendimento de objetivos do projeto e os
não funcionais atendem a aspectos de qualidade como disponibilidade, segurança
e escalabilidade. A Figura 3 apresenta o processo da engenharia de requisitos.
Figura 3 – Processo da engenharia de requisitos
Fonte: Sommerville (2018).
Paralelo à Compreensão do Domínio, temos o Entendimento dos Dados. Neste

caso, utilizaremos a Análise Exploratória de Dados (EDA – Exploratory Data Analysis)
para investigar os dados que temos em mãos para trabalhar. Essencialmente, a
EDA utiliza métodos estatísticos e a Visualização dos Dados para compor uma visão
mais abrangente sobre os dados coletados. A EDA será assunto de uma disciplina
deste curso de Ciência de Dados, que você cursará mais adiante.
Em seguida, a Preparação dos Dados será efetuada para gerar um novo dataset
com as características necessárias aos modelos que performaremos. Observe, na
Figura 2, que a preparação e a modelagem andam juntas, pois o resultado da pre-
paração atende à modelagem e a modelagem encaminha as características para
o preparo.
Uma vez performados, os algoritmos ou as visualizações que desejamos, faremos

uma análise dos resultados e geraremos uma Avaliação dos Resultados.
Assim, o modelo está pronto para ser colocado em produção. Veja que um mo-
delo pode atender a um estudo pontual ou pode ser inserido em um processo
organizacional.

8
Por exemplo, o modelo pode classificar uma demanda de empréstimo bancário,
se emprestaremos ou não dinheiro para um cliente do banco. O modelo fará parte
do processo de empréstimos para balizar a decisão do gerente responsável.
Em outro caso, criamos um modelo para verificar a polaridade de um assunto

na rede social por um período ou estudamos o comportamento de pessoas em
um site, para decidir sobre melhoras na aplicação web. Isso pode ser pontual ou
contínuo.
Muitas vezes (muitas mesmo), temos que voltar para a modelagem e proceder
ajustes ao modelo. É muito comum calibrar algoritmos, proceder testes com bases
de treino e teste variadas e fazer benchmark com algoritmos similares para ver
o que performa melhor para aquele conjunto de dados. Mesmo depois de tudo
pronto, temos que efetuar revisões constantes quando o modelo é inserido a um
processo organizacional, para verificar se ainda está gerando resultados satisfató-
rios, considerando a variação oriunda da inserção de novos dados ao modelo.
É interessante adotar frameworks de mercado ou utilizar processos pré-defini-

dos. Estes recursos trazem, para seu projeto, práticas conhecidas do mercado, já
testadas para domínio e contextos diferentes, que podem ser generalizadas para
seu projeto.
Indo pelo mesmo caminho de adoção de boas práticas consolidadas, temos

ferramentas e arquiteturas propostas por fornecedores de produtos Data Science.
Estes artefatos também foram construídos com base em boas práticas ou experiên-
cias empíricas bem-sucedidas que podem ser generalizados para outros contextos
e domínios de negócios. Conheceremos algumas opções no próximo bloco.
ARQUITETURAS E FERRAMENTAS DE APOIO
O mercado e a literatura nos apresentarão diversas arquiteturas e ferramentas

que podem compor nossos processos da Ciência de Dados. Alguns deles serão mais
aderentes a determinados contextos, outros proporão soluções mais econômicas
ou mais performáticas, em termos de velocidade e capacidade de armazenamento,
ou ainda de escalabilidade para nossas aplicações.
Como temos diversos tipos de aplicação na Ciência de Dados, também teremos

muitas soluções relatadas na literatura. Cabe a nós estudar aquelas que são corre-
latas ou similares aos nossos projetos em andamento, assim poderemos reutilizar

9
ideias aplicadas e ser mais efetivos na construção de projetos de sucesso, como
podemos observar na Figura 4.
Figura 4 – Exemplo de arquitetura para processos da Ciência de Dados
Fonte: Gupta (2020).
Podemos observar as etapas do processo da Ciência de Dados descritas no roda-

pé da imagem: Collection (Coleta), Ingestion (Ingestão), Preparation & Computation
(Preparação e Processamento) e Presentation (Apresentação). Em cada etapa da
arquitetura, temos a proposição de ferramentas e protocolos de comunicação de-
finidos para atender às necessidades do processo.
Entenderemos cada etapa:
Para a coleta, temos a possibilidade de aquisição de dados por meio de apli-

cações mobile (leitura de sensores do dispositivo) ou aplicações web (coletados
diretamente da aplicação ou por meio de logs de navegação). Microsserviços (que
podem coletar comportamentos mediante a identificação de eventos específicos
em sistemas) ou ainda por meio de sensores de IoT (Internet of Things, ou Internet
das Coisas).
Os dados coletados são transferidos via mecanismo de ingestão, utilizando

protocolos (MQTT para IoT/Rest em aplicações web) e inseridos em um repositório
de dados, um Data Lake, por exemplo, orquestrado pelo framework Hadoop, mas,
para intermediar esta comunicação, necessitamos de uma ferramenta de inges-
tão. No caso da figura, o Kafka faz este papel, gerenciando as filas – entenda aqui
que podemos ter vários coletores conectados e enviando dados simultaneamente
(lembra do Waze?).

10
Ferramentas como o engine Spark e o Apache Flink podem se responsabilizar
por fazer um pré-processamento e análise dos dados. Observe aí que são dois ca-
minhos analíticos para:
• Dados em lote (Spark).
• Dados em fluxo (Flink).
Os Spark também podem processar em fluxo (streaming) mas, na sugestão de

arquitetura, foi proposto o Flink que é específico para esta finalidade.
Identificaremos também, na figura, a presença do TensorFlow, conectado ao

Flink, que possui bibliotecas para performar redes neurais e deep learning. Também
temos a ferramenta Beam, utilizada para criar workflows de trabalho que podem
ser agendados ou disparados mediante o evento. Os respectivos logos destes pro-
dutos estão na Figura 5.
Figura 5 – Logos das ferramentas Apache Beam (a) e Tensorflow (b)
Antes da etapa de apresentação, temos uma área de Analytics, que está perfor-
mando demandas de EDA (Análise Exploratória de Dados) e para Data Warehouse,
no qual teremos a estruturação de dashboards para a visualização de indicadores
ou disponibilização de dados para consumo em outras aplicações organizacionais.
Observe que, por fim, estamos utilizando nesta arquitetura ferramentas de

fornecedores distintos, algumas gratuitas e outras pagas. Desta forma, podemos
buscar a melhor composição para estruturar nossas aplicações.
Montar uma arquitetura não é uma tarefa simples e demandará muitos estudos
até chegar a um resultado ideal.
Ao longo de sua formação como cientista de dados, você conhecerá outras ar-
quiteturas e ferramentas disponíveis no mercado. Enquanto escrevo estas linhas,
novos produtos estão surgindo no mercado. É muito difícil conhecer tudo, mas
temos que ter domínio da situação para propor aplicações efetivas para os proble-
mas que enfrentaremos.

11
Não querendo gerar ansiedade, a Figura 6 apresenta um panorama de ferra-
mentas para Data Science que temos no mercado. Este quadro é atualizado todos
os anos. Visualizaremos a seguir a versão de 2021.
Figura 6 – 2021 Machine Learning, AI and Data (MAD) landscape
Fonte: Turck (2021).
Saiba mais
No site, podemos ver uma versão com melhor resolução e caminhar pelos
diversos logos de produtos disponíveis no mercado.
Na medida em que evoluímos em nossos estudos, ficamos mais confortáveis

com este conjunto de ferramentas. A parte boa é pensar que temos várias opções
para resolver um problema específico. Isso agrega robustez para os projetos que
você desenvolverá durante sua carreira profissional.
Bons estudos!

12
REFERÊNCIAS
CHAPMAN, P. et al. Fases do modelo de processo CRISP-DM. Research Gate, 2000.

Disponível em: <https://www.researchgate.net/figure/Figura-14-Fases-do-modelo-
de-processo-CRISP-DM-Adaptado-de-CHAPMAN-et-al-2000_f ig1_318380719>.
Acesso em: 13 dez. 2021.
GUPTA, S. C. Architecture for high-throughput low-latency Big Data pipeline

on Cloud. Towards Data Science, 4 mar. 2020. Disponível em: <https://towards
datascience.com/scalable-efficient-big-data-analytics-machine-learning-pipeline-
architecture-on-cloud-4d59efc092b5>. Acesso em: 13 dez. 2021.
KOTU, V.; DESHPANDE, B. Data Science. 2. ed. Massachusetts: Morgan Kaufmann,

2018.
SKIENA, S. S. The Data Science Design Manual. New York: Springer, 2017.
SOMMERVILLE, I. Engenharia de Software. 10. ed. São Paulo: Pearson Education,

2018.
TURCK, M. Red hot: The 2021 Machine Learning, AI and Data (MAD) landscape. Matt
Turck, 28 set. 2021. Disponível em: <https://mattturck.com/data2021/>. Acesso em: 13
dez. 2021.

13

INT CIEN DAD - Texto de Apoio - Aula 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

INT CIEN DAD - Texto de Apoio - Aula 2

Enviado por

Direitos autorais:

Formatos disponíveis

AULA 2

​Introdução a Ciência de Dados

AULA 2 - Introdução a Ciência de Dados

CICLO DE VIDA DOS PROJETOS DA CIÊNCIA DE DADOS

Sabemos da existência de dados em abundância, com disponibilidade e cres-

Historicamente, estes estudos eram direcionados para estatísticos, que apli-

Não obstante, agregamos técnicas de aprendizagem de máquina e mineração

Considerando os conjuntos de fatores envolvidos, acrescentaremos a isso um

Assim, podemos concluir que a Ciência de Dados é uma disciplina multifacetada

O processo da Ciência de Dados é a base de tudo que estudaremos, em termos

Mas, antes, entenderemos o conceito de processo. Podemos definir o termo

Segundo Chapman e colegas (KOTU; DESHPANDE, 2018), estudos ou trabalhos

AULA 2 - Introdução a Ciência de Dados

1. Novas tecnologias estão colaborando, como possibilidades de coleta de

2. A computação avançou para processarmos dados com novas formas e

3. Empresas de tecnologia, como AWS e Google, têm apresentado resultados

Tecnologias e dados são insumos do processo da Ciência de Dados.

O processo da Ciência de Dados, em linhas gerais, envolve as seguintes tarefas:

2. Preparação dos dados.

4. Aplicação do modelo a um dataset.

5. Desenvolvimento e manutenção do modelo.

Como em qualquer projeto, é necessário entender o problema, o risco assumido

Muitas vezes, temos dificuldades em concretizar metas do projeto devido aos

Entre os aspectos, podemos citar a tecnologia envolvida, a aquisição dos con-

É importante para o cientista de dados conhecer esses aspectos do projeto, para

AULA 2 - Introdução a Ciência de Dados

Para o planejamento da coleta e do uso dos dados, podemos adotar os passos

Figura 1 – O ciclo de vida dos dados segundo a DataONE

A etapa de descrição trata da construção dos metadados (dados sobre os da-

AULA 2 - Introdução a Ciência de Dados

A etapa de descoberta está preocupada com a exploração dos dados e também é

A integração pode ser entendida como a etapa na qual enriquecemos os dados.

Por fim, a análise é a etapa na qual trabalhamos a descoberta de padrões, utili-

As lições aprendidas neste ciclo são incorporadas a um novo ciclo, iniciando-se

No mundo empresarial, nos valemos de ferramentas de coleta, de modo auto-

O termo “framework” remete a um conjunto de ferramentas e práticas que po-

AULA 2 - Introdução a Ciência de Dados

Figura 2 – Diagrama esquemático do framework CRISP-DM

Adaptado de: Chapman et al. (2000).

Observe que iniciamos o processo pela compreensão do domínio.

O “domínio” é um termo utilizado para definir um conjunto de valores possíveis

AULA 2 - Introdução a Ciência de Dados

Na Engenharia de Software, temos um conjunto de práticas para eliciar requisi-

Figura 3 – Processo da engenharia de requisitos

Fonte: Sommerville (2018).

Paralelo à Compreensão do Domínio, temos o Entendimento dos Dados. Neste

Uma vez performados, os algoritmos ou as visualizações que desejamos, faremos

AULA 2 - Introdução a Ciência de Dados

Em outro caso, criamos um modelo para verificar a polaridade de um assunto

É interessante adotar frameworks de mercado ou utilizar processos pré-defini-

Indo pelo mesmo caminho de adoção de boas práticas consolidadas, temos

ARQUITETURAS E FERRAMENTAS DE APOIO

O mercado e a literatura nos apresentarão diversas arquiteturas e ferramentas

Como temos diversos tipos de aplicação na Ciência de Dados, também teremos

AULA 2 - Introdução a Ciência de Dados

Figura 4 – Exemplo de arquitetura para processos da Ciência de Dados

Fonte: Gupta (2020).

Podemos observar as etapas do processo da Ciência de Dados descritas no roda-

Entenderemos cada etapa:

Para a coleta, temos a possibilidade de aquisição de dados por meio de apli-

Os dados coletados são transferidos via mecanismo de ingestão, utilizando

AULA 2 - Introdução a Ciência de Dados

• Dados em lote (Spark).

Introdução a Ciência de Dados