Ciclo de Vida Dos Dados

PÓS CIÊNCIA DE DADOS
Ferramentas úteis no ciclo de vida de ciência de dados
Existem quatro fases dentro do ciclo de vida de um processo de ciência de dados:
COLETA: Quando se identifica um possível conjunto de dados que representa o objeto

de estudo. Ferramentas: Pentaho, Sqoop, Spark Streaming, Kafka e Flume.
ARMAZENAMENTO: Fase de armazenamento de dados. Ferramentas: PostgreSWL,

MySQL como relacionais, e Apache Hadoop para Big Data.
RECUPERAÇÃO: Recuperação de dados é o momento de realizar processamentos iniciais

para a exploração dos dados e, posteriormente, para a extração de conhecimento.
Ferramentas: SGBDs com o PGAdmin (no caso do PostgreQSL), Apache Drill e Apache Hive.
DESCARTE: Após a recuperação dos dados, é possível verificar que há dados que podem
ser descartados, pois não fazem sentido ao problema, têm baixa veracidade ou, ainda, contêm
campos nulos ou diversos erros.
QUALIDADE DOS DADOS
No contexto de dados, a confiança está intimamente ligada à sua qualidade. É preciso

verificar se a fonte dos dados é segura e quem os produziu, a fim de procurar pela veracidade
inicial. No contexto do framework DAMA DMBoK, segundo Brackett et al. (2009), uma das suas
áreas de conhecimento é o gerenciamento de qualidade dos dados. O seu objetivo é claro:
uma vez que dados de qualidade ruim podem gerar decisões ruins, ele organiza processos
para um programa de qualidade de dados.
Segundo Brito e Machado (2017), há uma ligação entre a privacidade e a qualidade dos
dados. Garantir a privacidade pode resultar em dados que não são verídicos, já que a fonte
não pode ser explorada em todos os seus âmbitos. Assim, pode-se perceber a complexidade
envolvida no equilíbrio entre preservar a fonte e manter a qualidade e a utilização dos dados.
Os dados privados têm uma titularidade, e o seu uso deve ser observado — ao contrário
dos dados públicos, que podem ser utilizados sem restrição, conforme o autor os coloca à
disposição. No Brasil, a propriedade intelectual é regida pelas seguintes leis: Lei nº 9.279 de
14 de maio de 1996 (Lei de Propriedade Industrial), Lei nº 9.609, de 19 de fevereiro de 1998
(Lei do Software) e Lei nº 9.610, de 19 de fevereiro de 1998 (Lei de Direitos Autorais).
A PRESERVAÇÃO
Também devem ser armazenados os dados e metadados possíveis, a fim de colaborar

com a preservação do conjunto de dados. Os metadados são informações sobre os dados. Por
exemplo, em uma foto, dados como dia e horário da foto são informações sobre a foto, ou
seja, metadados.
Segundo Sant’Ana (2016), a preservação dos dados coletados e armazenados pode exigir
que algumas informações adicionais também sejam armazenadas. Por exemplo, algumas
características dos dispositivos que coletaram os dados poderiam ser utilizadas para dar um
maior significado e auxílio no conhecimento sobre eles. Portanto, para a preservação dos
dados, é necessário armazená-los devidamente. Eles devem ser descartados apenas com
critérios rigorosos e, oportunamente, deve-se guardar dados sobre esses dados.
O processo de extrair, transformar e carregar os dados, conhecido como ETL (Extract,

Transform e Load), tem como princípio a ideia de integração de diversas bases. Pode-se buscar
inúmeras fontes, organizá-las transformando os dados em paralelo a outras e, então, carregá-
los para uma nova estrutura de armazenamento.
A ANÁLISE EXPLORATÓRIA EM UM CONJUNTO DE DADOS E AS FASES DO CICLO

DE VIDA DE CIÊNCIA DE DADOS
A análise exploratória oferece um conhecimento inicial sobre os dados. A partir dela, é
possível observar o resumo das características principais dos dados, para depois compreendê-
los melhor. De forma geral, o seu intuito é analisar os dados antes mesmo de aplicar qualquer
técnica estatística. Nesse sentido, como demonstram Rodrigues e Dias (2017), a visualização
dos dados consegue transmitir melhor a informação. Logo, faz-se necessário concebê-los de
forma a auxiliar no ciclo de vida em ciência de dados.
TÉCNICAS E CIÊNCIA DE DADOS E BIG DATA

A ciência de dados faz parte de um contexto abrangente, cujo processo é composto
pelas fases de coleta, armazenamento, análise, descarte, processamento e visualização da
informação.
Podemos realizar a aprendizagem a partir de um conjunto de dados usando a indução.

Segundo Monard e Baranauskas (2003), o aprendizado indutivo ocorre a partir de raciocínios e
inferências sobre exemplos fornecidos ao sistema de aprendizado. O aprendizado indutivo
pode ser dividido em supervisionado e não supervisionado.
No aprendizado supervisionado, fornece-se ao algoritmo de aprendizado (ou indutor)

um conjunto de exemplos de treinamento para os quais o rótulo da classe associada é
conhecido.
Já no aprendizado não supervisionado, o indutor analisa as amostras fornecidas e tenta

verificar se elas podem ser organizadas de alguma maneira, formando agrupamentos ou
clusters. Após a indicação dos agrupamentos, em geral é necessária uma análise para inferir o
que cada agrupamento significa no contexto do problema.
Além disso, há ainda o aprendizado por reforço, que se baseia no estado do conjunto de
dados.
Há diversos paradigmas de aprendizado de máquina:
Aprendizado supervisionado:
Tem esse nome porque o indutor tem o objetivo de extrair um modelo de generalização
a partir de dados de entrada rotulados. Assim, dado um conjunto de entrada de dados
conhecidos, já se sabe qual é a saída esperada.
Nesse sentido, ao enviarmos novos dados para esse indutor, que aprendeu com os
dados iniciais, esperamos que ele possa compreender os novos, de acordo com os rótulos
aprendidos. Por exemplo, um técnico de futebol aprende a partir de dados de times
adversários; assim, quando há um novo jogo, espera-se que ele saiba manejar a sua equipe, já
que conheceu previamente as jogadas do oponente.
Usando técnicas do aprendizado de máquina, podemos resolver problemas de regressão

ou de classificação. O problema de regressão (Figura 2a) ocorre quando precisamos prever o
resultado em uma saída contínua. Assim, o objetivo é mapear as variáveis de entrada em uma
função contínua. Já o de classificação (Figura 2b) se coloca quando estamos tentando prever o
resultado em uma saída discreta.
OBS: Variáveis discretas: quando o conjunto de resultados possíveis é finito ou

enumerável. Exemplo: número de filhos, alunos numa escola etc.
Contínuas: quando os valores são expressos como intervalo ou união de números reais.
Exemplo: peso, massa, altura, pressão sistólica, idade, nível de açúcar no sangue etc.
A regressão linear é uma análise que tem o intuito de gerar uma função linear para
descrever a relação entre os dados, de forma que se possa estimar uma variável numérica
por meio da função gerada.
A regressão logística é semelhante à linear, mas a variável estimada será categórica. O

SVM foi proposto por Buser et al. (1992) e utiliza o conceito de planos de decisão em um
espaço multidimensional utilizando uma função kernel, que é ajustada de forma a generalizar
o modelo.
VARIÁVEL CATEGÓRICA: é uma variável que pode assumir apenas um número

limitado, e geralmente fixo, de valores possíveis, atribuindo cada indivíduo ou outra unidade
de observação a um determinado grupo ou categoria nominal com base em alguma
propriedade qualitativa.
O KNN foi proposto por Fix e Hodges (1951), como um algoritmo simples que gera um
modelo baseado nos dados e nos seus vizinhos.
As árvores de decisão são um conjunto de raízes e de nós que se organizam como um

fluxograma de deliberações, a fim de se consolidar um modelo. Pode-se ter inúmeras árvores
para um dado conjunto, ao ponto de haver famílias de árvores de decisão.
Por último, o Naïve Bayes, dentro do contexto do aprendizado de máquina, tem a

aplicação direta do teorema com o mesmo nome. Assim, o intuito é encontrar uma
probabilidade, dado que já ocorreu algo.
Estatística descritiva para ciência de
dados
A estatística é uma ferramenta da ciência de dados que se divide em três grandes áreas
(SILVA; GRAMS; SILVEIRA, 2018):
 estatística descritiva;
 inferência estatística;
 estatística probabilística.
A estatística descritiva é a primeira etapa da análise de dados, ou seja, é responsável

por descrever e resumir os dados por meio de gráficos, tabelas e números.
A estatística inferencial interpreta os indicadores da estatística descritiva para inferir

eventos prováveis, fundamentados pelas características dos dados.
A estatística probabilística analisa a probabilidade de um evento ocorrer e atribui o grau

de incerteza associado à sua ocorrência.
Variáveis: As variáveis quantitativas são as características que podem ser medidas

utilizando valores numéricos, como número de alunos na classe de cálculo ou peso de uma
pessoa. As variáveis qualitativas representam as características não numéricas dentro de um
conjunto de interesse, como marca, modelo de veículos e gênero (ZABALA, 2020).
As variáveis quantitativas podem ser classificadas como contínuas ou discretas:
 Variáveis contínuas – características mensuráveis que assumem

valores em uma escala contínua, podendo ser valores não inteiros (como
peso, altura, tempo e pressão arterial).
 Variáveis discretas – características mensuráveis que assumem

apenas valores inteiros, ou seja, discretos (como número de filhos e
número de jogadores).
As variáveis qualitativas podem ser classificadas como ordinais ou nominais:
 Variáveis ordinais – existe uma ordenação para as categorias.

Exemplos de variáveis ordinais são escolaridade (1º, 2º, 3º grau), estágio
da gravidez (inicial, intermediário, final) e mês (janeiro, fevereiro, ...,
novembro, dezembro).
 Variáveis nominais – não existe uma ordenação para as categorias

(como religião, raça, cor preferida, time de futebol favorito).

Ciclo de Vida Dos Dados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ciclo de Vida Dos Dados

Enviado por

Direitos autorais:

Formatos disponíveis

PÓS CIÊNCIA DE DADOS

Ferramentas úteis no ciclo de vida de ciência de dados

Existem quatro fases dentro do ciclo de vida de um processo de ciência de dados:

COLETA: Quando se identifica um possível conjunto de dados que representa o objeto

ARMAZENAMENTO: Fase de armazenamento de dados. Ferramentas: PostgreSWL,

RECUPERAÇÃO: Recuperação de dados é o momento de realizar processamentos iniciais

No contexto de dados, a confiança está intimamente ligada à sua qualidade. É preciso

Também devem ser armazenados os dados e metadados possíveis, a fim de colaborar

O processo de extrair, transformar e carregar os dados, conhecido como ETL (Extract,

A ANÁLISE EXPLORATÓRIA EM UM CONJUNTO DE DADOS E AS FASES DO CICLO

TÉCNICAS E CIÊNCIA DE DADOS E BIG DATA

Podemos realizar a aprendizagem a partir de um conjunto de dados usando a indução.

No aprendizado supervisionado, fornece-se ao algoritmo de aprendizado (ou indutor)

Já no aprendizado não supervisionado, o indutor analisa as amostras fornecidas e tenta

Há diversos paradigmas de aprendizado de máquina:

Usando técnicas do aprendizado de máquina, podemos resolver problemas de regressão

OBS: Variáveis discretas: quando o conjunto de resultados possíveis é finito ou

A regressão logística é semelhante à linear, mas a variável estimada será categórica. O

VARIÁVEL CATEGÓRICA: é uma variável que pode assumir apenas um número

As árvores de decisão são um conjunto de raízes e de nós que se organizam como um

Por último, o Naïve Bayes, dentro do contexto do aprendizado de máquina, tem a

A estatística descritiva é a primeira etapa da análise de dados, ou seja, é responsável

A estatística inferencial interpreta os indicadores da estatística descritiva para inferir

A estatística probabilística analisa a probabilidade de um evento ocorrer e atribui o grau

Variáveis: As variáveis quantitativas são as características que podem ser medidas

As variáveis quantitativas podem ser classificadas como contínuas ou discretas:

 Variáveis contínuas – características mensuráveis que assumem

 Variáveis discretas – características mensuráveis que assumem

As variáveis qualitativas podem ser classificadas como ordinais ou nominais:

 Variáveis ordinais – existe uma ordenação para as categorias.

 Variáveis nominais – não existe uma ordenação para as categorias

Você também pode gostar