Você está na página 1de 4

INTRODUÇÃO A CIÊNCIA DOS DADOS E BIG DATA

a) O que é a Data Science e Ciclo de Vida dos Dados. Quais são os desafios citados na
área de Data Science.

Data Science: é uma área que estuda e analisa os dados apoiando-se no uso de ferramentas
estatísticas e tecnologias da informação para a estruturação desses dados e sua aplicação na
resolução de problema e a partir disso gerar novos conhecimentos (CORRÊA, 2018). Mas além
disso, e no contexto do século XXI, também lida com o desenvolvimento de processo que
permitam administrar eficientemente os dados.

Ciclo de vida dos dados: conjunto de processos que transformam dados em informação e
informação em conhecimento (FRANCISCO; SOUZA; ALMEIDA, 2018, p.2). Esse conjunto
de processos vista de preservar1:

• A qualidade das ações envolvidas na coleta e tratamento dos dados.


• O controle dos dados, visando cobrir as necessidades e requerimentos das pesquisas
(precisão, confiabilidade, legibilidade, etc.).
• Disponibilidade dos dados.

No final, é possível gerar um maior valor agregado para as pesquisas que utilizam dados
tratados por um ciclo de vida bem estruturado.

Desafios na área:
• Garantir a acessibilidade aos dados frente as mudanças tecnológicas, ou seja, evitar que a
informação e torne irrecuperável.

• Atualmente, devido ao grande volume de dados gerados, é um desafio garantir que os


dados sejam catalogados e organizados adequadamente, para que o acesso a eles seja feito
rapidamente

1
Fonte: FRAME, Mike (2018). III Workshop em Ciência dos Dados
• Promover a transferência da informação/conhecimento para evitar perdas por
desligamento dos atores envolvidos.

• O excesso de dados produzidos não requer apenas melhor infraestrutura, mas também
melhores modelos de gerenciamento dos dados que permitem filtrar o ruído e estruturá-
los de forma mais clara e eficiente.

• Disponibilidade dos dados, previsão e solução de falhas nos sistemas em tempo real e
possuir vários nós que mantêm as informações seguras.

b) Dê exemplo de aplicações de visualização de dados

A maior importância da visualização dos dados está no fato de facilitar o acesso e compreensão
dos dados ao usuário. A visualização permite mostrar relações entre os dados que dificilmente
podem ser notados nos dados brutos, a tal ponto, que um gráfico de uma determinada forma
pode permitir chegar a conclusões mais robustas sobre o fenômeno observado, inferir relações
de causalidade e aprofundar na natureza e características do objeto/sujeito de estudo. Daí que
tem aplicações em:

• Segurança da informação, por exemplo, na visualização de tráfego malicioso e inofensivo


com matrizes de espalhamento (Abed et al., 2009).
• Redes Socias, para ilustrar a densidade das relações entre diferentes nós.
• Gráficos interativos para gerenciamento de cenários, que podem ser aplicados para estudar
o clima, devido ao grande número variáveis e aos complexos relacionamentos que ele
apresenta.

Da mesma forma, algumas ferramentas que podemos mencionar para visualização de dados
são:

• DataViva: plataforma aberta de pesquisa que permite acessar a visualizações de dado


socioeconômicos do Brasil.
• SAP Analytics Cloud: implementada principalmente na área de Business Intelligence
• MATLAB: Além das típicas ferramentas matemáticas que são bem conhecidas do Matlab,
ele também conta com manipulação gráfica interativa e amplas opções de personalização.
https://www.mathworks.com/help/matlab/visual-exploration.html

c) O que são os projetos DataONE, ARM e GoAmazon – Por que é um exemplo de


Aplicação de Ciência dos Dados – Big Data

DataONE: é uma rede de observação para a coleta, aceso e uso de dados multidisciplinares
sobre aspectos ambientais da Terra que compreende centros de dados, redes cientistas e
organizações, além do que promove o uso de melhores práticas em gerenciamento de dados2.

ARM: É um projeto que visa fornecer dados e informações detalhadas sobre as condições
atmosféricas da Terra, em relação ao aspecto climático, de forma que permita aos cientistas
estudar os efeitos que certos fatores produzem no balanço energético da Terra3.

GoAmazon: O experimento foi projetado para permitir o estudo de como os aerossóis e os


fluxos de superfície influenciam os ciclos das nuvens em condições limpas, além de como os
ciclos de vida dos aerossóis e das nuvens, são influenciados pelo fluxo de poluentes de uma
megacidade tropical4.

Os três são aplicação de ciência dos dados porque o núcleo de sua missão nos seguintes aspetos
que são pilares da Ciência dos Dados:

• Os três projetos visam de coletar e disponibilizar grande volume de dados que permitam
gerar soluções a problemáticas especificas, especialmente na criação de modelos
explicativos das interações representadas nesses dados.

• Trabalham para que os dados coletados tenham alta disponibilidade, por exemplo, o
DataONE hospeda três nós de coordenação que fornecem serviços em toda a rede e oferece
suporte aos serviços de indexação e replicação5.

2
Fonte: https://www.dataone.org/what-dataone
3
Fonte: https://www.arm.gov/about/management-structure
4
Fonte: https://campaign.arm.gov/goamazon2014/
5
Fonte: https://www.dataone.org/what-dataone
• Possuem um ciclo de vida dos dados bem estruturado, que passa por etapas como
planejamento, coleta, processamento, integração, análise, entre outras 67, y que permitem
manter a qualidade e o controle dos dados e informações.

• Fornecem um conjunto de ferramentas que permitem o processamento e a análise desses


dados, além de fornecer treinamento sobre o uso correto que deve ser dado a elas8.

Em sínteses, são plataformas que integram infraestrutura, protocolos, RRHH, ferramentas de


processamento e analises, procedimento de administração, etc, tudo voltado para a Gestão da
Ciência dos Dados, pelo que não se limitam só ao armazenamento e distribuição de informação.

6
Fonte: ALLARD, Suzie (2018). III Workshop em Ciência dos Dados
7
Fonte: PALANISAMY, Giri (2018). III Workshop em Ciência dos Dados
8
Fonte: ALLARD, Suzie (2018). III Workshop em Ciência dos Dados

Você também pode gostar