Você está na página 1de 26

17/11/2021

Ciência de Dados
Tópicos Especiais em Computação
Prof. Dr. Dario Brito Calçada

Ementa
1. Técnicas para coleta, integração, visualização, pré-processamento e
análise de dados, e comunicação de resultados. Técnicas básicas de
aprendizado supervisionado, não-supervisionado e análise
exploratória de dados. Visualização de dados: aspectos
interpretativos e comunicativos. Ferramentas e bibliotecas para
visualização de gráficos. Ética e privacidade no contexto de big data
e ciência dos dados.

1
17/11/2021

Objetivo Geral
1. Familiarizar o aluno com o novo paradigma científico centrado em dados. Demonstrar
processos de Engenharia e Tomada de Decisão orientada a Dados. Levar os alunos a
desenvolver a capacidade de resolução de problemas de negócio a tarefas de
mineração por meio de métodos supervisionados ou não-supervisionados, além de
propiciar melhores resultados com técnicas de visualização mais eficazes.
2. Serão apresentadas e discutidas técnicas para coleta, integração, visualização, pré-
processamento e análise de dados, e comunicação de resultados. O aluno também
será introduzido a técnicas básicas de aprendizado supervisionado, não-
supervisionado e análise exploratória de dados. Na parte de visualização de dados, o
foco será tanto nos aspectos interpretativos (uso de gráficos e figuras para análise de
dados) quanto comunicativos (uso de elementos visuais para comunicar os resultados
da análise). Para isso, serão apresentadas ferramentas e bibliotecas para visualização
de gráficos. Finalmente, serão abordados conceitos de ética e privacidade no contexto
de big data e ciência dos dados.

Métodos Didáticos
● Aulas teóricas dialogadas em sala de aula virtual.
● Aulas práticas direcionadas.
● Atividades supervisionadas.

2
17/11/2021

Conteúdo Programático
• 1. Introdução
• 1.1 O quarto paradigma científico: mudança do paradigma centrado em hipóteses para o
centrado em dados
• 2. O que é ciência dos dados?
• 2.1 Big data e ciência dos dados
• 2.2 Capacidades exigidas de um cientista de dados
• 2.3 O ecossistema de ciência dos dados
• 3. Coleta e pré-processamento de dados
• 3.1 Coleta de dados online
• 3.2 Pré-processamento (limpeza, normalização, seleção de atributos e amostras)
• 4. Análise exploratória de dados:
• 4.1 Conceitos de análise exploratória
• 4.2 Estatísticas descritivas
• 4.3 Visualização de dados
• 5. Introdução a mineração de dados
• 5.1 Aprendizado estatístico
• 5.2 Classificação
• 5.3 Agrupamento
• 5.4 Mineração de padrões frequentes
• 5.5 Medidas de interesse/qualidade
• 6. Ética e privacidade no contexto de big data e ciência dos dados

75% Aprovação
Frequência
Mínima

Média
Valor igual ou maior a
7,0

Atividades
Contam como
frequência

3
17/11/2021

Cronograma
2 aulas Entrega de
conceituais Atividades
Atividades vão
Unidades 1 e 2 pontuando

Aulas Teórico-práticas Projeto Final


Processo completo
Cada aula gera uma
de Descoberta
atividade
Automática de
Conhecimento

Conteúdo prático
Coleta de Dados Mineração de Dados
01 Pesquisas científicas e
04
Conceitos e Aplicações
exemplos comerciais

Pré-processamento Pattern Recognition


02 Técnicas de organização 05 Descoberta automática
dos dados de conhecimento

Análise Exploratória Projeto Final


03 Análises Estatísticas e 06 Apresentação dos
Visualização resultados obtidos

4
17/11/2021

Linhas de Pesquisa

PLN
Processamento de
I. A. Explicável
Linguagem Natural e
Uso de estruturas de redes (grafos) Pesquisas Aplicadas
aplicações de impacto
para descoberta automática de
social Desenvolvimento de
conhecimento
sistemas inteligentes
(Aplicações)

Cientista de Dados

Cientistas de Dados são uma nova


geração de especialistas analíticos que
têm as habilidades técnicas para
resolver problemas complexos – e a
curiosidade de explorar quais são os
problemas que precisam ser resolvidos.

5
17/11/2021

O que é necessário?
HARD SKILLS
✓ Pensamento Lógico
✓ Conhecimento de Programação
✓ Conhecimento Matemático
(Habilidade com números)
✓ Conhecimento de Banco de Dados
✓ Conhecimento em Machine Learning
✓ Conhecimento de Negócios
✓ Técnicas de Visualização de Dados
SOFT SKILLS
✓ Proatividade
✓ Resiliência
✓ Comunicação eficaz
✓ Criatividade e inovação
✓ Inteligência Emocional

IMPORTANTE
Analista de Dados
Voltado para a interpretação
dos resultados

Engenheiro de Dados
Transforma os modelos em um
produto de software

Cientista de Dados
Cria soluções, responde
perguntas e auxilia em tomadas
de decisão

6
17/11/2021

Perfil dos Alunos

Carreira em Ciência de Dados


● Engenheiro de Dados
● Analista de Dados
● Cientista de Dados

Perfil dos Alunos

Carreira em Ciência de Dados


● Engenheiro de Dados
● Analista de Dados
● Cientista de Dados

7
17/11/2021

Perfil dos Alunos

Carreira em Ciência de Dados


● Engenheiro de Dados
● Analista de Dados
● Cientista de Dados

Introdução
4º Paradigma Científico

8
17/11/2021

O 4o Paradigma da Pesquisa Científica


Como vamos enfrentar a tsunami de dados?

PARADIGMAS
EM CIÊNCIA
Thomas Kuhn (1922–1996)
apresenta em seu livro “A
estrutura das revoluções
científicas” (1962) a noção de
mudança de paradigma:

a ciência não evolui


gradualmente para a verdade, e
sim passa periodicamente por
períodos de crise e revoluções

9
17/11/2021

REVOLUÇÕES CIENTÍFICAS

Há anomalias em todos os paradigmas que são interpretados como


níveis aceitáveis de erro, ou simplesmente ignorados e não
tratados.

Quando um número suficiente de anomalias significativas se


acumula contra um paradigma atual, a disciplina científica é
lançada em um estado de crise. Durante a crise, novas idéias,
talvez anteriormente descartadas, são experimentadas.

Eventualmente um novo paradigma é formado, que ganha seus


próprios novos seguidores, e uma "batalha" intelectual ocorre
entre os seguidores do novo e do velho paradigma.

Mesma informação, visões diferentes

Kuhn usou a ilusão óptica


tornada famosa por
Wittgenstein, para
demonstrar a maneira pela
qual uma mudança de
paradigma poderia fazer com
que se visse a mesma
informação de uma maneira
diferente.

Public Domain, https://commons.wikimedia.org/w/index.php?curid=667017

10
17/11/2021

DATA-INTENSIVE
SCIENTIFIC
DISCOVERY

A maneira como fazemos a Ciência,


nunca parou de evoluir ao longo de
nossa história.

Na última década tem sido proposto


que estamos vivenciando um quarto
paradigma de como a pesquisa
científica é feita em geral,
independente da disciplina

O 4o paradigma é
concebido como um novo
método de avançar as
fronteiras do conhecimento,
através de novas tecnologias
para coletar, manipular,
analisar e exibir dados.

Jim Gray, cientista da computação no


grupo Microsoft eScience, que foi perdido
no mar em 2007.

11
17/11/2021

"The world of science has changed, and there is no question


about this.

The new model is for the data to be captured by instruments or


generated by simulations before being processed by software
and for the resulting information or knowledge to be stored in
computers. Scientists only get to look at their data fairly late in
this pipeline.

The techniques and technologies for such data-intensive


science are so different that it is worth distinguishing data-
intensive science from computational science as a new,
fourth paradigm for scientific exploration."

Jim Gray 2007

Ciência Empírica Evolução dos paradigmas da


pesquisa científica, tal como
proposto por Jim Gray, 2007
Ciência Teórica

Ciência
Computacional

eScience

12
17/11/2021

Nicolas Camille Flammarion, Paris,1888


Milhares de anos atrás:

a pesquisa científica era puramente empírica, baseada em


observar e descrever os fenômenos naturais

Últimas centenas de anos:

Ciência torna-se teórica, com Leis de Kepler, Leis deMovimento


de Newton, Equações de Maxwell… Usam-se modelos e
generalizações.

13
17/11/2021

Últimas décadas:

modelos teóricos se tornam


muito complicados para serem
resolvidos analiticamente, e os
cientistas começaram a
simular.Torna-se possível a
simulação de fenômenos cada
vez mais complexos.

Os resultados das simulações


Simulação de "Spherical Accretion tornaram-se dados sintéticos,
Shock Instability” em pulsares.
Crédito: Blondin & Mezzacappa mal distinguíveis do que
(2007). chamamos de "dados
observacionais”.

https://skatelescope.org/

14
17/11/2021

https://skatelescope.org/

Exploração de dados, dados


são capturados por
instrumentos ou gerados por
um simulador, processado
por software, informação é
Hoje:
armazenada em
computadores, cientistas
Ciência é centrada nos dados,
analisam bancos de dados
sejam observados ou simulados,
usando gerenciamento de
unificando teoria, experimentos
dados e estatística.
e simulações = eScience.

15
17/11/2021

ASTRONOMIA E
O QUARTO PARADIGMA

A astronomia é rica em dados e o volume de dados está crescendo


até um ponto em que nem sequer conseguimos armazenar ou
transferir dados brutos, como é o caso do atual satélite ESA Gaia ou
do futuro radiotelescópio SKA.

Cada vez com mais freqüência, fazemos ciência com base na análise de
imensos conjuntos de dados, com experimentos científicos, simulações
e observações astronômicas atingindo PBs.

SEMENTES…
Carte du Ciel e catálogo Astrográfico
séc XIX (22 observatórios,
precursor da IAU)

Estudo de placas tectônicas através


da análise de anomalias magnéticas
(Pitman & Heirtzler 1966, Atwater
1960)

16
17/11/2021

ALEXANDER SZALAY
SCIENCE IN AN EXPONENTIALWORLD

https://www.youtube.com/watch?v=hB92o4H46hc

NOVOS TERMOS E
CONCEITOS

17
17/11/2021

NOVOS TERMOS E
CONCEITOS

NOVOS TERMOS E
CONCEITOS

X
18
17/11/2021

NOVOS TERMOS E
CONCEITOS

X
NOVOS TERMOS E CONCEITOS

Conjuntos de dados que são tão grandes ou complexos que os


softwares de aplicativos de processamento de dados tradicionais
são inadequados para lidar com eles.
Os desafios incluem captura, armazenamento, análise, coleta de
dados, pesquisa, compartilhamento, transferência, visualização,
consulta, atualização e privacidade de informações.

19
17/11/2021

NOVOS TERMOS E CONCEITOS

● Síntese de tecnologia da
informação e pesquisa eScience is where
científica. “IT meets scientists.”

● Cientistas da computação
e estatísticos passam a ser
indispensáveis para que se
obtenha conhecimento dos
dados que as diversas
disciplinas tem acesso hoje
em dia.

NOVOS TERMOS E CONCEITOS

Experiments &
Instruments

Other Archives facts questions

facts
? answers
Literature

Simulations

Evolução de X-Info e Comp-X


para cada disciplina X

Como codificar e interpretar


conhecimento.

20
17/11/2021

E NOVOS PROBLEMAS PARA AS


TECNOLOGIAS DE INFORMAÇÃO
Experiments &
Instruments

Other Archives facts questions

facts
? answers
Literature

Simulations

• Data ingest • Query and Vis tools


• Managing a petabyte • Building and executing models
• Common schema • Integrating data and Literature
• How to organize it • Documenting experiments
• How to reorganize it • Curation and long-term
• How to share with others preservation

OU SEJA…

● Nesse paradigma emergente, desenvolvem-se caminhos em que computadores,


bancos de dados e redes não são vistos e utilizados apenas como ferramentas,
mas se tornam uma parte fundamental do processo de descoberta de
conhecimento, tornam-se fundamentais para a nossa interpretação dos
dados.

● Assim, este novo paradigma também avança métodos e algoritmos para analisar
os dados armazenados nessas bases de dados de grande escala (ou entre várias bases
de dados em paralelo), e nesse processo, também é necessário estabelecer
protocolos de comunicação padronizados entre todas essas fontes de dados.

21
17/11/2021

4 PILARES DA
DATA INTENSIVE SCIENTIFIC DISCOVERY
Bancos de dados e Difusão e Troca
Gerenciamento do Workflow científicos de informações
Ciclo de Vida dos (Taverna, MyExperiment, (arXiv, Pubmed,VO)
Dados Microsoft Azure) usado Onde a maior parte se
Desde a criação e por vários cientistas para não o todo dos
armazenamento inicial até o garantir a reprodutibilidade resultados científicos são
momento em que é arquivado dos dados de modo publicamente acessíveis.
para a posteridade ou torna- consistente e competente.
se obsoleto e é excluído. O
objetivo é garantir que os Ferramentas avançadas
dados sejam recuperados de de análise
forma confiável para fins de
pesquisa futura ou (R, SciPy) com contínuos
reutilização. melhoramentos em ferramentas
de análise e visualização de dados.

S. GEORGE DJORGOVSKI
EVOLVING SCIENCE ANDTECHNOLOGY IN
CYBERSPACE

https://youtu.be/FB33pV2L0Vo

22
17/11/2021

I wanted to point out that almost everything about science is


changing because of the impact of information technology.

Experimental, theoretical, and computational science are all being


affected by the data deluge, and a fourth, “data-intensive”
science paradigm is emerging.

The goal is to have a world in which all of the science


literature is online, all of the science data is online, and they
interoperate with each other.

Lots of new tools are needed to make this happen.

Jim Gray 2007

O tamanho do mercado
global de IA foi avaliado em
27 bilhões de dólares em
2019 e deve chegar a quase
267 bilhões até 2027.
Fonte: Fortune Business Insights, 2020.

23
17/11/2021

Nunca de deixe limitar pela


imaginação limitada das
pessoas
Dra. Mae Jamison,
astronauta

24
17/11/2021

O futuro já está aqui – simplesmente


não está distribuído uniformemente
William Gibson, The Economist

Dados
Projetos

25
17/11/2021

Projeto
Dados
Disponibilizados
Você pode realizar a coleta de dados que
achar mais pertinente

Ciência de Dados
Tópicos Especiais em Computação
Prof. Dr. Dario Brito Calçada

26

Você também pode gostar