Escolar Documentos
Profissional Documentos
Cultura Documentos
Ciência de Dados
Tópicos Especiais em Computação
Prof. Dr. Dario Brito Calçada
Ementa
1. Técnicas para coleta, integração, visualização, pré-processamento e
análise de dados, e comunicação de resultados. Técnicas básicas de
aprendizado supervisionado, não-supervisionado e análise
exploratória de dados. Visualização de dados: aspectos
interpretativos e comunicativos. Ferramentas e bibliotecas para
visualização de gráficos. Ética e privacidade no contexto de big data
e ciência dos dados.
1
17/11/2021
Objetivo Geral
1. Familiarizar o aluno com o novo paradigma científico centrado em dados. Demonstrar
processos de Engenharia e Tomada de Decisão orientada a Dados. Levar os alunos a
desenvolver a capacidade de resolução de problemas de negócio a tarefas de
mineração por meio de métodos supervisionados ou não-supervisionados, além de
propiciar melhores resultados com técnicas de visualização mais eficazes.
2. Serão apresentadas e discutidas técnicas para coleta, integração, visualização, pré-
processamento e análise de dados, e comunicação de resultados. O aluno também
será introduzido a técnicas básicas de aprendizado supervisionado, não-
supervisionado e análise exploratória de dados. Na parte de visualização de dados, o
foco será tanto nos aspectos interpretativos (uso de gráficos e figuras para análise de
dados) quanto comunicativos (uso de elementos visuais para comunicar os resultados
da análise). Para isso, serão apresentadas ferramentas e bibliotecas para visualização
de gráficos. Finalmente, serão abordados conceitos de ética e privacidade no contexto
de big data e ciência dos dados.
Métodos Didáticos
● Aulas teóricas dialogadas em sala de aula virtual.
● Aulas práticas direcionadas.
● Atividades supervisionadas.
2
17/11/2021
Conteúdo Programático
• 1. Introdução
• 1.1 O quarto paradigma científico: mudança do paradigma centrado em hipóteses para o
centrado em dados
• 2. O que é ciência dos dados?
• 2.1 Big data e ciência dos dados
• 2.2 Capacidades exigidas de um cientista de dados
• 2.3 O ecossistema de ciência dos dados
• 3. Coleta e pré-processamento de dados
• 3.1 Coleta de dados online
• 3.2 Pré-processamento (limpeza, normalização, seleção de atributos e amostras)
• 4. Análise exploratória de dados:
• 4.1 Conceitos de análise exploratória
• 4.2 Estatísticas descritivas
• 4.3 Visualização de dados
• 5. Introdução a mineração de dados
• 5.1 Aprendizado estatístico
• 5.2 Classificação
• 5.3 Agrupamento
• 5.4 Mineração de padrões frequentes
• 5.5 Medidas de interesse/qualidade
• 6. Ética e privacidade no contexto de big data e ciência dos dados
75% Aprovação
Frequência
Mínima
Média
Valor igual ou maior a
7,0
Atividades
Contam como
frequência
3
17/11/2021
Cronograma
2 aulas Entrega de
conceituais Atividades
Atividades vão
Unidades 1 e 2 pontuando
Conteúdo prático
Coleta de Dados Mineração de Dados
01 Pesquisas científicas e
04
Conceitos e Aplicações
exemplos comerciais
4
17/11/2021
Linhas de Pesquisa
PLN
Processamento de
I. A. Explicável
Linguagem Natural e
Uso de estruturas de redes (grafos) Pesquisas Aplicadas
aplicações de impacto
para descoberta automática de
social Desenvolvimento de
conhecimento
sistemas inteligentes
(Aplicações)
Cientista de Dados
5
17/11/2021
O que é necessário?
HARD SKILLS
✓ Pensamento Lógico
✓ Conhecimento de Programação
✓ Conhecimento Matemático
(Habilidade com números)
✓ Conhecimento de Banco de Dados
✓ Conhecimento em Machine Learning
✓ Conhecimento de Negócios
✓ Técnicas de Visualização de Dados
SOFT SKILLS
✓ Proatividade
✓ Resiliência
✓ Comunicação eficaz
✓ Criatividade e inovação
✓ Inteligência Emocional
IMPORTANTE
Analista de Dados
Voltado para a interpretação
dos resultados
Engenheiro de Dados
Transforma os modelos em um
produto de software
Cientista de Dados
Cria soluções, responde
perguntas e auxilia em tomadas
de decisão
6
17/11/2021
7
17/11/2021
Introdução
4º Paradigma Científico
8
17/11/2021
PARADIGMAS
EM CIÊNCIA
Thomas Kuhn (1922–1996)
apresenta em seu livro “A
estrutura das revoluções
científicas” (1962) a noção de
mudança de paradigma:
9
17/11/2021
REVOLUÇÕES CIENTÍFICAS
10
17/11/2021
DATA-INTENSIVE
SCIENTIFIC
DISCOVERY
O 4o paradigma é
concebido como um novo
método de avançar as
fronteiras do conhecimento,
através de novas tecnologias
para coletar, manipular,
analisar e exibir dados.
11
17/11/2021
Ciência
Computacional
eScience
12
17/11/2021
13
17/11/2021
Últimas décadas:
https://skatelescope.org/
14
17/11/2021
https://skatelescope.org/
15
17/11/2021
ASTRONOMIA E
O QUARTO PARADIGMA
Cada vez com mais freqüência, fazemos ciência com base na análise de
imensos conjuntos de dados, com experimentos científicos, simulações
e observações astronômicas atingindo PBs.
SEMENTES…
Carte du Ciel e catálogo Astrográfico
séc XIX (22 observatórios,
precursor da IAU)
16
17/11/2021
ALEXANDER SZALAY
SCIENCE IN AN EXPONENTIALWORLD
https://www.youtube.com/watch?v=hB92o4H46hc
NOVOS TERMOS E
CONCEITOS
17
17/11/2021
NOVOS TERMOS E
CONCEITOS
NOVOS TERMOS E
CONCEITOS
X
18
17/11/2021
NOVOS TERMOS E
CONCEITOS
X
NOVOS TERMOS E CONCEITOS
19
17/11/2021
● Síntese de tecnologia da
informação e pesquisa eScience is where
científica. “IT meets scientists.”
● Cientistas da computação
e estatísticos passam a ser
indispensáveis para que se
obtenha conhecimento dos
dados que as diversas
disciplinas tem acesso hoje
em dia.
Experiments &
Instruments
facts
? answers
Literature
Simulations
20
17/11/2021
facts
? answers
Literature
Simulations
OU SEJA…
● Assim, este novo paradigma também avança métodos e algoritmos para analisar
os dados armazenados nessas bases de dados de grande escala (ou entre várias bases
de dados em paralelo), e nesse processo, também é necessário estabelecer
protocolos de comunicação padronizados entre todas essas fontes de dados.
21
17/11/2021
4 PILARES DA
DATA INTENSIVE SCIENTIFIC DISCOVERY
Bancos de dados e Difusão e Troca
Gerenciamento do Workflow científicos de informações
Ciclo de Vida dos (Taverna, MyExperiment, (arXiv, Pubmed,VO)
Dados Microsoft Azure) usado Onde a maior parte se
Desde a criação e por vários cientistas para não o todo dos
armazenamento inicial até o garantir a reprodutibilidade resultados científicos são
momento em que é arquivado dos dados de modo publicamente acessíveis.
para a posteridade ou torna- consistente e competente.
se obsoleto e é excluído. O
objetivo é garantir que os Ferramentas avançadas
dados sejam recuperados de de análise
forma confiável para fins de
pesquisa futura ou (R, SciPy) com contínuos
reutilização. melhoramentos em ferramentas
de análise e visualização de dados.
S. GEORGE DJORGOVSKI
EVOLVING SCIENCE ANDTECHNOLOGY IN
CYBERSPACE
https://youtu.be/FB33pV2L0Vo
22
17/11/2021
O tamanho do mercado
global de IA foi avaliado em
27 bilhões de dólares em
2019 e deve chegar a quase
267 bilhões até 2027.
Fonte: Fortune Business Insights, 2020.
23
17/11/2021
24
17/11/2021
Dados
Projetos
25
17/11/2021
Projeto
Dados
Disponibilizados
Você pode realizar a coleta de dados que
achar mais pertinente
Ciência de Dados
Tópicos Especiais em Computação
Prof. Dr. Dario Brito Calçada
26