Escolar Documentos
Profissional Documentos
Cultura Documentos
Big Data
Pergunta:
● Linguagem
de consulta
● Tamanho ● Dispersão
● Taxa de
● Estrutura
crescimento
Etapas:
Ciência
dos Dados
Integração de
áreas: Resolução de problemas
Estatística,Ciência da por meio da extração de
Informação e Tecnologia conhecimento a partir dos
da Informação dados
NACIONAL
URANÇA
A SEG
PARA
L ICAÇÕES
CI A IS IMP
OM POTEN ICO.
E S C ITÂ N
ORM AÇÕ ER NO BR
INF
D O GO V
AM
VAZAR
Fonte:
http://news.bbc.co.uk/1/hi/uk/8332445.stm
ÁTICAS.
S CLIM
ANÇA
BRE MUD
DADOS SO
ANIPULAR
OS DEM
M ACUSAD
STAS FORA
CIENTI
Fonte: The
Telegraph PCT3467 – Ciência dos Dados
Prof. Dr. Pedro Luiz Pizzigatti Corrêa
2. Por que a gestão de dados?
SE ESTE FOR O SEU INSTITUTO DE PESQUISA?
Fonte: http://g1.globo.com/sao-paulo/noticia/2010/05/incendio-no-instituto-butantan-destroi-maior-acervo-de-cobras-do-
pais.html
“O HD externo é muito
importante, pois contém 5
anos de backup de e-mails”
Fonte: http://blogs.ch.cam.ac.uk/pmr/
2011/08/01/why-you-need-a-
data-management-plan
PCT3467 – Ciência dos Dados
Prof. Dr. Pedro Luiz Pizzigatti Corrêa
2. Gestão de dados
IDOS OU
SÃO PERD
ORTANTES
? ENTE IMP
TENCIALM
?
DADOS?PO
A RES DE
ILH
NA S DE M ES SÍVEIS!
DEZ E O AC
M NÃ
NA
SE TOR
PCT3467 – Ciência dos Dados
Prof. Dr. Pedro Luiz Pizzigatti Corrêa
2.Desafios: “Dilúvio” dos Dados
Redes, Sensores, Sensoriamento
Remoto, Experimentos, Coletas…
Fonte: www.carboafrica.net
PCT3467 – Ciência dos Dados
Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Global Datasphere Expansion
Problema: Volume de Dados
is Never-ending
The use of data today is transforming the way we companies capture, catalog, and cash in on data
live, work, and play. Businesses in industries in every step of their supply chain; enterprises
around the world are using data to transform collect vast sums of customer data to provide
themselves to become more agile, improve greater levels of personalization; and consumers
International Data Corporation (IDC):
customer experience, introduce new business integrate social media, entertainment, cloud
A informação no mundo
models, and develop new sources of competitive
o
advantage. Consumers are living in an
está mais que dobrando, está dobrando cada dois
storage, and real-time personalized services into
their streams of life.
anosdigital
increasingly (30world,
Zettabytes
depending onem online2018);
The consequence of this increasing reliance on
o O número de arquivos está crescendo
and mobile channels to connect with friends and
mais rápido
data will be a never-ending que
expansion asize
in the capacidade de
family, access goods and services, and run nearly
everyarmazenamento. Nos próximos 5Global
anosDatasphere.
esses arquivos
of the Estimated to beirão
33 ZBcrescer num fator
aspect of their lives, even while asleep.
in 2018, IDC forecasts the Global Datasphere to
de 8x;
Much of today’s economy relies on data, and this grow to 175 ZB by 2025. (Figure 1). See Appendix
o O número de pessoas
reliance will only increase in the future as na áreaforde IT responsável
methodology por
and data/device esses dados irá crescer
categories.
Figure“suavemente”;
1 – Annual Size of the Global Datasphere
120
100
80
60
40
20
0
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025
Source: Data Age 2025, sponsored by Seagate with data from IDC Global DataSphere, Nov 2018
Aposentadoria ou
mudança na carreira
Um acidente
pode
destruir os Morte
dados e
documentos
Planejar Coletar
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 40
2 - Planejar
dmp.cdlib.org dmponline.dcc.ac.uk
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 44
2 - Coletar
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 48
3 - Assegurar
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 51
4 - Descrever
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 54
5 - Preservar
Boas práticas
• Armazenar os dados e metadados em formatos apropriados;
• Realizar backups dos dados dos projetos;
• Garantir a integridade e o acesso aos backups de dados;
• Definição de políticas para segurança e armazenamento das
informações;
• Identificar dados com valor a longo prazo;
• Preservar os dados brutos;
• Identificar e gerenciar os dados sensíveis.
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 57
6 - Descobrir
1. Estratégias para a localização e aquisição de dados
potencialmente úteis:
• Identificar dados complementares que possam agregar valor aos
dados do projeto.
• Buscadores genéricos na Web não são eficientes para encontrar
dados úteis.
• Dados são mais facilmente encontrados por meio das redes,
diretórios de projetos e repositórios:
Repositórios Website
Global Biodiversity Information Facility gbif.org
Atlas of Living Australia ala.org.au
Knowledge Network for Biocomplexity knb.ecoinformatics.org
Dryad datadryad.org
DataONE search.dataone.org
PCT3467 – Ciência dos Dados
Prof. Dr. Pedro Luiz Pizzigatti Corrêa
O COMPARTILHAMENTO AGREGA VALOR AOS DADOS
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 60
FAIR Data Principles
to be Findable, Accessible, Interoperable and Re-Usable
• DADOS ESPARSOS QUE PRECISAM SER COMPLEMENTADOS COM DADOS EXISTENTES PARA
POSSIBILITAR A REALIZAÇÃO DE ANÁLISES;
EXEMPLOS:
CKAN (DADOS ABERTOS DE GOVERNO – HTTP://CKAN.ORG) , QUANDL (DADOS FINANCEIROS -
HTTPS://WWW.QUANDL.COM), KAGGLE DATASETS. (HTTPS://WWW.KAGGLE.COM/DATASETS), MICROSOFT
AZURE MARKET PLACE (HTTP://DATAMARKET.AZURE.COM/BROWSE/DATA)
• O DOI tem dois componentes, o prefixo e o sufixo, que juntos formam o DOI,
separado pelo caractere "/".
Arquitetura
Natasha Noy and Matthew Burgess and Dan Brickley , Google Dataset Search:
Building a search engine for datasets in an open Web ecosystem, WebConf
2019. available at: https://ai.google/research/pubs/pub47845
PCT3467 – Ciência dos Dados
Prof. Dr. Pedro Luiz Pizzigatti Corrêa
Confiabilidade para reuso dos dados
• Se alguém entregar seus dados científicos, o que é necessário para convencê-lo
que os dados estão corretos ?
• Se requer um sistema complexo para executá-lo e que não tem acesso, o que
precisa para confiar dos dados ? Você conhece quais são as suposições e
dependências existentes ?
• Quanto você poderá confiar que os mesmo dado estará disponível por um longo
período de tempo ?
Foto de @Aestheter
http://www.flickr.com/photos/din PCT3467 – Ciência dos Dados
gridsystem/7758303394/ Prof. Dr. Pedro Luiz Pizzigatti Corrêa 71
8 - Análise
b) Reprodutibilidade
• A reprodutibilidade é a chave para os métodos científicos;
• Processos complexos são mais difíceis de serem
reproduzidos;
• Boa documentação é essencial para a reprodutibilidade;
BOAS PRÁTICAS
• OS CIENTISTAS DEVEM DOCUMENTAR OS FLUXOS DE TRABALHO USADOS NA CRIAÇÃO DE
RESULTADOS:
• PROVENIÊNCIA DOS DADOS;
• ANÁLISES E PARÂMETROS UTILIZADOS;
• CONEXÕES ENTRE ANÁLISES POR MEIO DOS INPUTS (ENTRADAS E OUTPUTS (SAÍDAS).
• A DOCUMENTAÇÃO PODE SER INFORMAL (EX: FLOWCHARTS, COMMENTED SCRIPTS) OU
FORMAL (EX: KEPLER, VISTRAILS).
www.vistrails.org kepler-project.org
Analisar Coletar
Integrar Assegurar
Descobrir Descrever
Preservar
- Natasha Noy and Matthew Burgess and Dan Brickley , Google Dataset Search:
Building a search engine for datasets in an open Web ecosystem, WebConf 2019. available at:
https://ai.google/research/pubs/pub47845