Escolar Documentos
Profissional Documentos
Cultura Documentos
Fernanda Farinelli
2020
Coleta e Obtenção de Dados
Fernanda Farinelli
© Copyright do Instituto de Gestão e Tecnologia da Informação.
Todos os direitos reservados.
Fonte de dados.................................................................................................... 9
Propriedades ACID............................................................................................ 41
Propriedades BASE........................................................................................... 45
Referências.................. ............................................................................................ 54
Tipos de dados
Dados não estruturados: São aqueles que como regra geral não seguem um
formato ou esquema especificado, ou seja, não possuem um domínio, tamanho nem
uma estrutura pré-definida. Fazem parte desse tipo de dados os dados originários de
textos, páginas web, as mídias sociais, celulares, imagens, vídeos, sensores,
microfones e áudios. A maior parte dos dados que são coletados atualmente são
dados não estruturados. Acredita-se que 95% dos dados gerados hoje são em
formato não estruturado (MAYER-SCHÖNBERGER, CUKIER, 2013:47). Este tipo de
Fonte: Da autora.
Fonte de dados
1
ERP (sigla do inglês Enterprise Resource Planning): Sistema de informação que visam integra dados
e processos de uma organização em um único sistema. Mais detalhes em:
https://pt.wikipedia.org/wiki/Sistema_integrado_de_gest%C3%A3o_empresarial.
2
CRM (sigla do inglês Customer Relationship Management): Sistema de informação que visão
concentras as atividades relacionadas ao contato e acompanhamento da relação entre a empresa e
seu cliente. Mais detalhes em: https://pt.wikipedia.org/wiki/Customer_relationship_management.
A ideia de criar uma Internet semântica foi trazida por um dos idealizadores
da Internet, Tim Bernes-Lee. A web semântica pode ser entendida como uma
extensão da web tradicional que estrutura o significado do conteúdo da web de forma
clara e bem definida, permitindo aos computadores interagir entre eles trocando
A proposta trazida por BERNERS-LEE et al. (2001) é que isto seja feito com
a combinação do conteúdo disponível com “metadados”. Dessa forma, a semântica
será incorporada sem prejudicar o que já está disponível para as pessoas. Existem
quatro princípios que regem a ideia de se criar a web semântica:
Kaggle: https://www.kaggle.com/datasets.
Wikipédia: https://dumps.wikimedia.org/.
3
Último acesso em: 25/05/2020.
4
Último acesso em: 25/05/2020.
5
Último acesso em: 25/05/2020.
6
Para outras dicas sobre onde encontrar dados abertos veja o post: VASCONCELLOS, Paulo. Os 7
melhores sites para encontrar datasets para projetos de Data Science. On-line: 2017. Disponível on-
line em: <https://paulovasconcellos.com.br/os-7-melhores-sites-para-encontrar-datasets-para-
projetos-de-data-science-8a53c3b48329>. Acesso em: 09/04/2020.
ii) Definir URIs HTTP de modo que as pessoas procurarem por esses
nomes em URI;
iv) Adicionar links para outras URIs visando encontrar mais coisas.
Em 2017, no artigo Semantic Web Layer Cake Tweak8, Kingsley Uyi Idehen
mostra um modelo atualizado que inclui a recente evolução das tecnologias da web
semântica (Figura 6), entretanto o conceito das funções das camadas originalmente
concebidos ainda persiste.
7
Disponível em: <https://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html>.
8
Disponível em: <https://medium.com/openlink-software-blog/semantic-web-layer-cake-tweak-
explained-6ba5c6ac3fab>. Acesso em: 25/05/2020.
O Linked Open Data (LOD), traduzido como dados abertos vinculados por
ZAIDAN e BAX (2013), é um projeto aberto comunitário mundial, de responsabilidade
do W3C, que iniciou em 2007 e que visa à publicação de vários conjuntos de dados
(datasets) de forma que as ligações sejam possíveis entre eles.
9
Maio/2020.
10
Último acesso em 25/05/2020.
Fonte: https://lod-cloud.net.
Analisar seus dados, selecionado aqueles que são úteis para serem
publicados.
Modelar seus dados para convertê-los facilmente para linguagem RDF e criar
URIs para cada objeto.
Escolher ou criar sob qual licença ficarão os dados, pode ser a Creative
Commons Attribution License.
Ligar seus dados a outros dados antes de publicá-los. As ligações podem ser
em qualquer outro dataset já criado e publicado.
‒ https://datahub.io/collections/linked-open-data.
11
Último acesso em: 25/05/2020.
Uma ontologia pode ser muito complexa, com milhares de conceitos, ou muito
simples, descrevendo apenas um ou dois conceitos. Um exemplo de ontologia é
mostrado na Figura 8. Nesta ontologia é descrita uma pequena fração do domínio do
Importante ressaltar que os nomes das classes devem iniciar com letras
maiúsculas e os nomes das propriedades devem iniciar com minúsculas.
Um vocabulário comum;
Um entendimento compartilhado.
Onde:
OWL Lite: foi projetado para ser fácil de implementar, menos complexo e,
dessa forma, auxiliar os usuários a iniciarem na OWL;
Os dados obtidos pelo NLP podem ser armazenados em uma base de dados
para outras análises posteriores, como a aplicação da mineração de dados.
Mídias Sociais
Perfis dos usuários: Os perfis são usados para identificar o indivíduo na rede
e para identificar indivíduos com interesses comuns visando articular novas
conexões. Os dados dos perfis são compostos por dados demográficos do
indivíduo – por exemplo: idade, sexo, localização – e conteúdo de seu interesse
– como por exemplo: passatempos, bandas, filmes e livros favoritos, viagens –
e às vezes por fotos. Permitem dados em formato diversos, como texto,
imagens, áudio e vídeo. Os perfis geralmente podem ser acessados por
qualquer pessoa com uma conta na rede social ou podem ser privados,
conforme parametrizado pelo usuário seguindo as políticas de privacidades.
12
Lei Geral de Proteção de Dados Pessoais, Lei Brasileira nº 13.709/2018, texto completo disponível
em: <http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709compilado.htm>. Acesso
em: 25/05/2020.
13
General Data Protection Regulation (Regulamento Geral sobre a Proteção de Dados, aplicável a
todos os indivíduos na União Europeia e Espaço Económico Europeu que foi criado em 2018). Detalhes
disponível em: <https://gdpr-info.eu/>. Acesso em: 25/05/2020.
Avaliações ou reações: As redes sociais ainda permitem que seus usuários
expressem suas reações em relação ao conteúdo compartilhado por um
determinado usuário. Tais avaliações ou reações podem ser muito específicas
conforme a plataforma da rede social. Por exemplo, a rede Facebook® permite
aos usuários reagirem a uma postagem por meio de menu de opções de
emoticons conforme Figura 10. Já no caso, do YouTube®, Figura 11, os vídeos
podem ser avaliados como “Gostei” (I like this) e “Não gostei” (I dislike this)
além de permitir o compartilhamento (Share).
Listas de Mais Populares (Top Lists): As Top Lists são criadas pelo próprio
serviço da rede social a partir dos conteúdos ou usuários mais populares. Tais
listas são formadas a partir das estatísticas baseadas nas avaliações dos
usuários ao conteúdo.
Fonte: Da autora.
A forma mais indicada para a obtenção de dados a partir das mídias sociais
ou buscar conteúdo na web é por meio da utilização das APIs e das funcionalidades
e serviços por elas compartilhada. Através destes serviços, é possível publicar
conteúdo, coletar conteúdo e dados dos usuários, além de outras ações específicas
de cada mídia social. Com isto, pode-se tanto automatizar o monitoramento das
mídias sociais quanto alimentar as bases de dados para posterior análise.
Twitter: https://developer.twitter.com/en;
Linkedin: https://www.linkedin.com/developers/apps;
Facebook: https://developers.facebook.com/docs/graph-api?locale=pt_BR;
14
Todas as URLs citadas foram acessadas em 26/05/2020. Podem sofrer alterações.
Youtube: https://developers.google.com/youtube/v3/;
Observação: Lembre-se que é necessário ter uma conta na mídia social para
criar aplicativos e obter as chaves de acesso para utilização da API.
Além das APIs de mídias sociais, ainda existem algumas para portais de
conteúdo e portais de dados abertos. A seguir são citados algumas destas APIs.
‒ http://www.portaltransparencia.gov.br/api-de-dados.
‒ http://www.transparencia.gov.br/swagger-ui.html.
O modelo relacional é uma teoria matemática criada por Edgar Frank Codd
em 1970 para descrever como as bases de dados devem funcionar. Fundamentado
na teoria de conjuntos e nas possíveis relações entre os conjuntos, permitindo
operações de junção, união, retorno seletivo de dados e diversas outras operações
matemáticas. Até recentemente, este modelo foi considerado o mais flexível e
adequado ao solucionar os vários problemas que se colocam no nível da concepção
e implementação da base de dados para tratamento de dados estruturados
(ELMASRI, NAVATHE, 2005; HEUSER, 2008).
O Teorema CAP ou Teorema de Brewer, foi criado por Dr. Eric Brewer, na
Association for Computing Machinery (ACM), para descrever o comportamento de um
sistema distribuído quando acontece uma requisição de escrita de dados seguida de
uma requisição de leitura (consulta). Conforme o teorema (Figura 14), dado um par
de requisições, uma escrita seguida por uma leitura, é impossível que o
armazenamento de dados distribuído garanta simultaneamente mais de duas das três
seguintes características: Consistência, Disponibilidade e Tolerância a falhas.
Fonte: Da autora.
Propriedades BASE
15
https://aws.amazon.com/pt/dynamodb/
16
http://redis.io/
17
http://basho.com/
18
https://www.project-voldemort.com/voldemort/
19
https://memcached.org/
Este modelo foi inspirado pelo BigTable do Google, suportam várias linhas e
colunas, e também permitem sub-colunas. Assim, ao invés de definir
antecipadamente as colunas necessárias para armazenar um registro, o responsável
pela modelagem de dados define o que é chamado de "famílias de colunas" (Figura
16).
Esse modelo de banco de dados possui uma arquitetura especial para tratar
e armazenar grandes volumes de dados distribuídos geograficamente. Além disso,
ele é preparado para estar sempre disponível para escrita, uma vez que a replicação
e o balanceamento dos dados entre os nós do cluster são realizados de forma
transparente e automática. São recomendados e adequados para serem conectados
a ferramentas de extração e análises de dados, capazes de tratar e identificar padrões
e correlação de dados. Existem vários SGBDs que implementam o paradigma
colunar, por exemplo: BigTable do Google20, Cassandra21 e HBase22.
20
https://cloud.google.com/bigtable/
21
http://cassandra.apache.org/
22
https://hbase.apache.org/
23
http://www.couchbase.com/
24
http://couchdb.apache.org/
25
https://www.mongodb.com
26
https://bigcouch.cloudant.com/
Por fim, deve-se ter em mente que um modelo NoSQL não deve ser
considerado melhor que o outro, já que cada tipo de modelo pode ser mais adequado
para determinadas aplicações. Os bancos de dados NoSQL tem sido amplamente
adotado em empresas como Facebook, Amazon e Google com o intuito de atender
às suas demandas de escalabilidade, alta disponibilidade e dados não estruturados.
27
https://virtuoso.openlinksw.com/
28
https://www.objectivity.com/products/infinitegraph/
29
http://franz.com/agraph/allegrograph/
30
https://titan.thinkaurelius.com/
31
https://www.arangodb.com/
32
https://neo4j.com/
ATZORI, L.; IERA, A.; MORABITO, G. The internet of things: A survey. In: Computer
networks, v. 54, n. 15, p. 2787-2805, 2010.
BDW, B. D. W. Introduction about NoSQL Data Models. Big Data World. On-ine. 2019
2014. Disponível em: <http://amanbinny.blogspot.com/2014/11/introduction-about-
nosql-data-models.html>. Acesso em: 04 ago. 2020.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. In: Scientific
american, v. 284, n. 5, p. 28-37, Apr 26 2001.
BINANI, S.; GUTTI, A.; UPADHYAY, S. SQL vs. NoSQL vs. NewSQL-A comparative
study. In: Database, v. 6, n. 1, p. 1-4, 2016.
DAMA. The DAMA Guide to The Data Management Body of Knowledge (DAMA-
DMBOK Guide). The Data Management Association International (DAMA). 1ª ed. Bas
King Ridge, New Jersey, USA: Technics Publications LLC, 2009. p.406.
DUMBILL, E.; et al. Big Data Now: 2012 Edition. Sebastopol: O’Reilly Media, 2012.
DURDEN, T. What Happens In An Internet Minute In 2019? Zero Hedge. On-line. 2019
2019. Disponível em: <https://www.zerohedge.com/news/2019-03-13/what-happens-
internet-minute-2019>. Acesso em: 04 ago. 2020.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting
useful knowledge from volumes of data. In: Communications of the Acm, v. 39, n. 11,
p. 27-34, 1996a.
FEW, S.; EDGE, P. Data visualization: past, present, and future. In: IBM Cognos
Innovation Center, 2007.
FRANK, E.; HALL, M. A.; WITTEN, I. H. The WEKA workbench. Morgan Kaufmann,
2016.
GARRO, F. O que é ETL e qual sua importância entre os processos de BI. Blog IGTI.
On-line: Blog IGTI. 2019 2017. Disponível em: <http://igti.com.br/blog/o-que-e-etl-bi/>.
Acesso em: 04 ago. 2020.
GUBBI, J.; et al. Internet of Things (IoT): A vision, architectural elements, and future
directions. In: Future Generation Computer Systems, v. 29, n. 7, p. 1645-1660, 2013.
HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Elsevier, 2011.
HEATH, T.; BIZER, C. Linked data: Evolving the web into a global data space. In:
Synthesis lectures on the semantic web: theory and technology, v. 1, n. 1, p. 1-136,
2011.
LANEY, D. 3D data management: Controlling data volume, velocity and variety. In:
META Group Research Note, v. 6, p. 70-73, 2001.
LAZER, D.; RADFORD, J. Data ex Machina: Introduction to Big Data. In: Annual
Review of Sociology, v. 43, n. 1, p. 19-39, 2017/07/31 2017.
MCAFEE, A.; et al. Big data: the management revolution. In: Harvard business review,
v. 90, n. 10, p. 60-68, 2012.
MIORANDI, D.; et al. Internet of things: Vision, applications and research challenges.
In: Ad hoc networks, v. 10, n. 7, p. 1497-1516, 2012.
OLSON, M. Hadoop: Scalable, flexible data storage and analysis. In: IQT quarterly, v.
1, n. 3, p. 14-18, 2010.
RAJ, A.; D’SOUZA, R. A Review on Hadoop Eco System for Big Data. 2019.
STONEBRAKER, M. New opportunities for New SQL. In: Communications of the Acm,
v. 55, n. 11, p. 10-11, 2012.
STROHBACH, M.; et al. Big Data Storage. In: CAVANILLAS, J. M.; CURRY, E. and
WAHLSTER, W. (Ed.). New Horizons for a Data-Driven Economy: A Roadmap for
Usage and Exploitation of Big Data in Europe. Cham: Springer International
Publishing, 2016. p.119-141.
TURCK, M. Great Power, Great Responsibility: The 2018 Big Data & AI Landscape.
2018. Disponível em: <http://mattturck.com/bigdata2018/>. Acesso em: 04 ago. 2020.
VAN DIJCK, J. Datafication, dataism and dataveillance: Big Data between scientific
paradigm and ideology. In: Surveillance & Society, v. 12, n. 2, p. 197-208, 2014.
______. RDF 1.1 Concepts and Abstract Syntax. CYGANIAK, R.;WOOD, D. and
LANTHALER, M.: World Wide Web Consortium, OWL Working Group 2014a.
Disponível em: <https://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/>.
Acesso em: 04 ago. 2020.
WITTEN, I. H.; et al. Data Mining: Practical machine learning tools and techniques.
Morgan Kaufmann, 2016.
WU, X.; et al. Data mining with big data. In: IEEE transactions on knowledge and data
engineering, v. 26, n. 1, p. 97-107, 2014.
ZHENG, Z. Constructing new attributes for decision tree learning. Citeseer, 1996.