Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução 1
Objetivos 1
1 | Metaverso, mídias sociais e redes sociais 2
Short bio 2
Camadas do metaverso 3
Atividade 5
Metaverso como evolução de mídias sociais 6
Atividade 8
Conceitos básicos de redes sociais 8
Atividade 10
Caracterização de grafos 10
Atividade 12
Aplicação de medidas de redes sociais 12
Atividade 15
Análises de grupo e rede 15
Atividade 18
2 | Cenários de data science 18
Visão geral de data science 19
Atividade 21
Visão geral sobre inteligência artificial 21
Atividade 23
Introdução à mineração em grafos 24
Atividade 26
Mineração de texto 26
Atividade 28
Análise de sentimentos 28
Atividade 30
Mineração de dados multimídia 31
Atividade 33
3 | Big social data e ferramentas de data science 33
Visão geral de big social data 34
Atividade 36
Fundamentos teóricos de big social data 37
Atividade 40
Aplicações de big social data 41
Atividade 42
Scikit-learn 43
Atividade 44
Gephi 45
Atividade 46
WEKA 46
Atividade 48
4 | Aspectos diversos de data science, mining e big data 48
Ética em data science 49
Atividade 51
LGPD 52
Atividade 54
Casos frustrados de data science 55
Atividade 57
Caso Cambridge Analytica 57
Atividade 59
Aplicação de data science em dados de saúde mental 60
Atividade 62
Desafios, tendências e perspectivas 62
Atividade 64
Data Mining e Big
Data
Tema 1
Pag. 1
Tecnologias, cenários e discussões sobre
data science
1 | Metaverso, mídias sociais e redes
sociais
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Identificar as camadas do metaverso.
• Notar o metaverso como evolução de redes sociais e mídias sociais.
• Definir os conceitos de análises de redes sociais.
• Observar a caracterização de grafos.
• Entender a aplicação de medidas de centralidade.
• Observar a análise de grupos de rede.
Short bio
Pag. 2
Camadas do metaverso
Metaverso
“Eu acredito que, daqui a dez anos, vamos olhar para o metaverso da mesma maneira que
olhamos hoje para a internet. Ninguém fala mais sobre a internet, ela apenas existe.
Quando falamos em metaverso, estamos nos referindo a diferentes tecnologias que
simulam ou recriam experiências do mundo real de maneira imersiva, com a adição de
novos elementos. Há um leque de ferramentas envolvidas. Além da alta conectividade,
são necessárias tecnologias como realidade aumentada, realidade virtual e ainda
realidade reduzida – quando você tira coisas do ambiente real para simular uma
situação.”
"Metaverso”, termo do romance de ficção científica de Neal Stephenson de 1992, “Snow
Crash”, que descreve um mundo virtual gerado por computador possibilitado por
software e uma rede mundial de fibra ótica.
Fonte: GIL, Marisa Adán. “O metaverso vai aprofundar as relações humanas”, diz Amy Webb. 2021. Disponível em:
epocanegocios.globo.com/Tecnologia/noticia/2021/10/o-metaverso-vai-aprofundar-relacoes-humanas-diz-amy-webb.html. Acesso
em: 19 set. 2022.
Pag. 3
Camadas do metaverso
O metaverso é composto pelas seguintes camadas:
Infraestrutura técnica: velocidade, processamento,
armazenamento e rápida entrega de
internet.
Interface humana: novos celulares, óculos de Fonte: RADOFF, Jon. The metaverse value-chain. 2021.
Disponível em:
realidade aumentada, dispositivos medium.com/building-the-metaverse/the-metaverse-value-chain-
afcf9e09e3a7.
inteligentes, tecnologia sensorial. Acesso em: 19 set. 2022.
Pag. 4
colaborar e explorar com aqueles que não estão fisicamente lá.
Apesar das novidades e avanços, o desenvolvimento da tecnologia envolvida no
metaverso trará novos desafios que ultrapassam as questões técnicas e tecnológicas.
Fontes: BIBRI, S. E.; ALLAM, Z. The metaverse as a virtual form of data-driven smart cities: the ethics of the
hyper-connectivity, datafication, algorithmization, and platformization of urban society.
Comput.Urban Sci. 2, v. 22, 2022. Disponível em: https://doi.org/10.1007/s43762-022-00050-1. Acesso em: 19
set. 2022; BELL, Genevieve. The metaverse is a new word for an old idea. 2022. Disponível em:
www.technologyreview.com/2022/02/08/1044732/metaverse-history-snow-crash/.
Acesso em: 19 set. 2022.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CLARK, Peter Allen. The metaverse has already arrived. here’s what that
actually means. 2021. Disponível em: https://time.com/6116826/what-is-the-m
etaverse/.Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Qual dos elementos abaixo não caracteriza o conceito de web 3.0 ou o contexto
de metaverso?
Pag. 5
Metaverso como evolução de mídias sociais
“Perguntar, não o que é o metaverso ou quem o fará, mas de onde ele vem – tanto no
sentido literal quanto nas ideias que ele incorpora. Quem inventou isso, se foi mesmo
inventado?”
"Conhecer a história de uma tecnologia, ou as ideias que ela incorpora, pode fornecer
perguntas melhores, revelar possíveis armadilhas e lições já aprendidas e abrir uma
janela para a vida daqueles que as aprenderam.”
Pag. 6
Mídias sociais, ou redes sociais online (online social network)
Facebook, Instagram, Snapchat, Twitter são plataformas online de redes sociais, ou
mídias sociais.
Segundo Kaplan e Haenlein: “Mídias sociais são um grupo de aplicativos baseados na
Internet que se baseiam nos fundamentos ideológicos e tecnológicos da web 2.0 e que
permitem a criação e troca de conteúdo gerado pelo usuário".
Como o conceito de metaverso se alinha com o conceito de redes sociais e mídias
sociais?
Fontes: KAPLAN, A. M.; HAENLEIN, M. Users of the world, unite! The challenges and opportunities of Social Media.
Business Horizons, v. 53, n. 1, p. 59-68, 2010; BELL, Genevieve. The metaverse is a new word for an old idea.
2022. Disponível em: www.technologyreview.com/2022/02/08/1044732/metaverse-history-snow-crash/. Acesso em: 19 set.
2022.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
SOCIAL networking in the metaverse. CodeCondo, 2022. Disponível em: https:/
/codecondo.com/social-networking-in-the-metaverse/.
Acesso em: 19 set. 2022.
Pag. 7
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Mídias sociais são usadas na web 2.0, onde usuários compartilham informações
entre si.
Uma das propostas de web 3.0 é a descentralização dos dados, dando ao usuário
o controle de suas informações pessoais.
Um dos conceitos da web 2.0 é que o usuário consiga criar conteúdo, ao invés
de apenas consumir.
Pag. 8
termo "rede social" vem do campo da sociologia.
Ao analisar redes, podemos encontrar padrões sobre as interações entre os atores, ou
nós. As conexões em uma rede de amizade podem indicar espalhamentos de uma doença, ou
como uma notícia é difundida.
Epidemiologia pode usar dados de uma rede para entender como uma doença se espalha em
uma cidade. Jornalistas atualmente analisam redes sociais de modo a entender
fenômenos culturais e sociais.
Quanto às redes sociais, estas podem ser representadas através de grafos, de acordo
com a teoria criada por Leonard Euler para a travessia das pontes de Königsberg em
1735, nesta teoria determina qual o melhor caminho para conhecer todos os pontos da
cidade sem repetir a mesma travessia duas vezes.
Fonte: NEWMAN, M. Networks. Oxford University Press, 2018. v. 1.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
BOYD, D. M.; ELLISON, N. B. Social network sites: definition, history, and
scholarship. Journal of Computer-Mediated Communication, v.
13, n. 1, article 11, 2007.
Pag. 9
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Caracterização de grafos
Caracterização de grafos
São os dados de uma rede social que podemos modelar por meio de um grafo, podemos
também analisar a topologia de modo a caracterizar a rede criada dentro de um grupo
social, a nossa intenção pode ser, descobrir “quem é o mais conhecido”, “qual o
caminho necessário para contactar alguém”, e “quantos grupos e subgrupos existem”.
Os grafos podem apresentar os seguintes tipos:
• Não direcionados.
• Direcionados.
Pag. 10
• Grafos com peso.
• Simples.
• Regular.
• Completo.
Fonte: NEWMAN, M. Networks. Oxford University Press, 2018. v. 1.
Pag. 11
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Considerando uma hipotética rede social, qual seria a classe de medida mais
apropriada que avalia o quão rápido uma mensagem é transmitida entre dois nós?
Reciprocidade
Transitividade
Conectividade
Homofilia
Nesta videoaula, conhecemos sobre grafos: sua definição, seus tipos e os tipos de
análise que eles representam.
A seguir, estudaremos sobre aplicação de medidas de redes sociais.
Pag. 12
Aplicação de medidas de redes sociais
Vamos exemplificar a análise de redes sociais com a
rede de um clube de caratê.
Características do grafo:
• Não direcionado.
• Arestas sem peso.
• Nós representam alunos.
• Arestas representam amizade entre os alunos.
Medidas de centralidade
Representados pelas medidas de centralidade,
encontram-se em centralidade de grau, traduzido
pelos números de arestas conectados em um nó: a
centralidade de autovetor, considerada a relevância
dos nós conectados; a centralidade de intermediação,
que mede o alcance que um nó tem de estar entre o
caminho de outros dois; a centralidade de
proximidade que também mede a distância média de um
nó aos outros; por último, o PageRank, que mede um
Pag. 13
Outras medidas de grafos
Encontram-se: a menor distância (geodésica) em
grafos direcionados, que mede a quantidade de
arestas entre dois nós, ou a menor quantidade
possível de arestas; a excentricidade, que mede a
distância máxima entre um nó e todos os outros nós
da rede, também chamado de diâmetro o valor de tal
distância; a densidade que mede o quão conectada é
uma rede. No caso, todos os nós se conectem entre
si, então seu valor é 1.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.
Pag. 14
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
O quão isolado um nó é.
Pag. 15
Análises de grupo e rede
As redes sociais possuem comunidades facilmente
identificáveis.
Funcionários de uma empresa são mais propensos a
interagir com seus colegas de trabalho do que com
funcionários de outras empresas.
As comunidades também podem representar círculos de
amigos, ou um grupo de indivíduos que buscam o mesmo
hobby juntos ou indivíduos que vivem no mesmo
bairro.
Zachary's Karate Club captura as ligações entre 34
membros de um clube de caratê. Dado o pequeno
tamanho do clube, cada membro do clube conhecia
todos os outros. O sociólogo Wayne Zachary
Fonte: elaborado pelo autor. documentou 78 ligações entre os membros que
interagem regularmente fora do clube.
O interesse no conjunto de dados é motivado por um
evento singular: um conflito entre o presidente do
clube e o instrutor que divide o clube em dois.
Cerca de metade dos membros seguiu o instrutor, e a
outra metade, o presidente, uma separação que
revelou a verdade básica, representando a estrutura
da comunidade subjacente do clube.
Pag. 16
Análise em nível de rede
Análise em nível de rede: componentes, densidade, menor caminho, como exemplos:
Densidade: número de arestas da rede dividido pelo número máximo possível de arestas
entre os nós dessa rede. Todos os valores de densidade estão entre 0 e 1. Útil
para entender a dinâmica da rede e difusão da informação. d=0.139.
Menor caminho: caminho mais curto entre nós i e j. Normalmente, o cálculo dos
caminhos mais curtos é feito com o algoritmo de Dijkstra. A distância mais
longa em um grafo é chamada de diâmetro. avg(ShortestPath) = 2.4.
Componente: conjunto de atores que estão conectados internamente, mas estão
desconectados do restante dos vértices da rede. Quando um vértice é
isolado de outros vértices, ele simplesmente se torna isolado.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.
Pag. 17
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Cliques.
Clusterização.
Centralidade de proximidade.
Menor caminho.
Pag. 18
Visão geral de data science
Pag. 19
e inteligência artificial (IA). Incluem modelos de aprendizado de máquina,
processamento de linguagem natural e aprendizado profundo e escrevem programas que
automatizam o processamento de dados e cálculos.
Quanto ao domínio sobre o modelo e ações de negócio, estes são utilizados para: fazer
perguntas pertinentes, identificar os pontos problemáticos do negócio, fazer
aplicação de estatísticas e ciência da computação, aplicando a perspicácia de
negócios à análise de dados.
Elas são usadas também para uma ampla variedade de ferramentas e técnicas para
preparar e extrair dados, desde os bancos de dados e SQL até mineração de dados e
métodos de integração de dados. Esse trabalho deverá contar com a colaboração de
outros membros da equipe de ciência de dados, como: analistas de dados e negócios,
arquitetos de TI, engenheiros de dados e desenvolvedores de aplicativos.
Fonte: IBM CLOUD EDUCATION. Data science. 2022. Disponível em: https://www.ibm.com/cloud/learn/data-science-introduction
.Acesso em: 19 set. 2022.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data,
machine learning, and more, using python tools. Manning
Publications, 2016.
Pag. 20
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Nesta videoaula, aprendemos mais sobre o data science, sua visão geral, suas ações e
campos de atuação. A seguir, estudaremos sobre a inteligência artificial e suas
vertentes.
Pag. 21
Tecnologias de AI
Encontradas na literatura, as tecnologias que regem a inteligência artificial são:
Robotic Process Automation (RPA): tecnologia que extrai a lista de regras e ações a
serem executadas observando o usuário realizar determinada tarefa.
Sistemas especialistas: um programa de computador que possui regras codificadas para
emular o processo humano de tomada de decisão.
Visão Computacional (CV): métodos para adquirir e dar sentido a imagens digitais
(geralmente divididos em reconhecimento de atividades, reconhecimento de
imagens e visão de máquina).
Processamento de Linguagem Natural (NLP): subcampo que trata dados de linguagem
natural.
Redes neurais (NNs ou ANNs): uma classe de algoritmos vagamente modelados após a
estrutura neuronal do cérebro humano/animal que melhora seu desempenho sem
ser explicitamente instruído sobre como fazê-lo.
Sistemas autônomos: subcampo que se encontra na interseção entre robótica e sistemas
inteligentes.
Pag. 22
2018.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
COREA, F. An introduction to data: everything you need to know about AI,
big data and data science. Springer, 2018.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 23
Introdução à mineração em grafos
Mineração em grafos
Os conhecimentos adquiridos no primeiro módulo podem ser aplicados à tarefa de
mineração em dados cujo modelo de representação contenham informações sobre o
relacionamento.
A mineração em grafos tem como tarefa encontrar padrões em conjuntos de dados ou em
bases de dados. Os padrões encontrados nesse processo poderão gerar informações ou
conhecimentos úteis na tomada de decisões, empregando, dessa forma, conceitos da
teoria de grafos, redes complexas e análise de redes sociais.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.
Pag. 24
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.
Aplicações
As aplicações da mineração em grafos destacam-se:
- Web mining.
- Sistemas de recomendação baseados em grafos.
- Análise de redes sociais.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil,
2015.
Pag. 25
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Mineração de texto
Mineração de texto
A mineração de texto, ou análise de texto, é uma disciplina que combina ciência da
linguagem e informática com técnicas estatísticas e de aprendizado de máquina, usada
para analisar textos e transformá-los em uma forma mais estruturada para obter
padrões, informações e conhecimentos relevantes.
Quanto às tarefas, elas podem ser aplicadas na identificação de spam em e-mails, na
identificação automática de entidades em buscadores, em relatórios policiais para
entender a evolução de crimes num período de tempo, dentre outras.
Pag. 26
Dentre as atividades de mineração de texto, o autor destaca:
- Identificação da entidade.
- Detecção de plágio.
- Identificação do tópico.
- Agrupamento de texto.
- Tradução.
- Resumo automático de texto.
- Detecção de fraude.
- Filtragem de spam.
- Análise de sentimentos.
Fonte: CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data, machine learning, and more, using python
tools. Manning Publications, 2016.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data,
machine learning, and more, using python tools. Manning
Publications, 2016.
Pag. 27
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Análise de sentimentos
Pag. 28
Análise de sentimentos
Análise de sentimento, ou mineração de opinião, é o
estudo computacional das opiniões, sentimentos,
avaliações, atitudes, humores e emoções das pessoas.
É uma das áreas de pesquisa mais ativas em
processamento de linguagem natural, mineração de
dados, recuperação de informações e mineração na
Fontes: POZZI, Federico Alberto et al. Sentiment analysis in web.
social networks. Morgan Kaufmann Publishers, 2017 |
Imagem: istockphoto.com/br. A análise de sentimento (ou mineração de opinião) é
uma técnica de processamento de linguagem natural
(PLN) usada para determinar se os dados são
positivos, negativos ou neutros. A análise de
sentimento geralmente é realizada em dados textuais
para ajudar as empresas a monitorar o sentimento da
marca e do produto no feedback do cliente e entender
as necessidades do cliente.
Análise de sentimentos
As tarefas podem ser divididas basicamente em reconhecimento de emoções e detecção de
polaridade.
Outras tarefas:
- Extração de aspecto.
- Detecção de subjetividade.
- Extração de conceito.
- Reconhecimento de entidade.
- Detecção de sarcasmo.
- Reconhecimento de personalidade.
- Perfil do usuário.
- Fusão multimodal (integrar todas as modalidades únicas em uma única representação
combinada).
Fonte: JOSHI, A.; BHATTACHARYYA, P.; AHIRE, S. A practical guide to sentiment analysis. 2017.
Pag. 29
Detecção de polaridade
A detecção de polaridade representa uma das atividades recorrentes na análise de
sentimentos, com o objetivo de classificar uma palavra como neutra, positiva, ou
negativa. Essa detecção é útil para análise de comentários sobre: produtos, filmes,
opiniões de clientes e seguidores em uma mídia social. É possível analisar os
vocabulários e identificar palavras recorrentes, relacionadas a um determinado tema.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
POZZI, Federico Alberto et al. Sentiment analysis in social networks.
Morgan Kaufmann Publishers, 2017.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 30
Mineração de dados multimídia
Pag. 31
Visão computacional
Um dos pilares para a mineração multimídia repousa
no campo da visão computacional.
Essa é uma área de estudo que pesquisa como tornar
imagens ou vídeos inteligíveis para máquinas e como
obter informações de tais dados, para o apoio na
tomada de decisões ou recomendações.
Fontes: WVU RESEARCHER to study computer vision-related
image recognition. WVUTODAY, 2017. Disponível em: http
s://wvutoday.wvu.edu/stories/2017/03/06/wvu-researcher-to-s
tudy-computer-vision-related-image-recognition.
Acesso em: 19 set. 2022 | Imagem: istockphoto.com/br.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
WHAT IS computer vision? IBM, [2022]. Disponível em: https://www.ibm.com/to
pics/computer-vision. Acesso em: 19 set. 2022.
Pag. 32
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Reconhecimento facial.
Pag. 33
Visão geral de big social data
Pag. 34
Fonte: OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4, n. 1, 2017. Disponível em: ht
tps://doi.org/10.1186/s40537-017-0063-x. Acesso em: 19 set. 2022.
Pag. 35
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big
Data, v. 4, n. 1, 2017. Disponível em: https://doi.org/10.1186/s40537-017-0
063-x. Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Dados de mídias sociais que são usados para gerar insights para a população.
Big social data compreende dados de mídia social com características de big
data, como volume, ruído e dinamismo.
Vimos o conceito de big social data como uma combinação de quatro campos da ciência,
que serão abordados nas próximas videoaulas.
Pag. 36
Fundamentos teóricos de big social data
Computação social
A computação social é um campo de pesquisa e aplicação que integra ciências sociais e
computacionais.
De acordo com Wang, os fundamentos teóricos da computação social incorporam
Psicologia Social, Sociologia, Análise de Redes Sociais, Antropologia, bem como
teorias de organização, comunicação, interação humano-computador e teoria da
computação.
Computação social afeta favoravelmente o desenvolvimento da sociedade e da
tecnologia: por um lado, permitindo socialização e interações sociais suaves por meio
de vários sistemas computacionais e, por outro lado, introduzindo práticas e teorias
sociais no desenvolvimento de sistemas e aplicativos computacionais.
Pag. 37
Em termos de BSD, a computação social permite serviços de autorrepresentação mediada
por tecnologia e comunicação e suporta a construção e manutenção de relacionamentos
digitais através de múltiplas infraestruturas tecnológicas (por exemplo, web, banco
de dados, multimídia e tecnologias sem fio). Em resumo, a computação social aborda o
tema sob as perspectivas de aplicativos, comunicação e negócios.
Fonte: OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4, n. 1, 2017. Disponível em: ht
tps://doi.org/10.1186/s40537-017-0063-x. Acesso em: 19 set. 2022.
Análise de dados
A análise de dados permite a extração de insights ou conclusões de grandes conjuntos
de dados existentes. Geralmente, inclui métodos descritivos (descreve os dados),
exploratórios (descobrindo correlações desconhecidas nos dados), preditivos (prevê
eventos e tendências) e prescritivos (sugerem ações) para obter insights
significativos para diferentes domínios.
Análise de Redes Sociais (SNA) é um dos campos mais consagrados da análise de dados,
fornecendo ferramentas, métodos e teorias para a pesquisa de redes sociais no âmbito
digital.
Outras áreas centrais que podem ser relevantes para o BSD incluem Business Analytics
Pag. 38
e Sentiment Analytics.
Independentemente da intenção e da área de aplicação da análise, pode-se dizer que a
análise de dados aborda o BSD da perspectiva da utilização de dados (por exemplo,
desenvolvimento de serviços, obtenção de insights, tomada de decisões).
Pag. 39
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big
Data, v. 4, n. 1, 2017. Disponível em: https://doi.org/10.1186/s40537-017-0
063-x. Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Qual dos conceitos abaixo não está condizente com sua definição?
Pag. 40
Aplicações de big social data
Pag. 41
escolas estão precisando de investimento. E há aplicação na área da saúde por meio de
dados de mídias sociais: é possível identificar demandas de populações, regiões
demográficas, identificando grupos de trabalho, pesquisadores.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
• FARIAS, C. M. (eds.). Big social data and urban computing. Springer,
2019. (Communications in Computer and Information Science – CCIS, v.
926).
• [SEMINÁRIOS 2021] extraindo conhecimento de dados sociais para o combate
à desinformação. [S. l.: s. n.], 2021. 1 vídeo (66 min). Publicado pelo
canal Instituto de Computação - UFF. Disponível em:
www.youtube.com/watch?v=KqeOlMrkkWw&ab_channel=InstitutodeComputa%C3%A7%C3%A3o-UFF.
Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Nesta videoaula, vimos a importância do big social date e suas aplicações, como são
benéficas à sociedade. A seguir, estudaremos sobre o scikit-learn.
Pag. 42
Scikit-learn
Scikit-learn
Scikit-learn representa a biblioteca que talvez é considerada como a mais popular em
aprendizado de máquina em Python, fornecendo uma seleção de ferramentas eficientes
para aprendizado de máquina e modelagem estatística, incluindo classificação,
regressão, agrupamento e redução de dimensionalidade.
Foi escrita em Python, construída sobre outras bibliotecas NumPy, SciPy e Matplotlib
e desenvolvida inicialmente por David Cournapeau como um projeto de verão do Google
em 2007.
Fonte: SCIKIT Learn – Introduction. Tutorialspoin, [2022]. Disponível em:
www.tutorialspoint.com/scikit_learn/scikit_learn_introduction.htm.
Acesso em: 19 set. 2022.
Pag. 43
Scikit-learn é uma biblioteca de código aberto e também comercialmente utilizável sob
licença BSD.
Possui robusta documentação com exemplos e referências apropriadas sobre como
utilizar cada tipo de algoritmo.
Modelagem e análise de dados e família de modelos de algoritmos podem ser resumidas
em:
• Algoritmos de aprendizado supervisionado.
• Algoritmos de aprendizado não supervisionado.
• Clustering.
• Validação cruzada.
• Redução de dimensionalidade.
• Métodos de conjunto.
• Extração de recursos.
• Seleção de recursos.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 44
Gephi
Gephi
O Gephi é uma ferramenta para análise de grafos, que
permite manipular as estruturas, formas e cores para
revelar padrões ocultos, a fim de facilitar o
entendimento de datasets.
Essa ferramenta é utilizada para complementar as
estatísticas tradicionais, uma vez que emprega o
Fontes: LEARN how to use Gephi. Gephi, 2022. Disponível em: pensamento visual com interfaces interativas. É um
https://gephi.org/users/ . Acesso
em: 19 set. 2022 | Imagem: istockphoto.com/br. software para análise exploratória de dados,
considerado como um paradigma surgido no campo de
pesquisa visual analytics.
Pag. 45
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
FEATURES. Gephi.org, 2022. Disponível em: https://gephi.org/features/.
Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
WEKA
WEKA
Pag. 46
A WEKA é uma ferramenta open-source de mineração de dados baseada em Java.
WEKA é uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração
de dados. Ela contém ferramentas para preparação de dados, classificação, regressão,
agrupamento, mineração de regras de associação e visualização.
Essa ferramenta facilita a utilização dos conceitos de mineração de dados, já que não
é necessário implementar em linguagem de programação todas as etapas de
pré-processamento, análise e pós-processamento.
Fonte: CITING Weka. Weka Wiki, [2022]. Disponível em: https://waikato.github.io/weka-wiki/citing_weka/. Acesso em: 19
set. 2022.
Características
Dentre as características da ferramenta WEKA, é possível destacar:
• Permite a seleção de features mais relevantes.
• Tem uma conexão direta com bancos de dados, o que simplifica a etapa de obtenção de
dados e pré-processamento.
• Permite a visualização das features e acurácia dos modelos treinados.
• Utiliza diversos algoritmos de machine learning de modo simples e prático.
Por ser a WEKA uma ferramenta open-source, vários dos algoritmos e contribuições da
comunidade foram removidos e colocados em pacotes de plugins. Por isso, ela possui um
sistema de gerenciamento de pacotes que permite ao usuário procurar e instalar,
seletivamente, os pacotes de seu interesse.
Fonte: WITTEN, Ian. H. et al. The WEKA workbench. Morgan Kaufmann, 2016. Disponível em: https://www.cs.waikato.ac.nz/ml/
weka/Witten_et_al_2016_appendix.pdf. Acesso em: 19 set. 2022.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
WEKA - quick guide. Tutorialspoint, 2022. Disponível em:
www.tutorialspoint.com/weka/weka_quick_guide.htm.
Acesso em: 19 set. 2022.
Pag. 47
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 48
Ética em data science
Pag. 49
Ética em data science
Quanto à ética em data Science, uma boa solução é a remoção de vieses dos datasets
com o objetivo de melhor a qualidade dos dados.
No entanto, isso não garante que o modelo estará livre de viés; e não é possível
definir por unanimidade o que é ética. Logo, devemos estar abertos a admitir que
nossos valores ou ética podem não estar completamente corretos, bem como o que
consideramos tendencioso não é a exceção, mas sim a norma.
Fonte: EITEL-PORTER, R. Beyond the promise: implementing ethical AI. AI Ethics, n. 1, p. 73-80, 2021.
Pag. 50
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CARVALHO, Luiz Paulo et al. Social network analysis, ethics and LGPD,
considerations in research. iSys: Revista Brasileira de
Sistemas de Informação (Brazilian Journal of Information Systems),
v. 14, n. 2, p. 28-52. DOI: 10.5753/isys.2021.1235.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Equidade.
Privacidade.
Transparência.
Dados enviesados.
Nesta videoaula, aprendemos sobre ética em data science, que representa a ética
aplicada em modelos computacionais, para melhor contribuir na nossa sociedade. Na
próxima videoaula, estudaremos sobre LGPD – Lei Geral de Proteção de Dados.
Pag. 51
LGPD
Fundamentos da LGPD
A Lei Geral de Proteção de Dados Pessoais é regida pelos seguintes fundamentos:
I - o respeito à privacidade.
II - a autodeterminação informativa.
III - a liberdade de expressão, de informação, de comunicação e de opinião.
IV - à inviolabilidade da intimidade, da honra e da imagem.
V - o desenvolvimento econômico e tecnológico e a inovação.
Pag. 52
VI - a livre iniciativa, a livre concorrência e a defesa do consumidor, e
VII - os direitos humanos, o livre desenvolvimento da personalidade, a dignidade e o
exercício da cidadania pelas pessoas naturais.
Fonte: LEI Geral de Proteção de Dados Pessoais (LGPD). Gov.br, [2022]. Disponível em:
www.gov.br/cidadania/pt-br/acesso-a-informacao/lgpd. Acesso em: 19
set. 2022.
Pag. 53
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
• LEI Geral de Proteção de Dados Pessoais (LGPD). Gov.br, [2022].
Disponível em:
www.gov.br/cidadania/pt-br/acesso-a-informacao/lgpd.
Acesso em: 19 set. 2022.
• CARVALHO, Luiz Paulo; OLIVEIRA, Jonice; CAPPELLI, Claudia. Pesquisas em
análise de redes sociais e LGPD, análises e recomendações. In:
BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 9., 16
a 20 nov. 2020. Anais […]. [S. l.]: [CSBC], 2020. Disponível em: https://
sol.sbc.org.br/index.php/brasnam/article/view/11164/11035.
Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Dados com informação sensível, tal como informações sobre menores de idade.
Pag. 54
Casos frustrados de data science
Pag. 55
O bot foi lançado inicialmente para testar e melhorar a compreensão da linguagem
natural da Microsoft em conversas. Tay usou suas habilidades de IA para aprender com
as interações e ter melhores conversas no futuro. Em pouco tempo, os usuários do
Twitter começaram a atacar as vulnerabilidades do bot de IA, manipulando-o para
aprender sentimentos profundamente sexistas e racistas.
A Microsoft teve que desligar o bot menos de 24 horas após lançá-lo. Em uma
declaração futura, o CEO da Microsoft, Satya Nadella, comentou sobre a “grande
influência” que Tay teve sobre como a Microsoft está abordando a IA e a importância
da responsabilidade.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
PYKES, Kurtis. 5 AI failures you probably should know about. 2021.
Disponível em: https://towardsdatascience.com/5-ai-failures-you-probably-sh
ould-know-about-417ddebbc323.Acesso em: 19 set. 2022.
Pag. 56
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Qual dos motivos abaixo não pode ser considerado um ponto fraco na construção
de um modelo de conhecimento?
Nesta videoaula, aprendemos sobre os casos frustrados de data science, seus motivos e
dois exemplos de casos: Microsoft Tay e Uber Self Driving Car Fatality. Na próxima
videoaula, estudaremos sobre o caso Cambridge Analytica e as discussões sobre uso de
dados sociais.
Pag. 57
II, c).
O tratamento de dados pessoais somente poderá ser realizado para a realização de
estudos por órgão de pesquisa, garantindo, sempre que possível, a anonimização dos
dados pessoais.
O art. 7 trata de dados pessoais, e o art. 11 trata de dados pessoais sensíveis:
“Esta Lei não se aplica ao tratamento de dados pessoais realizado por pessoa natural
para fins exclusivamente particulares e não econômicos”.
Fonte: CARVALHO, Luiz Paulo; OLIVEIRA, Jonice; CAPPELLI, Claudia. Pesquisas em análise de redes sociais e LGPD, análises
e recomendações. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 9., 16 a 20 nov. 2020. Anais […]. [S.
l.]: [CSBC], 2020. Disponível em: https://sol.sbc.org.br/index.php/brasnam/article/view/11164/11035. Acesso em: 19
set. 2022.
Pag. 58
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
THE CAMBRIDGE analytica scandal. The Verge, 2022. Disponível em:
www.theverge.com/2018/4/10/17165130/facebook-cambridge-analytica-scandal.
Acesso em: 19 set. 2022.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 59
Aplicação de data science em dados de saúde mental
Pag. 60
Aplicação de data science em dados de saúde mental
Uso de abordagens de machine learning e deep learning: aplicam-se os dados de data
science em
análise de sentimentos, redes sociais e criação de modelos de conhecimento capazes de
classificar.
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
• SBBD2020 WTDBD 1. [S. l.: s. n.], [2020]. 1 vídeo (142 min). Publicado
pelo canal Departamento de Informática - PUC-Rio. Disponível em:
www.youtube.com/watch?v=9yboV9CqL6o&list=PLRKeuVfLlY-5IZme8klDjd0S7I6QWUPQv
&index=4&ab_channel=DepartamentodeInform%C3%A1tica-PUC-Rio
Pag. 61
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 62
• Análise de sentimentos/mineração de opiniões.
• Mineração de dados multimídia.
• Mineração de dados paralela e multimídia.
• Web semântica.
• E-ciência.
• Análise de redes complexas.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.
Pag. 63
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil,
2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Qual das opções abaixo não pode ser considerada um desafio na área de data
science?
Formação de profissionais que saibam dialogar tanto com tecnologia, como com
áreas diversas.
Referências autorais
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.
BARABÁSI, A.-L. Network science. Cambridge, 2016. Disponível em: http://www.networksc
iencebook.com/. Acesso em: 19 set. 2022.
Pag. 64
CHAN, K. Y. et al. Social big data analytics: practices, techniques, and
applications. Springer Nature Singapore, 2021.
COREA, F. An introduction to data: everything you need to know about AI, big data and
data science. Springer, 2018.
FARIAS, C. M. (eds.). Big social data and urban computing. Springer, 2019.
(Communications in Computer and Information Science – CCIS, v. 926).
ISHIKAWA, H. Social big data mining. CRC Press, 2015.
OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4,
n. 1, 2017. Disponível em: https://doi.org/10.1186/s40537-017-0063-x. Acesso em:
19 set. 2022.
P.M., Krishna Raj; MOHAN, Ankith; SRINIVASA, K. G. Practical social network analysis
with python. Springer International Publishing, 2018.
POZZI, Federico Alberto et al. Sentiment analysis in social networks. Morgan Kaufmann
Publishers, 2017.