Você está na página 1de 67

SUMÁRIO

Introdução 1
Objetivos 1
1 | Metaverso, mídias sociais e redes sociais 2
Short bio 2
Camadas do metaverso 3
Atividade 5
Metaverso como evolução de mídias sociais 6
Atividade 8
Conceitos básicos de redes sociais 8
Atividade 10
Caracterização de grafos 10
Atividade 12
Aplicação de medidas de redes sociais 12
Atividade 15
Análises de grupo e rede 15
Atividade 18
2 | Cenários de data science 18
Visão geral de data science 19
Atividade 21
Visão geral sobre inteligência artificial 21
Atividade 23
Introdução à mineração em grafos 24
Atividade 26
Mineração de texto 26
Atividade 28
Análise de sentimentos 28
Atividade 30
Mineração de dados multimídia 31
Atividade 33
3 | Big social data e ferramentas de data science 33
Visão geral de big social data 34
Atividade 36
Fundamentos teóricos de big social data 37
Atividade 40
Aplicações de big social data 41
Atividade 42
Scikit-learn 43
Atividade 44
Gephi 45
Atividade 46
WEKA 46
Atividade 48
4 | Aspectos diversos de data science, mining e big data 48
Ética em data science 49
Atividade 51
LGPD 52
Atividade 54
Casos frustrados de data science 55
Atividade 57
Caso Cambridge Analytica 57
Atividade 59
Aplicação de data science em dados de saúde mental 60
Atividade 62
Desafios, tendências e perspectivas 62
Atividade 64
Data Mining e Big
Data
Tema 1

Tecnologias, cenários e discussões sobre data science


Metaverso, mídias Cenários de DATA Big social data e Aspectos diversos de
sociais e redes science ferramentas data science,
sociais Este módulo apresenta ao aluno de data science mining e big
O módulo apresenta os o conceito de data science e Este módulo apresenta uma data
conceitos que apoiam redes seus cenários de aplicação. visão geral de big social Este módulo apresenta questões
sociais. Também apresenta as data, seus fundamentos e diversas de cenários de data
motivações para explorar como aplicações. Também apresenta science, não necessariamente
as mídias sociais se tornaram três ferramentas utilizadas técnicas, mas que influenciam
plataformas de socialização. nas atividades de mineração de para a melhor utilização das
dados e análise de redes soluções.
sociais.

Pag. 1
Tecnologias, cenários e discussões sobre
data science
1 | Metaverso, mídias sociais e redes
sociais
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Identificar as camadas do metaverso.
• Notar o metaverso como evolução de redes sociais e mídias sociais.
• Definir os conceitos de análises de redes sociais.
• Observar a caracterização de grafos.
• Entender a aplicação de medidas de centralidade.
• Observar a análise de grupos de rede.

Short bio

Após conhecermos as áreas de especialização acadêmicas e profissionais de atuação do


professor Silas P. Lima Filho, estamos prontos para começarmos nossos
estudos sobre data mining e big data. Vamos lá!

Pag. 2
Camadas do metaverso

Metaverso
“Eu acredito que, daqui a dez anos, vamos olhar para o metaverso da mesma maneira que
olhamos hoje para a internet. Ninguém fala mais sobre a internet, ela apenas existe.
Quando falamos em metaverso, estamos nos referindo a diferentes tecnologias que
simulam ou recriam experiências do mundo real de maneira imersiva, com a adição de
novos elementos. Há um leque de ferramentas envolvidas. Além da alta conectividade,
são necessárias tecnologias como realidade aumentada, realidade virtual e ainda
realidade reduzida – quando você tira coisas do ambiente real para simular uma
situação.”
"Metaverso”, termo do romance de ficção científica de Neal Stephenson de 1992, “Snow
Crash”, que descreve um mundo virtual gerado por computador possibilitado por
software e uma rede mundial de fibra ótica.
Fonte: GIL, Marisa Adán. “O metaverso vai aprofundar as relações humanas”, diz Amy Webb. 2021. Disponível em:
epocanegocios.globo.com/Tecnologia/noticia/2021/10/o-metaverso-vai-aprofundar-relacoes-humanas-diz-amy-webb.html. Acesso
em: 19 set. 2022.

Pag. 3
Camadas do metaverso
O metaverso é composto pelas seguintes camadas:
Infraestrutura técnica: velocidade, processamento,
armazenamento e rápida entrega de
internet.
Interface humana: novos celulares, óculos de Fonte: RADOFF, Jon. The metaverse value-chain. 2021.
Disponível em:
realidade aumentada, dispositivos medium.com/building-the-metaverse/the-metaverse-value-chain-
afcf9e09e3a7.
inteligentes, tecnologia sensorial. Acesso em: 19 set. 2022.

Descentralização: modelos de negócios construídos


para criar um mundo sem intermediários, mais
democrático e distribuído.
Computação espacial: tecnologias de VR e VA,
reconhecimento de gestos, mapeamento
e computação espacial.
Economia criadora: facilita construir e monetizar.
Ferramentas de design, novas tecnologias
e formas de vendas.
Descoberta: entender como a nova experiência existe
e é real sem a realidade dividida entre mundo
físico e virtual, como jogar, se exercitar,
trabalhar, consumir e se relacionar com
os outros.

“No coração do Metaverso está uma compreensão computacional da cognição, emoção,


motivação e comportamento dos usuários humanos que reduz a experiência da vida
cotidiana a regras e procedimentos lógicos e calculistas. Isso implica que os
usuários humanos se tornam mais conhecíveis e gerenciáveis ​e seu comportamento mais
previsível e controlável, servindo assim como pontos de dados passivos que alimentam
o sistema de IA e análise com os quais eles não têm intercâmbio ou influência.”
A web 3.0 baseia-se nos princípios fundamentais de descentralização, transparência,
inteligência artificial e aumento da utilidade do consumidor.
Metaverso é um reino virtual que mistura elementos de mídia social, jogos on-line,
realidade aumentada, realidade virtual e criptomoedas para alimentar as interações
entre seus participantes na Internet.
“Meta” descreve como uma coleção de locais virtuais em que os indivíduos podem

Pag. 4
colaborar e explorar com aqueles que não estão fisicamente lá.
Apesar das novidades e avanços, o desenvolvimento da tecnologia envolvida no
metaverso trará novos desafios que ultrapassam as questões técnicas e tecnológicas.
Fontes: BIBRI, S. E.; ALLAM, Z. The metaverse as a virtual form of data-driven smart cities: the ethics of the
hyper-connectivity, datafication, algorithmization, and platformization of urban society.
Comput.Urban Sci. 2, v. 22, 2022. Disponível em: https://doi.org/10.1007/s43762-022-00050-1. Acesso em: 19
set. 2022; BELL, Genevieve. The metaverse is a new word for an old idea. 2022. Disponível em:
www.technologyreview.com/2022/02/08/1044732/metaverse-history-snow-crash/.
Acesso em: 19 set. 2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CLARK, Peter Allen. The metaverse has already arrived. here’s what that
actually means. 2021. Disponível em: https://time.com/6116826/what-is-the-m
etaverse/.Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos elementos abaixo não caracteriza o conceito de web 3.0 ou o contexto
de metaverso?

Utilização de equipamento de realidade virtual.

Tecnologia de computação espacial para recriar ambientes virtuais.

Uma única empresa controladora de todo o ambiente virtual (metaverso).

Uso de inteligência artificial para lidar com tecnologia de VR e AR.

Nesta primeira videoaula, aprendemos exclusivamente sobre o conceito de metaverso e


suas camadas. Na próxima videoaula, seguiremos nesse assunto, estudando o metaverso
como a evolução das mídias sociais.

Pag. 5
Metaverso como evolução de mídias sociais

Metaverso como evolução de mídias sociais


Apesar da inovação da proposta do metaverso, ainda é uma tecnologia em
desenvolvimento. As atuais plataformas de mídia social são centralizadas, construídas
em tecnologias tradicionais de banco de dados distribuído, coletam dados dos
usuários, o que leva a preocupações com a privacidade. A condução virtual de
conversas, incluindo as sutilezas da comunicação genuína que as plataformas de mídia
social não possuem.
Apesar de promissor, o metaverso envolverá questões sociais que já são questionadas
no contexto de mídias sociais, como Instagram e Snapchat no desenvolvimento de
filtros com realidade aumentada, já o Roblox permite interação entre usuários.
A análise de relações e interações entre usuários e entidades é válida, seja no
metaverso, ou em mídias sociais atuais.
Fontes: BONFIM, Ricardo. Metaverso ficará plenamente disponível em um prazo de cinco a dez anos, estima Meta. 2022.
Disponível em:
valor.globo.com/financas/noticia/2022/08/11/metaverso-ficara-plenamente-disponivel-em-um-prazo-de-cinco-a-dez-anos-estim
a-meta.ghtml.
Acesso em: 19 set. 2022; BELL, Genevieve. The metaverse is a new word for an old idea. 2022. Disponível em:
www.technologyreview.com/2022/02/08/1044732/metaverse-history-snow-crash/. Acesso em: 19 set. 2022.

“Perguntar, não o que é o metaverso ou quem o fará, mas de onde ele vem – tanto no
sentido literal quanto nas ideias que ele incorpora. Quem inventou isso, se foi mesmo
inventado?”
"Conhecer a história de uma tecnologia, ou as ideias que ela incorpora, pode fornecer
perguntas melhores, revelar possíveis armadilhas e lições já aprendidas e abrir uma
janela para a vida daqueles que as aprenderam.”

Pag. 6
Mídias sociais, ou redes sociais online (online social network)
Facebook, Instagram, Snapchat, Twitter são plataformas online de redes sociais, ou
mídias sociais.
Segundo Kaplan e Haenlein: “Mídias sociais são um grupo de aplicativos baseados na
Internet que se baseiam nos fundamentos ideológicos e tecnológicos da web 2.0 e que
permitem a criação e troca de conteúdo gerado pelo usuário".
Como o conceito de metaverso se alinha com o conceito de redes sociais e mídias
sociais?
Fontes: KAPLAN, A. M.; HAENLEIN, M. Users of the world, unite! The challenges and opportunities of Social Media.
Business Horizons, v. 53, n. 1, p. 59-68, 2010; BELL, Genevieve. The metaverse is a new word for an old idea.
2022. Disponível em: www.technologyreview.com/2022/02/08/1044732/metaverse-history-snow-crash/. Acesso em: 19 set.
2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
SOCIAL networking in the metaverse. CodeCondo, 2022. Disponível em: https:/
/codecondo.com/social-networking-in-the-metaverse/.
Acesso em: 19 set. 2022.

Pag. 7
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das afirmações abaixo está errada?

Mídias sociais são usadas na web 2.0, onde usuários compartilham informações
entre si.

Uma das propostas de web 3.0 é a descentralização dos dados, dando ao usuário
o controle de suas informações pessoais.

Um dos conceitos da web 2.0 é que o usuário consiga criar conteúdo, ao invés
de apenas consumir.

Metaverso é uma tecnologia que já está consolidada para uso.

Aprendemos, nesta videoaula, como o conceito de metaverso se alinha com o conceito de


redes sociais e mídias sociais. A seguir, na próxima videoaula, veremos os conceitos
básicos para aplicação do metaverso nas redes sociais.

Conceitos básicos de redes sociais

Conceitos básicos de redes sociais


Termo comumente usado para indicar mídia social on-line, tais como Facebook ou
Twitter, uma rede social é qualquer rede em que nós representam pessoas, e estas
representam algum tipo de conexão entre elas, tal como a amizade.
Na sociologia, nós também podemos ser chamados de atores e as arestas de laços. O

Pag. 8
termo "rede social" vem do campo da sociologia.
Ao analisar redes, podemos encontrar padrões sobre as interações entre os atores, ou
nós. As conexões em uma rede de amizade podem indicar espalhamentos de uma doença, ou
como uma notícia é difundida.
Epidemiologia pode usar dados de uma rede para entender como uma doença se espalha em
uma cidade. Jornalistas atualmente analisam redes sociais de modo a entender
fenômenos culturais e sociais.
Quanto às redes sociais, estas podem ser representadas através de grafos, de acordo
com a teoria criada por Leonard Euler para a travessia das pontes de Königsberg em
1735, nesta teoria determina qual o melhor caminho para conhecer todos os pontos da
cidade sem repetir a mesma travessia duas vezes.
Fonte: NEWMAN, M. Networks. Oxford University Press, 2018. v. 1.

Exemplos de redes sociais


Redes sociais não se limitam a representar pessoas e seus diversos tipos de
relacionamentos, por exemplo:
• Amizade, trabalho, informação.
• Redes de computadores.
• Proteínas.
• Páginas web, como linked open data.
• Informação/desinformação.
Fonte: BARABÁSI, A.-L. Network science. Cambridge, 2016. Disponível em: http://www.networksciencebook.com/. Acesso em:
19 set. 2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
BOYD, D. M.; ELLISON, N. B. Social network sites: definition, history, and
scholarship. Journal of Computer-Mediated Communication, v.
13, n. 1, article 11, 2007.

Pag. 9
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos dados abaixo não se encaixa no contexto de rede social?

Dados de colaboração entre alunos de uma turma de graduação no Roblox.

Dados de venda e compra de NFT.

Dados de compartilhamento de vídeos.

Análise das reações de usuários a uma notícia política.

Nesta videoaula, aprendemos sobre o metaverso como evolução de mídias sociais, os


conceitos e exemplos de mídias sociais. A seguir, aprenderemos sobre grafos e suas
vertentes.

Caracterização de grafos

Caracterização de grafos
São os dados de uma rede social que podemos modelar por meio de um grafo, podemos
também analisar a topologia de modo a caracterizar a rede criada dentro de um grupo
social, a nossa intenção pode ser, descobrir “quem é o mais conhecido”, “qual o
caminho necessário para contactar alguém”, e “quantos grupos e subgrupos existem”.
Os grafos podem apresentar os seguintes tipos:
• Não direcionados.
• Direcionados.

Pag. 10
• Grafos com peso.
• Simples.
• Regular.
• Completo.
Fonte: NEWMAN, M. Networks. Oxford University Press, 2018. v. 1.

Tipos de análise em grafos


De acordo com a videoaula, encontramos na
literatura tipos de grafos, representados
por:
Conexão da rede: medidas que avaliam a mudança
entre nós da rede, cálculo da menor distância
entre dois nós, conectividade local ou global.
Transitividade: propriedade que refere sobre
possíveis caminhos entre nós, coeficiente
de clusterização.
Multiplexidade: propriedade de que as arestas Fonte: AL-TAIE, M. Z.; KADRY, S. Python for graph and
network analysis. Springer International Publishing,
possuem pesos, o que torna capaz de 2017.
diferenciar diferentes tipos de
relacionamento e importância.
Homofilia: análise de grupos e a tendência de
indivíduos se conectarem, similaridade.
Díades e mutualidade: par de nós conectados, menor
estrutura possível de relação.
Balanço e tríades: estrutura que possui três atores
e três díades (grafo completo).
Reciprocidade: se o relacionamento entre dois
grafos serão recíproco.

Pag. 11
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Considerando uma hipotética rede social, qual seria a classe de medida mais
apropriada que avalia o quão rápido uma mensagem é transmitida entre dois nós?

Reciprocidade

Transitividade

Conectividade

Homofilia

Nesta videoaula, conhecemos sobre grafos: sua definição, seus tipos e os tipos de
análise que eles representam.
A seguir, estudaremos sobre aplicação de medidas de redes sociais.

Aplicação de medidas de redes sociais

Pag. 12
Aplicação de medidas de redes sociais
Vamos exemplificar a análise de redes sociais com a
rede de um clube de caratê.
Características do grafo:
• Não direcionado.
• Arestas sem peso.
• Nós representam alunos.
• Arestas representam amizade entre os alunos.

Fonte: ZACHARY, W. An information flow model for conflict


and fission in small groups. Journal of Anthropological
Research, v. 33, p. 452-473, 1977.

Medidas de centralidade
Representados pelas medidas de centralidade,
encontram-se em centralidade de grau, traduzido
pelos números de arestas conectados em um nó: a
centralidade de autovetor, considerada a relevância
dos nós conectados; a centralidade de intermediação,
que mede o alcance que um nó tem de estar entre o
caminho de outros dois; a centralidade de
proximidade que também mede a distância média de um
nó aos outros; por último, o PageRank, que mede um

Fonte: elaborado pelo autor.


nó importante caso outro nó importante também aponte
para ele.

Pag. 13
Outras medidas de grafos
Encontram-se: a menor distância (geodésica) em
grafos direcionados, que mede a quantidade de
arestas entre dois nós, ou a menor quantidade
possível de arestas; a excentricidade, que mede a
distância máxima entre um nó e todos os outros nós
da rede, também chamado de diâmetro o valor de tal
distância; a densidade que mede o quão conectada é
uma rede. No caso, todos os nós se conectem entre
si, então seu valor é 1.

Fonte: elaborado pelo autor.

Resultados das medidas


De acordo com a imagem ao lado, selecionando o nó
33, temos:
Grau: 17.
Autovetor: 0.373.
Intermediação: 0.304.
Proximidade: 0.55.
PageRank: 0.1.
Excentricidade: 33.
Distância entre nós 33 e 16.

Fonte: elaborado pelo autor.


Menor distância: 4 arestas.
Densidade: 0.139.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.

Pag. 14
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

A centralidade de intermediação mede:

A menor distância possível entre dois nós.

A maior distância possível entre dois nós.

O quão isolado um nó é.

A quantidade de arestas um nó possui.

O quão provável um nó pode estar no caminho entre todos os outros nós do


grafo.

Nesta videoaula, aprendemos sobre aplicação de medidas de redes sociais e seus


respectivos resultados. A seguir, estudaremos sobre análises de grupo e rede.

Análises de grupo e rede

Análises de grupo e rede


Considerando o mesmo caso da aula anterior, clube de caratê, podemos realizar
análises que, ao invés de metrificar características do ponto de vista de um nó,
procuramos características que levam em conta grupos, ou então toda a rede.

Pag. 15
Análises de grupo e rede
As redes sociais possuem comunidades facilmente
identificáveis.
Funcionários de uma empresa são mais propensos a
interagir com seus colegas de trabalho do que com
funcionários de outras empresas.
As comunidades também podem representar círculos de
amigos, ou um grupo de indivíduos que buscam o mesmo
hobby juntos ou indivíduos que vivem no mesmo
bairro.
Zachary's Karate Club captura as ligações entre 34
membros de um clube de caratê. Dado o pequeno
tamanho do clube, cada membro do clube conhecia
todos os outros. O sociólogo Wayne Zachary
Fonte: elaborado pelo autor. documentou 78 ligações entre os membros que
interagem regularmente fora do clube.
O interesse no conjunto de dados é motivado por um
evento singular: um conflito entre o presidente do
clube e o instrutor que divide o clube em dois.
Cerca de metade dos membros seguiu o instrutor, e a
outra metade, o presidente, uma separação que
revelou a verdade básica, representando a estrutura
da comunidade subjacente do clube.

Análise em nível de grupos


Análise em nível de grupos: cliques, clusterização, transitividade, k-cores, detecção
de comunidades, como exemplos:
Cliques: tegrafo, ou subgrafo, onde os nós se conectam a todos os outros nós.
Clusterização: enquanto globalmente (para redes inteiras) é o nível de agrupamento
em um gráfico.
Transitividade: valores mais altos de transitividade indicam maior densidade local
do nó (0.255).

Pag. 16
Análise em nível de rede
Análise em nível de rede: componentes, densidade, menor caminho, como exemplos:
Densidade: número de arestas da rede dividido pelo número máximo possível de arestas
entre os nós dessa rede. Todos os valores de densidade estão entre 0 e 1. Útil
para entender a dinâmica da rede e difusão da informação. d=0.139.
Menor caminho: caminho mais curto entre nós i e j. Normalmente, o cálculo dos
caminhos mais curtos é feito com o algoritmo de Dijkstra. A distância mais
longa em um grafo é chamada de diâmetro. avg(ShortestPath) = 2.4.
Componente: conjunto de atores que estão conectados internamente, mas estão
desconectados do restante dos vértices da rede. Quando um vértice é
isolado de outros vértices, ele simplesmente se torna isolado.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.

Pag. 17
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das métricas abaixo não se aplica para análises de grupos?

Cliques.

Clusterização.

Centralidade de proximidade.

Menor caminho.

Aprendemos com essa videoaula como são metrificadas as características do ponto de


vista de um nó. Na próxima videoaula, estudaremos sobre cenários e abordagens de data
science. Até lá!

Tecnologias, cenários e discussões sobre


data science
2 | Cenários de data science
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Entender a visão geral de data science.
• Perceber a visão geral sobre inteligência artificial.
• Compreender o graph mining.
• Analisar a natural language processing.
• Empregar a visão computacional.
• Organizar a deep learning.

Pag. 18
Visão geral de data science

Visão geral de data science


O termo “data science” pode gerar algumas dúvidas pela similaridade com outros campos
de conhecimento.
"A ciência de dados envolve o uso de métodos para analisar grandes quantidades de
dados e extrair o conhecimento que eles contêm.” Similaridade com KDD, talvez sejam
até mesmo sinônimos, pelo fato de utilizarem conceitos de estatística, matemática e
banco de dados.
Com o avanço da inteligência artificial, data science, em boa parte dos casos,
inerentemente envolve a utilização de algoritmos e técnicas de machine learning e
deep learning.
No entanto, o profissional de data science aplica conhecimentos de matemática,
mineração de dados, estatística de modo a extrair conhecimento que possa auxiliar em
algum determinado contexto.
Fonte: CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data, machine learning, and more, using python
tools. Manning Publications, 2016.

Ações de data science


As ações de data science contam e ilustram histórias que transmitem claramente o
significado dos resultados para os tomadores de decisão e partes interessadas em
todos os níveis de compreensão técnica, além de explicar como os resultados podem ser
usados para resolver problemas de negócios.
Essas ações também são usadas para extrair insights de big data, em análise preditiva

Pag. 19
e inteligência artificial (IA). Incluem modelos de aprendizado de máquina,
processamento de linguagem natural e aprendizado profundo e escrevem programas que
automatizam o processamento de dados e cálculos.
Quanto ao domínio sobre o modelo e ações de negócio, estes são utilizados para: fazer
perguntas pertinentes, identificar os pontos problemáticos do negócio, fazer
aplicação de estatísticas e ciência da computação, aplicando a perspicácia de
negócios à análise de dados.
Elas são usadas também para uma ampla variedade de ferramentas e técnicas para
preparar e extrair dados, desde os bancos de dados e SQL até mineração de dados e
métodos de integração de dados. Esse trabalho deverá contar com a colaboração de
outros membros da equipe de ciência de dados, como: analistas de dados e negócios,
arquitetos de TI, engenheiros de dados e desenvolvedores de aplicativos.
Fonte: IBM CLOUD EDUCATION. Data science. 2022. Disponível em: https://www.ibm.com/cloud/learn/data-science-introduction
.Acesso em: 19 set. 2022.

Campos de data science


Os campos de ação de data science, apresentados, são:
Definição de problema.
Captura de dados.
Preparação dos dados.
Exploração.
Modelagem.
Apresentação e automação.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data,
machine learning, and more, using python tools. Manning
Publications, 2016.

Pag. 20
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos conhecimentos abaixo não é essencial para a metodologia de data


science?

Conhecimento de métodos de interação homem-máquina.

Saber extrair dados de uma base de dados.

Uso de mineração de dados para captura de padrões.

Aplicação de algoritmos de machine learning.

Nesta videoaula, aprendemos mais sobre o data science, sua visão geral, suas ações e
campos de atuação. A seguir, estudaremos sobre a inteligência artificial e suas
vertentes.

Visão geral sobre inteligência artificial

Visão geral sobre inteligência artificial


O termo “inteligência artificial” é estabelecido após o famoso artigo publicado por
Turing (1950), onde propõe pela primeira vez a ideia de uma máquina pensante e o
teste de Turing mais popular para avaliar se tal máquina mostra, de fato, qualquer
inteligência. Atualmente, existem diversas áreas de estudo de inteligência
artificial.
Fonte: RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a modern approach. 2016.

Pag. 21
Tecnologias de AI
Encontradas na literatura, as tecnologias que regem a inteligência artificial são:
Robotic Process Automation (RPA): tecnologia que extrai a lista de regras e ações a
serem executadas observando o usuário realizar determinada tarefa.
Sistemas especialistas: um programa de computador que possui regras codificadas para
emular o processo humano de tomada de decisão.
Visão Computacional (CV): métodos para adquirir e dar sentido a imagens digitais
(geralmente divididos em reconhecimento de atividades, reconhecimento de
imagens e visão de máquina).
Processamento de Linguagem Natural (NLP): subcampo que trata dados de linguagem
natural.
Redes neurais (NNs ou ANNs): uma classe de algoritmos vagamente modelados após a
estrutura neuronal do cérebro humano/animal que melhora seu desempenho sem
ser explicitamente instruído sobre como fazê-lo.
Sistemas autônomos: subcampo que se encontra na interseção entre robótica e sistemas
inteligentes.

Computação afetiva: subárea que trata do reconhecimento, interpretação e simulação


de emoções.
Algoritmos Evolutivos (EA): os algoritmos genéticos são o subgrupo de EAs, que são
heurísticas de busca que seguem o processo de seleção natural para
escolher a solução candidata “mais adequada”.
Programação em Lógica Indutiva (PLI): subcampo que utiliza a lógica formal para
representar um banco de dados de fatos e formular hipóteses derivadas
desses dados.
Redes de decisão: é uma generalização das redes/inferências bayesianas mais
conhecidas, que representam um conjunto de variáveis ​e suas relações
probabilísticas.
Programação probabilística: trabalha com modelos probabilísticos. Síntese de
Programa Bayesiana (BPS) é de alguma forma uma forma de programação
probabilística, onde programas Bayesianos escrevem novos programas
bayesianos (em vez de humanos o fazem, como na abordagem de programação
probabilística mais ampla).
Fonte: COREA, F. An introduction to data: everything you need to know about AI, big data and data science. Springer,

Pag. 22
2018.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
COREA, F. An introduction to data: everything you need to know about AI,
big data and data science. Springer, 2018.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das afirmações abaixo é a mais apropriada sobre AI?

Estrutura de relatórios e gráficos de padrões de dados.

Sistema de análise de acurácia.

Sistema que pode aprender a aprender.

Sistema de armazenamento de dados não estruturados.

Estudamos sobre a inteligência artificial e as tecnologias que a engloba. A seguir,


aprenderemos com uma breve introdução à mineração em grafos.

Pag. 23
Introdução à mineração em grafos

Mineração em grafos
Os conhecimentos adquiridos no primeiro módulo podem ser aplicados à tarefa de
mineração em dados cujo modelo de representação contenham informações sobre o
relacionamento.
A mineração em grafos tem como tarefa encontrar padrões em conjuntos de dados ou em
bases de dados. Os padrões encontrados nesse processo poderão gerar informações ou
conhecimentos úteis na tomada de decisões, empregando, dessa forma, conceitos da
teoria de grafos, redes complexas e análise de redes sociais.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.

Tarefas de mineração em grafos


Existem diversos contextos onde a mineração em grafos pode ser aplicada. Uma das mais
recorrentes é a aplicação no contexto de mídias sociais, mas também em páginas web,
gráficos de concorrência etc.
Nas tarefas destacam:
Predição de ligações: inferir a existência ou não de relações entre nós. Dependem do
tipo de nó do grafo, natureza da informação, nível de granularidade da
informação e tipo de técnica de construção do modelo.
Detecção de comunidades: detecção de comunidades ou subgrafos dentro de um grafo, de
modo que os elementos dentro de cada subgrafo possuam alguma similaridade.
Ranqueamento: listagem dos nós pelo nível de importância, que é determinado por
métrica (PageRank).

Pag. 24
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.

Aplicações
As aplicações da mineração em grafos destacam-se:
- Web mining.
- Sistemas de recomendação baseados em grafos.
- Análise de redes sociais.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil,
2015.

Pag. 25
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos cenários abaixo não se encaixa no contexto de mineração em grafos?

Recomendação de novas amizades no Facebook.

Ranqueamento de perfis mais influentes do Twitter.

Descoberta de comunidades por estilo literário em grupos de escritores.

Análise das publicações de um influencer durante período determinado.

Estudamos sobre a mineração em grafo, que é representada como as tarefas de encontrar


padrões em conjuntos de dados ou em bases de dados. A seguir, na próxima videoaula,
aprenderemos sobre mineração de texto.

Mineração de texto

Mineração de texto
A mineração de texto, ou análise de texto, é uma disciplina que combina ciência da
linguagem e informática com técnicas estatísticas e de aprendizado de máquina, usada
para analisar textos e transformá-los em uma forma mais estruturada para obter
padrões, informações e conhecimentos relevantes.
Quanto às tarefas, elas podem ser aplicadas na identificação de spam em e-mails, na
identificação automática de entidades em buscadores, em relatórios policiais para
entender a evolução de crimes num período de tempo, dentre outras.

Pag. 26
Dentre as atividades de mineração de texto, o autor destaca:
- Identificação da entidade.
- Detecção de plágio.
- Identificação do tópico.
- Agrupamento de texto.
- Tradução.
- Resumo automático de texto.
- Detecção de fraude.
- Filtragem de spam.
- Análise de sentimentos.
Fonte: CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data, machine learning, and more, using python
tools. Manning Publications, 2016.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CIELEN, D.; ALI, M.; MEYSMAN, A. Introducing data science: big data,
machine learning, and more, using python tools. Manning
Publications, 2016.

Pag. 27
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Dentro do contexto de mineração de texto, o que são tokens?

Separação do texto em palavras ou termos.

Redução da palavra até sua raiz.

Contagem da frequência de cada palavra.

Identificação das funções de cada palavra dentro das sentenças.

O conceito de mineração de palavras combina ciência da linguagem e informática com


técnicas estatísticas e de aprendizado de máquina, usadas para analisar textos e
transformá-los em uma forma mais estruturada. Na videoaula seguinte, estudaremos
sobre a análise de sentimentos.

Análise de sentimentos

Pag. 28
Análise de sentimentos
Análise de sentimento, ou mineração de opinião, é o
estudo computacional das opiniões, sentimentos,
avaliações, atitudes, humores e emoções das pessoas.
É uma das áreas de pesquisa mais ativas em
processamento de linguagem natural, mineração de
dados, recuperação de informações e mineração na
Fontes: POZZI, Federico Alberto et al. Sentiment analysis in web.
social networks. Morgan Kaufmann Publishers, 2017 |
Imagem: istockphoto.com/br. A análise de sentimento (ou mineração de opinião) é
uma técnica de processamento de linguagem natural
(PLN) usada para determinar se os dados são
positivos, negativos ou neutros. A análise de
sentimento geralmente é realizada em dados textuais
para ajudar as empresas a monitorar o sentimento da
marca e do produto no feedback do cliente e entender
as necessidades do cliente.

Análise de sentimentos
As tarefas podem ser divididas basicamente em reconhecimento de emoções e detecção de
polaridade.
Outras tarefas:
- Extração de aspecto.
- Detecção de subjetividade.
- Extração de conceito.
- Reconhecimento de entidade.
- Detecção de sarcasmo.
- Reconhecimento de personalidade.
- Perfil do usuário.
- Fusão multimodal (integrar todas as modalidades únicas em uma única representação
combinada).
Fonte: JOSHI, A.; BHATTACHARYYA, P.; AHIRE, S. A practical guide to sentiment analysis. 2017.

Pag. 29
Detecção de polaridade
A detecção de polaridade representa uma das atividades recorrentes na análise de
sentimentos, com o objetivo de classificar uma palavra como neutra, positiva, ou
negativa. Essa detecção é útil para análise de comentários sobre: produtos, filmes,
opiniões de clientes e seguidores em uma mídia social. É possível analisar os
vocabulários e identificar palavras recorrentes, relacionadas a um determinado tema.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
POZZI, Federico Alberto et al. Sentiment analysis in social networks.
Morgan Kaufmann Publishers, 2017.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Das opções abaixo, qual melhor descreve a tarefa de detecção de polaridade:

Tarefa onde identificamos a função sintática da palavra.

Nessa tarefa, o algoritmo tenta descobrir a raiz da palavra.

Separação do documento, ou texto em palavras ou termos.

Classificação das palavras ou termos como positiva, negativa ou neutra.

Análise de sentimento, ou mineração de opinião, é o estudo computacional das


opiniões, sentimentos, avaliações, atitudes, humores e emoções das pessoas. Na
próxima videoaula, dando continuidade ao assunto, estudaremos sobre mineração de
dados multimídia.

Pag. 30
Mineração de dados multimídia

Mineração de dados multimídia


A mineração multimídia é um subcampo da mineração de dados usado para encontrar
informações interessantes de conhecimento implícito de bancos de dados multimídia.
Também chamada de anotação automática ou mineração de anotações, que requer dois ou
mais tipos de dados, como texto e vídeo ou texto de vídeo e áudio.
Na literatura, segundo Petrushin e Khan (2007), existem 4 tipos de dados multimídia:
- Áudio (dados, que incluem sons, fala e música).
- Dados de imagem (preto e branco e imagens coloridas).
- Dados de vídeo, que incluem sequências de imagens alinhadas no tempo.
- Digital Ink, que são sequências de coordenadas 2D ou 3D.
Tem como objetivo principal, processar dados de mídia sozinhos ou em combinação com
outros dados para encontrar padrões, por exemplo, analise o tráfego de clientes em
uma loja de varejo usando gravações de vídeo para encontrar a localização ideal para
a exibição de um novo produto; vigilância; insights sobre consumidores; produção de
Mídia, TVs, produtoras; serviço de conteúdo inteligente e gerenciamento de
conhecimento.
Fonte: PETRUSHIN, V. A.; KHAN, L. Multimedia data mining and knowledge discovery. 2007.

Pag. 31
Visão computacional
Um dos pilares para a mineração multimídia repousa
no campo da visão computacional.
Essa é uma área de estudo que pesquisa como tornar
imagens ou vídeos inteligíveis para máquinas e como
obter informações de tais dados, para o apoio na
tomada de decisões ou recomendações.
Fontes: WVU RESEARCHER to study computer vision-related
image recognition. WVUTODAY, 2017. Disponível em: http
s://wvutoday.wvu.edu/stories/2017/03/06/wvu-researcher-to-s
tudy-computer-vision-related-image-recognition.
Acesso em: 19 set. 2022 | Imagem: istockphoto.com/br.

Atividades de visão computacional


Das atividades citadas de visão computacional, destacam-se a classificação do objeto,
identificação verificação, detecção de objetos, object landmark detection,
segmentação de objetos e reconhecimento.
Fonte: BROWNLEE, Jason. A gentle introduction to computer vision. 2019. Disponível em: https://machinelearningmastery.co
m/what-is-computer-vision/.Acesso em: 19 set. 2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
WHAT IS computer vision? IBM, [2022]. Disponível em: https://www.ibm.com/to
pics/computer-vision. Acesso em: 19 set. 2022.

Pag. 32
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das opções abaixo não se adequa à mineração de dados multimídia?

Reconhecimento de veículos em câmeras de monitoramento urbano.

Identificação de picos de estresse em análises de áudio.

Reconhecimento facial.

Identificação de sentimentos em comentários de produtos.

A mineração multimídia é um subcampo da mineração de dados usado para encontrar


informações interessantes de conhecimento implícito de bancos de dados multimídia. No
próximo módulo, estudaremos sobre big social data e ferramentas de data science. Até
lá!

Tecnologias, cenários e discussões sobre


data science
3 | Big social data e ferramentas de
data science
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Aplicar a visão geral de big social data.
• Perceber os fundamentos teóricos de big social data.
• Conhecer as aplicações de big social data.
• Analisar o Gephi.
• Empregar o Weka.
• Interpretar a scikit-learn.

Pag. 33
Visão geral de big social data

Big social data


Já vimos como o conceito de redes sociais pode ser utilizado para modelar informações
e dados onde o relacionamento entre os atores (entidades) é inerente.
Na literatura, “Analisar dados físicos do mundo real (dados heterogêneos com
semântica implícita, como dados científicos, dados de eventos e dados de transporte)
e dados sociais (dados de mídia social com semântica explícita) relacionando-os entre
si, é chamado de ciência do Big Data Social ou Social Big Data para abreviar”
(ISHIKAWA, 2015).
Fonte: ISHIKAWA, H. Social big data mining. CRC Press, 2015.

Visão geral de big social data


Como exemplo de big social data, destacam-se os dados contidos nos seguintes
serviços: blogs; microblogs; serviços de redes sociais; serviços de compartilhamento
e comunicação por vídeo; notícias sociais e jogos; serviços de busca social e
crowdsourcing; serviços de colaboração.
Ishikawa (2015) acrescenta "vague" (imprecisão) aos Vs de big data. A imprecisão é
resultado de uma combinação de vários tipos de dados a serem analisados, que levam à
inconsistência e deficiência, também relacionado às questões de privacidade e
gerenciamento de dados, pois os dados sociais envolvem informações pessoais dos
indivíduos.
As mídias sociais são usadas para empoderar o engajamento das pessoas na sociedade
civil por meio de uma abordagem metodológica para gerar insights sociológicos.

Pag. 34
Fonte: OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4, n. 1, 2017. Disponível em: ht
tps://doi.org/10.1186/s40537-017-0063-x. Acesso em: 19 set. 2022.

Abordagens para big social data


Segundo Guellil e Boukhalfa, big social data compreende dados de mídia social com
características de big data, como volume, ruído e dinamismo.
Big data é qualquer dado produzido como resultado da quantificação do mundo que pode
incluir dados de sensores, múltiplas redes industriais e domésticas, bem como
mercados financeiros, enquanto o BSD “vem das práticas comunicativas mediadas de
nossas vidas cotidianas , sempre que estamos on-line, usamos nosso smartphone, usamos
um aplicativo ou fazemos uma compra”.
Burgess e Bruns definem big social data como mudança do big data em direção à mídia,
comunicação, ciências sociais culturais e computacionais, o que levou à onda de
pesquisas em humanidades digitais. Além de testar a viabilidade de pesquisas sobre o
fenômeno para revelar potenciais questões técnicas, políticas e epistemológicas. Eles
identificaram preocupações éticas, bem como desafios de acessibilidade, autenticidade
e confiabilidade de dados.
Fonte: OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4, n. 1, 2017. Disponível em: ht
tps://doi.org/10.1186/s40537-017-0063-x. Acesso em: 19 set. 2022.

Conceito de big social data


O conceito de big social data engloba a combinação de quatro campos da ciência:
computação social, por exemplo, mídias sociais e redes sociais, ciência de big data,
análise de dados e ciências sociais computacionais.

Pag. 35
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big
Data, v. 4, n. 1, 2017. Disponível em: https://doi.org/10.1186/s40537-017-0
063-x. Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale dentre as alternativas abaixo a que possui menor relação com o


conceito de big social data.

Dados de mídias sociais que são usados para gerar insights para a população.

Dado produzido da quantificação de sensores ou de redes industriais.

Big social data compreende dados de mídia social com características de big
data, como volume, ruído e dinamismo.

Dados de blogs, serviços de redes sociais, serviços de compartilhamento.

Vimos o conceito de big social data como uma combinação de quatro campos da ciência,
que serão abordados nas próximas videoaulas.

Pag. 36
Fundamentos teóricos de big social data

Fundamentos teóricos de big social data


Como fundamentos teóricos do big social data podemos
citar:
- Computação social.
- Ciência de big data.
- Análise de dados.
- Ciências sociais computacionais.
Fonte: istockphoto.com/br. Que tal conhecer um pouco de cada um deles?

Computação social
A computação social é um campo de pesquisa e aplicação que integra ciências sociais e
computacionais.
De acordo com Wang, os fundamentos teóricos da computação social incorporam
Psicologia Social, Sociologia, Análise de Redes Sociais, Antropologia, bem como
teorias de organização, comunicação, interação humano-computador e teoria da
computação.
Computação social afeta favoravelmente o desenvolvimento da sociedade e da
tecnologia: por um lado, permitindo socialização e interações sociais suaves por meio
de vários sistemas computacionais e, por outro lado, introduzindo práticas e teorias
sociais no desenvolvimento de sistemas e aplicativos computacionais.

Pag. 37
Em termos de BSD, a computação social permite serviços de autorrepresentação mediada
por tecnologia e comunicação e suporta a construção e manutenção de relacionamentos
digitais através de múltiplas infraestruturas tecnológicas (por exemplo, web, banco
de dados, multimídia e tecnologias sem fio). Em resumo, a computação social aborda o
tema sob as perspectivas de aplicativos, comunicação e negócios.
Fonte: OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4, n. 1, 2017. Disponível em: ht
tps://doi.org/10.1186/s40537-017-0063-x. Acesso em: 19 set. 2022.

Ciência de big data


Big data tem como objetivo atender a aplicações digitais e sistemas computacionais em
larga escala. Portanto, na perspectiva do BSD, a ciência do big data fornece soluções
para processar e gerenciar dados originados de interações sociais mediadas por
tecnologia no contexto de inúmeros serviços sociais e aplicativos no ambiente
digital.
Dados relacionados às interações humanas digitais definitivamente causam desafios
(por exemplo, disponibilidade de dados, regulamentos sobre acesso a dados, questões
éticas e privacidade).
Em resumo, o big data originário da ciência da computação e dos sistemas de
informação é uma categoria mais ampla do que o BSD e tem principalmente uma
perspectiva centrada em dados e infraestrutura, por exemplo, com foco em Hadoop,
Spark, clusters e trabalhos de infraestrutura relacionados.

Análise de dados
A análise de dados permite a extração de insights ou conclusões de grandes conjuntos
de dados existentes. Geralmente, inclui métodos descritivos (descreve os dados),
exploratórios (descobrindo correlações desconhecidas nos dados), preditivos (prevê
eventos e tendências) e prescritivos (sugerem ações) para obter insights
significativos para diferentes domínios.
Análise de Redes Sociais (SNA) é um dos campos mais consagrados da análise de dados,
fornecendo ferramentas, métodos e teorias para a pesquisa de redes sociais no âmbito
digital.
Outras áreas centrais que podem ser relevantes para o BSD incluem Business Analytics

Pag. 38
e Sentiment Analytics.
Independentemente da intenção e da área de aplicação da análise, pode-se dizer que a
análise de dados aborda o BSD da perspectiva da utilização de dados (por exemplo,
desenvolvimento de serviços, obtenção de insights, tomada de decisões).

Ciências sociais computacionais


As ciências sociais computacionais são um campo multidisciplinar que busca modelos
teóricos dos fenômenos sociais dentro da interseção das ciências sociais e
computacionais.
Determina uma colaboração conjunta entre cientistas sociais, comportamentais,
cognitivos e da computação com teóricos de agentes, matemáticos e físicos.
Os principais elementos dessa ciência são “pessoas, ideias, artefatos feitos pelo
homem e suas relações dentro dos ecossistemas”. A teorização e modelagem da sociedade
por meio de abordagens computacionais visa trazer a compreensão da complexidade
social e do funcionamento dos sistemas sociais. CSS utiliza o BSD para “servir o bem
público e examinar a agenda pública”.
Em outras palavras, o CSS pode revelar as áreas significativas e relevantes na
utilização do BSD, apontando direções para a análise, dando sentido aos achados e
permitindo previsões, bem como explicações sensatas.
A computação social permite e atende a serviços e aplicativos sociais mediados por
tecnologia, que, por sua vez, geram uma grande quantidade de dados sociais complexos;
tais dados são gerenciados e processados ​por meio de ferramentas de big data. Em
seguida, insights e prescrições são derivados de métodos e algoritmos de análise de
dados.

Pag. 39
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big
Data, v. 4, n. 1, 2017. Disponível em: https://doi.org/10.1186/s40537-017-0
063-x. Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos conceitos abaixo não está condizente com sua definição?

A computação social é um campo de pesquisa e aplicação que integra ciências


sociais e computacionais.

Ciência social computacional é o campo multidisciplinar que busca modelos


teóricos dos fenômenos sociais dentro da interseção das ciências sociais e
computacionais.

Big data tem como objetivo atender a aplicações digitais e sistemas


computacionais em larga escala.

A área de análise de dados discute as melhores formas de persistir e armazenar


os dados da maneira mais eficiente possível.

Estudamos sobre os fundamentos teóricos de big social data. A seguir, estudaremos


sobre as aplicações de big social data.

Pag. 40
Aplicações de big social data

Aplicações de big social data


Dentre as diversas possibilidades, podemos destacar o uso de dados sociais em big
data aplicados ao contexto de smart cities e o uso de análises de dados e
processamento de dados de mídias sociais, podendo obter insights que possam melhorar
o dia a dia da sociedade.
Alguns exemplos de aplicação: mobilidade e sensoriamento urbano, problemas sociais
por exemplo, terrorismo, catástrofes e desastres, política; colaboração e
crowdsourcing.
Dentre as aplicações, podemos destacar a detecção de fake news e a propagação de
notícias falsas em mídias sociais. Pelo portal fakepedia.org, que dá suporte no caso
de tratamento de fake News, encontramos: repositório de fake news; plataforma de
checagem; emprego de crowdsourcing para classificação e letramento dos participantes.
Fonte: Fakepadia. Disponível em: http://www.fakepedia.org/api/. Acesso em: 19 set. 2022.

Aplicações de big social data


De acordo com a videoaula, as aplicações de big social data, para mobilidade urbana,
utilizam o uso de análise de redes sociais para checagem de postagens sobre problemas
no trânsito, problemas nos meios de transporte, redes de veículos conectados e
análise de caminhos modelados como grafos.
Outra aplicação engloba emergências, manifestações em massa, como em França e
Oliveira (2014) – “Análise de sentimento de tweets relacionados aos protestos que
ocorreram no brasil entre junho e agosto de 2013”. Na educação, sabem-se quais

Pag. 41
escolas estão precisando de investimento. E há aplicação na área da saúde por meio de
dados de mídias sociais: é possível identificar demandas de populações, regiões
demográficas, identificando grupos de trabalho, pesquisadores.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
• FARIAS, C. M. (eds.). Big social data and urban computing. Springer,
2019. (Communications in Computer and Information Science – CCIS, v.
926).
• [SEMINÁRIOS 2021] extraindo conhecimento de dados sociais para o combate
à desinformação. [S. l.: s. n.], 2021. 1 vídeo (66 min). Publicado pelo
canal Instituto de Computação - UFF. Disponível em:
www.youtube.com/watch?v=KqeOlMrkkWw&ab_channel=InstitutodeComputa%C3%A7%C3%A3o-UFF.
Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Big social data estuda:

O uso de dados governamentais de modo a aumentar a transparência.

Dados de consumo de clientes para um melhor entendimento dos consumidores.

O uso de dados de mídias sociais para resolver questões sociais.

Melhor utilização de dados de experimentos científicos.

Nesta videoaula, vimos a importância do big social date e suas aplicações, como são
benéficas à sociedade. A seguir, estudaremos sobre o scikit-learn.

Pag. 42
Scikit-learn

O professor Silas compartilhou os arquivos usados na videoaula, e que podem


ser usados por você em ambientes com a linguagem Python instalada.
Recomendamos conhecimento prévio em Python, mas não sendo obrigatório, para
melhor aproveitamento. Para usá-los é só baixar e executá-los numa máquina
com a linguagem instalada, bem como as bibliotecas indicadas no início de
cada script.
Preparados? Mãos à obra!

Scikit-learn
Scikit-learn representa a biblioteca que talvez é considerada como a mais popular em
aprendizado de máquina em Python, fornecendo uma seleção de ferramentas eficientes
para aprendizado de máquina e modelagem estatística, incluindo classificação,
regressão, agrupamento e redução de dimensionalidade.
Foi escrita em Python, construída sobre outras bibliotecas NumPy, SciPy e Matplotlib
e desenvolvida inicialmente por David Cournapeau como um projeto de verão do Google
em 2007.
Fonte: SCIKIT Learn – Introduction. Tutorialspoin, [2022]. Disponível em:
www.tutorialspoint.com/scikit_learn/scikit_learn_introduction.htm.
Acesso em: 19 set. 2022.

Pag. 43
Scikit-learn é uma biblioteca de código aberto e também comercialmente utilizável sob
licença BSD.
Possui robusta documentação com exemplos e referências apropriadas sobre como
utilizar cada tipo de algoritmo.
Modelagem e análise de dados e família de modelos de algoritmos podem ser resumidas
em:
• Algoritmos de aprendizado supervisionado.
• Algoritmos de aprendizado não supervisionado.
• Clustering.
• Validação cruzada.
• Redução de dimensionalidade.
• Métodos de conjunto.
• Extração de recursos.
• Seleção de recursos.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das afirmações não está correta sobre scikit-learn?

A biblioteca scikit-learn é feita para usar em linguagem em Java.

Podemos criar modelos de machine learning usando scikit-learn.

Scikit-learn implementa algoritmos de classificação, regressão e


clusterização.

É possível exibir gráficos dos resultados dos modelos de machine learning.

Estudamos sobre a ferramenta de análise scikit-learn, representada por uma biblioteca


de código aberto e também comercialmente utilizável sob licença BSD. A seguir,
continuaremos falando sobre as ferramentas de análise: Gephi.

Pag. 44
Gephi

Gephi
O Gephi é uma ferramenta para análise de grafos, que
permite manipular as estruturas, formas e cores para
revelar padrões ocultos, a fim de facilitar o
entendimento de datasets.
Essa ferramenta é utilizada para complementar as
estatísticas tradicionais, uma vez que emprega o
Fontes: LEARN how to use Gephi. Gephi, 2022. Disponível em: pensamento visual com interfaces interativas. É um
https://gephi.org/users/ . Acesso
em: 19 set. 2022 | Imagem: istockphoto.com/br. software para análise exploratória de dados,
considerado como um paradigma surgido no campo de
pesquisa visual analytics.

Possui implementações de algoritmos de visualização e de análise de redes sociais.


Permite que usuários desenvolvam seus próprios plugins de modo a tornar a ferramenta
mais personalizada e robusta.
Quanto à performance, esta fica comprometida em grafos muito grandes. Além de possuir
a visualização tabular dos dados, o Gephi importa dados como xls e csv, e outra
funcionalidade dela é a exportação de imagens.

Pag. 45
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
FEATURES. Gephi.org, 2022. Disponível em: https://gephi.org/features/.
Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

A ferramenta Gephi não permite:

Aplicar algoritmos de medidas de centralidade.

Alterar os elementos do grafo, como arestas e vértices.

Manipular dados tabulares, como csv ou xls.

Gerar modelos de conhecimento de machine learning.

Estudamos sobre a ferramentas de análise e exploração dos dados, chamada Gephi. Na


próxima videoaula, continuamos a aprender sobre as ferramentas – em especial, a
chamada WEKA.

WEKA

WEKA
Pag. 46
A WEKA é uma ferramenta open-source de mineração de dados baseada em Java.
WEKA é uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração
de dados. Ela contém ferramentas para preparação de dados, classificação, regressão,
agrupamento, mineração de regras de associação e visualização.
Essa ferramenta facilita a utilização dos conceitos de mineração de dados, já que não
é necessário implementar em linguagem de programação todas as etapas de
pré-processamento, análise e pós-processamento.
Fonte: CITING Weka. Weka Wiki, [2022]. Disponível em: https://waikato.github.io/weka-wiki/citing_weka/. Acesso em: 19
set. 2022.

Características
Dentre as características da ferramenta WEKA, é possível destacar:
• Permite a seleção de features mais relevantes.
• Tem uma conexão direta com bancos de dados, o que simplifica a etapa de obtenção de
dados e pré-processamento.
• Permite a visualização das features e acurácia dos modelos treinados.
• Utiliza diversos algoritmos de machine learning de modo simples e prático.
Por ser a WEKA uma ferramenta open-source, vários dos algoritmos e contribuições da
comunidade foram removidos e colocados em pacotes de plugins. Por isso, ela possui um
sistema de gerenciamento de pacotes que permite ao usuário procurar e instalar,
seletivamente, os pacotes de seu interesse.
Fonte: WITTEN, Ian. H. et al. The WEKA workbench. Morgan Kaufmann, 2016. Disponível em: https://www.cs.waikato.ac.nz/ml/
weka/Witten_et_al_2016_appendix.pdf. Acesso em: 19 set. 2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
WEKA - quick guide. Tutorialspoint, 2022. Disponível em:
www.tutorialspoint.com/weka/weka_quick_guide.htm.
Acesso em: 19 set. 2022.

Pag. 47
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Indique a resposta correta:

WEKA é um sistema de análise de sentimento de mídias sociais.

WEKA é um sistema de gerenciamento de banco de dados.

WEKA é uma ferramenta de mineração de dados.

WEKA é uma linguagem de programação.

Finalizamos mais uma videoaula, enfatizando os tipos de ferramentas de análise e


exploração, como a WEKA, que facilita a utilização dos conceitos de mineração de
dados, pois não é necessária a implementação em linguagem de programação, o que
facilita seu uso. Na próxima, estudaremos sobre aspectos diversos de data science,
mining e big data. Até já!

Tecnologias, cenários e discussões sobre


data science
4 | Aspectos diversos de data science,
mining e big data
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Aplicar a ética em data science.
• Conhecer a LGPD.
• Entender os casos frustrados de data science.
• Conhecer o caso Cambridge Analytica.
• Notar a aplicação de data science em dados de saúde mental.
• Observar os desafios, tendências e perspectivas.

Pag. 48
Ética em data science

Ética em data science


Para a maioria dos dados que produzimos, por
exemplo, se excluirmos os provenientes da observação
de fenômenos naturais, são criações artificiais de
nossas mentes e ações. Por exemplo, os dados que
herdam os mesmos vieses que temos como humanos.
A aplicação desses dados é regida pela intenção de
causar danos, como por meio de armas autônomas e Fontes: EITEL-PORTER, R. Beyond the promise: implementing
ethical AI. AI Ethics, n. 1, p. 73-80, 2021. |
engenharia social. Imagem: istockphoto.com/br.

Causas de problemas em ética


As causas dos problemas em ética mais comuns são:
• Desenvolvimento apressado.
• Falta de entendimento técnico.
• Garantia de qualidade inadequada.
• Uso de IA fora do contexto original.
• Combinação inadequada de dados.
• Relutância dos funcionários em levantar preocupações.
Fonte: EITEL-PORTER, R. Beyond the promise: implementing ethical AI. AI Ethics, n. 1, p. 73-80, 2021.

Pag. 49
Ética em data science
Quanto à ética em data Science, uma boa solução é a remoção de vieses dos datasets
com o objetivo de melhor a qualidade dos dados.
No entanto, isso não garante que o modelo estará livre de viés; e não é possível
definir por unanimidade o que é ética. Logo, devemos estar abertos a admitir que
nossos valores ou ética podem não estar completamente corretos, bem como o que
consideramos tendencioso não é a exceção, mas sim a norma.
Fonte: EITEL-PORTER, R. Beyond the promise: implementing ethical AI. AI Ethics, n. 1, p. 73-80, 2021.

Pilares para IA responsável


Todos esses pilares vão nos auxiliar a adquirir um sistema mais ético, com mais
confiança, evitando que os sistemas sejam frágeis. São eles:
Equidade: existem fatores que influenciam os resultados do modelo que não deveriam
ser? Existe uma expectativa de resultados semelhantes para diferentes subgrupos,
e isso é cumprido?
Responsabilidade: qual é a cadeia de comando para lidar com um resultado
potencialmente tendencioso/errôneo?
Transparência: entendemos como o modelo funciona?
Explicabilidade: podemos explicar, em linguagem não técnica, por que se chegou a uma
saída?
Privacidade: o modelo garante contra inferências que violem a privacidade?
Fonte: EITEL-PORTER, R. Beyond the promise: implementing ethical AI. AI Ethics, n. 1, p. 73-80, 2021.

Pag. 50
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
CARVALHO, Luiz Paulo et al. Social network analysis, ethics and LGPD,
considerations in research. iSys: Revista Brasileira de
Sistemas de Informação (Brazilian Journal of Information Systems),
v. 14, n. 2, p. 28-52. DOI: 10.5753/isys.2021.1235.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual característica abaixo não representa um sistema ou modelo de conhecimento


com uma construção ética?

Equidade.

Privacidade.

Transparência.

Dados enviesados.

Nesta videoaula, aprendemos sobre ética em data science, que representa a ética
aplicada em modelos computacionais, para melhor contribuir na nossa sociedade. Na
próxima videoaula, estudaremos sobre LGPD – Lei Geral de Proteção de Dados.

Pag. 51
LGPD

Lei Geral de Proteção de Dados


A Lei Geral de Proteção de Dados Pessoais (LGPD) é regida pela Lei n° 13.709/2018,
promulgada para proteger os direitos fundamentais de liberdade e de privacidade e a
livre formação da personalidade de cada indivíduo. A lei fala sobre o tratamento de
dados pessoais, dispostos em meio físico ou digital, feito por pessoa física ou
jurídica de direito público ou privado, englobando um amplo conjunto de operações que
podem ocorrer em meios manuais ou digitais.
No âmbito da LGPD, o tratamento dos dados pessoais pode ser realizado por dois
agentes de tratamento, o controlador e o operador. Além deles, há a figura do
encarregado, que é a pessoa indicada pelo controlador para atuar como canal de
comunicação entre o controlador, o operador, os titulares dos dados e a Autoridade
Nacional de Proteção de Dados (ANPD).
Fonte: LEI Geral de Proteção de Dados Pessoais (LGPD). Gov.br, [2022]. Disponível em:
www.gov.br/cidadania/pt-br/acesso-a-informacao/lgpd. Acesso em: 19
set. 2022.

Fundamentos da LGPD
A Lei Geral de Proteção de Dados Pessoais é regida pelos seguintes fundamentos:
I - o respeito à privacidade.
II - a autodeterminação informativa.
III - a liberdade de expressão, de informação, de comunicação e de opinião.
IV - à inviolabilidade da intimidade, da honra e da imagem.
V - o desenvolvimento econômico e tecnológico e a inovação.

Pag. 52
VI - a livre iniciativa, a livre concorrência e a defesa do consumidor, e
VII - os direitos humanos, o livre desenvolvimento da personalidade, a dignidade e o
exercício da cidadania pelas pessoas naturais.
Fonte: LEI Geral de Proteção de Dados Pessoais (LGPD). Gov.br, [2022]. Disponível em:
www.gov.br/cidadania/pt-br/acesso-a-informacao/lgpd. Acesso em: 19
set. 2022.

Lei Geral de Proteção de Dados


De acordo com a lei, os dados protegidos são:
Dados pessoais: possibilitam a identificação, direta ou indireta, da pessoa natural:
nome e sobrenome; data e local de nascimento; RG; CPF.
Dados sensíveis: revelam origem racial ou étnica, convicções religiosas ou
filosóficas, opiniões políticas, filiação sindical, questões genéticas, biométricas e
sobre a saúde ou a vida sexual de uma pessoa.
Dados públicos: a LGPD define que uma organização pode, sem precisar pedir novo
consentimento, tratar dados tornados públicos pelo titular em momento anterior e de
forma evidente. Porém, se a organização quiser compartilhar esses dados com outras
organizações, necessariamente ela deverá pedir outro consentimento para esse fim.
Dados anonimizados: técnica de processamento de dados que remove ou modifica
informações que possam identificar a pessoa, garantindo sua desvinculação. Nesses
casos, a LGPD não se aplicará ao dado. Ressalta-se que o dado somente é considerado
anonimizado se não permitir que, por meios técnicos ou outros, seja reconstruído o
caminho para revelar quem é o titular do dado. Se a identificação ocorrer, não se
tratará de dado anonimizado, mas sim de dado pseudônimo, e estará sujeito à LGPD.
Fonte: LEI Geral de Proteção de Dados Pessoais (LGPD). Gov.br, [2022]. Disponível em:
www.gov.br/cidadania/pt-br/acesso-a-informacao/lgpd. Acesso em: 19
set. 2022.

Pag. 53
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
• LEI Geral de Proteção de Dados Pessoais (LGPD). Gov.br, [2022].
Disponível em:
www.gov.br/cidadania/pt-br/acesso-a-informacao/lgpd.
Acesso em: 19 set. 2022.
• CARVALHO, Luiz Paulo; OLIVEIRA, Jonice; CAPPELLI, Claudia. Pesquisas em
análise de redes sociais e LGPD, análises e recomendações. In:
BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 9., 16
a 20 nov. 2020. Anais […]. [S. l.]: [CSBC], 2020. Disponível em: https://
sol.sbc.org.br/index.php/brasnam/article/view/11164/11035.
Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Segundo a LGPD, o que são dados públicos?

Dados que identificam direta ou indiretamente uma pessoa.

Dados que foram manifestados como públicos pelo titular.

Dados que foram descaracterizados e que não permitem a identificação de uma


pessoa.

Dados com informação sensível, tal como informações sobre menores de idade.

Aprendemos, nesta videoaula, sobre a Lei Geral de Proteção de Dados e seus


fundamentos. Na próxima videoaula, estudaremos sobre os casos frustrados de data
science, os motivos das falhas e seus respectivos exemplos.

Pag. 54
Casos frustrados de data science

Casos frustrados de data science


Embora o campo da inteligência artificial (IA) tenha ganhado espaço nos últimos anos,
sua aplicação na indústria ainda está em estágios iniciais. Por isso, as falhas são
esperadas, e os casos que ocorrem podem não ter seguido as diretrizes éticas vistas
anteriormente, sendo que, ainda há discussões sobre a melhor maneira de lidar com
aspectos éticos e sociais, o que ocasiona alguns casos frustrados.

Motivos para modelos falharem


São seis os motivos, apresentados pelo professor, que provocam a falha dos modelos:
• A qualidade de dados ruim.
• Não definir casos de uso com equipes de negócios.
• Falta de “linhagem de dados”.
• Não implantar modelos.
• Equipes de análise ou ciência de dados “torre de marfim”.
• Baseando-se em modelos de “caixa preta”.
Fonte: 6 REASONS data modeling fails. sibility Policy Oracle Oracle AI & Data Science Blog, 2017. Disponível em:
blogs.oracle.com/ai-and-datascience/post/6-reasons-data-modeling-fails.
Acesso em: 19 set. 2022.

Casos frustrados de data science


Microsoft Tay

Pag. 55
O bot foi lançado inicialmente para testar e melhorar a compreensão da linguagem
natural da Microsoft em conversas. Tay usou suas habilidades de IA para aprender com
as interações e ter melhores conversas no futuro. Em pouco tempo, os usuários do
Twitter começaram a atacar as vulnerabilidades do bot de IA, manipulando-o para
aprender sentimentos profundamente sexistas e racistas.
A Microsoft teve que desligar o bot menos de 24 horas após lançá-lo. Em uma
declaração futura, o CEO da Microsoft, Satya Nadella, comentou sobre a “grande
influência” que Tay teve sobre como a Microsoft está abordando a IA e a importância
da responsabilidade.

Uber Self Driving Car Fatality


Em 18 de março de 2018, Elaine Herzberg se tornou vítima da primeira fatalidade de
pedestre registrada envolvendo um carro autônomo.
O incidente ocorreu em Tempe, Arizona, EUA. Herzberg foi fatalmente atingido pelo
veículo de teste da Uber enquanto empurrava uma bicicleta por uma estrada de quatro
pistas. A Uber estava ciente dos perigos potenciais dos veículos autônomos, portanto,
incorporou um sistema humano no circuito para servir como backup. No entanto,
relatórios afirmam que o motorista de segurança se distraiu com um episódio da voz em
seu telefone e, de fato, perdeu até um terço da viagem.
Fonte: PYKES, Kurtis. 5 AI failures you probably should know about. 2021. Disponível em:
towardsdatascience.com/5-ai-failures-you-probably-should-know-about-417ddebbc323 . Acesso em: 19 set. 2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
PYKES, Kurtis. 5 AI failures you probably should know about. 2021.
Disponível em: https://towardsdatascience.com/5-ai-failures-you-probably-sh
ould-know-about-417ddebbc323.Acesso em: 19 set. 2022.

Pag. 56
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos motivos abaixo não pode ser considerado um ponto fraco na construção
de um modelo de conhecimento?

Falta de definição de objetivos e falta de comunicação entre times de data


science e tomadores de decisão.

Qualidade de dados ruim.

Dataset construído com diversidade de dados.

Baseando-se em modelos de “caixa preta”.

Nesta videoaula, aprendemos sobre os casos frustrados de data science, seus motivos e
dois exemplos de casos: Microsoft Tay e Uber Self Driving Car Fatality. Na próxima
videoaula, estudaremos sobre o caso Cambridge Analytica e as discussões sobre uso de
dados sociais.

Caso Cambridge Analytica

Discussões sobre uso de dados sociais


LGPD e GDPR tentam sanar brechas que podem tornar um usuário alvo de análises e
objeto de manipulação de terceiros.
LGPD não se aplica para fins acadêmicos (art. 4, II, b), realização de estudos (art.
7, IV e art. 11, II c), ou à órgão de pesquisa (art. 5, XVIII, art. 7, IV e art. 11,

Pag. 57
II, c).
O tratamento de dados pessoais somente poderá ser realizado para a realização de
estudos por órgão de pesquisa, garantindo, sempre que possível, a anonimização dos
dados pessoais.
O art. 7 trata de dados pessoais, e o art. 11 trata de dados pessoais sensíveis:
“Esta Lei não se aplica ao tratamento de dados pessoais realizado por pessoa natural
para fins exclusivamente particulares e não econômicos”.
Fonte: CARVALHO, Luiz Paulo; OLIVEIRA, Jonice; CAPPELLI, Claudia. Pesquisas em análise de redes sociais e LGPD, análises
e recomendações. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 9., 16 a 20 nov. 2020. Anais […]. [S.
l.]: [CSBC], 2020. Disponível em: https://sol.sbc.org.br/index.php/brasnam/article/view/11164/11035. Acesso em: 19
set. 2022.

Caso Cambridge Analytica


Em 2017, foi exposto que o Facebook vazou dados entre 50 e 87 mi de usuários por meio
do aplicativo thisisyourdigitallife para a empresa Cambridge Analytica. O
documentário foi retratado pela The Great Hack.
O Facebook, inicialmente, divulgou que a quantidade de usuários afetados era de
270.000. Posteriormente, houve acréscimo para 50 milhões, e reportagens posteriores
indicam que a quantidade poderia chegar a 87 milhões.
Os dados eram utilizados sem o conhecimento devido dos usuários para análise e uso em
propagandas políticas nas eleições americanas de 2016. A empresa Cambridge Analytica
adquiriu os dados e construiu perfis psico-demográficos dos usuários e de seus
amigos.
Com isso, determinados perfis eram alvo de propaganda, tanto nas eleições americanas
de 2016, como no referendo sobre “brexit”.
O aplicativo pedia aos usuários, no processo de login, acesso aos perfis dos usuários
no Facebook, locais, o que eles gostavam no serviço e também os dados de seus amigos.
Fontes: LAPOWSKY, Issie. Facebook exposed 87 million users to Cambridge Analytica. 2018. Disponível em: https://www.wire
d.com/story/facebook-exposed-87-million-users-to-cambridge-analytica/.Acesso em: 19 set. 2022; LAPOWSKY, Issie.
Cambridge Analytica took 50M Facebook users’ data—and both companies owe answers. 2018. Disponível em: https://www.wired
.com/story/cambridge-analytica-50m-facebook-users-data/.Acesso em: 19 set. 2022.

Pag. 58
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
THE CAMBRIDGE analytica scandal. The Verge, 2022. Disponível em:
www.theverge.com/2018/4/10/17165130/facebook-cambridge-analytica-scandal.
Acesso em: 19 set. 2022.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a opção não relacionada ao caso Cambridge Analytica.

A empresa Cambridge Analytica utilizava testes psicométricos para traçar


perfis dos usuários.

O caso Cambridge Analytica utilizava dados consentidos de usuários para a


criação de pesquisas.

O escândalo teve grande influência nas eleições americanas.

A empresa Cambridge Analytica obtinha dados sem o consentimento dos usuários


por meio de aplicativos e jogos.

Nesta videoaula, discutimos sobre uso de dados sociais, exemplificando-o no caso


Cambridge Analytica, extraindo dados do Facebook a fim de adquirir os dados e
construir perfis psico-demográficos dos usuários. Na próxima videoaula, estudaremos
sobre aplicação de data science em dados de saúde mental.

Pag. 59
Aplicação de data science em dados de saúde mental

Aplicação de data science em dados de saúde mental


Dados de mídias sociais podem auxiliar em áreas como saúde. Estima-se que 300 milhões
de pessoas afetadas por depressão, pela Organização Mundial da Saúde (OMS). No
Brasil, a depressão atinge 11,5 milhões (5,8% da população).
Em um cenário de pandemia mundial, Wang et al. (2020) medem o impacto sobre o nível
de estresse, ansiedade e depressão da população chinesa durante o período de
pandemia.
O uso da tecnologia como ferramenta de monitoramento tornou-se essencial para grupos
de pesquisa para criar soluções, governos para tomar decisões e veículos de
comunicação para informar a população.
Fontes: MENTAL disorders. World Health Organization, 2022. Disponível em:
www.who.int/en/news-room/fact-sheets/detail/mental-disorders.
Acesso em: 19 set. 2022; MAIS de onze milhões de brasileiros têm depressão. Gov.br, 2017. Disponível em:
www.blog.saude.gov.br/index.php/materias-especiais/52516-mais-de-onze-milhoes-de-brasileiros-tem-depressao.
Acesso em: 19 set. 2022.

Aplicação de data science em dados de saúde mental


Os dados armazenados de data science, na área de saúde mental, são aplicados na
integração de abordagens e campos de estudo da computação no armazenamento e extração
de conhecimento.
Além disso, integram as áreas da saúde para entendimento do fenômeno na psicologia e
psiquiatria e na integração com campos sociológicos e de humanas, nas áreas de
sociologia e ética.

Pag. 60
Aplicação de data science em dados de saúde mental
Uso de abordagens de machine learning e deep learning: aplicam-se os dados de data
science em
análise de sentimentos, redes sociais e criação de modelos de conhecimento capazes de
classificar.

Aplicação de data science


As pesquisas têm avançado para a extração de conhecimento e inferências sobre outros
tipos de dados, tal como vídeos e imagens. Cada vez mais tecnologia tem se integrado
com aspectos humanos e sociais.
Fontes: QURESHI, Hanzala. The future of data in the metaverse. 2021. Disponível em: https://medium.com/geekculture/the-f
uture-of-data-in-the-metaverse-b8fb3c3710ea; MAIS de onze milhões de
brasileiros têm depressão. Gov.br, 2017. Disponível em:
www.blog.saude.gov.br/index.php/materias-especiais/52516-mais-de-onze-milhoes-de-brasileiros-tem-depressao.
Acesso em: 19 set. 2022.

Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
• SBBD2020 WTDBD 1. [S. l.: s. n.], [2020]. 1 vídeo (142 min). Publicado
pelo canal Departamento de Informática - PUC-Rio. Disponível em:
www.youtube.com/watch?v=9yboV9CqL6o&list=PLRKeuVfLlY-5IZme8klDjd0S7I6QWUPQv
&index=4&ab_channel=DepartamentodeInform%C3%A1tica-PUC-Rio

• TRAPPED in the metaverse: here’s what 24 hours in VR feels like | WSJ.


[S. l.: s. n.], 2021. 1 vídeo (10 min). Publicado pelo canal Wall Street
Journal. Disponível em:
www.youtube.com/watch?v=rtLTZUaMSDQ&ab_channel=WallStreetJournal

Pag. 61
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

O que impediria a utilização devida de dados sensíveis?

O uso inapropriado e que não respeite a LGPD.

O uso de dados não consentidos pelo usuário.

A criação de modelos que não tenham relevância ou alinhamento com as áreas de


aplicação.

Todas as alternativas acima.

Aprendemos, nesta videoaula, sobre a aplicação de data science em dados de saúde


mental, sua integração de abordagens e campos de estudo na área da computação, o uso
de abordagens de machine learning e deep learning e suas aplicações. A seguir,
estudaremos sobre os desafios, tendências e perspectivas sobre o conhecimento em
bases de dados.

Desafios, tendências e perspectivas

Desafios, tendências e perspectivas


Um dos desafios encontrados, atualmente, está o crescente aumento da demanda por
profissionais capacitados para descobrir conhecimento em bases de dados, nas áreas
de:
• Mineração de texto.

Pag. 62
• Análise de sentimentos/mineração de opiniões.
• Mineração de dados multimídia.
• Mineração de dados paralela e multimídia.
• Web semântica.
• E-ciência.
• Análise de redes complexas.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.

Desafios, tendências e perspectivas


As perspectivas englobam:
As áreas da mineração espaço-temporal, objetos em movimento e sistemas ciberfísicos.
Os sistemas ciberfísicos, bem como os dados espaço-temporais, estão crescendo
rapidamente devido ao uso popular de telefones celulares, GPS, sensores e
outros equipamentos sem fio.
Na mineração de dados biológicos e biomédicos, as sequências de DNA e proteínas, a
mineração de dados de microarrays de alta dimensão e a análise de vias
biológicas e rede.
Na mineração de dados distribuídos e na mineração de fluxo de dados em tempo real
projetados para funcionar em um local centralizado, não funcionam bem em
muitos dos ambientes de computação distribuídos atuais.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil, 2015.

Desafios, tendências e perspectivas


Além das perspectivas nas áreas de integração e Interdisciplinaridade, destacando as
áreas de: saúde, psicologia, sociologia, física, química, regulamentação e
letramento.

Pag. 63
Saiba mais!
Saibam mais sobre os assuntos apresentados até aqui por meio do material
complementar disponibilizado pelo professor:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Brasil,
2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das opções abaixo não pode ser considerada um desafio na área de data
science?

Utilização de conhecimento de outras áreas de conhecimento.

Criação de modelos de conhecimento mais éticos.

Avanço sobre a mineração de dados distribuídos.

Formação de profissionais que saibam dialogar tanto com tecnologia, como com
áreas diversas.

Estudo sobre atores mais relevantes em mídias sociais.

Nesta última videoaula, vimos os desafios, tendências e perspectivas que os


profissionais capacitados para gerar os conhecimento em bases de dados de acordo com
a demanda em ramos como integração e Interdisciplinaridade. No próximo tema, nos
encontraremos novamente. Vamos juntos nesta jornada de conhecimento; até lá!

Referências autorais
AL-TAIE, M. Z.; KADRY, S. Python for graph and network analysis. Springer
International Publishing, 2017.
BARABÁSI, A.-L. Network science. Cambridge, 2016. Disponível em: http://www.networksc
iencebook.com/. Acesso em: 19 set. 2022.

Pag. 64
CHAN, K. Y. et al. Social big data analytics: practices, techniques, and
applications. Springer Nature Singapore, 2021.
COREA, F. An introduction to data: everything you need to know about AI, big data and
data science. Springer, 2018.
FARIAS, C. M. (eds.). Big social data and urban computing. Springer, 2019.
(Communications in Computer and Information Science – CCIS, v. 926).
ISHIKAWA, H. Social big data mining. CRC Press, 2015.
OLSHANNIKOVA, E. et al. Conceptualizing big social data. Journal of Big Data, v. 4,
n. 1, 2017. Disponível em: https://doi.org/10.1186/s40537-017-0063-x. Acesso em:
19 set. 2022.
P.M., Krishna Raj; MOHAN, Ankith; SRINIVASA, K. G. Practical social network analysis
with python. Springer International Publishing, 2018.
POZZI, Federico Alberto et al. Sentiment analysis in social networks. Morgan Kaufmann
Publishers, 2017.

Você também pode gostar