Você está na página 1de 11

UNIVERSIDADE FEDERAL DE SANTA CATARINA

GRADUAO EM SISTEMAS DE INFORMAO


DEPARTAMENTO DE INFORMTICA E ESTATSTICA

DATA MINING EM REDES SOCIAIS

FELIPE GONALVES BOTELHO


PEDRO HENRIQUE ROCHA UGIONI

FLORIANPOLIS
2012
Sumrio

1. Introduo

2. Data Mining

3. Redes Sociais

4 Utilizaes das informaes

5. Minerao de dados nas Redes Sociais

6. Privacidade

7. Concluso

8. Referencias
1. INTRODUO

Hoje em dia um dos pontos mais fundamentais para o sucesso de uma organizao saber
como seu publico alvo. Fato se deve porque conhecendo o cliente possvel direcionar
campanhas de marketing especficas e adaptar os servios prestados vontade do mesmo. No
entanto, avaliar a vontade e opinio dos clientes em relao aos produtos e servios oferecidos
pela empresa no tarefa simples. Uma das formas utilizadas pelas empresas para coletar tais
informaes a distribuio de questionrios e realizao de pesquisas de opinio, que visam
possibilitar uma anlise da aceitao do produto oferecido bem como possveis questes a
serem mudadas.

Contudo o uso de questionrios em pesquisas , muitas vezes, ineficiente. Isso


porque esta forma de coleta de dados possui um alcance relativamente reduzido, o que acaba
prejudicando a preciso dos dados coletados. Outro motivo que tais tcnicas possuem um
custo consideravelmente alto de aplicao. Esse custo ainda maior quando tais questionrios
e pesquisas no so automatizados, isto ,quando so necessrias pessoas para suas
aplicaes e tabulao.

J nas redes sociais, os dados so dispostos pelos usurios por vontade prpria. Alm de
garantir um amplo alcance, evita problemas como influncia nas respostas por parte de
aplicadores, como o que acontece com questionrios. No entanto, apesar dos dados serem
distribudos livremente em redes sociais, a captura e anlise automtica destes complicada.
Isso porque existem vrias dificuldades envolvidas na extrao de opinio de textos livres, j
que a tarefa de quantificar opinies contidas em textos, muitas vezes subjetivos, utilizando
computadores bastante complexa.
Tendo este cenrio em mente surge a necessidade de uma forma alternativa de
coleta de dados, que no necessita da procura do cliente e nem de seu tempo dedicado.
Uma das alternativas que vem sendo estudadas atualmente o uso dos dados coletados
a partir de redes sociais para gerao de informaes a respeito de opinies das pessoas.
As redes sociais esto inseridas no cotidiano das pessoas, alcanando um grande
nmero de possveis clientes. Por tudo isso, prope-se com este trabalho a coleta de
dados de uma rede social em especial e o uso destes para obteno de informaes,
atravs da utilizao de tcnicas de minerao de dados.
2. DATA MINING

Tambm conhecido como minerao de dados tem como principal utilidade a varredura de
grande quantidade de dados a procura de padres e deteco de relacionamentos entre
informaes gerando novos subgrupos de dados.
A formao de subgrupos de dados feito pelo Data Mining atravs da execuo de algoritmos
capazes de conhecer e aprender mediante a varredura dessas informaes. Baseado em
sistemas de redes neurais, esses dados so examinados e pensados, gerando uma nova
informao associativa com outros dados. A formao de estatsticas tambm uma de suas
funes gerando resultados comparativos e levando a uma tomada de deciso inteligente.
Esse processamento traz resultados incrveis como por exemplo a formao de hipteses e
principalmente regras de dados a serem apresentados ao usurio..

2.1 Que dados o Data Mining avalia?

Sem um bom sistema de gesto difcil que grandes corporaes sobrevivem, isso notado
pelo fato de que hoje em dia milhares de informaes so processadas diariamente. Esses
sistemas de gesto armazenam em seus bancos de dados informaes corriqueiras como por
exemplo: estoques, pedidos, compras, oramentos, contbil, financeiro, jurdico, ps-venda,
relacionamento com cliente, vendas entre outros. Diversos departamentos geram essas
informaes independentes e a funo principal de um Business Intelligence trabalhar com
todo esse histrico que inseridos diariamente e garantir que no final das contas todos os
dados sejam visualizados como um todo, trazendo informaes concretas, consistentes e
decisivas, basicamente atravs da ao do Data Mining.
3. REDES SOCIAIS

Uma rede social uma estrutura composta por pessoas que esto conectadas por um ou
vrios tipos de relaes, de amizade, familiares, comerciais, entre outros, ou que partilham
crenas, conhecimento ou prestgio. As mdias sociais no se tratam de uma tecnologia em s,
mas sim de uma mudana de comportamento das pessoas nela contida, pois nelas no h a
presena do controle editorial tratando assim de uma produo de contedo de forma
descentralizada.
Essa nova forma de comunicao, vem na contramo do que as organizaes geralmente
adotam, de cima para baixo, ou seja, comunicaes sem nenhum dilogo ou interao com o
pblico. Os meios de comunicao social tem transformado o modelo atual criando um
sistema de comunicao descentralizado e democratizados.
Wikis, twitter, fruns, blogs, entre outros, so ferramentas que fazem parte dessa nova
tendncia nesse novo processo de criao do conhecimento. A grandes quantidades de
informao que so geradas nessas ferramentas podem ser usadas em vrias reas, como
comrcio e educao. Pesquisas apontam que o nmero de blogs vem aumentando nos
ltimos anos, tambm foi constatado que a maioria das pessoas que publicam nesses blogs
possuem um nvel de formao acadmica relevante, h muitos trabalhadores que publicam
textos e fazem muitos comentrios.
Para o comrcio este tipo de mdia importante em dois cenrios, o externo e o interno. O
primeiro prove uma excelente anlise de mercado, reputaes de negcios e opinies esto
sendo definidas por meio destes novos canais de comunicao.

4. UTILIZAO DAS INFORMAES

Dado amplo uso das rede sociais e a grande diversidade de seus usurios, surge uma srie de
oportunidades a serem exploradas. Um dos pontos mais interessantes e com maior potencial
neste tipo de servio a possibilidade de apresentao de anncios de marketing e
campanhas publicitrias para os usurios. Contudo, mesmo que campanhas publicitrias
genricas possuam bons retornos e sejam amplamente utilizadas, a possibilidade de oferecer
campanhas personalizadas sobre produtos especficos para determinados usurios algo que
aumentaria as chances de sucesso desta campanha. No faz sentido oferecer produtos
relacionados a esportes para algum que fala mal ou no gosta dessa atividade. Tambm no
seria interessante oferecer produtos para a prtica de mergulho para um usurio que tem como
atividade o tnis. Tendo isto em vista, fica claro que a escolha do produto a ser oferecido tem
influncia direta nas chances de atrair a ateno de um possvel cliente.
Mas como saber o que oferecer a cada usurio? Como saber os interesses de milhes de
usurios de lugares diferentes? Isso, no uma tarefa manual e exige um tratamento mais
cuidadoso. Uma alternativa para solucionar este problema o uso de tcnicas de minerao de
dados e descoberta de opinio, que se encaixam em um campo em grande crescimento nos
ltimos anos. Assim, fazendo-se uso das informaes geradas pela rede e de tcnicas de
minerao de texto e descoberta de opinio, pretende-se obter informaes que possibilitem:
classificao de usurios dentro de grupos de interesses, anlise de opinies e aceitao de
certos assuntos.
5. MINERAO DE DADOS NAS REDES SOCIAIS

Hoje em dia podemos utilizar de uma abordagem que tradicional para coletar informaes,
como nas redes sociais. Seria perguntando a cada membro de um grupo especifico como so
as relacoes entre eles.

Porm uma maneira que possui um gasto enorme de tempo e est sujeito a uma certa
quantidade de abstenes. Alm do mais que diversos estudos mostram que os dados
coletados por meio de questinrios se diferem do que realmente observado, quando se
referimos a relatos individuais sobre interaes sociais. Isso porque os entrevistados podem
mentir, esquecer ou interpretar de maneira errada as interaes e relaes criada com os
membros de seu grupo..

Devido a este fato, os pesquisadores da rea esto focados em mtodos automticos para
coletar esses dados dentro das redes sociais. O mtodo mais utilizado baseado na procura
de informaes de quem fala com quem. Com base nos registros das interaes, esse mtodo
conta o nmero de mensagens trocadas entre os integrantes.Esse nmero de interaes
representa a intensidade do lao entre os indivdos.
Na ltima dcada as tcnicas de minerao de texto tem evoluido. Esta tcnica pode
ser usada para a descoberta automatica de redes sociais a partir de dados textuais:
documentos publicados na Internet e/ou em ferramentas textuais de comunicao online, entre
outros.
Os seguintes passos so necessrios para descobrir redes sociais a partir de
documentos de texto:

Descoberta dos ns, quando todas as referncias a pessoas (nomes, emails,..) so


identificadas.

Deteco de coreferncias e resoluo de pseudnimos, que resolve as ambiguidades


entre as pessoas. Diferenciando pessoas que tem o mesmo nome e criando uma nica
identidade para pessoas que tem vrios pseudnimos.

Descoberta de conexes, a qual determina quando existe ou no conexes sociais


entre as pessoas identificadas pelos algoritmos anteriores.

As sees subsequentes descrevem com mais detalhes cada um desses passos.

5.1 Descoberta dos ns

A descoberta de ns a partir do texto geralmente feita por meio da descoberta de nomes


pessoais e outras referncias s pessoas. Ela faz parte da chamada Reconhecimento de
Nomes de Entidades (RNE). RNE um conjunto de tcnicas de minerao de texto criadas
para descobrir nomes de entidades, conexes e tipos de relaes entre eles Em RNE uma
entidade tem um conceito bem amplo, podendo ser por exemplo uma pessoa, uma organizao
ou uma localizao geogrfica.
A grande maioria dos trabalhos de pesquisa na rea se dedicam principalmente descoberta
de nomes pessoais, visto que encontrar pronomes e endereos eletrnicos
relativamente fcil. Os pronomes podem ser encontrados comparando cada palavra do texto
com a lista de pronomes possveis, e o endereos eletrnicos pode ser encontrados
procurando padres do tipo [parte1]@[parte2].[parte3].

5.2 Deteco de coreferncias e resolues de pseudnimos

Uma vez que os nomes e outras palavras que referenciam os indivduos foram
encontrados, o prximo passo a deteco de coreferncias e resoluo pseudnimos. Esse
passo possui um objetivo duplo: identificar todas as diferentes referncias para a mesma
pessoa (ex.: voc, Joo, Sr. Carlos e joao.carlos@inf.ufsc.br), e ao mesmo tempo,
diferenciar duas ou mais pessoas que possuem o mesmo nome.

De maneira similar ao passo anterior, a Lingustica Computacional (LC) utiliza um


abordagem mais geral baseada em tcnicas de Aprendizagem de Mquina (AM) que tentam
relacionar no somente os nomes, mas tambm os sintagmas nominais encontrados nas
sentenas e nos documentos. Os sintagmas nominais so importantes pois os mesmos podem
referenciar pessoas, organizao e objetos. Neste caso, a lingustica computacional utiliza
tcnicas de aprendizagem de mquina para determinar a probabilidade condicional de um
conjunto de sintagmas nominais em relao a uma mesma entidade. O clculo da semelhana
baseados em caractersticas nicas tais como distncia entre os sintagmas nominais no texto,
semelhanas lexicais, frequncia mtua nas frases, concordncia em gnero e significado
semntico, etc.

A segunda parte desse passo, tanto faz parte do processo de reconhecimento de


nomes e entidades quanto pode ser conduzido como um processo separado. Isso mostrado
pelas pesquisas realizadas na rea de resoluo de pseudnimos, e na sua utilizao em
aplicaes como a verificao de autoria, anlise de citaes, deteco de spam,
desambiguao de autores em bibliotecas digitais, entre outras. O objetivo de vrias
abordagens para a resoluo de pseudnimos consiste em diferenciar duas ou mais pessoas
por meio da identificao de uma assinatura nica que associada cada pessoa. Essas
abordagens baseiam-se em caractersticas lingusticas que so prprias da escrita da pessoa
(ex.: estilo de escrita, sinais de pontuao, tamanho mdio das sentenas, palavras-chave
especficas, etc.) ou em padres de interao baseados na rede (ex.: remetentes e
destinatrios comuns). Quando a extrao de redes sociais feita a partir de pginas Web, a
resoluo de pseudnimos frequentemente realizada por meio da atribuio automtica de
um conjunto de palavras-chaves especficas ou resumos de vrias sentenas contextuais para
cada nome no texto. A hiptese para este caso que duas pessoas diferentes (mesmo que
possuam o mesmo nome) so usualmente mencionadas em diferentes contextos ou partes do
texto. Assim, a tarefa reduzida para encontrar um conjunto de palavras discriminantes e/ou
caractersticas semnticas para descrever de forma exclusiva uma pessoa em particular.

5.3 Descoberta de Conexes

Depois que todos os ns da rede so identificados e agrupados de modo a representarem uma


nica pessoa, o prximo passo o de descobrir como estes ns esto interligados. Existem na
literatura, dois mtodos principais para a descoberta automtica de conexes que toma como
base informao textual: o primeiro deles baseado na similaridade dos perfis do usurio o a
segundo inclui uma medida de similaridade semntica entre as palavras extradas dos perfis.

Um perfil pode ser criado manualmente pela prpria pessoa (ex.: perfil do Facebook)
ou construdo de forma automtica usando as informaes disponveis na Internet (ex.: pgina
pessoal, e-mails ou textos escritos por terceiros sobre a pessoa em questo). Uma maneira
trivial de medir a similaridade entre dois perfis simplesmente contar a quantidade e elementos
comuns. Quanto ao segundo mtodo, duas pessoas esto conectadas quando o valor da
similaridade semntica entre os seus perfis superior a um limiar predefinido. Em outras
palavras, as pessoas so consideradas ligadas quando h uma sobreposio considervel de
palavras e frases encontradas em seus perfis.
6. PRIVACIDADE

Por um lado a minerao de dados sobre nossos perfis e gostos pode nos trazer
comodidades no dia a dia, as empresas sabem o que voc quer, por exemplo, mas as
informaes podem ser usadas incorretamente, ocasionando na invaso de privacidade. O
artigo 21 do Cdigo Civil fala que A vida privada de uma pessoa natural de natureza
inviolvel, e o juiz, a requerimento do interessado, adotar as providncias necessrias para
impedir ou fazer cessar o ato contrrio a esta norma.
Um exemplo prtico e atual est ocorrendo na minerao de dados do Facebook, que j
est sendo questionada por grupos de privacidade. Apenas alguns dias depois da empresa
declarar que est oferecendo melhores anlises em campanhas de publicidade para os
comerciantes, dois grupos de privacidade eletrnica pediram Comisso Federal de Comrcio
de olhar se a prtica viola, ou no, as concesses recentes feitas pela empresa em sua poltica
de privacidade.
O Facebook est resgatando o que o usurio compra, a fim de ajudar os comerciantes a
determinar se as suas campanhas de publicidade no site esto pagando. Eles esto
trabalhando com uma empresa de minerao de dados chamado Datalogix para ver se os
usurios esto comprando os produtos e servios anunciados.
Datalogix compila uma base de dados gigantesca de dados de compra dos
consumidores, incluindo endereos de e-mail e outras informaes do usurio. Eles fazem isso
principalmente seguindo o que os consumidores compram em cartes de recompensas
varejista. Quando os dados so combinados com dados do Facebook sobre IDs de usurio e
impresses de anncios, os comerciantes podem ver uma imagem clara se a impresso
diretamente resultou em uma compra. Essa forma de anlise comentada em uma seo
inteira em sua Central de Ajuda.
No entanto o acordo com o Electronic Privacy Information Center (EPIC) e do Centro para a
Democracia Digital (CDD), o empreendimento de minerao de dados pode constituir uma
violao dos termos estabelecidos.
Basicamente, se o Facebook quer compartilhar as informaes privadas do usurio com
terceiros e alm de suas configuraes de privacidade, o Facebook tem que deixar bem claro a
sua inteno de faz-lo.
8. CONCLUSO

Redes sociais online se tornaram extremamente populares e parte do nosso dia


a dia, causando o surgimento de uma nova onda de aplicaes disponveis na Web. A
cada dia, grandes quantidades de contedo so compartilhadas, e milhes de usurios
interagem atravs de elos sociais de maneira espontanea. Apesar de tanta popularidade, o
estudo de redes sociais ainda est em sua infncia, j que estes ambientes esto ainda
experimentando novas tendncias e enfrentando diversos novos problemas e desaos.
Com a minerao da dados nas redes sociais, surge uma srie de oportunidades a serem
exploradas, onde podemos identificar e prever comportamentos de grupos de pessoas.
9. REFERNCIAS

Saiba o que Data Mining - Alvo Conhecimento


http://www.alvoconhecimento.com.br/2008/04/saiba-o-que-e-data-mining/

Facebooks Retail Data Mining Already Being Questioned by Privacy Groups


http://www.webpronews.com/facebooks-retail-data-mining-already-being-questioned-by-privacy-
groups-2012-09

A tendncia integrar a minerao de dados com as redes sociais - poca Negocios


http://epocanegocios.globo.com/Revista/Common/0,,EMI185111-16382,00-
A+TENDENCIA+E+INTEGRAR+A+MINERACAO+DE+DADOS+COM+AS+REDES+SOCIAIS.h
tml

Minerao de dados e anlise de opinio em redes sociais Um estudo de caso sobre as


Olimpadas 2012 utilizando o Twitter
http://www.lbd.dcc.ufmg.br/colecoes/brasnam/2012/0034.pdf

Conceitos e Aplicaes de Data Mining


http://www.unimep.br/phpg/editora/revistaspdf/rct22art02.pdf

Minerao de Dados na Web Social


http://www.slideshare.net/luiz_arthur/minerao-de-dados-no-gmail-e-facebook

Minerao de texto em redes sociais aplicadas educao a distncia


http://pead.ucpel.tche.br/revistas/index.php/colabora/article/viewFile/132/115

Coleta e Anlise de Grandes Bases de Dados de Redes Sociais Online


http://www.decom.ufop.br/fabricio/download/jai2012.pdf

The Realities of Social Media Data Mining


http://www.dashboardinsight.com/articles/new-concepts-in-business-intelligence/the-realities-of-
social-media-data-mining.aspx

Você também pode gostar