Predavanje 5. Analiza Sadrzaja Na Drustvenim Mrezama

ANALIZA
SADRAJA NA
DRUTVENIM
MREAMA
JELENA JOVANOVIC
JELJOV@GMAIL.COM
HTTP://JELENAJOVANOVIC.NET
PREGLED PREDAVANJA
Razliiti oblici analize sadraja
ekstrakcija informacija; semantiko indeksiranje;
identifikacija kljunih tema
Analiza sadraja u kontekstu drutvenih mrea i

medija: primeri
Performanse sistema za analizu sadraja
Analiza sentimenta na drutvenim mreama i njene
primene (trenutno izuzetno aktuelna oblast)
RAZLIITI OBLICI
ANALIZE
SADRAJA
EKSTRAKCIJA INFORMACIJA
Tehnologija zasnovana na
analizi prirodnog jezika
sa ciljem ekstrakcije informacija o
predefinisanim tipovima
entiteta, relacija i/ili dogaaja
EKSTRAKCIJA INFORMACIJA
Primer:
Novak Djokovic extended his unbeaten record at the 2012 China Open
in Beijing on Tuesday, but needed three sets to defeat qualifier Michael
Berrer of Germany.
The Serb progressed to the second round with a 6-1, 6-7 (3/7), 6-2
definitive victoryG
Informacije koje bi se mogle estrahovati iz ovog teksta:
-Novak Djokovic; 2012 China Open; Beijing; Tuesday; G; the Serb.
-Novak Djokovic i the Serb se odnose na isti entitet
-unbeaten (record); definitive (victory)
-(Novak Djokovic) opponent (Michael Berrer)
-qualify for the 2nd round of 2012 China Open
TIPINI ZADACI EKSTRAKCIJE

INFORMACIJA
Prepoznavanje imenovanih entiteta (Named Entity recognition)
moe se odnositi na razliite vrste entiteta (ljudi, organizacije, datumi,
valute i sl)
Razreavanje koreferenci (Co-reference resolution) obuhvata:

anaphoric resolution
Npr. utvrditi da se u tekstu: Tom is my best friend. I know him since
we were kids. zamenica him odnosi na imenicu Tom;
proper noun resolution

Npr. utvrditi da sledee imenice oznaavaju isti entitet: IBM, IBM
Europe, International Business Machines Ltd., . . .
TIPINI ZADACI EKSTRAKCIJE

INFORMACIJA
Prepoznavanje opisa entiteta (Descriptions resolution)
Koje atribute entiteti imaju?
Prepoznavanje relacija (Relations resolution)

Koje relacije postoje meu entitetima?
Prepoznavanje dogaaja (Events resolution)

Identifikacija dogaaja u kojima entiteti uestvuju
IE VS. INFORMATION RETRIEVAL (IR)

IE & IR: dva slina, ali dosta razliita procesa:
IR sistem pronalazi (potencijalno) relevantne tekstove i
prezentuje ih korisniku
Primer: Web pretraivai kao to su Google i Bing
IE sistem analizira tekstove i prezentuje samo segmente

informacija (izvuene iz teksta) za koje korisnik moe biti
zainteresovan
Primer: IBM Watson
SEMANTIKO INDEKSIRANJE
Semantic Indexing, Semantic Annotation
Obuhvata prepoznavanje entiteta u tekstu plus

jedinstveno identifikovanje prepoznatih entiteta
(disambiguation)
Za jedinstveno identifikovanje entiteta se koriste

baze znanja dostupne na Web-u
npr. Wikipedia, DBpedia, Freebase, YAGO
Izazov: od vie moguih, odrediti pravo znaenje entiteta
u datom kontekstu
10
Za
Za termin
termin tree postoji
postoji 26
26 moguih
moguih
znaenja
znaenja uu Wikipedia-i;
Wikipedia-i; samo
samo
jedno
jedno je
je bitno
bitno za
za dati
dati kontekst
kontekst
PREPOZNAVANJE ENTITETA VS.

Primer izlaza sistema koji radi prepoznavanje entiteta:
Peter Norvig [PER] presents as part of the UBC Department of
Computer Science's [ORG] Distinguished Lecture Series,
September 23, 2010 [DATE].
11
Primer izlaza sistema koji radi semantiko indeksiranje:
SEMANTIKO LINKOVANJE
Semantic Linking
12
Semantic Linking = Semantic Annotation/Indexing with

Linked Data/Knowledge
IDENTIFIKACIJA KLJUNIH
TEMA/KONCEPATA
Topic Identification
Slino semantikom indeksiranju; razlike su sledee:
13
Teme/koncepti se ne vezuju za pojedinane rei i/ili

fraze u tekstu, ve za ceo tekst
Nakon identifikacije tema, potrebno je uraditi njihovo
rangiranje po znaajnosti
ANALIZA SADRAJA
U KONTEKSTU
DRUTVENIH MREA I
MEDIJA
15
GOOGLES KNOWLEDGE GRAPH

*Google users will able to browse through the companys
knowledge graph, or its ever-expanding database of information
about entities people, places and things the attributes of
those entities and how different entities are connected to one
another.
What Googles Search Changes Might Mean for You
Wall Street Journal, March 14, 2012

GEvery piece of information that we crawl, index, or search is
analyzed in the context of Knowledge Graph.
*Almost all the structured data from all of our products like Maps
and Finance and Movies and Music are all in the Knowledge Graph,
so we can reasonably say that everything we know about is in this
canonical form.
How a Database of the Worlds Knowledge Shapes Googles Future

MIT Technology Review, January 27, 2014
FACEBOOKS ENTITY GRAPH

Facebook is building a rich stock of knowledge that could make its
software smarter and boost the usefulness of its search engine*
*Entities such as colleges and employers are learned from data
typed in profile pages; businesses, movies, fictional characters,
and other concepts are learned from fan pages created by
Facebook users. * analyzing many employment histories on the
site allows Facebooks search engine to know that a search for
software engineers should also return people who say they are
coders.
18
Facebook Nudges Users to Catalog the Real World

MIT Technology Review, February 27, 2013
MICROSOFTS SATORI
At the core of Microsoft's work to create a state-of-the-art Bing digital
assistant is Satori, a knowledge repository of more than a billion
objects digested in the past 3.5 years*
*Satori catalogs entities and the associated data and
relationships among them...
*Satori is a self-learning system that is running every day and
learning more, adding 28,000 DVDs of content every day*
*Bing search and Windows already are using Satori's knowledge
repository*
Microsoft's Bing seeks enlightenment with Satori

CNET News, July 30, 2013
YAHOO! KNOWLEDGE BASE

Add content based on
-http://semanticweb.com/knowledge-graph-relatedacquisition-yahoos-future_b42054
20
-http://semanticweb.com/at-semtechbiz-knowledgegraphs-are-everywhere_b37724
POSLOVNE ANALITIKE
Primer: RavenPack News Analytic
Ekstrakcija entiteta iz novinskih lanaka, blog postova i sl.:
kompanije, brendovi, proizvodi,G
Ekstrakcija geo-politikih i makro-ekonomskih dogaaja, kao
i dogaaja relevantnih za pojedine kompanije i brendove
Estrahovane informacije predstavljaju ulaz za Business
Rules Engine
SOCIAL MEDIA MONITORING

Praenje trendova na drutvenim mreama
Primer: http://topsy.com/
(od Dec 2013. u vlasnitvu Apple-a)
SOCIAL MEDIA MONITORING

Reputation management
Analiza tekstualnih sadraja drutvenih medija i mrea
radi
identifikacije relevantnih entiteta: osoba, kompanija,
brendova, proizvoda;
detekcije sentimenta o identifikovanim entitetima;
sve sa ciljem upravljanja reputacijom nekog pojedinca ili
organizacije
Primeri:
Safesforce Marketing Cloud (ex. Radian6; link)
Lithium Social Intelligence product (link)
Trackur (link)
ONLINE REKLAMIRANJE
Primer: ADmantX (http://www.admantx.com/)
analiza sadraja web stranice radi ekstrakcije:

entiteta (osoba, lokacija, kompanija, brendova,G),

tipa teksta,
emocija sadranih u tekstu,
poruke koju tekst nastoji da iskomunicira
estrahovane informacije se koriste za preporuku

reklama za datu web stranu
SEMANTICS-DRIVEN DYNAMIC
STORYTELLING
BBC World Cup 2010 website
BBC Sport website
Izvor: http://bbc.in/W5maB0
COGNITION AS A SERVICE
Sve vei broj servisa/alata koji omoguuju ekstrakciju
informacija i semantiko indeksiranje
Primeri:
Alchemy API (http://www.alchemyapi.com/)
TextRazor (http://www.textrazor.com/)
Textwise (http://textwise.com/)
OpenCalais (http://www.opencalais.com/)
Wikimeta (http://wikimeta.com/)
TagMe (http://tagme.di.unipi.it/)
Wikipedia Miner (http://wikipedia-miner.cms.waikato.ac.nz/)
26
G
COGNITION AS A SERVICE
Zajednika karakteristika svih ovih servisa/alata:
Kombinacija mainske inteligencije i ljudskog znanja,
odnosno
27
tehnika mainskog uenja i ogromnih baza znanja
PERFORMANSE
SISTEMA ZA
ANALIZU SADRAJA
DETERMINANTE PERFORMANSI
Specifinosti konkretnog zadatka analize sadraja
Tip teksta vrsta teksta sa kojim se radi; npr. novinski lanci ili
tweets ili email poruke ili poslovni izvetaji i sl.
Tema (ili domen) ire definisan opseg tema (domen) kome
sadraj teksta pripada
Stil pisanja nivo formalnosti jezika, korienje strune
terminologije i sl.
Konkretni tipovi informacija za koje je korisnik zainteresovan
Npr., osobe, kompanije, akvizacija neke kompanije,...
DETERMINANTE PERFORMANSI
Zavisnost performansi od specifinosti i
kompleksnosti zadatka ekstrakcije
Preuzeto iz: H. Cunningham, Information Extraction, Automatic.

Encyclopedia of Language and Linguistics, 2nd Edition, Elsevier. 2005.
PROCENA PERFORMANSI
Najee koriene mere za procenu performansi EI (ili IR)
sistema:
Preciznost (precision) Da li su svi estrahovani segmenti
informacija relevantni?
Odziv (recall) Da li su svi relevantni segmenti informacija
prepoznati?
Tano
Pogreno
Estrahovani
Nisu
estrahovani
Precision = A / (A U B)
Recall = A / (A U C)
PROCENA PERFORMANSI
Preciznost i odziv su esto u konfliktu:
Moemo razviti sistem koji nee praviti mnogo greaka (visoka
preciznost), ali e propustiti da prepozna puno relevantnih informacija
(nizak odziv);
Alternativno, moemo staviti akcenat na odziv i propustiti manje
relevantnih informacija, ali po ceni pravljenja vie greaka.
Izvor: http://groups.csail.mit.edu/cb/struct2net/webserver/images/prec-v-recall-v2.png
ANALIZA
SENTIMENTA NA
DRUTVENIM
MREAMA
ANALIZA SENTIMENTA NA
TWITTER-U
34
Primer: http://www.sentiment140.com/
Kompletna lista raspoloiva u Google Drive dokumentu (link)
35
Lista aplikacija namenjenih analizi sentimenta sadraja

razliitih drutvenim mrea, primarno Twitter-a
BERZANSKA PREDVIANJA NA
OSNOVU ANALIZE SENTIMENTA NA
DRU. MEDIJIMA
Primer: http://www.sntmnt.com/
Financial Sentiment API: http://www.sntmnt.com/products/api/financial-sentiment-api/

Trading Indicator API: http://www.sntmnt.com/products/api/trading-indicator-api/
BERZANSKA PREDVIANJAG
37
Primer:
http://www.hedgechatter.com/
IDENTIFIKACIJA INTERESOVANJA,
NAMERA, ELJAGKORISNIKA
Na osnovu:
http://semanticweb.com/cruxly-analytics-technologydrives-actions-intents_b42001
38
http://www.cruxly.com/
JO NEKI
(INTERESANTNI)
PRIMERI
DODATNI PRIMERI INTERESANTNIH

APLIKACIJA
Dataminr (http://www.dataminr.com/)
identifikacija relevantnih dogaaja/informacija u realnom
vremenu
Izvor podataka: Twitter
Domeni: finansije, novinarstvo, javni sektor
Open source projekti zasnovani na Semantria API-u za analizu

teksta (primarno analizu sentimenta)
40
URL: https://semantria.com/developer/open-source-projects
EMOTO2012.ORG
Analiza Tweet poruka vezanih za Olimpijadu 2012. god
Analiza sentimenta poruka vezanih za pojedine sportiste, grupe,
utakmice, trke, i sl.
Identifikacija aktuelnih tema na dnevnom nivou, kao i
dominantnih tema tokom cele Olimpijade
Vizuelni prikaz rezultata analiza:

Emoto sentiment heatmap (link)
Emoto sentiment timeline (link)
41
Emoto topic explorer (link)
NEKI KORISNI LINKOVI

Blog post: How to build your own Facebook Sentiment
Analysis Tool (link)
Blog post: How to build your own Twitter Sentiment
Analysis Tool (link)
42
lanak: What Facebook knows (link)

Predavanje 5. Analiza Sadrzaja Na Drustvenim Mrezama

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Predavanje 5. Analiza Sadrzaja Na Drustvenim Mrezama

Enviado por

Direitos autorais:

Formatos disponíveis

ANALIZA

Analiza sadraja u kontekstu drutvenih mrea i

TIPINI ZADACI EKSTRAKCIJE

Razreavanje koreferenci (Co-reference resolution) obuhvata:

proper noun resolution

TIPINI ZADACI EKSTRAKCIJE

Prepoznavanje relacija (Relations resolution)

Prepoznavanje dogaaja (Events resolution)

IE VS. INFORMATION RETRIEVAL (IR)

IE sistem analizira tekstove i prezentuje samo segmente

Semantic Indexing, Semantic Annotation

Obuhvata prepoznavanje entiteta u tekstu plus

Za jedinstveno identifikovanje entiteta se koriste

PREPOZNAVANJE ENTITETA VS.

Primer izlaza sistema koji radi semantiko indeksiranje:

Semantic Linking = Semantic Annotation/Indexing with

Teme/koncepti se ne vezuju za pojedinane rei i/ili

GOOGLES KNOWLEDGE GRAPH

GOOGLES KNOWLEDGE GRAPH

GOOGLES KNOWLEDGE GRAPH

How a Database of the Worlds Knowledge Shapes Googles Future

FACEBOOKS ENTITY GRAPH

Facebook Nudges Users to Catalog the Real World

Microsoft's Bing seeks enlightenment with Satori

YAHOO! KNOWLEDGE BASE

SOCIAL MEDIA MONITORING

SOCIAL MEDIA MONITORING

entiteta (osoba, lokacija, kompanija, brendova,G),

estrahovane informacije se koriste za preporuku

tehnika mainskog uenja i ogromnih baza znanja

Preuzeto iz: H. Cunningham, Information Extraction, Automatic.

Kompletna lista raspoloiva u Google Drive dokumentu (link)

Lista aplikacija namenjenih analizi sentimenta sadraja

Financial Sentiment API: http://www.sntmnt.com/products/api/financial-sentiment-api/

DODATNI PRIMERI INTERESANTNIH

Open source projekti zasnovani na Semantria API-u za analizu

Vizuelni prikaz rezultata analiza:

Emoto topic explorer (link)

NEKI KORISNI LINKOVI

lanak: What Facebook knows (link)

Você também pode gostar