Você está na página 1de 42

ANALIZA

SADRAJA NA
DRUTVENIM
MREAMA
JELENA JOVANOVIC
JELJOV@GMAIL.COM
HTTP://JELENAJOVANOVIC.NET

PREGLED PREDAVANJA
 Razliiti oblici analize sadraja
 ekstrakcija informacija; semantiko indeksiranje;
identifikacija kljunih tema

 Analiza sadraja u kontekstu drutvenih mrea i


medija: primeri
 Performanse sistema za analizu sadraja
 Analiza sentimenta na drutvenim mreama i njene
primene (trenutno izuzetno aktuelna oblast)

RAZLIITI OBLICI
ANALIZE
SADRAJA

EKSTRAKCIJA INFORMACIJA
Tehnologija zasnovana na
analizi prirodnog jezika
sa ciljem ekstrakcije informacija o
predefinisanim tipovima
entiteta, relacija i/ili dogaaja

EKSTRAKCIJA INFORMACIJA
Primer:
Novak Djokovic extended his unbeaten record at the 2012 China Open
in Beijing on Tuesday, but needed three sets to defeat qualifier Michael
Berrer of Germany.
The Serb progressed to the second round with a 6-1, 6-7 (3/7), 6-2
definitive victoryG
Informacije koje bi se mogle estrahovati iz ovog teksta:
-Novak Djokovic; 2012 China Open; Beijing; Tuesday; G; the Serb.
-Novak Djokovic i the Serb se odnose na isti entitet
-unbeaten (record); definitive (victory)
-(Novak Djokovic) opponent (Michael Berrer)
-qualify for the 2nd round of 2012 China Open

TIPINI ZADACI EKSTRAKCIJE


INFORMACIJA
Prepoznavanje imenovanih entiteta (Named Entity recognition)
 moe se odnositi na razliite vrste entiteta (ljudi, organizacije, datumi,
valute i sl)

Razreavanje koreferenci (Co-reference resolution) obuhvata:


 anaphoric resolution
 Npr. utvrditi da se u tekstu: Tom is my best friend. I know him since
we were kids. zamenica him odnosi na imenicu Tom;

 proper noun resolution


 Npr. utvrditi da sledee imenice oznaavaju isti entitet: IBM, IBM
Europe, International Business Machines Ltd., . . .

TIPINI ZADACI EKSTRAKCIJE


INFORMACIJA
Prepoznavanje opisa entiteta (Descriptions resolution)
Koje atribute entiteti imaju?

Prepoznavanje relacija (Relations resolution)


Koje relacije postoje meu entitetima?

Prepoznavanje dogaaja (Events resolution)


Identifikacija dogaaja u kojima entiteti uestvuju

IE VS. INFORMATION RETRIEVAL (IR)


IE & IR: dva slina, ali dosta razliita procesa:
 IR sistem pronalazi (potencijalno) relevantne tekstove i
prezentuje ih korisniku
 Primer: Web pretraivai kao to su Google i Bing

 IE sistem analizira tekstove i prezentuje samo segmente


informacija (izvuene iz teksta) za koje korisnik moe biti
zainteresovan
 Primer: IBM Watson

SEMANTIKO INDEKSIRANJE


Semantic Indexing, Semantic Annotation

Obuhvata prepoznavanje entiteta u tekstu plus


jedinstveno identifikovanje prepoznatih entiteta
(disambiguation)

Za jedinstveno identifikovanje entiteta se koriste


baze znanja dostupne na Web-u
npr. Wikipedia, DBpedia, Freebase, YAGO

SEMANTIKO INDEKSIRANJE
Izazov: od vie moguih, odrediti pravo znaenje entiteta
u datom kontekstu

10

Za
Za termin
termin tree postoji
postoji 26
26 moguih
moguih
znaenja
znaenja uu Wikipedia-i;
Wikipedia-i; samo
samo
jedno
jedno je
je bitno
bitno za
za dati
dati kontekst
kontekst

PREPOZNAVANJE ENTITETA VS.


SEMANTIKO INDEKSIRANJE
Primer izlaza sistema koji radi prepoznavanje entiteta:
Peter Norvig [PER] presents as part of the UBC Department of
Computer Science's [ORG] Distinguished Lecture Series,
September 23, 2010 [DATE].

11

Primer izlaza sistema koji radi semantiko indeksiranje:

SEMANTIKO LINKOVANJE
 Semantic Linking

12

 Semantic Linking = Semantic Annotation/Indexing with


Linked Data/Knowledge

IDENTIFIKACIJA KLJUNIH
TEMA/KONCEPATA
 Topic Identification
 Slino semantikom indeksiranju; razlike su sledee:

13

 Teme/koncepti se ne vezuju za pojedinane rei i/ili


fraze u tekstu, ve za ceo tekst
 Nakon identifikacije tema, potrebno je uraditi njihovo
rangiranje po znaajnosti

ANALIZA SADRAJA
U KONTEKSTU
DRUTVENIH MREA I
MEDIJA

15

GOOGLES KNOWLEDGE GRAPH

GOOGLES KNOWLEDGE GRAPH


*Google users will able to browse through the companys
knowledge graph, or its ever-expanding database of information
about entities people, places and things the attributes of
those entities and how different entities are connected to one
another.
What Googles Search Changes Might Mean for You
Wall Street Journal, March 14, 2012

GOOGLES KNOWLEDGE GRAPH


GEvery piece of information that we crawl, index, or search is
analyzed in the context of Knowledge Graph.
*Almost all the structured data from all of our products like Maps
and Finance and Movies and Music are all in the Knowledge Graph,
so we can reasonably say that everything we know about is in this
canonical form.

How a Database of the Worlds Knowledge Shapes Googles Future


MIT Technology Review, January 27, 2014

FACEBOOKS ENTITY GRAPH


Facebook is building a rich stock of knowledge that could make its
software smarter and boost the usefulness of its search engine*
*Entities such as colleges and employers are learned from data
typed in profile pages; businesses, movies, fictional characters,
and other concepts are learned from fan pages created by
Facebook users. * analyzing many employment histories on the
site allows Facebooks search engine to know that a search for
software engineers should also return people who say they are
coders.

18

Facebook Nudges Users to Catalog the Real World


MIT Technology Review, February 27, 2013

MICROSOFTS SATORI
At the core of Microsoft's work to create a state-of-the-art Bing digital
assistant is Satori, a knowledge repository of more than a billion
objects digested in the past 3.5 years*
*Satori catalogs entities and the associated data and
relationships among them...
*Satori is a self-learning system that is running every day and
learning more, adding 28,000 DVDs of content every day*
*Bing search and Windows already are using Satori's knowledge
repository*

Microsoft's Bing seeks enlightenment with Satori


CNET News, July 30, 2013

YAHOO! KNOWLEDGE BASE


Add content based on
-http://semanticweb.com/knowledge-graph-relatedacquisition-yahoos-future_b42054

20

-http://semanticweb.com/at-semtechbiz-knowledgegraphs-are-everywhere_b37724

POSLOVNE ANALITIKE
 Primer: RavenPack News Analytic
 Ekstrakcija entiteta iz novinskih lanaka, blog postova i sl.:
kompanije, brendovi, proizvodi,G
 Ekstrakcija geo-politikih i makro-ekonomskih dogaaja, kao
i dogaaja relevantnih za pojedine kompanije i brendove
 Estrahovane informacije predstavljaju ulaz za Business
Rules Engine

SOCIAL MEDIA MONITORING


Praenje trendova na drutvenim mreama

Primer: http://topsy.com/
(od Dec 2013. u vlasnitvu Apple-a)

SOCIAL MEDIA MONITORING


 Reputation management
 Analiza tekstualnih sadraja drutvenih medija i mrea
radi
 identifikacije relevantnih entiteta: osoba, kompanija,
brendova, proizvoda;
 detekcije sentimenta o identifikovanim entitetima;
 sve sa ciljem upravljanja reputacijom nekog pojedinca ili
organizacije

 Primeri:
 Safesforce Marketing Cloud (ex. Radian6; link)
 Lithium Social Intelligence product (link)
 Trackur (link)

ONLINE REKLAMIRANJE
 Primer: ADmantX (http://www.admantx.com/)
 analiza sadraja web stranice radi ekstrakcije:





entiteta (osoba, lokacija, kompanija, brendova,G),


tipa teksta,
emocija sadranih u tekstu,
poruke koju tekst nastoji da iskomunicira

 estrahovane informacije se koriste za preporuku


reklama za datu web stranu

SEMANTICS-DRIVEN DYNAMIC
STORYTELLING
 BBC World Cup 2010 website
 BBC Sport website

Izvor: http://bbc.in/W5maB0

COGNITION AS A SERVICE
Sve vei broj servisa/alata koji omoguuju ekstrakciju
informacija i semantiko indeksiranje
Primeri:
Alchemy API (http://www.alchemyapi.com/)
TextRazor (http://www.textrazor.com/)
Textwise (http://textwise.com/)
OpenCalais (http://www.opencalais.com/)
Wikimeta (http://wikimeta.com/)
TagMe (http://tagme.di.unipi.it/)
Wikipedia Miner (http://wikipedia-miner.cms.waikato.ac.nz/)
26

G

COGNITION AS A SERVICE
Zajednika karakteristika svih ovih servisa/alata:
Kombinacija mainske inteligencije i ljudskog znanja,
odnosno

27

tehnika mainskog uenja i ogromnih baza znanja

PERFORMANSE
SISTEMA ZA
ANALIZU SADRAJA

DETERMINANTE PERFORMANSI
Specifinosti konkretnog zadatka analize sadraja
Tip teksta vrsta teksta sa kojim se radi; npr. novinski lanci ili
tweets ili email poruke ili poslovni izvetaji i sl.
Tema (ili domen) ire definisan opseg tema (domen) kome
sadraj teksta pripada
Stil pisanja nivo formalnosti jezika, korienje strune
terminologije i sl.
Konkretni tipovi informacija za koje je korisnik zainteresovan
Npr., osobe, kompanije, akvizacija neke kompanije,...

DETERMINANTE PERFORMANSI
Zavisnost performansi od specifinosti i
kompleksnosti zadatka ekstrakcije

Preuzeto iz: H. Cunningham, Information Extraction, Automatic.


Encyclopedia of Language and Linguistics, 2nd Edition, Elsevier. 2005.

PROCENA PERFORMANSI
Najee koriene mere za procenu performansi EI (ili IR)
sistema:
Preciznost (precision) Da li su svi estrahovani segmenti
informacija relevantni?
Odziv (recall) Da li su svi relevantni segmenti informacija
prepoznati?
Tano

Pogreno

Estrahovani

Nisu
estrahovani

Precision = A / (A U B)
Recall = A / (A U C)

PROCENA PERFORMANSI
Preciznost i odziv su esto u konfliktu:
Moemo razviti sistem koji nee praviti mnogo greaka (visoka
preciznost), ali e propustiti da prepozna puno relevantnih informacija
(nizak odziv);
Alternativno, moemo staviti akcenat na odziv i propustiti manje
relevantnih informacija, ali po ceni pravljenja vie greaka.

Izvor: http://groups.csail.mit.edu/cb/struct2net/webserver/images/prec-v-recall-v2.png

ANALIZA
SENTIMENTA NA
DRUTVENIM
MREAMA

ANALIZA SENTIMENTA NA
TWITTER-U

34

Primer: http://www.sentiment140.com/

Kompletna lista raspoloiva u Google Drive dokumentu (link)

35

Lista aplikacija namenjenih analizi sentimenta sadraja


razliitih drutvenim mrea, primarno Twitter-a

BERZANSKA PREDVIANJA NA
OSNOVU ANALIZE SENTIMENTA NA
DRU. MEDIJIMA
Primer: http://www.sntmnt.com/

Financial Sentiment API: http://www.sntmnt.com/products/api/financial-sentiment-api/


Trading Indicator API: http://www.sntmnt.com/products/api/trading-indicator-api/

BERZANSKA PREDVIANJAG

37

Primer:
http://www.hedgechatter.com/

IDENTIFIKACIJA INTERESOVANJA,
NAMERA, ELJAGKORISNIKA
Na osnovu:
http://semanticweb.com/cruxly-analytics-technologydrives-actions-intents_b42001

38

http://www.cruxly.com/

JO NEKI
(INTERESANTNI)
PRIMERI

DODATNI PRIMERI INTERESANTNIH


APLIKACIJA
Dataminr (http://www.dataminr.com/)
 identifikacija relevantnih dogaaja/informacija u realnom
vremenu
 Izvor podataka: Twitter
 Domeni: finansije, novinarstvo, javni sektor

Open source projekti zasnovani na Semantria API-u za analizu


teksta (primarno analizu sentimenta)

40

 URL: https://semantria.com/developer/open-source-projects

EMOTO2012.ORG
Analiza Tweet poruka vezanih za Olimpijadu 2012. god
Analiza sentimenta poruka vezanih za pojedine sportiste, grupe,
utakmice, trke, i sl.
Identifikacija aktuelnih tema na dnevnom nivou, kao i
dominantnih tema tokom cele Olimpijade

Vizuelni prikaz rezultata analiza:


Emoto sentiment heatmap (link)
Emoto sentiment timeline (link)

41

Emoto topic explorer (link)

NEKI KORISNI LINKOVI


 Blog post: How to build your own Facebook Sentiment
Analysis Tool (link)
 Blog post: How to build your own Twitter Sentiment
Analysis Tool (link)

42

 lanak: What Facebook knows (link)

Você também pode gostar