Escolar Documentos
Profissional Documentos
Cultura Documentos
SADRAJA NA
DRUTVENIM
MREAMA
JELENA JOVANOVIC
JELJOV@GMAIL.COM
HTTP://JELENAJOVANOVIC.NET
PREGLED PREDAVANJA
Razliiti oblici analize sadraja
ekstrakcija informacija; semantiko indeksiranje;
identifikacija kljunih tema
RAZLIITI OBLICI
ANALIZE
SADRAJA
EKSTRAKCIJA INFORMACIJA
Tehnologija zasnovana na
analizi prirodnog jezika
sa ciljem ekstrakcije informacija o
predefinisanim tipovima
entiteta, relacija i/ili dogaaja
EKSTRAKCIJA INFORMACIJA
Primer:
Novak Djokovic extended his unbeaten record at the 2012 China Open
in Beijing on Tuesday, but needed three sets to defeat qualifier Michael
Berrer of Germany.
The Serb progressed to the second round with a 6-1, 6-7 (3/7), 6-2
definitive victoryG
Informacije koje bi se mogle estrahovati iz ovog teksta:
-Novak Djokovic; 2012 China Open; Beijing; Tuesday; G; the Serb.
-Novak Djokovic i the Serb se odnose na isti entitet
-unbeaten (record); definitive (victory)
-(Novak Djokovic) opponent (Michael Berrer)
-qualify for the 2nd round of 2012 China Open
SEMANTIKO INDEKSIRANJE
SEMANTIKO INDEKSIRANJE
Izazov: od vie moguih, odrediti pravo znaenje entiteta
u datom kontekstu
10
Za
Za termin
termin tree postoji
postoji 26
26 moguih
moguih
znaenja
znaenja uu Wikipedia-i;
Wikipedia-i; samo
samo
jedno
jedno je
je bitno
bitno za
za dati
dati kontekst
kontekst
11
SEMANTIKO LINKOVANJE
Semantic Linking
12
IDENTIFIKACIJA KLJUNIH
TEMA/KONCEPATA
Topic Identification
Slino semantikom indeksiranju; razlike su sledee:
13
ANALIZA SADRAJA
U KONTEKSTU
DRUTVENIH MREA I
MEDIJA
15
18
MICROSOFTS SATORI
At the core of Microsoft's work to create a state-of-the-art Bing digital
assistant is Satori, a knowledge repository of more than a billion
objects digested in the past 3.5 years*
*Satori catalogs entities and the associated data and
relationships among them...
*Satori is a self-learning system that is running every day and
learning more, adding 28,000 DVDs of content every day*
*Bing search and Windows already are using Satori's knowledge
repository*
20
-http://semanticweb.com/at-semtechbiz-knowledgegraphs-are-everywhere_b37724
POSLOVNE ANALITIKE
Primer: RavenPack News Analytic
Ekstrakcija entiteta iz novinskih lanaka, blog postova i sl.:
kompanije, brendovi, proizvodi,G
Ekstrakcija geo-politikih i makro-ekonomskih dogaaja, kao
i dogaaja relevantnih za pojedine kompanije i brendove
Estrahovane informacije predstavljaju ulaz za Business
Rules Engine
Primer: http://topsy.com/
(od Dec 2013. u vlasnitvu Apple-a)
Primeri:
Safesforce Marketing Cloud (ex. Radian6; link)
Lithium Social Intelligence product (link)
Trackur (link)
ONLINE REKLAMIRANJE
Primer: ADmantX (http://www.admantx.com/)
analiza sadraja web stranice radi ekstrakcije:
SEMANTICS-DRIVEN DYNAMIC
STORYTELLING
BBC World Cup 2010 website
BBC Sport website
Izvor: http://bbc.in/W5maB0
COGNITION AS A SERVICE
Sve vei broj servisa/alata koji omoguuju ekstrakciju
informacija i semantiko indeksiranje
Primeri:
Alchemy API (http://www.alchemyapi.com/)
TextRazor (http://www.textrazor.com/)
Textwise (http://textwise.com/)
OpenCalais (http://www.opencalais.com/)
Wikimeta (http://wikimeta.com/)
TagMe (http://tagme.di.unipi.it/)
Wikipedia Miner (http://wikipedia-miner.cms.waikato.ac.nz/)
26
G
COGNITION AS A SERVICE
Zajednika karakteristika svih ovih servisa/alata:
Kombinacija mainske inteligencije i ljudskog znanja,
odnosno
27
PERFORMANSE
SISTEMA ZA
ANALIZU SADRAJA
DETERMINANTE PERFORMANSI
Specifinosti konkretnog zadatka analize sadraja
Tip teksta vrsta teksta sa kojim se radi; npr. novinski lanci ili
tweets ili email poruke ili poslovni izvetaji i sl.
Tema (ili domen) ire definisan opseg tema (domen) kome
sadraj teksta pripada
Stil pisanja nivo formalnosti jezika, korienje strune
terminologije i sl.
Konkretni tipovi informacija za koje je korisnik zainteresovan
Npr., osobe, kompanije, akvizacija neke kompanije,...
DETERMINANTE PERFORMANSI
Zavisnost performansi od specifinosti i
kompleksnosti zadatka ekstrakcije
PROCENA PERFORMANSI
Najee koriene mere za procenu performansi EI (ili IR)
sistema:
Preciznost (precision) Da li su svi estrahovani segmenti
informacija relevantni?
Odziv (recall) Da li su svi relevantni segmenti informacija
prepoznati?
Tano
Pogreno
Estrahovani
Nisu
estrahovani
Precision = A / (A U B)
Recall = A / (A U C)
PROCENA PERFORMANSI
Preciznost i odziv su esto u konfliktu:
Moemo razviti sistem koji nee praviti mnogo greaka (visoka
preciznost), ali e propustiti da prepozna puno relevantnih informacija
(nizak odziv);
Alternativno, moemo staviti akcenat na odziv i propustiti manje
relevantnih informacija, ali po ceni pravljenja vie greaka.
Izvor: http://groups.csail.mit.edu/cb/struct2net/webserver/images/prec-v-recall-v2.png
ANALIZA
SENTIMENTA NA
DRUTVENIM
MREAMA
ANALIZA SENTIMENTA NA
TWITTER-U
34
Primer: http://www.sentiment140.com/
35
BERZANSKA PREDVIANJA NA
OSNOVU ANALIZE SENTIMENTA NA
DRU. MEDIJIMA
Primer: http://www.sntmnt.com/
BERZANSKA PREDVIANJAG
37
Primer:
http://www.hedgechatter.com/
IDENTIFIKACIJA INTERESOVANJA,
NAMERA, ELJAGKORISNIKA
Na osnovu:
http://semanticweb.com/cruxly-analytics-technologydrives-actions-intents_b42001
38
http://www.cruxly.com/
JO NEKI
(INTERESANTNI)
PRIMERI
40
URL: https://semantria.com/developer/open-source-projects
EMOTO2012.ORG
Analiza Tweet poruka vezanih za Olimpijadu 2012. god
Analiza sentimenta poruka vezanih za pojedine sportiste, grupe,
utakmice, trke, i sl.
Identifikacija aktuelnih tema na dnevnom nivou, kao i
dominantnih tema tokom cele Olimpijade
41
42