Escolar Documentos
Profissional Documentos
Cultura Documentos
1 SADRAJ.............................................................................................................1
1 UVOD...................................................................................................................2
2 ANALIZA LINKOVA..........................................................................................3
2.2.1 PageRank.....................................................................................................4
2.2.2 HITS............................................................................................................4
- Analiza linkova,
- Analiza log fajlova i
- Opinion mining.
2
2 ANALIZA LINKOVA
Analiza linkova, kao deo Web mining-a, se pre svega odnosi na oblast Web Structure
Mining. Web Structure Mining, jedna od tri kategorije Web mining-a, je alat koji se koristi za
otkrivanje odnosa izmeu Web stranica povezanih informacijom ili direktnim linkom. Ova
struktura podataka je vidljiva primenom tehnika baza podataka za Web stranice, [3]. Analiza
linkova moe biti proirena podacima iz ostalih oblasti Web mining-a.
3
2.2.1 PageRank
2.2.2 HITS
Za razliku od PageRank algoritma, koji dodeljuje svakoj web stranici ocenu u rasponu
(0,1), koja ukazuje na njenu relevantnost, HITS (Hypertext Induced Topic Selection)
algoritam, predstavlja shemu koja podrazumeva dodeljivanje dve ocene svakoj Web stranici,
od kojih se jedna naziva hub score a druga authority score. Osnovna ideja je da se za svaki
upit, odreuju dve liste rankiranih rezultata od kojih je jedna indukovana hub rezultatima, a
druga authority rezultatima.
Ovaj pristup polazi od opaanja da postoje dve vrste stranica koje mogu biti korisne u
pretraivanjima vezanim za teme opteg tipa jedne su autoritativni izvori informacija vezani
za zadatu temu (authorities), dok su druge, stranice koje sadre listu linkova ka drugim
autoritativnim stranicama (hub pages). Osnovna ideja ovog pristupa je korienje hub stranica
za otkrivanje authority stranica. Pod dobrom hub stranicom, podrazumevamo stranicu koja
pokazuje na veliki broj dobrih authority stranica. Takoe, dobru authority stranicu,
rekurzivno definiemo kao stranicu koja pokazuje veliki broj dobrih hub stranica.
Za svaku stranicu x (vor izabranog podskupa web grafa), sa h(x) oznaavamo njen
hub scope dok sa a (x) oznaavamo njen authority score. Za sve vorove se postavlja vrednost
4
h(x) = a (x) =1. Postojanje hiperlinka od stranice x ka stranici y oznaavamo sa x y.
Osnovu iterativnog algoritma, predstavlja sledei par funkcija koje definiu auriranje hub i
authority vrednosti za svaku stranicu, koji se zasniva na intuitivnom opaanju da dobri hub-
ovi pokazuju na dobre authoritity stranice i da dobre authoritity stranice pokazuju na dobre
hub-ove :
(1) postavlja hub score stranice x na authority score stranica na koje data stranica linkuje
(ukoliko x linkuje na stranice koje imaju vei authority, njegov hub score se
poveava),
(2) pokazuje da ukoliko na stranicu x linkuju dobri hub-ovi, njen authority score se
poveava.
Ove jednaine mogu se napisati u matrinoj formi i oznaavae vektore svih hub i
authority vrednosti stranica u posmatranom podskupu Web grafa. procedura za odreivanje
hub/authority vrednosti ima sledei oblik :
- U odnosu na zadati upit, koristei celokupni indeks, odreujemo sve stranice koje
odgovaraju upitu. Ovaj skup se naziva root set stranica.
- Kreiramo osnovni skup ( base set ) stranica, tako to ukljuujemo sve stranice u root
skupu, i sve stranice na koje ukazuju stranice u root skupu.
Konano, koristimo dobijeni base skup, kao podskup Web Grafa, nad kojim vrimo
odreivanje hub i authority vrednosti.
5
2.3 Majestic-SEO, alat za Analizu linkova
Kljuni podatak koji pokazuje Majestic je broj eksternih backlinkova, odnosno koliko
linkova dolazi sa lokacija koja nisu na posmatranim stranicama, odnosno nisu interni linkovi.
Majestic nudi podatke o broju broj Referring domena, odnosno koliko jedinstvenih
domena postoji s linkom prema pojedinoj stranici, [8]. Ovi podaci, na primeru sajta
www.gradleskovac.org, dat je na slikama 1, 2.
6
Slika 2. Eksterni backlinkovi i Referring domeni
Povratni link (eng. backlink) je link sa nekog drugog veb sajta koji upuuje ka stranici
na posmatranom veb sajtu. Veb pretraivai to smatraju vanim, jer je povratni link ka nekom
veb sajtu slian davanju glasa o poverenju. Samim tim, to vie povratnih linkova ima
odreeni veb sajt, vee su anse da e zauzeti vie pozicije na veb pretraivaima. Svi
povratni linkovi ka odreenom veb sajtu nisu podjednake vanosti. Linkovi sa veb sajtova
vieg ranga (sa veim PageRank-om) vrede i po nekoliko desetina puta vie od linkova sa veb
sajtova nieg ranga. Podaci o povratnim linkovima na primeru sajta dati su na slikama 4, 5, 6 i
7.
7
Slika 5. Backlink Breakdown
8
Slika 7. Povratni linkovi u okviru posmatranog sajta
"Anchor" tekst je tekst na kome se nalazi link na koji treba kliknuti da bi otili na neku
drugu stranicu i veoma je vaan za pretraivae i njihov sistem rada. Podaci o "Anchor" tekst
dati su na slikama 8 i 9.
9
Slika 9. Anchot Text za www.gradleskovac.org
Najznaajniji alat koji poseduje Majestic je protok poverenja (trust flow) i merenje
protoka citata (citation flow). Jako bitno, tematski protok poverenja uvek pomae kada se
analiziraju podaci o temama tokom rada na semantikom kontekstu za web sajt, [7]. Zavisnost
protoka poverenja od protoka citata za Referring domena i spoljnjih povretnih linkova dat je
na slici 10.
10