Você está na página 1de 10

1 SADRAJ

1 SADRAJ.............................................................................................................1

1 UVOD...................................................................................................................2

1.1 Web Mining.......................................................................................................2

2 ANALIZA LINKOVA..........................................................................................3

2.1 Web kao graf.....................................................................................................3

2.2 Algoritmi za analizu linkova.............................................................................3

2.2.1 PageRank.....................................................................................................4

2.2.2 HITS............................................................................................................4

2.3 Majestic-SEO, alat za Analizu linkova.............................................................6


1 UVOD

Razvojem Interneta, pametnih telefona i uopte unapreenjem informacionih


tehnologija, koliine podataka dostupne korisnicima informacionih tehnologija postaju sve
vee. Smetanje i obrada tih podataka postaje pravi izazov, a naroito pronalaenje skrivenog
znanja i zavisnosti unutar takvih podataka. Pretraivanje danas predstavlja kljuni nain
pristupa sadraju na Web-u. Standardne relacione baze podataka nisu u mogunosti da na
odgovarajui nain obrade ove velike koliine podataka, to je dovelo do pojave oblasti Data
Mining i alata za obradu takvih podataka. Otkrivanje, analiza i korienje ovakvih podataka
iskljuivo na Internetu predstavlja posebnu oblast Web Mining. U ovom radu bie opisani
Analiza linkova, Analiza log fajlova i Opinion mining kao oblasti Web Mining-a. Bie
prikazani i praktini primeri iz ovih oblasti.

1.1 Web Mining

Web Mining predstavlja korienje Data Mining tehnika za izdvajanje korisnih


informacija iz web podataka, [1]. Veb podaci se odnose na: sadraj veba (tekst, slike...),
strukturu veba-linkovi i upotrebu veba (http logovi, server logovi...)

Postoje tri vrste Web Mining-a [2]:

- Web Content Mining (Otkrivanje sadraja na Web-u)


- Web Structure Mining (Otkrivanje strukture veza na Web-u)
- Usage Mining (Otkrivanje obrazaca u korienju Web-a)

Web Content Mining predstavlja otkrivanje korisnih informacija iz Web sadraja,


podataka i dokumenata.

Web Structure Mining nastoji da otkrije fundamentalni model strukture linkova na


Web-u.

Usage Mining pokuava da daje smisao podacima generisanim u Web korisnikim


sesijama ili podacima o ponaanju korisnika.

U okviru Web mining-a u ovom radu bie analizirane tri oblasti:

- Analiza linkova,
- Analiza log fajlova i
- Opinion mining.

2
2 ANALIZA LINKOVA

Analiza linkova, kao deo Web mining-a, se pre svega odnosi na oblast Web Structure
Mining. Web Structure Mining, jedna od tri kategorije Web mining-a, je alat koji se koristi za
otkrivanje odnosa izmeu Web stranica povezanih informacijom ili direktnim linkom. Ova
struktura podataka je vidljiva primenom tehnika baza podataka za Web stranice, [3]. Analiza
linkova moe biti proirena podacima iz ostalih oblasti Web mining-a.

2.1 Web kao graf

U cilju efikasne reprezentacije navedene strukture, Web se najee pradstavlja, u vidu


Web grafa, W(P,L) , koji predstavlja graf, kod koga P, predstavlja skup stranica na Web-u, dok
L, predstavlja skup svih hiperlinkova izmeu stranica. Web Graf predstavlja slabo povezani,
usmereni graf. Pod pojmom slabe povezanosti, podrazumevamo da postoje parovi stranica
koji nisu meusobno dostini (od jedne stranice se ne moe stii do druge, praenjem
hiperlinkova). Prosean broj inlink-ova (linkova koji ukazuju na datu stranicu) se po velikom
broju studija, kree u rasponu od 8 do 15. Postoje empirijski dokazi da da ovi linkovi nisu
sluajno raspodeljeni. Meutim broj linkova ne prati Poisson-ovu raspodelu, to bi se
oekivalo u sluaju da svaka Web stranica odabira odredita linkova sa sluajnom
raspodelom. U praksi, raspodela koja se najee pokazuje u istraivanjima jeste power-law
raspodela, koja podrazumeva da je broj stranica sa ulaznim stepenom i (brojem linkova koji
ukazuju na stranicu) , proporcionalan 1/i, pri emu se empirijski pokazuje vrednost 2,1.
(specijalan sluaj power-law raspodele, predstavlja Zipf-ova raspodela, kod koje je = 1 i
koja se esto koristi za opisivanje raspodele rei u tekstu), [4].

Opisana struktura (Web Graph), omoguava efikasnu reprezentaciju informacija koje


se sastoje u odnosima izmeu stranica na Web-u, i analizom date strukture (link analysis),
mogue je doi do niza znaajnih informacija o samim stranicama, meu kojima je
najznaajnija informacija o relevantnosti zadatih stranica.

2.2 Algoritmi za analizu linkova

Najkorieniji metodi za odreivanje relevatnosti stranica, koriste strukturu Web grafa.


Algoritmi za obradu linkova mogu se svrstati na one koji se odnose na jednu stranu, ili na one
koji se odnose na vie strana. Algoritmi koji se odnose na jednu stranu, najee korieni i
najuticajniji za analizu linkova su PageRank i HITS.

3
2.2.1 PageRank

PageRank je algoritam korien od strane Google Search mehanizma u cilju rangiranja


web stranica. PageRank je nain izraavanja vanosti odreene web stranice iz posmatranog
skupa. PageRank je Link Analysis algoritam koji vri dodeljivanje teine svakom elementu iz
skupa web stranica koji se posmatra. Dati algoritam se moe primeniti na bilo koji graf ili
mreu, [5].

Izraunavanje centralizovanih vrednosti vorova zahteva poznavanje grafa aktivnosti,


tako da je prvi korak u odreivanju kljunih korisnika formiranje teinskog grafa aktivnosti.
Nakon toga se vri odreivanje centralizovane vrednosti svakog vora, i sortiranjem u
opadajuem poretku i selekcijom odreenog broja vorova vri se formiranje skupa kljunih
korisnika.

2.2.2 HITS

Za razliku od PageRank algoritma, koji dodeljuje svakoj web stranici ocenu u rasponu
(0,1), koja ukazuje na njenu relevantnost, HITS (Hypertext Induced Topic Selection)
algoritam, predstavlja shemu koja podrazumeva dodeljivanje dve ocene svakoj Web stranici,
od kojih se jedna naziva hub score a druga authority score. Osnovna ideja je da se za svaki
upit, odreuju dve liste rankiranih rezultata od kojih je jedna indukovana hub rezultatima, a
druga authority rezultatima.

Ovaj pristup polazi od opaanja da postoje dve vrste stranica koje mogu biti korisne u
pretraivanjima vezanim za teme opteg tipa jedne su autoritativni izvori informacija vezani
za zadatu temu (authorities), dok su druge, stranice koje sadre listu linkova ka drugim
autoritativnim stranicama (hub pages). Osnovna ideja ovog pristupa je korienje hub stranica
za otkrivanje authority stranica. Pod dobrom hub stranicom, podrazumevamo stranicu koja
pokazuje na veliki broj dobrih authority stranica. Takoe, dobru authority stranicu,
rekurzivno definiemo kao stranicu koja pokazuje veliki broj dobrih hub stranica.

Posmatrajmo proizvoljan podskup Web grafa ( podskup svih stranica, zajedno sa


linkovima izmeu njih ), na kome odreujemo relevatnost stranica korienjem HITS
algoritma. Budui da je definicija hub-ova i authority-a cirkularna, hub i authority vrednosti
za svaku stranicu, nad ovim podskupom raunamo iterativno, na sledei nain:

Za svaku stranicu x (vor izabranog podskupa web grafa), sa h(x) oznaavamo njen
hub scope dok sa a (x) oznaavamo njen authority score. Za sve vorove se postavlja vrednost

4
h(x) = a (x) =1. Postojanje hiperlinka od stranice x ka stranici y oznaavamo sa x y.
Osnovu iterativnog algoritma, predstavlja sledei par funkcija koje definiu auriranje hub i
authority vrednosti za svaku stranicu, koji se zasniva na intuitivnom opaanju da dobri hub-
ovi pokazuju na dobre authoritity stranice i da dobre authoritity stranice pokazuju na dobre
hub-ove :

(1) postavlja hub score stranice x na authority score stranica na koje data stranica linkuje
(ukoliko x linkuje na stranice koje imaju vei authority, njegov hub score se
poveava),
(2) pokazuje da ukoliko na stranicu x linkuju dobri hub-ovi, njen authority score se
poveava.

Ove jednaine mogu se napisati u matrinoj formi i oznaavae vektore svih hub i
authority vrednosti stranica u posmatranom podskupu Web grafa. procedura za odreivanje
hub/authority vrednosti ima sledei oblik :

1. Odreujemo eljeni podskup Web stranica i kreiramo graf indukovan njihovim


linkovima i odreujemo AAT i ATA.
2. Odreujemo glavne sopstvene vektore AAT i ATA i kreiramo vektor hub vrednosti h i
authority vrednosti a.
3. Odreujemo stranice sa najveim hub vrednostima i sa najveim authority
vrednostima.

Korienjem opisane procedure, odreujemo najbolje hub i authority stranice u okviru


zadatog podskupa Web grafa. U praksi, od interesa je da posmatrani podskup sadri samo
stranice vezane za posmatranu temu. Jedan od naina za odreivanje ovog skupa je sledea
procedura:

- U odnosu na zadati upit, koristei celokupni indeks, odreujemo sve stranice koje
odgovaraju upitu. Ovaj skup se naziva root set stranica.
- Kreiramo osnovni skup ( base set ) stranica, tako to ukljuujemo sve stranice u root
skupu, i sve stranice na koje ukazuju stranice u root skupu.

Konano, koristimo dobijeni base skup, kao podskup Web Grafa, nad kojim vrimo
odreivanje hub i authority vrednosti.

5
2.3 Majestic-SEO, alat za Analizu linkova

Majestic-SEO (https://majestic.com) je najvea baza povratnih linkova i anchor


tekstova na internetu. Ovaj servis daje detaljan izvetaj o linkovima i o linkovima
konkurencije odreene veb lokacije. Majestetic-SEO u svojoj bazi ima preko 65 000 000 000
web stranica i preko 417 000 000 000 jedinstvenih linkova i njihovih "anchor" tekstova. Ovaj
servis je u mogunosti da prorauna ko i koliko linkuje prema odreenom sajtu i sa kakvim
kljunim reima. Informacije ovog tipa su dostupne u vidu detaljnog izvetaja gde su linkovi i
"anchor" tekstovi predstavljeni prema njihovoj vanosti, na bazi kvalitata i broja sopstvenih
linkova, [6].

Majestic se koristi za:

- Preuzimanje liste povratnih linkova kada se radi revizija linkova


- Proveru referovanih domena i njihovih povratnih linkova, protoka poverenja, citata i
protoka aktuelnog poverenja.
- Identifikaciju novih i izgubljenih linkova [7].

Kljuni podatak koji pokazuje Majestic je broj eksternih backlinkova, odnosno koliko
linkova dolazi sa lokacija koja nisu na posmatranim stranicama, odnosno nisu interni linkovi.

Majestic nudi podatke o broju broj Referring domena, odnosno koliko jedinstvenih
domena postoji s linkom prema pojedinoj stranici, [8]. Ovi podaci, na primeru sajta
www.gradleskovac.org, dat je na slikama 1, 2.

Slika 1. Eksterni backlinkovi i Referring domeni

6
Slika 2. Eksterni backlinkovi i Referring domeni

Povratni link (eng. backlink) je link sa nekog drugog veb sajta koji upuuje ka stranici
na posmatranom veb sajtu. Veb pretraivai to smatraju vanim, jer je povratni link ka nekom
veb sajtu slian davanju glasa o poverenju. Samim tim, to vie povratnih linkova ima
odreeni veb sajt, vee su anse da e zauzeti vie pozicije na veb pretraivaima. Svi
povratni linkovi ka odreenom veb sajtu nisu podjednake vanosti. Linkovi sa veb sajtova
vieg ranga (sa veim PageRank-om) vrede i po nekoliko desetina puta vie od linkova sa veb
sajtova nieg ranga. Podaci o povratnim linkovima na primeru sajta dati su na slikama 4, 5, 6 i
7.

Slika 4. Povartni linkovi

7
Slika 5. Backlink Breakdown

Slika 6. Domeni i broj povratnih linkova

8
Slika 7. Povratni linkovi u okviru posmatranog sajta

"Anchor" tekst je tekst na kome se nalazi link na koji treba kliknuti da bi otili na neku
drugu stranicu i veoma je vaan za pretraivae i njihov sistem rada. Podaci o "Anchor" tekst
dati su na slikama 8 i 9.

Slika 8. Anchot Text za www.gradleskovac.org

9
Slika 9. Anchot Text za www.gradleskovac.org

Najznaajniji alat koji poseduje Majestic je protok poverenja (trust flow) i merenje
protoka citata (citation flow). Jako bitno, tematski protok poverenja uvek pomae kada se
analiziraju podaci o temama tokom rada na semantikom kontekstu za web sajt, [7]. Zavisnost
protoka poverenja od protoka citata za Referring domena i spoljnjih povretnih linkova dat je
na slici 10.

Slika 10. Referring Domains i External Backlinks

10

Você também pode gostar