Você está na página 1de 27

PageRank: Matrizes e

Sistemas de Equações
Grupo:
Emanuel Medeiros
João Augusto Casagrande
Rafael W. Sampogna
Introdução
Introdução

● Evolução e crescimento constantes da internet.

● Hoje é possível encontrar tudo o que desejamos através dos mecanismos de buscas. Nem sempre foi
assim!

● Os mecanismos de busca percorrem toda a internet e verificam quais páginas podem ser acessadas.
Indexando em ordem crescente os melhores resultados (resultados mais condizentes com as
palavras-chave buscadas).
Número médio de
pesquisas diárias no
Google.

3,500,000,000,000
Introdução

● Motores de busca da década de 90 percorriam toda a web de forma sequencial e classificava por
importância. Custoso, mas funcionava por conta do número reduzido de páginas que existiam na web.

● Destaque do Google: PageRank!

● Diferencia-se pela análise do PageRank e ordenação de acordo com o peso.


O Problema
Introduzindo a Métrica

● PageRank: métrica criada por Larry Page em 1995 na Universidade de Stanford e utilizada pelo Google.

● Em termos gerais, visa entender a relevância que um site ou página possui para o Google.

● Ao realizar uma busca qualquer no Google a partir de uma ou mais palavras-chave obtemos um
número enorme de resultados, porém os mais relevantes costumam aparecer nas páginas 10-20.
Introduzindo a Métrica

● Relevância de cada página dada pelo PageRank.

● Pela definição do Google: o PageRank é explicado como um processo democrático que interpreta um
“link” da página A para a página B como um voto.

● Surfista a navegar na web: vai de página em página escolhendo de forma aleatória um “link” de saída.
Evitando dangling links (“saídas” inexistentes) e ciclos de páginas interligadas.
Explicando a Métrica

● Atribuição de um número a cada página (PageRank).

● Associação de uma query a pesquisa realizada.


○ SELECT FROM “{CONJUNTO WEB}” WHERE “{PAGINAS WEB}” = “{QUERY}”
■ PageRank: Ordena as páginas.

● Voto democrático e o Surfista a navegar na web.


Explicando a Métrica: Exemplos

● Referenciar outras pessoas: Exemplo futebol


○ Cenario: Jogador famoso ou grande página esportiva cita que jogador
desconhecido joga bem.
■ Consequência: Aumento do PageRank
○ Cenario: Especialista de moda cita que o mesmo jogador joga bem.
■ Consequência: Relevância nula para o PageRank
Conceitos atrelados

O PageRanking tem como base aplicação na Álgebra Linear, usando os


conceitos da Cadeia de Markov e Determinantes.

Para entendermos um pouco mais da maneira de funcionamento do


PageRank, devemos esclarecer alguns conceitos antes
Conceitos atrelados

01 02 03
Processos Cadeia de Cadeia de
Estocáticos Markov em Markov
tempo Ergódica
discreto
Processos Estocásticos

● Procedimentos de um sistema em um período de tempo.


○ Valores aleatórios no decorrer do tempo

● Valores adquiridos pela função: estado


○ Conjunto Y: espaço de estados

● Processo estocásticos:
○ Estado de um motor
○ Visitantes em um restaurante em um período t
Processos Markovianos

● Processo Estocástico estacionário e gozante da “perda de memória”, ou seja seu comportamento futuro
se baseia apenas no seu comportamento presente.
Cadeia de Markov em Tempo Discreto

● Processo Estocástico em que a variável de tempo representa um intervalo contável finito.

● Propriedade Markoviana: estado futuro depende apenas do atual,

● Representada por um diagrama e matriz de transições na figura ao lado.

● A matriz de transição possui a probabilidade de transição entre os estados em determinado momento


Cadeia de Markov em Tempo Discreto

● Na figura, i representa o estado atual e j, o estado futuro.

● Soma de cada linha igual a 1.

● Pij representa a probabilidade de transição entre os estados.

● Em algum momento futuro haverá um estado de equilíbrio. Mudanças ‘irrelevantes’ onde as


probabilidades permanecem as mesmas (estado estacionário).
Cadeia de Markov em Tempo Discreto

● Exemplo de diagrama de transição.


Cadeia de Markov Ergódica

● Cadeia de Markov classificada como Ergódica, ou irredutível quando a mesma consegue voltar a
qualquer um dos estados anteriores em um determinado número de passos.

● Não possui sumidouro: a partir de qualquer estado é possível alcançar qualquer outro.

Exemplo:

Cadeia Ergódica Cadeia Não Ergódica


Realizando o
Cálculo do
PageRank
Cálculo do PageRank
● Cálculo realizado utilizando os conceitos abordados anteriormente (Cadeia de Markov).
● Exemplo de diagrama de transição para explicação de como ocorre o cálculo:
Cálculo do PageRank
● Cada um dos sites representa um estado na Cadeia de Markov
● Cada um dos sites possuem a sua probabilidade de recomendar o outro.
● Analisando a situação considerando o PageRank, o evento é a chance de uma pessoa chegar até um
site através de cliques aleatórios nos backlinks.
● Matriz de transição para demonstrar o PageRank com a Cadeia de Markov:
Cálculo do PageRank
● Como funciona de fato?

O algoritmo realiza o cálculo de probabilidades estatísticas de acesso aos sites através de


cliques aleatórios, logo a cadeia de markov será calculada baseada no tempo discreto, sendo
um número tão grande que as probabilidades não serão mais alteradas, que não é o caso de
um cadeia em tempo contínuo, que verifica a probabilidade apenas de um determinado
momento.
Cálculo do PageRank
● Classificação do site de acordo com a soma das suas probabilidades de ser recomendado.

● No problema citado:
○ P1: Probabilidade do G1 ser acessado por outro site.
○ P2: Probabilidade do Mercado Livre ser acessado por outro site.
○ P3: Probabilidade do Youtube ser acessado por outro site.
○ P4: Probabilidade do Uol ser acessado por outro site.
○ Soma de P1 + P2 + P3 +P4 = 1.
Cálculo do PageRank
● P1 = (1/2)*P3
● P2 = (1/3)*P1
● P3 = (1/3)*P1 + P4
● P4 = (1/3)*P1 + P2 + (1/2)*P3
○ 1 = P1 + P2 + P3 + P4
○ 1 = (1/2)*P3 + (1/6)*P3 + P3 + (1/6)*P3 + (1/6)*P3 + (1/2)*P3
○ 1 = (1/2)*P3 + (1/6)*P3 + P3 + (1/6)*P3 + (1/6)*P3 + (1/2)*P3
○ 1 = (1/2)*P3 + (1/6)*P3 + P3 + (1/6)*P3 + (1/6)*P3 + (1/2)*P3
○ 1 = 2*P3 + (1/2)*P3
○ 1 = (5/2)*P3
○ P3 = 2/5 ou 0,400 (valor aproximado);
○ P1 = 2/10 ou 0,200 (valor aproximado);
○ P2 = 2/30 ou 0,066 (valor aproximado);
○ P4 = 2/6 ou 0,334 (valor aproximado);
Resultados: PageRank dos sites
● Maiores PageRank:
○ 1° Youtube
○ 2° Uol
○ 3° G1
○ 4° Mercado Livre
Simulação do PageRank
● Page Rank Simulator
○ Disponível* em: <https://computerscience.chemeketa.edu/cs160Reader/_static/pageRankApp/index.html>.

● Aplicação em Python 2
○ Versão original disponível* em:

<https://gist.github.com/diogojc/1338222/84d767a68da711a154778fb1d00e772d65322187>.

○ Versão adaptada disponível* em:

<https://replit.com/@joao_augusto/EthicalUnwelcomeCommands#main.py>.

*Acesso em 10 Set. 20211


Fim
Referências

- https://www.agenciamestre.com/marketing-digital/o-que-e-pagerank/
- https://www.agenciamestre.com/marketing-digital/o-que-e-pagerank/
- https://periodicos.set.edu.br/cadernoexatas/article/view/3571
- https://cmup.fc.up.pt/cmup/mecs/googlePR.pdf
- https://computerscience.chemeketa.edu/cs160Reader/_static/pageRankApp/index.html
- https://gist.github.com/diogojc/1338222/84d767a68da711a154778fb1d00e772d65322187

Você também pode gostar