Você está na página 1de 51

Universidade Federal do Maranho

Centro de Cincias Exatas e Tecnolgicas


Curso de Cincia da Computao

THIAGO HENRIQUE LEMOS FONSECA

ESTUDO DA DERIVA GENTICA UTILIZANDO O


ALGORITMO PAGERANK

So Lus
2015

THIAGO HENRIQUE LEMOS FONSECA

ESTUDO DA DERIVA GENTICA UTILIZANDO O


ALGORITMO PAGERANK

Monografia apresentada ao curso de Cincia


da Computao da Universidade Federal do
Maranho, como parte dos requisitos necessrios para obteno do grau de Bacharel em
Cincia da Computao.
Orientador: Profo Valeska Martins de Souza

So Lus
2015

Fonseca, Thiago Henrique Lemos


Estudo da deriva gentica utilizando o algoritmo PageRank/ Thiago Henrique
Lemos Fonseca. 2015.
50 f.
Orientador: Valeska Martins de Souza
Monografia (Graduao) Universidade Federal do Maranho, Curso de
Cincia da Computao, 2015.
1. Cadeias de Markov 2. Pagerank 3. Modelo de wright-fisher 4. Deriva gentica
I. Estudo da deriva gentica utilizando o algoritmo PageRank
CDU 004.056.53

THIAGO HENRIQUE LEMOS FONSECA

ESTUDO DA DERIVA GENTICA UTILIZANDO O ALGORITMO


PAGERANK

Monografia apresentada ao curso de Cincia


da Computao da Universidade Federal do
Maranho, como parte dos requisitos necessrios para obteno do grau de Bacharel em
Cincia da Computao.

Aprovado em

de

de 2015.
BANCA EXAMINADORA

Profa Dra Valeska Martins de Souza


(Orientador)
Universidade Federal do Maranho

Profo Dr Alexandre Csar Muniz de


Oliveira
Universidade Federal do Maranho

Profo Msc Carlos Eduardo Portela


Serra de Castro
Universidade Federal do Maranho

Aos meus pais e irmos,


que so meu esteio...

Agradecimentos
Agradeo primeiramente a Deus por ter me dado fora em cada dia da minha vida
para que eu pudesse caminhar e estudar, assim chegando hoje onde estou.
Agradeo aos meus familiares. s minhas tias Marta, Rosimar, Isabel e minha av
Terezinha, por terem cuidado de mim desde pequeno e me ensinado a ser um homem
ntegro, preservando verdadeiros valores. minha av Nazeth e minha tia Rosane, por
serem sempre presentes e terem dado tanto amor e carinho a mim e meu irmo. Ao meu
av Olavo que mesmo distante sempre me apoiou nas decises difceis. minha tia Socorro,
pelos conselhos e confiana no meu sucesso. Ao meu tio Joo, pelas brincadeiras, conselhos
e pela amizade de irmo mais velho.
Agradeo aos meus pais, em especial a meu pai, por ser um exemplo de homem
trabalhador a ser seguido, que mesmo diante das adversidades, nunca desistiu e deu a
volta por cima.
Agradeo aos meus irmos, pois serem sempre atenciosos e prestativos, especial ao
meu irmo Victor que esteve sempre comigo nessa longa caminhada rumo a excelncia.
Agradeo a minha namorada, Andressa Rozental, por estar sempre presente desde
o incio da minha jornada acadmica, juntos superamos crises e brindamos conquistas.
Agradeo aos meus amigos de longa data, Katyanne e Vanessa, pois estiveram
comigo desde o comeo, quando ainda estvamos no ensino fundamental, e provaram ao
longo dos anos serem amigas leais e verdadeiras.
Agradeo a minha orientadora, Valeska Martins de Souza, pelas conversas, orientaes e principalmente por ter me acolhido e confiado no meu potencial, serei eternamente
grato por tudo.
Agradeo aos professores da Universidade Federal do Maranho, pois sem eles,
no estaria aqui sentindo-me mais confortvel em redigir assuntos e temas da rea de
Computao.

Pois estou convencido de que nem a morte, nem a vida,


nem os anjos, nem os principados, nem as coisas do presente,
nem do porvir, nem os poderes, nem a altura, nem a profundidade,
nem qualquer outra criatura poder separar-nos do amor de Deus,
que est em Cristo Jesus, nosso Senhor.
(Bblia Sagrada, Romanos 8:38,39)

RESUMO
Nesta monografia, proposta uma nova metodologia para o mapeamento de frequncias
allicas sob o efeito da Deriva Gentica baseadas no software de ranking de pginas do
Google, o Pagerank. Inicialmente obtem-se uma implementao do algoritmo Pagerank
utilizando Cadeias de Markov em tempo discreto aliado equao de Chapman-Kolmogorov
como medida de otimizao para a anlise de pginas em rede. A partir do algoritmo
construido, o problema modificado para a anlise de frequncias allicas com a pertubao
da Matriz de Transio e o modelo de previso biolgico de Wright-Fisher. Uma das
principais vantagens desta metodologia a capacidade de prever a configurao allica de
uma populao futura afetada pela Deriva, auxiliando medidas preventivas contra possveis
perdas de variabilidade gentica ou extino de espcies em ambientes de seleo neutra
por parte de pesquisadores na rea de fenmenos biolgicos e otimizao.
Palavras-chaves: Cadeias de Markov, PageRank, Modelo de Wright-Fisher, Deriva
Gentica.

ABSTRACT
In this monograph, a new methodology for mapping allele frequencies under the effect of
Genetic Drift based on software Google page ranking, Pagerank, is proposed. Initially, we
obtain an implementation of the algorithm PageRank using Markov chains in discrete-time
coupled with the Chapman-Kolmogorov equation as optimization measure for network
pages of analysis. From the algorithm built, the problem is modified for analysis of allele
frequencies with disturbance of Transition Matrix and the biological forecasting model
of Wright-Fisher. One of the main advantages of this methodology It is the ability to
predict the allelic configuration of a future population affected by drift, helping preventive
measures against possible loss of genetic variability or extinction of species in the neutral
selection of environments by researchers in the phenomena area biological and optimization.
Keywords: : Markov Chains, PageRank, Wright-Fisher Model, Genetic Drift.

Lista de ilustraes
Figura
Figura
Figura
Figura
Figura
Figura

1
2
3
4
5
6

Figura 7
Figura 8
Figura 9
Figura 10
Figura
Figura
Figura
Figura
Figura
Figura

11
12
13
14
15
16

Crawling: funcionamento . . . . . . . . . . . . . . . . . . . . . . . . . .
Pginas Web e Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . .
Representao do grafo como matriz estocstica . . . . . . . . . . . . .
Representao em grafo da matriz de adjacncia A . . . . . . . . . . .
Grafo de uma rede hipottica com 6 pginas . . . . . . . . . . . . . .
Pagerank Software: funcionamento da verso implementada para uma
rede hipottica de 30 pginas inseridas em ordem numrica . . . . . . .
Pagerank Software: grafo da rede representada na Figura 6 . . . . . .
Configurao gentica para 2 indivduos . . . . . . . . . . . . . . . . .
Probabilidade de frequncia allica na prxima gerao em populaes
de cinco indivduos (N=5) . . . . . . . . . . . . . . . . . . . . . . . .
Probabilidade de frequncia allica na prxima gerao em populaes
de cinquenta indivduos (N=50) . . . . . . . . . . . . . . . . . . . . .
Efeito da deriva gentica durante 100 geraes (teste 1) . . . . . . . .
Efeito da deriva gentica durante 100 geraes (teste 2) . . . . . . . .
Efeito da deriva gentica durante 19 geraes utilizando o Biopagerank
Mapeamento de Heterozigotos . . . . . . . . . . . . . . . . . . . . . . .
Distribuio de Heterozigotos . . . . . . . . . . . . . . . . . . . . . . .
Histograma para o gentipo bw75 . . . . . . . . . . . . . . . . . . . .

21
22
23
29
30
34
34
36
38
38
41
42
43
44
44
50

Lista de cdigos
Cdigo
Cdigo
Cdigo
Cdigo

1
2
3
4

Implementao
Implementao
Implementao
Implementao

da
da
do
da

perturbao da matriz de adjacncia


equao de Chapman-Kolmogorov . .
modelo de Wrigh-Fisher . . . . . . .
matriz de transio . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

32
33
39
40

Lista de tabelas
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela

1
2
3
4
5
6
7
8
9

Aa X Aa. . . . . . . . . . . . . . . . . . . . . . . . . . .
Matriz de adjacncia A . . . . . . . . . . . . . . . . . .
Matriz de Grau D1 . . . . . . . . . . . . . . . . . . . .
Matriz estocstica linha . . . . . . . . . . . . . . . . . .
Tabela de teste para Wright-Fisher . . . . . . . . . . . .
Mapeamento do alelo estudado ao longo de 100 geraes
Mapeamento do alelo estudado ao longo de 100 geraes
Mapeamento Realizado por Buri . . . . . . . . . . . . .
Mapeamento do teste Buri pelo Biopagerank . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

16
28
29
29
37
40
41
42
43

Sumrio
1
1.1
1.2

INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Objetivos do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Organizao da monografia . . . . . . . . . . . . . . . . . . . . . . . . 13

2
2.1
2.1.1
2.1.2
2.1.3
2.2
2.3
2.3.1
2.3.2

FUNDAMENTAO TERICA .
A Deriva Gentica . . . . . . . . .
Equilbrio de Hardy-Weinberg . . . . .
Introduo deriva . . . . . . . . . .
Modelo de Wright-Fisher . . . . . . .
O Pagerank . . . . . . . . . . . . .
Cadeias de Markov . . . . . . . . .
Cadeias de Markov em tempo discreto
Equao de Chapman-Kolmogorov . .

.
.
.
.
.
.
.
.
.

3
3.1
3.2
3.3

MODELAGEM DO ALGORITMO
Contextualizao . . . . . . . . . .
Codificao . . . . . . . . . . . . .
Anlise do algoritmo . . . . . . . .

PAGERANK
. . . . . . . .
. . . . . . . .
. . . . . . . .

4
4.1
4.2
4.3

MODELAGEM DO
Contextualizao .
Codificao . . . .
Resultados . . . . .

5
5.1

CONCLUSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

PAGERANK
. . . . . . . .
. . . . . . . .
. . . . . . . .

.
.
.
.
.
.
.
.
.

. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

15
15
15
16
17
20
23
24
27

. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

28
28
31
33

GENTICO . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

35
35
37
40

Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

A.1
A.2

APNDICE A EXPERIMENTO DE PETER BURI . . . . . . . . 49


Experimento preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Experimento principal . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

13

1 Introduo
A deriva gentica ou allica um mecanismo microevolutivo que ocasiona mudanas
nas frequncias dos alelos devido a erros de amostragem, sua influncia est relacionada
com a reduo da diversidade gentica e extino de alelos em ambientes de seleo neutra.
A deriva um processo estocstico, pois no possvel prever a direo da mudana na
frequncia de um alelo causado pela mesma, por isso possui capacidade de modificar as
frequncias allicas em uma nica gerao, mas seu poder como mecanismo evolutivo
aumenta significativamente quando seus efeitos se compem ao longo de vrias geraes.
A importncia da deriva encontra-se em sua capacidade de alterar o fluxo gnico
por meio de eventos aleatrios, sua influncia afetada por fatores como tamanho da
populao, distribuio geogrfica, desastres ecolgicos entre outros. O geneticista Peter
Buri estudou este fenmenos empiricamente em pequenas populaes de moscas de frutas
e seu artigo (BURI, 1956) tornou-se referncia padro de prova experimental na deriva
gentica.

1.1 Objetivos do trabalho


Esta Monografia tem por objetivo propor uma nova metodologia para a anlise
de frequncias allicas sobre o efeito da deriva utilizando Cadeias de Markov e o modelo
binomial de Wright-Fisher amplamente utilizado em gentica de populaes, com o intuito
de permitir o acesso rpido aos dados pertinentes ao estudo, bem como promover um
mtodo de baixo custo para futuros pesquisadores na rea de modelagem de fenmenos
biolgicos. Para mapear as frequncias ao longo das geraes, desenvolveu-se uma aplicao
denominada Biopagerank, um algoritmo baseado no software de anlise de pginas web do
mecanismo de busca Google (PAGE, 1998) .

1.2 Organizao da Monografia


Esta Monografia est organizada em 5 captulos, a saber:
Captulo 1: Introduo
Neste captulo, definido o problema principal e seu grau de importncia, bem
como o mtodo proposto que ser aplicado e implementado para sua resoluo.
Captulo 2: Fundamentao Terica
Neste captulo, feita uma reviso de alguns fundamentos tericos relacionados
com cadeias de Markov e gentica, fornecendo base matemtica para o entendimento dos

Captulo 1. Introduo

14

captulos seguintes.
Captulo 3: Modelagem do algoritmo Pagerank
Este captulo modela e implementa uma verso inicial do Pagerank com o objetivo
de evidenciar a utilizao das cadeias de Markov em sua estrutura e entender o mecanismo
de anlise de pginas visando a modificao de seu domnio de dados.
Captulo 4: Modelagem do Pagerank Gentico
Este captulo modela e implementa uma software baseado no algoritmo de ranking
de pginas, chamado Biopagerank, com objetivo de formalizar o modelo proposto em uma
aplicao executvel e eficiente.
Captulo 5: Concluso
Este captulo resume as contribuies desta monografia e indica direes para
pesquisas futuras.

15

2 Fundamentao Terica
2.1 A Deriva Gentica
Esta seo introduz conceitos preliminares sobre a deriva gentica, sua influncia e
importncia para o processo de evoluo dos seres vivos.

2.1.1 Equilbrio de Hardy-Weinberg


A base gentica de populaes definida pelo princpio de Hardy-Weinberg, demonstrado pelo matemtico ingls G.H.Hardy e pelo fisiologista alemo W.Weinberg, em
1908. Este princpio abordado na definio seguinte.
Definio 1. Para qualquer lcus gnico, as frequncias relativas dos gentipos, em
populaes de cruzamentos ao acaso (panmticas), permanecem constantes, de gerao a
gerao, a menos que certos fatores perturbem esse equilbrio.
Esses fatores so mutao, seleo natural, migrao e deriva gentica. Logo, alguns
requisitos devem ser atendidos para que uma populao seja dita em equilibrio de HardyWeinberg. Estes requisitos so (BORGES-OSORIO, 2013):
a) A populao deve estar em ambiente neutro, ou seja, livre de fatores evolutivos;
b) A populao deve ser panmtica (os cruzamentos entre indivduos de diferentes
gentipos devem ocorrer ao acaso, sem qualquer preferncia);
c) A relao entre indivduos do sexo masculino e feminino deve ser 1:1;
d) A populao deve ser mendeliana, ou seja, formada por organismos da mesma espcie,
com limites geogrficos bem definidos;
O estudo deste princpio tem grande importncia na avaliao de fatores que
ocasionam desvios reais opostos s condies idealizadas (BORGES-OSORIO, 2013).
Dado um conjunto gnico hipottico em que qualquer gameta masculino tem igual
probabilidade de se unir a um feminino, as frequncias esperadas nos zigotos da gerao
seguinte podem ser calculadas se a frequncia dos alelos A e a considerados for conhecida.
Sendo p a frequncia do alelo A e q a frequncia do alelo a, caso ocorra o cruzamento
entre dois heterozigotos para o mesmo lcus (Aa X Aa), a distribuio genotpica dada
pela Tabela 1 (BORGES-OSORIO, 2013).

Captulo 2. Fundamentao Terica

16

Tabela 1 Aa X Aa.
Masc|Fem

A(p)

a(q)

A(p)

AA(p2 )

Aa(pq)

A(q)

aa(pq)

aa(q 2 )

Fonte: (BORGES-OSORIO, 2013)

Essas frequncias se mantero contantes desde que os requisitos impostos pelo


equilbrio sejam satisfeitos. Se as frequncias continuarem contantes no haver evoluo,
logo os fatores que perturbam o equilbrio de Hardy-Weinberg so tambm responsveis
pela evoluo.

2.1.2 Introduo deriva


A evoluo consiste no desenvolvimento de adaptaes atravs da seleo natural
e muitos outros fatores, incluindo o acaso. Mesmo que restrinjamos nossa ateno
evoluo atravs da seleo natural, existem numerosos fatores seletivos alm daqueles
impostos pelo mundo ecolgico externo. Dentre eles podemos citar: relaes internas entre
caminhos bioqumicos e do desenvolvimento, e as relaes internas entre diferentes rgos.
O ambiente tambm possui sua influncia no processo evolutivo. Aspectos como salinidade,
disponibilidade de gua, membros com os quais o indivduo ir interagir em vrios contextos
sociais e outras caractersticas fsicas e qumicas podem interferir de maneira positiva ou
negativa na adaptao de uma determinada espcie (FUTUYAMA, 2002) .
Basicamente, existem dois tipos de mecanismos evolutivos, os que criam variaes
e os responsveis pela distribuio dessas variaes. Os que criam variaes so mutao e
recombinao gnica. Os responsveis pela distribuio dessas variaes so seleo natural,
migrao e deriva gentica.
O processo de variao gentica inicia-se na mutao. Uma mutao qualquer variao no DNA de um organismo. De caracterstica aparentemente aleatria, sua influncia
geralmente danosa ou neutra aos seus portadores, permitindo a criao e manuteno da
variao gentica das populaes. A taxa de ocorrncia da mutao geralmente baixa,
porm suficiente para modicar a frequncia dos alelos, uma vez que um grande nmero de
genes podem ser afetados (SADAVA et al., 2009).
O fluxo gnico ou migrao ocorre quando indivduos ou gametas deslocam-se para
outras localidades e se reproduzem, adicionando alelos ao pool gnico da populao local
ou modificando suas frequncias allicas (SADAVA et al., 2009).
Dentre os mecanismos evolutivos, a deriva gentica pode ser considerada um
dos mais interessantes por sua caracterstica matemtica singular, exercendo funo de
mecanismo micro evolutivo que modifica aleatoriamente as frequncias allicas ao longo do

Captulo 2. Fundamentao Terica

17

tempo. A deriva um processo estocstico, como consequncia de sua influncia podemos


destacar a perda de variao gentica e a fixao de alelos em diferentes loci. Seu estudo
de suma importncia em programas de melhoramento gentico, coleta e regenerao de
germoplasma, estudos evolutivos, entre outros.
Deriva, em qualquer de suas formas, uma propriedade estatstica de
um conjunto de ensaios ou eventos: deriva erro estatstico. Uma srie
de nascimentos, sobrevivncias, mortes, e reprodues manifestam seus
resultados - mensurados como mudanas nas frequncias-divergem do
que o previsto por diferenas de aptido. (WALSH, 2002)

A deriva gentica pode ser matematicamente representada como um processo de


mudanas aleatrias nas frequncias dos alelos ao longo das geraes. A deriva modelada
quantitativamente utilizando o modelo binomial de Wright-Fisher.
Conforme Ewens (2004), dado um locus contendo dois alelos neutros a e A em
uma populao diploide de tamanho N. Temos, assim, o tamanho da populao haploide
(nmero de cpias do gene) igual a 2N. O nmero de alelos A na populao na gerao t
denotado como n(t) e sua frequncia como p(t) = n(t)/2N . A probabilidade de transio do
estado n(t) = i para o estado n(t+1) = j, 0 i, j 2N dado pela seguinte probabilidade
condicional:
Pij = P r[n(t + 1) = j|n(t) = i)]
(2.1)
A Equao 2.1 pode ser modelada utilizando o Wright-Fisher, como definido na prxima
subseo.

2.1.3 Modelo de Wright-Fisher


Esta subseo apresenta uma introduo acerca de modelo de distribuio de
Wright-Fisher utilizando as definies de Durrett (2008).
Quando considera-se um locus gentico com dois alelos que possuem o mesmo
fitness em uma populao diploide de tamanho constante N com ausncia de sobreposio,
alguns conceitos devem ser explicados.
Um locus gentico um local especfico no genoma do organismo, uma sequncia
de nucleotdeos que compe um gene.
Alelos so diferentes verses da informao gentica codificada em um locus.
O fitness de um indivduo uma mensurao da habilidade individual de sobrevivncia e produo de descendentes. Nesta monografia so considerados casos de evoluo
neutra, ou seja, a mutao muda a sequncia de DNA,mas no interfere no fitness.
Indivduos diploides possuem duas cpias de seu material gentico em cada clula,
ou seja, N indivduos possuem 2N cpias.

Captulo 2. Fundamentao Terica

18

O modelo de Wright-Fisher uma distribuio binomial representada por:

2N i

2N
j


j 

i
1
2N

2N j

(2.2)

em que i/ 2N a probabilidade do alelo A se fixar na gerao seguinte, e 1-(i/2N) a


probabilidade do alelo a se fixar. O coeficiente binomial

2N
(2N )!

=
j!(2N j)!
j

(2.3)

o nmero de modos de escolha de j e 2N o nmero total de elementos.


Probabilidade de fixao
Eventualmente, o nmero de alelos em uma populao Xn pode torna-se 0 (indicando a perda total do alelo) ou 2N (indicando a fixao total do alelo). Quando um
alelo se perde ou se fixa em uma populao, o mesmo nunca mais retorna ou se extingue
respectivamente, ou seja, os estados 0 e 2N so denominados estados absorventes para Xn
esta caracterstica s possvel se o ambiente utilizado for evolutivamente neutro.

= min[n : Xn = 0 ou Xn = 2N ]

(2.4)

A Equao (2.4) representa o tempo de fixao, ou seja, o momento exato na


histria da evoluo em que a populao consiste apenas de A ou a.
Usa-se Pi para denotar a probabilidade de distribuio do processo Xn , quando
inicia-se X0 = i e Ei para o valor esperado com respeito a Pi .
Teorema 1. No modelo de Wright-Fisher, a probabilidade de fixao do alelo A dada
por:

Pi (Xt = 2N ) =

i
2N

(2.5)

Demonstrao. Se o nmero de indivduos finito possvel que eventualmente uns dos


alelos estudados se tornar fixo. Dado Xn ser o nmero de As no tempo n, ento a
Equao (2.2) 2N p (sendo p a probabilidade de um alelo se fixar e q a probabilidade do
outro alelo que compe o gene se fixar).

E(Xn+1 |Xn = i) = 2N

i
2N

= i = Xn

(2.6)

O valor esperado EXn+1 = EXn , ou seja, a mdia Xn mantem-se constante no


tempo. Intuitivamente, temos que:

Captulo 2. Fundamentao Terica

19

i = Ei X = 2N Pi (X = 2N )

(2.7)

Para provar isto, tem-se que se Xn = X quando n > ,


i = Ei Xn = Ei (X ; n) + Ei (Xn ; > n)

(2.8)

em que E(X, A) pequeno para o valor esperado de X sobre o conjunto A. Ento dado
n e usando o fato que |Xn 2N |, conclui-se que o primeiro termo converge para
Ei X e o segundo para 0.

Heterozigosidade
Para medir o quo longe a variabilidade gentica pode ir, deve-se analisar a
heterozogosidade, definida como a probabilidade das duas cpias do locus escolhidas no
tempo n serem diferentes:
Hn0 =

2Xn (2N Xn )
2N (2N 1)

(2.9)

Teorema 2. Dado h(n) = EHn0 como o valor mdio de heterozogosidade no tempo n. No


modelo de Wright-Fisher:


h(n) = 1

1
2N

n

h(0)

(2.10)

Demonstrao. Para facilitar a prova conveniente referir-se as 2N cpias do locus como


indivduos. Suponha que escolhamos dois indivduos denominados x1 (0) e x2 (0) no tempo
n. Cada indivduo xi (0) um descendente de algum indivduo xi (1) no tempo n-1, que
descendente de xi (2) no tempo n-2 e assim sucessivamente. xi (m), 0 m n descreve a
linhagem de xi (0).
Se x1 (m) = x2 (m), ento teremos x1 (l) = x2 (l) para m < l n. Se x1 (m) 6= x2 (m),
ento as duas escolhas de parentes so feitas independentemente, logo x1 (m+1) 6= x2 (m+1)
com probabilidade 1(1/2N ). Para x1 (n) 6= x2 (n), diferentes parentes podem ser escolhidos
em todos os tempos 1 m n, em um evento com probabilidade (11/2N )n . Quando duas
linhagens evitam uma a outra, x1 (n) e x2 (n) so dois indivduos escolhidos aleatoriamente
na populao no tempo 0, logo a probabilidade de eles serem diferentes H0o =h(0).

Captulo 2. Fundamentao Terica

20

2.2 O Pagerank
O Pagerank uma tcnica utilizada para identificar a importncia de pginas web
atravs da modelagem da rota tomada pelas pessoas enquanto navegam entre as pginas.
O algoritmo Pagerank visto como a principal razo para o sucesso do motor de
busca Google (LANGVILLE, 2012). Para entender como o Pagerank age, primeiro deve-se
analisar como um mecanismo de busca funciona. Referncias para mais informaes so
encontradas em Witten et al. (1999) e Manning et al. (2008).
Crawling
Antes de um mecanismo de busca retornar os resultados da pesquisa feita pelo usurio, deve-se ter um conjunto de resultados possveis. Ao processo de identificar essas pginas
web d-se o nome de crawling. Na rede web, hiperlinks conectam as pginas e crawlers
descobrem novas pginas para esses links, este processo pode continuar indefinidamente,
uma vez que novas pginas so continuamente inseridas na web.
Anlise de texto
Para que o resultado da pesquisa seja eficaz, necessrio que o mecanismo de busca
consiga entender o texto nas pginas. A anlise textual feita atravs de um processo de
indexao em que gerado uma base de dados contendo todas as pginas com o termo
procurado. Frases tambm so indexadas, melhorando a eficincia do processo.
Anlise de links
Um mecanismo de busca deve analisar os links entre as pginas indexadas em
seus servidores para determinar a qualidade da pgina. O Pagerank uma das medidas
utilizadas para este fim, o algoritmo identifica pginas que possuem um grande nmero
de votos (pginas que so referenciadas em grande quantidade) e atribui um valor de
relevncia para estas pginas baseando-se nesse e outros aspectos. Um analisador de links
tambm deve ser capaz de diferenciar pginas originais de possveis fraudes (spam).
Regresso de ranking
As anlise de texto e link so utilizadas para determinar uma classificao com a
ordem final dos resultados, a funo responsvel por gerar esta classificao o principal
segredo dos mecanismos de busca e muitas vezes so baseadas em tcnicas de aprendizado
de mquina.

Captulo 2. Fundamentao Terica

21

Figura 1 Crawling: funcionamento


Fonte: Ascenso (2014)

Produo do ranking
O ltimo passo integrar todas as anlises anteriores sobre um conjunto de documentos produzindo uma lista de pginas que ser exibida para o usurio em milisegundos.
A Figura 1 ilustra o processo de anlise realizado pelo Crawler.
O Pagerank, ento, um algoritmo de anlise de link utilizado por um mecanismo
de busca para ajudar na classificao de pginas web.
O algoritmo Pagerank pode ser interpretado como um grafo direcionado em que
as pginas so representadas por ns e os links entre as pginas so representados por
arestas.
A Figura 2 mostra o relacionamo entre pginas aleatrias da Wikepedia. A abstrao
do clculo do Pagerank como um grafo facilita na implementao e modelagem, uma vez
que grafos so constantemente tratados em fenmenos computacionais.
O modelo de grafo do Pagerank pode ser generalizado para qualquer grafo arbitrrio
permitindo vrias interpretaes. Como exemplo de usos para o algoritmo pode-se citar:

Captulo 2. Fundamentao Terica

22

Figura 2 Pginas Web e Grafos


Fonte: Gleich (2009)

Clustering
O problema de clusterizao concentra-se em encontrar formas de dividir um grafo
separando os ns em grupos fortemente relacionados, pode-se utilizar o Pagerank para
calcular esses grupos de ns de forma extremamente rpida (ANDERSEN et al., 2006).
Ranks esportivos
O Pagerank pode ser usado para computar ranks esportivos substituindo um
usurio navegando aleatoriamente pela internet por times e conjuntos de estatsticas sobre
os mesmos. A partir desses dados, o modelo pode inferir qual time possui maior chance de
passar para a fase seguinte (GOVAN et al., 2008).
Bioinformtica
O Generank uma modificao no algoritmo original que produz uma lista de
genes com caracteristicas relevantes para os experimentos para os quais est sendo usado.
Para isso o Generank analisa as relaes entre os genes para inferir nveis de ativao e
outros aspectos necessrios para os pesquisadores (MORRISON et al., 2005).
Partindo-se da ideia do algoritmo Pagerank como um grafo direcional G com a

Captulo 2. Fundamentao Terica

23

matriz adjacente A (Ai,j = 1 se o n i tem ligao com o n j e Ai,j = 0 se no h ligao).


O vetor pagerank definido aplicando um algoritmo estocstico para a matriz
P = AT D+ ,

(2.11)

em que D+ uma matriz diagonal com entradas Dii = grau de sada do n i e D+ definida
por Golub e Loan (1996) da seguinte maneira:
(
+

(D )ii =

1/Dii
0

Dii =
6 0
Dii = 0

(2.12)

Cada pgina web representada por um n no grafo, o n u conectado com o n


v se, e somante se, existe um link da pgina u para a pgina v.

Figura 3 Representao do grafo como matriz estocstica


Fonte: Gleich (2009)

Baseado na Figura 3, podemos definir um vetor V que representa a importncia


das pginas no momento inicial. Suponha que V = [1/6 1/6 1/6 1/6 1/6 1/6], ou
seja, todas as pginas tem inicialmente o mesmo grau de importncia. Usando o modelo
do PageRank, chega-se ao vetor estacionrio

x = [0.049 0.041 0.059 0.032 0.425 0.394]

(2.13)

A Equao (2.13) representa o vetor Pagerank com o grau de relevncia de cada


pgina.

2.3 Cadeias de Markov


As propriedades hoje conhecidas como processos de Markov foram investigadas
pela primeira vez em 1907 por Andrey Markov. Os sistemas cuja evoluo descrita
por esses processos tem a caracterstica de que conhecendo o estado atual do sistema,
os estados passados no possuem influncia sobre os estados futuros, ou seja, o processo

Captulo 2. Fundamentao Terica

24

possui ausncia de memria, pois o estado futuro depende apenas da informao corrente
(CUNHA; VELHO, 2003). Os conceitos apresentados neste tpico esto baseados em Maia
(2008) .

2.3.1 Cadeias de Markov em Tempo Discreto


Definio 2.3.1. Uma sequncia de variveis aleatrias X1 , X2 ,... uma cadeia de
Markov em tempo discreto se para todo t (t = 0, 1, 2, ...) e para todo o espao de estados
do sistema tem-se

P [Xt = xt |X0 = x0 , X1 = x1 , ..., Xt1 = xt1 ] = P [Xt = xt |Xt1 = xt1 ]

(2.14)

Podemos pensar em uma cadeia de Markov como um grafo com estados ligados
entre si atravs de transies possveis, a cada intervalo de tempo t um estado visitado.
Utilizando o conceito de probabilidade condicional e propriedades markovianas,
(t)
temos que a probabilidade i = P (Xt = i) da cadeia estar no estado i no instante t
determinada pela matriz de transio e pela distribuio de probabilidade inicial. Dado
um espao de estados S = 0, 1, 2, ..., N em que N um nmero inteiro positivo definido
(t)
pelo vetor (t) = (0 , ..., n(t) ) infere-se que:
(t)

j = P (Xt = j) =
=

P (Xt = j, Xt1 = i)

iX

P (Xt = j|Xt1 = i)P (Xt1 = i)

iX

P
iX

(2.15)

(t1) (t1)
i

pij

(t) pode ser interpretado como uma matriz linha definida pela equao matricial
(t) = (t1) P (t1) ,

(2.16)

cuja iterao leva recurso


(t) = (0) P (0) P (1) ...P (t1)

(2.17)

Se as probabilidades de transio so estacionrias, ou seja, a probabilidade da


cadeia passar de um estado a outro em um intervalo de tempo no depende de t e S,
podemos determinar uma matriz de transio P = (pij ) em que pij = P(Xt = j|Xt1 = i)
P
com
pij = 1 pra todo i S . Cadeias com essa caracteristicas so denominadas
jS

homogneas. A Equao (2.17) pode ser reescrita na forma

Captulo 2. Fundamentao Terica

25

(t) = (0) P t

(2.18)

em que P t a t-sima potncia de P .


(n)

Definimos, assim, a matriz de transio de n passos como sendo P (n) = (pij ) tal
(n)
que pij = (Xt+n = j|Xt = i).
Teorema 2.3.1. Seja Xn uma cadeia de Markov homognea. Ento a matriz de transio
de n passos igual a n-sima potncia da matriz de transio, isto P (n) = P n .
Demonstrao. Temos que:

P (Xn+1 = in+1 , ..., Xn+m = in+m |X0 = i0 , ..., Xn = in ) =

P (X0 = i0 , ..., Xn+m = in+m )


P (X0 = i0 , ..., Xn = in )
(2.19)

O lado direito da igualdade pode ser reescrito como: (Para melhorar a visualizao
foi adotado pin ,in+1 = P (in , in+1 ))
0
i0
P (i0 , i1 ), ..., P (in+m1 , in+m )
0
i0
P (i0 , i1 ), ..., P (in1 , in )

(2.20)

P (Xn+1 = in+1 , ..., Xn+m = in+m |X0 = i0 , ..., Xn = in )


= P (in , in+1 ), ..., P (in+m1 , in+m )

(2.21)

Logo,

para um tratamento mais eficiente, conveniente reescrever a Equao (2.21) da seguinte


forma
P (Xn+1 = j1 , ..., Xn+m = jm |X0 = i0 , ..., Xn = i)
= P (i, j1 ), ..., P (jm1 , jm )

(2.22)

Sejam A0 , ..., An1 subconjuntos de S. Segue a partir da Equao (2.22) que


P (Xn+1 = j1 , ..., Xn+m = jm |X0 A0 , ..., Xn1 An1 , Xn = i)
= P (i, j1 ), ..., P (jm1 , jm )

(2.23)

Sejam B1 , ..., Bm subconjuntos de S. Segue a partir da Equao (2.23)

P (Xn+1 B1 , ..., Xn+m Bm |X0 A0 , ..., Xn1 An1 , Xn = i)


P
P
=

P (i, j1 ), ..., P (jm1 , jm )


y1 B1

ym Bm

(2.24)

Captulo 2. Fundamentao Terica

26

As probabilidades de transio P m (i, j) so definidas por


P m (i, j) =

P
y1 B1

P
ym Bm

P (i, j1 ), ..., P (jm1 , jm ), para m 2

P 1 (i, j) = P (i, j)
(

P 0 (i, j) =

(2.25)

1
se i = j
0 caso contrrio

A Equao (2.25) fornece a probabilidade do sistema ir do estado i para o estado j


em m etapas. Dados B1 = ...Bm1 = S e Bm = j, tem-se em (2.24)
P (Xn+m = j|X0 A0 , ..., Xn1 An1 , Xn = i) = P m (i, j)

(2.26)

Dados A0 = ...An1 = S, tem-se


P (Xn+m = j|Xn = i) = P m (i, j)

(2.27)

P (Xn+m = j|X0 = i, Xn = k) = P m (k, j)

(2.28)

Utilizando a frmula sequencial de Bayes (MIGON, 2006) tem-se,

P n+m = P (Xn+m = j|X0 = i)


P (Xn = k|X0 = i)P (Xn+m = j|X0 = i, Xn = k)

(2.29)

P n (i, k)P (Xn+m = j|X0 = i, Xn = k)

A partir da Equao (2.28), obtm-se


P (n+m) =

P n (i, k)P m (k, j)

(2.30)

Tomando S = 0, 1, ..., N , tem-se

pn+m
=
i,j

N
X
(n) (m)

pi,k Pk,j

k=0

A Equao (2.31) denominada Equao de Chapman-Kolmogorov.

(2.31)

Captulo 2. Fundamentao Terica

27

2.3.2 Equao de Chapman-Kolmogorov


A equao de Chapman-Kolmogorov fornece um mtodo simples para obter a
probabilidade de ordem superior de uma cadeia de Markov em termos das probabilidades de
ordem inferior, ou seja, a frmula descreve como calcular, por um mtodo simples e explcito,
todas as probabilidades de transies de ordem superior em termos da probabilidade de
transio de uma etapa (DASGUPTA, 2011).
Teorema 2.3.1. Seja Xn uma cadeia de Markov estacionria com espao de estados S.
Seja n, m 1. Ento,
pij (m + n) = P (Xm+n = j|X0 = i) =

pik (m)pkj (n).

(2.32)

kS

Demonstrao. Para chegar ao estado j a partir do estado i em m + n etapas, a cadeia


deve ir para algum estado k S em m etapas e posteriormente ir do estado k para o
estado j nas n etapas restantes. Adicionando todos os estados k S possveis, tem-se a
equao de Chapman-Kolmogorov (DASGUPTA, 2011).

Corolrio 2.3.1. Seja P (n) a matriz de transio das probabilidades em n etapas S. Ento,
para todo n 2, P (n) = P n , onde P n .
Demonstrao. Utilizando a definio de produto de matrizes, para todo m, n 1,
P (m+n) = P (m) P (n) P (2) = P P = P 2 . Por induo, suponha que P (n) = P n n k.
Ento, P (k+1) = P (k) P = P k P = P k+1 .

Proposio 2.3.1. Seja Xn uma cadeia de Markov estacionria com espao de estados S e
P
P uma matriz de transio, fixando n 1. Ento, n (i) = P (Xn = i) =
pki (n)P (X0 =
kS

k). Em notao matricial, se = (1 , 2 , ...) representa o vetor de probabilidades iniciais


P (X0 = k), k = 1, 2, ..., e se n representa o vetor de linha de probabilidades P (Xn =
i), i = 1, 2, ..., ento n = P n .
Demonstrao. Ver demonstrao em DasGupta (2011).

Esta uma importante frmula por que explica de maneira explcita como encontrar
a distribuio de Xn a partir da distribuio inicial e da matriz de transio P , permitindo
sua fcil implementao para o uso computacional.

28

3 Modelagem do algoritmo Pagerank


Neste captulo, ser abordado o desenvolvimento de uma verso do Pagerank,
algoritmo de ranking de pginas do Google. Para tal, a modelagem e codificao do
algoritmo foram baseados em Page (1998).

3.1 Contextualizao
O primeiro passo para obter o vetor Pagerank perturbar a matriz de adjacncia
P
A para obter uma matriz coluna estocstica S com Si,j > 0,i, j e S:,j = 1, j.
A perturbao Pagerank aplica-se matriz de graus D, usada para obter as
perturbaes estocsticas, em que Di,j igual ao grau do vrtice vi .
(

Dij =

0
P
Ai,: = grau(vi ) = grau(vj ) = A:,j

1 6= j
i=j

(3.1)

Se A uma matriz de adjacncia de um grafo conectado,as entradas diagonais de


D so estritamente no nulas. Logo, a inversa D1 dada pela alternativa diagonal de
1
entrada Di,i
= 1/Di,i , i.
Example 3.1.1. Considere matriz de adjacncia representada na Tabela 2 com a inversa
das entradas diagonais D representada na Tabela 3 . As entradas diagonais D correspondem
aos graus dos vrtices do grafo.
Tabela 2 Matriz de adjacncia A
a

a 0
b 1
c 0
d 0
e 1

1
0
1
0
1

0
1
0
1
0

0
0
1
0
1

1
1
0
1
0

Uma matriz linha estocstica, S, uma matriz no negativa que a soma das linhas
P
igual a 1, i.e., Si,: = 1. Dada uma matriz de adjacncias A e sua respectiva matriz de
grau D, a matriz linha estocstica, S pode ser obtida por
S = D1 A.

(3.2)

Captulo 3. Modelagem do algoritmo Pagerank

29

Tabela 3 Matriz de Grau D1


a
a 1/2
b
0
c 0
d
0
e
0

0
0
0
1/3 0
0
0 1/2 0
0
0 1/2
0
0
0

e
0
0
0
0
1/3

Figura 4 Representao em grafo da matriz de adjacncia A


Fonte: Fornecida pelo autor.

Uma matriz coluna estocstica S uma matriz no negativa que a soma das colunas
P
igual a 1, isto , S:,j = 1. Dada uma matriz de adjacncias A e sua respectiva matriz
de grau D, a matriz coluna estocstica, S pode ser obtida invertendo a ordem da Equao
(3.2)
S = AD1 .

(3.3)

Example 3.1.1. A Tabela 4 representa um exemplo de uma matriz linha estocstica.


Tabela 4 Matriz estocstica linha
P

0.0
0.3
0.0
0.0
0.3

0.5
0.0
0.5
0.0
0.3

0.0
0.3
0.0
0.5
0.0

0.0
0.0
0.5
0.0
0.3

0.5
0.3
0.0
0.5
0.0

1
1
1
1
1

Uma matriz Pagerank estocstica S uma matriz que reflete a probabilidade de


transio entre pares de estados em uma cadeia de Markov, um processo aleatrio com

Captulo 3. Modelagem do algoritmo Pagerank

30

ausncia de memria onde a probabilidade de ir para o prximo estado depende apenas do


estado atual.
Dada uma matriz Pagerank S, a probabilidade de distribuio xi+1 dada por
xi+1 = Sxi

(3.4)

O vetor x representa a distribuio estacionria do processo de ausncia de memria,


ou seja, a probabilidade de se visitar cada vrtice do grafo de maneira aleatria.
Baseado nesta premissa, pode-se afirmar que um vrtice vi associado ao seu
respectivo valor Pagerank xi , com respeito a alguma matriz de transio P em que
P A P T P S P T P x.

(3.5)

Associando-se cada vrtice do grafo uma pgina, a importncia da mesma ser


definida em termos do nmero de links que est pgina recebe em toda a rede. Como
exemplo, dada a rede hipottica definida na Figura 5.

Figura 5 Grafo de uma rede hipottica com 6 pginas


Fonte: Fornecida pelo autor.

Considerando (k) como o nmero de links que a pgina k recebe, temos que
(1) = 2, (2) = 2, (3) = 4, (4) = 2, (5) = 1, (6) = 2, porm, necessrio um modo
de avaliar o peso de uma pgina pelo nmero de links que apontam para ela, e com isso
ajustar sua influncia para as pginas para as quais ela referencia. esse ajuste dado por:

(k) =

X
jLk

(j)
nj

(3.6)

tal que nj o nmero de links da pgina j e Lk N.


Remodelando o problema de forma matemtica, tem-se uma matriz H = [Hij ]
dada por:

Captulo 3. Modelagem do algoritmo Pagerank

Hij =

1/nj
0

31

se j Li
se j
/ Li

(3.7)

Para o exemplo acima, a matriz H definida como

0 1/2 0 1/3 0
0

1/2
0 0 1/3 0
0

1/2 1/2 0
0
1/3
1/2

H=
0
0 1 0 1/3 0

0
0
0
0
0
1/2

0
0 0 1/3 1/3 0

(3.8)

Por 3.6, temos que :

= H.

(3.9)

Calculando obtemos o resultado: (1) = 0, 1646, (2) = 0, 1646, (3) = 0, 2351,


(4) = 0, 2458, (5) = 0, 0742, (6) = 0, 1157.
A partir do resultado, conclui-se que a pgina (4) que a possui o maior Pagerank,
portanto, a que mais relevante dentro da rede estudada.
A matriz H uma matriz de transio de uma cadeia de Markov em tempo discreto,
portanto, o vetor Pagerank o vetor estacionrio desta cadeia.

3.2 Codificao
O processo de implementao de uma verso do Pagerank consiste de duas partes:
a construo de uma interface grfica que permita inicializar a rede estudada e o clculo e
anlise do vetor estacionrio Pagerank.
Nesta monografia ser abordada apenas a implementao dos algoritmos mais
relevantes.
Perturbao da matriz de adjacncias
Para construir a matriz de perturbao, o sistema manualmente identifica o nmero
de pginas da rede e o links entre elas.
A modelagem da rede feita atravs de uma matriz de ordem igual ao nmero
total de pginas, em que a diagonal principal representa o relacionamento entre as pginas
que possuem links.
O Cdigo 1 implementa a funo responsvel pela pertubao da matriz de adjacncia.

Captulo 3. Modelagem do algoritmo Pagerank

/**

*/

public float [][] Per tu rb ac ao _M at ri z

32

Autor : Thiago Lemos

int _total_paginas = f u n c _ n u m e r o _ d e _ p a g i n a s _ r e d e () ;

6
7

float _matrix_paginas [ _total_paginas ][ _total_paginas ];

int v e t o r _ r e l a c i o n a m en t o [ _total_paginas ];

// verifica quantos links cada p gina na rede possui

10
11
12

for ( int i =0; i < _total_paginas )

13

{
v e t o r _ r e l a c i o n a m e n t o [ i ]= func_total_links ( i ) ;

14

15
16
17

// Constroi a matriz D

18

for ( int i =0; i < _total_paginas )

19

{
_matrix_paginas [ i ][ i ]=1/( func_total_links ( i ) ) ;

20

21
22

return _matrix_paginas ;

23
24
25
26

Cdigo 1 Implementao da perturbao da matriz de adjacncia

Equao de Chapman-Kolmogorov
Para que o software consiga achar o grau de relevncia da pgina atual necessrio
um algoritmo que permita analisar a importncia das outras pginas associadas, porm
sem calcular todos os dados da matriz.
A equao de Chapman-Kolmogorov, representada em (2.31) possibilita que este
requisito seja efetivamente obedecido.
O Cdigo 2 implementa a classe ChapmanKolmogorov que modela a funo
recursiva capaz de calcular a importncia da pgina web sem a necessidade de calcular
todos os elementos da matriz de transio (que em alguns casos pode ser da ordem dos
milhes).

Captulo 3. Modelagem do algoritmo Pagerank

/**

*/

public class Chap manKo lmogor ov

33

Autor : Thiago Lemos

int u ;

double fator =0;

public double probabilidade ( double v [][] , int t , int o , int i ,


int j ) {
if ( t ==1) return v [ i ][ j ];

else

10

11

for ( u =0; u < o ; u ++)

12

13

fator += v [ i ][ u ]* probabilidade (v ,t -1 ,o ,u , j ) ;

14
15

16

return fator ;
}

17

18
19

Cdigo 2 Implementao da equao de Chapman-Kolmogorov

3.3 Anlise do algoritmo


O sistema foi idealizado em contexto no qual uma rede de pginas, juntamente
com seus relacionamentos (links) so inseridos e posteriormente analisados. O software
devolve para o usurio o vetor Pagerank contendo a relevncia de cada pgina em ordem
decrescente, a matriz de transio que modela a rede e as pginas organizadas por seus
respectivos Pageranks.
O sistema gera um grafo orientado representando a rede estudada, a anlise sobre
um grafo permite observar o fluxo de dados e assim, tomar medidas paliativas para
redirecionar o fluxo em reas de grande congestionamento.
A Figura 6 representa o prottipo desenvolvido para um exemplo especfico de
rede com 30 pginas, o relacionamento entre as pginas pode ser observado no grafo
representado na Figura 7.

Captulo 3. Modelagem do algoritmo Pagerank

34

Figura 6 Pagerank Software: funcionamento da verso implementada para uma rede


hipottica de 30 pginas inseridas em ordem numrica
Fonte: Fornecida pelo autor.

Figura 7 Pagerank Software: grafo da rede representada na Figura 6


Fonte: Fornecida pelo autor.

35

4 Modelagem do Pagerank gentico


Neste captulo, ser abordado o desenvolvimento de um software que mapeia as
frequncias allicas sob o efeito da deriva gentica denominado Biopagerank, para tanto,
foram utilizando os conceitos de Durrett (2008), Page (1998), e Maia (2008) e a teoria do
Pagerank abordada no captulo anterior.

4.1 Contextualizao
Para evidenciar os efeitos da deriva, a modelagem do Biopagerank considera
populaes com as seguintes caractersticas:
Populao finita;
Organismos diploides;
Nmero infinito de gametas;
Geraes sem sobreposio;
Ambiente de seleo neutra;
Utilizando o modelo de Wright-Fisher para dois alelos hipotticos, A e a, possvel
representar a probabilidade condicional do nmero de genes A no tempo t + 1, dado o
nmero de genes A no tempo t e o tamanho das populaes. Se n(t) for o nmero de genes
A na populao nesse tempo t, tem-se a seguinte distribuio:

2N i
P (n(t + 1) = j|n(t) = i, N ) =
2N
j


j 

i
1
2N

2N j

(4.1)

Analisando a Equao (4.1) percebe-se que a ocorrncia de j sucessos em N eventos,


na qual s pode resultar em sucesso ou fracasso, quando a probabilidade de sucesso
constante, conhecido como Distribuio Binomial, logo o Modelo de Wright-Fisher pode
ser modelado como uma cadeia de Markov em tempo discreto cuja matriz de transio
determinada pela Equao (4.1).
A matriz de transio correspondente para uma populao de dois indivduos
dada pela matriz de ordem 2N + 1:

Captulo 4. Modelagem do Pagerank gentico

P10

P20

T =
P30

Pn0

0
P11
P21
P31
:
Pn1
0

36

0
P12
P22
P32
:
Pn2
0

0
P13
P23
P33
:
Pn3
0

...
0

... P1n

... P2n

... P3n

...
:

... Pnn

...
1

(4.2)

A Equao (4.1) pode ainda ser interpretada como a probabilidade de termos j


cpias do alelo A no tempo t + 1, dado que em t temos i cpias do alelo A.

Figura 8 Configurao gentica para 2 indivduos


Fonte: Fornecida pelo autor.

A modelagem baseada em Cadeias de Markov permite que uma quantidade de dados


elevada seja tratada computacionalmente de maneira mais rpida aplicando ChapmanKolmogorov (2.32) para calcular o numero de populaes em cada frequncia allica ao
longo do tempo.
(n)

Seja P a matriz de transio, o elemento Pij da matriz P que representa a


probabilidade de que o processo, iniciado no estado si , esteja no estado sj depois de n
passos dado por

(n)

pij =

k
X
(u) (nu)

pir prj

, 0 < u < n.

(4.3)

r=1

A caracterstica aleatria da deriva permite que o software utilize um processo


estocstico para mapear as frequncias dos alelos do seguinte modo: a matriz de transio

Captulo 4. Modelagem do Pagerank gentico

37

P ter mltiplas iteraes com um vetor inicial para proporcionar o estado allico de cada
populao em determinados intervalos de tempo.
A equao de Chapman-Kolmogorov facilita esse processo, uma vez que no
(n)
necessrio calcular todas iteraes para achar um valor especfico Pij .
Os valores calculados so inseridos em uma matriz linha, chamada de matriz
BiopageRank, que contm a frequncia allica das populaes estudadas.

4.2 Codificao
A implementao do Biopagerank possui uma interface que permite inicializar o
software com :
Nmero de geraes;
Frequncia dos alelos observada na gerao inicial;
Tamanho da populao;
Nmero de populaes no estudo;
Algoritmo de Wright-Fisher
Utilizando a mtodo implementado de Wright-Fisher, pode-se calcular a frequncia
exata do alelo estudado.
A Tabela 5 representa os resultados do algoritmo implementado para uma srie de
casos de testes com tamanhos de populaes variveis.
Tabela 5 Tabela de teste para Wright-Fisher
Tamanho da populao
Cpias do gene(2N)
Wright-Fisher

2
4
0.375

5
10
0.246

10
20
0.176

50
100
0.080

100
200
0.056

500
1000
0.025

1000
2000
0.018

10.000
20.000
0.006

Os dados da Tabela 5 ratificam que quanto maior o nmero de indivduos na


populaao, menor o efeito da deriva gentica, efetivando sua atuao mais influente em
populaes pequenas.

Captulo 4. Modelagem do Pagerank gentico

38

Figura 9 Probabilidade de frequncia allica na prxima gerao em populaes de


cinco indivduos (N=5)
Fonte: Kliman et al. (2008)

Figura 10 Probabilidade de frequncia allica na prxima gerao em populaes de


cinquenta indivduos (N=50)
Fonte: Kliman et al. (2008)

Com o aumento significativo do nmero de indivduos na populao os efeitos da


Deriva tornam-se menos visveis, isto devido a uma diminuio do erro de amostragem.
Apesar da direo da mudana da frequncia ser aletoria, possvel prever o caminho
mais provvel baseando-se da frequncia da populao anterior.

Captulo 4. Modelagem do Pagerank gentico

/**

*/

public double Wright_Fisher ( double i , double j , double n1 )

39

Autor : Thiago Lemos

double fator_Num , fator_Den , fator_Den2 ;

double fatorial , gene_first , gene_second =0;

double u ; n =0;

n = n1 ;

10

fator_Num =2* n ;

11

fator_Den = j ;

12

fator_Den2 = fator_Num - fator_Den ;

13

for ( u = fator_Num -1; u >0; u - -) fator_Num = fator_Num * u ;

14

if (( fator_Den ==0.0) ||( fator_Den ==1.0) ) fator_Den =1;

15

else {
for ( u = fator_Den -1; u >0; u - -) fator_Den = fator_Den * u ;

16
17

18

if (( fator_Den2 ==0) ||( fator_Den2 ==1) ) fator_Den2 =1;

19

else {
for ( u = fator_Den2 -1; u >0; u - -) fator_Den2 = fator_Den2 * u ;

20

21
22
23

fator_Den = fator_Den * fator_Den2 ;

24

fatorial = fator_Num / fator_Den ;

25

gene_first = Math . pow ( i /(2* n ) ,j ) ;

26

gene_second = Math . pow ((1 -( i /(2* n ) ) ) ,2*n - j ) ;

27

return ( fat * gene_first * gene_second ) ;


}

28
29

Cdigo 3 Implementao do modelo de Wrigh-Fisher

Algoritmo da matriz de transio


O algoritmo de Matriz de Transio calcula a probabilidade de termos j cpias do
alelo A no tempo t + 1, dado que em t temos i cpias do alelo A para cada estado possvel
no Pool gnico utilizando o algoritmo de Wright-Fisher. Apenas os estados absorventes
no so calculados.
A equao de Chapman-Kolmogorov otimiza o processo de calculo das probabilidades, pois permite que uma dada probabilidade seja calculada sem a necessidade de se
contruir toda a Matriz de Transio.

Captulo 4. Modelagem do Pagerank gentico

40

/**

*/

public double [][] CalculaTransicao ( int n ) {

Autor : Thiago Lemos

5
6

int n1 =(2* n ) +1;

int i , j ;

double vetorTransic [][]= new double [ n1 ][ n1 ];

for ( i =0; i < n1 ; i ++) {


for ( j =0; j < n1 ; j ++) {

10
11

if ( ( i ==0) &&( j ==0) ) vetorTransic [ i ][ j ]=1;

12

else if (( i ==0) &&( j !=0) ) vetorTransic [ i ][ j ]=0;

13

else if (( i == n1 -1) &&( j == n1 -1) ) vetorTransic [ i ][ j ]=1;

14

else if (( i == n1 -1) &&( j != n1 -1) ) vetorTransic [ i ][ j ]=0;

15

else vetorTransic [ i ][ j ]= al . WrightFisher (i , j , n ) ;


}

16

17

return vetorTransic ;

18
19

Cdigo 4 Implementao da matriz de transio

4.3 Resultados
O software BiopageRank mapeia as frequncias allicas sob o efeito da deriva
gentica utilizando o modelo proposto. A Tabela 6 resume um conjunto de populaes
com caractersticas hipotticas, bem como o resultado do processamento realizado pelo
Biopagerank.
Tabela 6 Mapeamento do alelo estudado ao longo de 100 geraes
Caractersticas
Geraes
Frequncia inicial do alelo
Tamanho da populao
Nmero de populaes
Populaes extintas
Populaes sobreviventes
Populaes com alelo fixado

Quantidade
100
50
100
50
12
38
13

Captulo 4. Modelagem do Pagerank gentico

41

A Figura 11 representa o fluxo allico das populaes estudadas ao longo das


geraes.
Devido ao nmero reduzido de indivduos, a influncia da deriva torna-se evidente
na maneira como as populaes se comportam.

Figura 11 Efeito da deriva gentica durante 100 geraes (teste 1)


Fonte: Fornecida pelo autor.

A simulao do Biopagerank para populaes menores demonstra que o erro de


amostragem aumenta medida que o nmero de indivduos na populao diminui, este
processo pode modificar a frequncia de um alelo inapto, permitindo que o mesmo sobreviva
mesmo em condies pouco favorveis.
A Tabela 7 resume um conjunto de pequenas populaes, com o intuito de evidenciar
os efeitos da deriva sobre o mesmo gene em populaes diferentes.
Tabela 7 Mapeamento do alelo estudado ao longo de 100 geraes
Caractersticas
Geraes
Frequncia inicial do alelo
Tamanho da populao
Nmero de populaes
Populaes extintas
Populaes sobreviventes
Populaes com alelo fixado

Quantidade
100
30
50
2
1
1
1

Captulo 4. Modelagem do Pagerank gentico

42

A Figura 12 simula uma populao hipottica na qual o alelo estudado tem


frequncia inicial de 30% em duas populaes distintas.
A distribuio da Figura 12 analisa o mesmo alelo em duas populaes diferentes
sob condies de seleo neutra com apenas a deriva gentica atuando. Percebe-se que
mesmo o alelo estando em desvantagem com relao ao alelo correspondente do mesmo
lcus, (A1: 30% A2: 70%), o mesmo consegue se fixar na populao vermelha (A1: 100%
A2: 0%). Este tipo de acontecimento ratifica o efeito da deriva gentica em populaes
pequenas.

Figura 12 Efeito da deriva gentica durante 100 geraes (teste 2)


Fonte: Fornecida pelo autor.

A Tabela 8 resume o teste realizado por Buri (1956) com moscas do tipo Drosophila.
Tabela 8 Mapeamento Realizado por Buri
Caractersticas
Geraes
Frequncia inicial do alelo
Tamanho da populao
Nmero de populaes
Populaes extintas
Populaes sobreviventes
Populaes com alelo fixado

Quantidade
19
50
16
107
30
77
28

Para validar o modelo proposto, a Tabela 9 apresenta os dados do experimento


utilizando o Biopagerank.

Captulo 4. Modelagem do Pagerank gentico

43

Segundo os resultados de Buri (1956), quando a deriva gentica est atuando a


relao entre extines e fixaes devem ficar prximas de 1.0. A taxa observada 30:28
satisfaz a condio esperada para a deriva gentica.
Tabela 9 Mapeamento do teste Buri pelo Biopagerank
Caractersticas
Geraes
Frequncia inicial do alelo
Tamanho da populao
Nmero de populaes
Populaes extintas
Populaes sobreviventes
Populaes com alelo fixado

Quantidade
19
50
16
107
35
72
33

Figura 13 Efeito da deriva gentica durante 19 geraes utilizando o Biopagerank


Fonte: Fornecida pelo autor.

Na Figura 13 percebe-se que quase metade das populaes est sofrendo evoluo,
mas a seleo natural no a responsvel por esse processo. A relao 35:33 encontrada
pela computao do Biopagerank tambm satisfaz as condies necessrias para a deriva
gentica.
A variabilidade Gentica sob o efeito da deriva cai haja vista que o nmero de
heterozigotos nas populaes tambm diminui, a Figura 14 ilustra o mapeamento da
frequncia de heterozigotos de acordo com o experimento de Buri e com o Software
baseado no modelo proposto.

Captulo 4. Modelagem do Pagerank gentico

44

Figura 14 Mapeamento de Heterozigotos


Fonte: Fornecida pelo autor.

Figura 15 Distribuio de Heterozigotos


Fonte: Buri (1956)

Percebe-se que a frequncia de heterozigotos aproximadamente igual ao resultado


encontrado por Buri. A distribuio em cada populao dada pela Figura 15

Captulo 4. Modelagem do Pagerank gentico

45

Com relao a distribuio binomial, uma probabilidade k pode calculada por

N k
p (1 p)N k
P (k) =
k

(4.4)

A varincia da varivel aleatria do tipo binomial calculada usando-se

V ar(K) = N p(1 p)

(4.5)

Substituindo k = p em (4.5), tem-se

V ar(p) = V ar(K/N ) =

1
p(1 p)
V ar(K) =
2
N
N

(4.6)

Aplicando os dados do experimento de Buri utilizando o Biopagerank, obtem-se:

V ar(pt+1 ) =

pt (1 pt )
2N

(4.7)

A varincia mensura o grau de incerteza sobre as frequncias dos alelos nas prximas
geraes dados as atuais frequncias. Quanto maior o grau de incerteza, maior ser o efeito
da deriva. Esta afirmativa pode ser provada analisando o desvio padro da deriva gentica,
pois quanto menor o valor de N (nmero de indivduos), maior ser o desvio padro.
O Biopagerank modela o seguinte sistema:
pk qk
pk qk
, qk+1 = qk + / 2
,
= pk + / 2
2N
2N
r

pk+1

p, q R

(4.8)

A aplicabilidade do modelo computacional projetado torna mais clara a forma


como os alelos se distribuem durante as geraes permitindo a implementao de outros
mtodos em sua estrutura.

46

5 Concluso
Este trabalho apresenta um modelo preditivo para anlise de frequncias allicas
sob o efeito da deriva via Cadeias de Markov e o modelo de Wright-Fisher, tornando-se
uma alternativa para futuros pesquisadores que queiram resultados rpidos e eficientes
para suas pesquisas.
O software pode ser facilmente estendido para englobar outros mecanismos evolutivos, bem como modificar as condies do prprio Biopagerank, como exemplo pode-se
alterar as populaes de finitas para infinitas, considerar geraes com sobreposio, etc.

5.1 Trabalhos Futuros


Como perspectivas futuras possvel destacar:
Incluir no software Biopagerank a modelagem de outros fenmenos biolgicos, como
mutao, migrao, etc;
Substituir as Cadeias de Markov por um formalismo inteligente baseado em algoritmos
Genticos ou Redes Neurais;
Considerar populaes infinitas, sobreposio, e comportamento dinmico dos indivduos ao longo do tempo em ambientes no-neutros;
Analisar o mtodo apresentado na rea de Sistemas Dinmicos no Lineares ;
Estruturar o ambiente grfico e usabilidade do software Biopagerank;

47

Referncias
ANDERSEN, R. et al. Local graph partitioning using pagerank vectors. Proceedings of the
47th Annual IEEE Symposium on Foundations of Computer Science, 2006. Citado na
pgina 22.
ASCENSO, C. P. Como funciona um motor de busca? 2014. Website.
Disponvel em: <http://www.portalwebmarketing.com/MotoresdeBusca/
Comofuncionaummotordebusca/tabid/435/Default.aspx>. Acesso em: 04/02/2015.
Citado na pgina 21.
BORGES-OSORIO, W. M. R. M. R. Gentica Humana. 3. ed. So Paulo: Artmed Editora,
2013. ISBN 9788565852906. Citado 2 vezes nas pginas 15 e 16.
BURI, P. Gene frequency in small populations of mutant drosophila. Evolution, 1956.
Citado 5 vezes nas pginas 13, 42, 43, 44 e 50.
CUNHA, A. M. da; VELHO, L. Metodos probabilisticos para reconhecimento de voz.
IMPA - VISGRAF Laboratory, 2003. Citado na pgina 24.
DASGUPTA, A. Probability for Statistics and Machine Learning: Fundamentals and
Advanced. New York: Springer, 2011. ISBN 978-1-4419-9633-6. Citado na pgina 27.
DURRETT, R. Probability Models for DNA Sequence Evolution. 2. ed. New York:
Springuer, 2008. ISBN 978-0-387-78169-3. Citado 2 vezes nas pginas 17 e 35.
EWENS warren J. Mathematical Population Genetics. 2. ed. New York: Springuer, 2004.
ISBN 0-38720191-2. Citado na pgina 17.
FUTUYAMA, D. J. Biologia Evolutiva. 2. ed. So Paulo: FUNPEC, 2002. ISBN
0-87893-188-0. Citado na pgina 16.
GLEICH, D. F. Models and algorithms for Pagerank sensitivity. 198 p. thesis, 2009.
Citado 2 vezes nas pginas 22 e 23.
GOLUB, G. H.; LOAN, C. F. V. Matrix Computations. [S.l.]: The Johns Hopkins
University Press, 1996. ISBN 9780801854149. Citado na pgina 23.
GOVAN, A. Y. et al. Generalizing googles pagerank to rank national football league
teams. SAS Global Forum, 2008. Citado na pgina 22.
KLIMAN, B. S. R. et al. Genetic Drift and Effective Population Size.
2008. Website. Disponvel em: <http://www.nature.com/scitable/topicpage/
genetic-drift-and-effective-population-size-772523>. Acesso em: 12/05/2015. Citado na
pgina 38.
LANGVILLE, C. D. M. A. N. Googles PageRank and Beyond: The Science of Search
Engine Rankings. 2. ed. New Jersey: Princeton, 2012. ISBN 978-0691152660. Citado na
pgina 20.

Referncias

48

MAIA, L. P. Uma introduo a dinmina estocstica de populaes. So Paulo: SBMAC,


2008. ISBN 978-85-86883-41-5. Citado 2 vezes nas pginas 24 e 35.
MANNING, C. D. et al. Introduction to Information Retrieval. Cambridge: Cambridge
University Press, 2008. ISBN 0521865719. Citado na pgina 20.
MIGON, H. S. Introduo a inferncia Bayesiana. Rio de Janeiro: UFRJ, 2006. Citado
na pgina 26.
MORRISON, R. B. J. L. et al. Generank: Using search engine technology for the analysis
of microarray experiments. BMC Bioinformatics, Septemberl 2005. Citado na pgina 22.
PAGE, L. The pagerank citation ranking: Bringing order to the web. Stanford Paper,
1998. Citado 3 vezes nas pginas 13, 28 e 35.
SADAVA, D. et al. Vida: A Cincia da Biologia. 8. ed. So Paulo: Artmed Editora, 2009.
ISBN 9788536320595. Citado na pgina 16.
WALSH, T. L. D. M. Cotao. In:
. The Trials of Life: Natural Selection and
Random Drift*. Denis M. Walsh, 2002. Disponvel em: <http://faculty.arts.ubc.ca/
jbeatty/WalshEtAl2002.pdf>. Acesso em: 28 jan. 2015. Citado na pgina 17.
WITTEN, I. H. et al. Managing Gigabytes: Compressing and Indexing Documents and
Images. 1. ed. Massachusetts: Morgan Kaufmann, 1999. ISBN 978-1558605701. Citado na
pgina 20.

49

APNDICE A Experimento de Peter Buri


A.1 Experimento preliminar
Nesta experincia utilizando moscas de fruta do tipo Drosophila, Buri tentou
determinar se os gentipos no locus bw para cor dos olhos diferiam na aptido. Ele realizou
uma srie de cruzamentos para determinar se as freqncias de gentipos na prole diferia
das expectativas mendelianas, o que seria uma indicao de seleo neste lcus no ambiente
de laboratrio.
Buri realizou trs sries de cruzamentos.
Srie I envolveu fmeas de um nico gentipo e machos de um nico gentipo.
Testadas as diferenas entre gentipos de viabilidade.
Srie II envolveu machos de um nico gentipo e fmeas de dois gentipos e testado
para diferenas entre gentipos em uma combinao de sobrevivncia e fecundidade
feminina.
Srie III envolveu fmeas de um nico gentipo e machos de dois gentipos e
testado para diferenas entre gentipos em uma combinao de sobrevivncia e fertilidade
masculina.
Em seu trabalho, apenas trs ensaios ( denominados II-Ca, III-Ca, e III-Cb) fizeram
as freqncias observadas dos gentipos na prole adulta diferirem significativamente.
Quando estes trs ensaios foram repetidos, os resultados no mostraram diferenas de
expectativas sob nenhuma seleo. Por conseguinte, esta srie de experincias indica a
ausncia de seleco natural detectvel neste locus sob condies de laboratrio.

A.2 Experimento principal


Na experincia principal, Buri iniciou 107 populaes com a frequncia de cada alelo
inicial de 0,5. Cada gerao possuia oito machos e oito fmeas escolhidos aleatoriamente a
partir da prole adulta emergente da gerao anterior e transferidos para uma nova gaiola
para fundar a prxima gerao. Os gentipos destes 16 indivduos tambm foram marcados
para determinar a freqncia do gene. O experimento foi executado por 20 geraes.
A Figura 16 mostra o histograma de frequncia gentica do alelo bw75 para as 107
populaes para cada uma das geraes. Note que a varincia do histograma aumenta
gradualmente e que o nmero de populaes fixo para um alelo ou outro tambm aumenta.
O nmero de populaes fixas para o alelo bw75 aproximadamente a mesma que

APNDICE A. Experimento de Peter Buri

para o alelo bw, como esperado a partir das frequncias iniciais dos dois alelos.

Figura 16 Histograma para o gentipo bw75


Fonte: Buri (1956)

50

Você também pode gostar