Escolar Documentos
Profissional Documentos
Cultura Documentos
So Lus
2015
So Lus
2015
Aprovado em
de
de 2015.
BANCA EXAMINADORA
Agradecimentos
Agradeo primeiramente a Deus por ter me dado fora em cada dia da minha vida
para que eu pudesse caminhar e estudar, assim chegando hoje onde estou.
Agradeo aos meus familiares. s minhas tias Marta, Rosimar, Isabel e minha av
Terezinha, por terem cuidado de mim desde pequeno e me ensinado a ser um homem
ntegro, preservando verdadeiros valores. minha av Nazeth e minha tia Rosane, por
serem sempre presentes e terem dado tanto amor e carinho a mim e meu irmo. Ao meu
av Olavo que mesmo distante sempre me apoiou nas decises difceis. minha tia Socorro,
pelos conselhos e confiana no meu sucesso. Ao meu tio Joo, pelas brincadeiras, conselhos
e pela amizade de irmo mais velho.
Agradeo aos meus pais, em especial a meu pai, por ser um exemplo de homem
trabalhador a ser seguido, que mesmo diante das adversidades, nunca desistiu e deu a
volta por cima.
Agradeo aos meus irmos, pois serem sempre atenciosos e prestativos, especial ao
meu irmo Victor que esteve sempre comigo nessa longa caminhada rumo a excelncia.
Agradeo a minha namorada, Andressa Rozental, por estar sempre presente desde
o incio da minha jornada acadmica, juntos superamos crises e brindamos conquistas.
Agradeo aos meus amigos de longa data, Katyanne e Vanessa, pois estiveram
comigo desde o comeo, quando ainda estvamos no ensino fundamental, e provaram ao
longo dos anos serem amigas leais e verdadeiras.
Agradeo a minha orientadora, Valeska Martins de Souza, pelas conversas, orientaes e principalmente por ter me acolhido e confiado no meu potencial, serei eternamente
grato por tudo.
Agradeo aos professores da Universidade Federal do Maranho, pois sem eles,
no estaria aqui sentindo-me mais confortvel em redigir assuntos e temas da rea de
Computao.
RESUMO
Nesta monografia, proposta uma nova metodologia para o mapeamento de frequncias
allicas sob o efeito da Deriva Gentica baseadas no software de ranking de pginas do
Google, o Pagerank. Inicialmente obtem-se uma implementao do algoritmo Pagerank
utilizando Cadeias de Markov em tempo discreto aliado equao de Chapman-Kolmogorov
como medida de otimizao para a anlise de pginas em rede. A partir do algoritmo
construido, o problema modificado para a anlise de frequncias allicas com a pertubao
da Matriz de Transio e o modelo de previso biolgico de Wright-Fisher. Uma das
principais vantagens desta metodologia a capacidade de prever a configurao allica de
uma populao futura afetada pela Deriva, auxiliando medidas preventivas contra possveis
perdas de variabilidade gentica ou extino de espcies em ambientes de seleo neutra
por parte de pesquisadores na rea de fenmenos biolgicos e otimizao.
Palavras-chaves: Cadeias de Markov, PageRank, Modelo de Wright-Fisher, Deriva
Gentica.
ABSTRACT
In this monograph, a new methodology for mapping allele frequencies under the effect of
Genetic Drift based on software Google page ranking, Pagerank, is proposed. Initially, we
obtain an implementation of the algorithm PageRank using Markov chains in discrete-time
coupled with the Chapman-Kolmogorov equation as optimization measure for network
pages of analysis. From the algorithm built, the problem is modified for analysis of allele
frequencies with disturbance of Transition Matrix and the biological forecasting model
of Wright-Fisher. One of the main advantages of this methodology It is the ability to
predict the allelic configuration of a future population affected by drift, helping preventive
measures against possible loss of genetic variability or extinction of species in the neutral
selection of environments by researchers in the phenomena area biological and optimization.
Keywords: : Markov Chains, PageRank, Wright-Fisher Model, Genetic Drift.
Lista de ilustraes
Figura
Figura
Figura
Figura
Figura
Figura
1
2
3
4
5
6
Figura 7
Figura 8
Figura 9
Figura 10
Figura
Figura
Figura
Figura
Figura
Figura
11
12
13
14
15
16
Crawling: funcionamento . . . . . . . . . . . . . . . . . . . . . . . . . .
Pginas Web e Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . .
Representao do grafo como matriz estocstica . . . . . . . . . . . . .
Representao em grafo da matriz de adjacncia A . . . . . . . . . . .
Grafo de uma rede hipottica com 6 pginas . . . . . . . . . . . . . .
Pagerank Software: funcionamento da verso implementada para uma
rede hipottica de 30 pginas inseridas em ordem numrica . . . . . . .
Pagerank Software: grafo da rede representada na Figura 6 . . . . . .
Configurao gentica para 2 indivduos . . . . . . . . . . . . . . . . .
Probabilidade de frequncia allica na prxima gerao em populaes
de cinco indivduos (N=5) . . . . . . . . . . . . . . . . . . . . . . . .
Probabilidade de frequncia allica na prxima gerao em populaes
de cinquenta indivduos (N=50) . . . . . . . . . . . . . . . . . . . . .
Efeito da deriva gentica durante 100 geraes (teste 1) . . . . . . . .
Efeito da deriva gentica durante 100 geraes (teste 2) . . . . . . . .
Efeito da deriva gentica durante 19 geraes utilizando o Biopagerank
Mapeamento de Heterozigotos . . . . . . . . . . . . . . . . . . . . . . .
Distribuio de Heterozigotos . . . . . . . . . . . . . . . . . . . . . . .
Histograma para o gentipo bw75 . . . . . . . . . . . . . . . . . . . .
21
22
23
29
30
34
34
36
38
38
41
42
43
44
44
50
Lista de cdigos
Cdigo
Cdigo
Cdigo
Cdigo
1
2
3
4
Implementao
Implementao
Implementao
Implementao
da
da
do
da
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
33
39
40
Lista de tabelas
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
1
2
3
4
5
6
7
8
9
Aa X Aa. . . . . . . . . . . . . . . . . . . . . . . . . . .
Matriz de adjacncia A . . . . . . . . . . . . . . . . . .
Matriz de Grau D1 . . . . . . . . . . . . . . . . . . . .
Matriz estocstica linha . . . . . . . . . . . . . . . . . .
Tabela de teste para Wright-Fisher . . . . . . . . . . . .
Mapeamento do alelo estudado ao longo de 100 geraes
Mapeamento do alelo estudado ao longo de 100 geraes
Mapeamento Realizado por Buri . . . . . . . . . . . . .
Mapeamento do teste Buri pelo Biopagerank . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
28
29
29
37
40
41
42
43
Sumrio
1
1.1
1.2
INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Objetivos do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Organizao da monografia . . . . . . . . . . . . . . . . . . . . . . . . 13
2
2.1
2.1.1
2.1.2
2.1.3
2.2
2.3
2.3.1
2.3.2
FUNDAMENTAO TERICA .
A Deriva Gentica . . . . . . . . .
Equilbrio de Hardy-Weinberg . . . . .
Introduo deriva . . . . . . . . . .
Modelo de Wright-Fisher . . . . . . .
O Pagerank . . . . . . . . . . . . .
Cadeias de Markov . . . . . . . . .
Cadeias de Markov em tempo discreto
Equao de Chapman-Kolmogorov . .
.
.
.
.
.
.
.
.
.
3
3.1
3.2
3.3
MODELAGEM DO ALGORITMO
Contextualizao . . . . . . . . . .
Codificao . . . . . . . . . . . . .
Anlise do algoritmo . . . . . . . .
PAGERANK
. . . . . . . .
. . . . . . . .
. . . . . . . .
4
4.1
4.2
4.3
MODELAGEM DO
Contextualizao .
Codificao . . . .
Resultados . . . . .
5
5.1
CONCLUSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
PAGERANK
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
15
16
17
20
23
24
27
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
31
33
GENTICO . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
37
40
Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
A.1
A.2
13
1 Introduo
A deriva gentica ou allica um mecanismo microevolutivo que ocasiona mudanas
nas frequncias dos alelos devido a erros de amostragem, sua influncia est relacionada
com a reduo da diversidade gentica e extino de alelos em ambientes de seleo neutra.
A deriva um processo estocstico, pois no possvel prever a direo da mudana na
frequncia de um alelo causado pela mesma, por isso possui capacidade de modificar as
frequncias allicas em uma nica gerao, mas seu poder como mecanismo evolutivo
aumenta significativamente quando seus efeitos se compem ao longo de vrias geraes.
A importncia da deriva encontra-se em sua capacidade de alterar o fluxo gnico
por meio de eventos aleatrios, sua influncia afetada por fatores como tamanho da
populao, distribuio geogrfica, desastres ecolgicos entre outros. O geneticista Peter
Buri estudou este fenmenos empiricamente em pequenas populaes de moscas de frutas
e seu artigo (BURI, 1956) tornou-se referncia padro de prova experimental na deriva
gentica.
Captulo 1. Introduo
14
captulos seguintes.
Captulo 3: Modelagem do algoritmo Pagerank
Este captulo modela e implementa uma verso inicial do Pagerank com o objetivo
de evidenciar a utilizao das cadeias de Markov em sua estrutura e entender o mecanismo
de anlise de pginas visando a modificao de seu domnio de dados.
Captulo 4: Modelagem do Pagerank Gentico
Este captulo modela e implementa uma software baseado no algoritmo de ranking
de pginas, chamado Biopagerank, com objetivo de formalizar o modelo proposto em uma
aplicao executvel e eficiente.
Captulo 5: Concluso
Este captulo resume as contribuies desta monografia e indica direes para
pesquisas futuras.
15
2 Fundamentao Terica
2.1 A Deriva Gentica
Esta seo introduz conceitos preliminares sobre a deriva gentica, sua influncia e
importncia para o processo de evoluo dos seres vivos.
16
Tabela 1 Aa X Aa.
Masc|Fem
A(p)
a(q)
A(p)
AA(p2 )
Aa(pq)
A(q)
aa(pq)
aa(q 2 )
17
18
2N i
2N
j
j
i
1
2N
2N j
(2.2)
2N
(2N )!
=
j!(2N j)!
j
(2.3)
= min[n : Xn = 0 ou Xn = 2N ]
(2.4)
Pi (Xt = 2N ) =
i
2N
(2.5)
E(Xn+1 |Xn = i) = 2N
i
2N
= i = Xn
(2.6)
19
i = Ei X = 2N Pi (X = 2N )
(2.7)
(2.8)
em que E(X, A) pequeno para o valor esperado de X sobre o conjunto A. Ento dado
n e usando o fato que |Xn 2N |, conclui-se que o primeiro termo converge para
Ei X e o segundo para 0.
Heterozigosidade
Para medir o quo longe a variabilidade gentica pode ir, deve-se analisar a
heterozogosidade, definida como a probabilidade das duas cpias do locus escolhidas no
tempo n serem diferentes:
Hn0 =
2Xn (2N Xn )
2N (2N 1)
(2.9)
h(n) = 1
1
2N
n
h(0)
(2.10)
20
2.2 O Pagerank
O Pagerank uma tcnica utilizada para identificar a importncia de pginas web
atravs da modelagem da rota tomada pelas pessoas enquanto navegam entre as pginas.
O algoritmo Pagerank visto como a principal razo para o sucesso do motor de
busca Google (LANGVILLE, 2012). Para entender como o Pagerank age, primeiro deve-se
analisar como um mecanismo de busca funciona. Referncias para mais informaes so
encontradas em Witten et al. (1999) e Manning et al. (2008).
Crawling
Antes de um mecanismo de busca retornar os resultados da pesquisa feita pelo usurio, deve-se ter um conjunto de resultados possveis. Ao processo de identificar essas pginas
web d-se o nome de crawling. Na rede web, hiperlinks conectam as pginas e crawlers
descobrem novas pginas para esses links, este processo pode continuar indefinidamente,
uma vez que novas pginas so continuamente inseridas na web.
Anlise de texto
Para que o resultado da pesquisa seja eficaz, necessrio que o mecanismo de busca
consiga entender o texto nas pginas. A anlise textual feita atravs de um processo de
indexao em que gerado uma base de dados contendo todas as pginas com o termo
procurado. Frases tambm so indexadas, melhorando a eficincia do processo.
Anlise de links
Um mecanismo de busca deve analisar os links entre as pginas indexadas em
seus servidores para determinar a qualidade da pgina. O Pagerank uma das medidas
utilizadas para este fim, o algoritmo identifica pginas que possuem um grande nmero
de votos (pginas que so referenciadas em grande quantidade) e atribui um valor de
relevncia para estas pginas baseando-se nesse e outros aspectos. Um analisador de links
tambm deve ser capaz de diferenciar pginas originais de possveis fraudes (spam).
Regresso de ranking
As anlise de texto e link so utilizadas para determinar uma classificao com a
ordem final dos resultados, a funo responsvel por gerar esta classificao o principal
segredo dos mecanismos de busca e muitas vezes so baseadas em tcnicas de aprendizado
de mquina.
21
Produo do ranking
O ltimo passo integrar todas as anlises anteriores sobre um conjunto de documentos produzindo uma lista de pginas que ser exibida para o usurio em milisegundos.
A Figura 1 ilustra o processo de anlise realizado pelo Crawler.
O Pagerank, ento, um algoritmo de anlise de link utilizado por um mecanismo
de busca para ajudar na classificao de pginas web.
O algoritmo Pagerank pode ser interpretado como um grafo direcionado em que
as pginas so representadas por ns e os links entre as pginas so representados por
arestas.
A Figura 2 mostra o relacionamo entre pginas aleatrias da Wikepedia. A abstrao
do clculo do Pagerank como um grafo facilita na implementao e modelagem, uma vez
que grafos so constantemente tratados em fenmenos computacionais.
O modelo de grafo do Pagerank pode ser generalizado para qualquer grafo arbitrrio
permitindo vrias interpretaes. Como exemplo de usos para o algoritmo pode-se citar:
22
Clustering
O problema de clusterizao concentra-se em encontrar formas de dividir um grafo
separando os ns em grupos fortemente relacionados, pode-se utilizar o Pagerank para
calcular esses grupos de ns de forma extremamente rpida (ANDERSEN et al., 2006).
Ranks esportivos
O Pagerank pode ser usado para computar ranks esportivos substituindo um
usurio navegando aleatoriamente pela internet por times e conjuntos de estatsticas sobre
os mesmos. A partir desses dados, o modelo pode inferir qual time possui maior chance de
passar para a fase seguinte (GOVAN et al., 2008).
Bioinformtica
O Generank uma modificao no algoritmo original que produz uma lista de
genes com caracteristicas relevantes para os experimentos para os quais est sendo usado.
Para isso o Generank analisa as relaes entre os genes para inferir nveis de ativao e
outros aspectos necessrios para os pesquisadores (MORRISON et al., 2005).
Partindo-se da ideia do algoritmo Pagerank como um grafo direcional G com a
23
(2.11)
em que D+ uma matriz diagonal com entradas Dii = grau de sada do n i e D+ definida
por Golub e Loan (1996) da seguinte maneira:
(
+
(D )ii =
1/Dii
0
Dii =
6 0
Dii = 0
(2.12)
(2.13)
24
possui ausncia de memria, pois o estado futuro depende apenas da informao corrente
(CUNHA; VELHO, 2003). Os conceitos apresentados neste tpico esto baseados em Maia
(2008) .
(2.14)
Podemos pensar em uma cadeia de Markov como um grafo com estados ligados
entre si atravs de transies possveis, a cada intervalo de tempo t um estado visitado.
Utilizando o conceito de probabilidade condicional e propriedades markovianas,
(t)
temos que a probabilidade i = P (Xt = i) da cadeia estar no estado i no instante t
determinada pela matriz de transio e pela distribuio de probabilidade inicial. Dado
um espao de estados S = 0, 1, 2, ..., N em que N um nmero inteiro positivo definido
(t)
pelo vetor (t) = (0 , ..., n(t) ) infere-se que:
(t)
j = P (Xt = j) =
=
P (Xt = j, Xt1 = i)
iX
iX
P
iX
(2.15)
(t1) (t1)
i
pij
(t) pode ser interpretado como uma matriz linha definida pela equao matricial
(t) = (t1) P (t1) ,
(2.16)
(2.17)
25
(t) = (0) P t
(2.18)
Definimos, assim, a matriz de transio de n passos como sendo P (n) = (pij ) tal
(n)
que pij = (Xt+n = j|Xt = i).
Teorema 2.3.1. Seja Xn uma cadeia de Markov homognea. Ento a matriz de transio
de n passos igual a n-sima potncia da matriz de transio, isto P (n) = P n .
Demonstrao. Temos que:
O lado direito da igualdade pode ser reescrito como: (Para melhorar a visualizao
foi adotado pin ,in+1 = P (in , in+1 ))
0
i0
P (i0 , i1 ), ..., P (in+m1 , in+m )
0
i0
P (i0 , i1 ), ..., P (in1 , in )
(2.20)
(2.21)
Logo,
(2.22)
(2.23)
ym Bm
(2.24)
26
P
y1 B1
P
ym Bm
P 1 (i, j) = P (i, j)
(
P 0 (i, j) =
(2.25)
1
se i = j
0 caso contrrio
(2.26)
(2.27)
(2.28)
(2.29)
(2.30)
pn+m
=
i,j
N
X
(n) (m)
pi,k Pk,j
k=0
(2.31)
27
(2.32)
kS
Corolrio 2.3.1. Seja P (n) a matriz de transio das probabilidades em n etapas S. Ento,
para todo n 2, P (n) = P n , onde P n .
Demonstrao. Utilizando a definio de produto de matrizes, para todo m, n 1,
P (m+n) = P (m) P (n) P (2) = P P = P 2 . Por induo, suponha que P (n) = P n n k.
Ento, P (k+1) = P (k) P = P k P = P k+1 .
Proposio 2.3.1. Seja Xn uma cadeia de Markov estacionria com espao de estados S e
P
P uma matriz de transio, fixando n 1. Ento, n (i) = P (Xn = i) =
pki (n)P (X0 =
kS
Esta uma importante frmula por que explica de maneira explcita como encontrar
a distribuio de Xn a partir da distribuio inicial e da matriz de transio P , permitindo
sua fcil implementao para o uso computacional.
28
3.1 Contextualizao
O primeiro passo para obter o vetor Pagerank perturbar a matriz de adjacncia
P
A para obter uma matriz coluna estocstica S com Si,j > 0,i, j e S:,j = 1, j.
A perturbao Pagerank aplica-se matriz de graus D, usada para obter as
perturbaes estocsticas, em que Di,j igual ao grau do vrtice vi .
(
Dij =
0
P
Ai,: = grau(vi ) = grau(vj ) = A:,j
1 6= j
i=j
(3.1)
a 0
b 1
c 0
d 0
e 1
1
0
1
0
1
0
1
0
1
0
0
0
1
0
1
1
1
0
1
0
Uma matriz linha estocstica, S, uma matriz no negativa que a soma das linhas
P
igual a 1, i.e., Si,: = 1. Dada uma matriz de adjacncias A e sua respectiva matriz de
grau D, a matriz linha estocstica, S pode ser obtida por
S = D1 A.
(3.2)
29
0
0
0
1/3 0
0
0 1/2 0
0
0 1/2
0
0
0
e
0
0
0
0
1/3
Uma matriz coluna estocstica S uma matriz no negativa que a soma das colunas
P
igual a 1, isto , S:,j = 1. Dada uma matriz de adjacncias A e sua respectiva matriz
de grau D, a matriz coluna estocstica, S pode ser obtida invertendo a ordem da Equao
(3.2)
S = AD1 .
(3.3)
0.0
0.3
0.0
0.0
0.3
0.5
0.0
0.5
0.0
0.3
0.0
0.3
0.0
0.5
0.0
0.0
0.0
0.5
0.0
0.3
0.5
0.3
0.0
0.5
0.0
1
1
1
1
1
30
(3.4)
(3.5)
Considerando (k) como o nmero de links que a pgina k recebe, temos que
(1) = 2, (2) = 2, (3) = 4, (4) = 2, (5) = 1, (6) = 2, porm, necessrio um modo
de avaliar o peso de uma pgina pelo nmero de links que apontam para ela, e com isso
ajustar sua influncia para as pginas para as quais ela referencia. esse ajuste dado por:
(k) =
X
jLk
(j)
nj
(3.6)
Hij =
1/nj
0
31
se j Li
se j
/ Li
(3.7)
0 1/2 0 1/3 0
0
1/2
0 0 1/3 0
0
1/2 1/2 0
0
1/3
1/2
H=
0
0 1 0 1/3 0
0
0
0
0
0
1/2
0
0 0 1/3 1/3 0
(3.8)
= H.
(3.9)
3.2 Codificao
O processo de implementao de uma verso do Pagerank consiste de duas partes:
a construo de uma interface grfica que permita inicializar a rede estudada e o clculo e
anlise do vetor estacionrio Pagerank.
Nesta monografia ser abordada apenas a implementao dos algoritmos mais
relevantes.
Perturbao da matriz de adjacncias
Para construir a matriz de perturbao, o sistema manualmente identifica o nmero
de pginas da rede e o links entre elas.
A modelagem da rede feita atravs de uma matriz de ordem igual ao nmero
total de pginas, em que a diagonal principal representa o relacionamento entre as pginas
que possuem links.
O Cdigo 1 implementa a funo responsvel pela pertubao da matriz de adjacncia.
/**
*/
32
int _total_paginas = f u n c _ n u m e r o _ d e _ p a g i n a s _ r e d e () ;
6
7
int v e t o r _ r e l a c i o n a m en t o [ _total_paginas ];
10
11
12
13
{
v e t o r _ r e l a c i o n a m e n t o [ i ]= func_total_links ( i ) ;
14
15
16
17
// Constroi a matriz D
18
19
{
_matrix_paginas [ i ][ i ]=1/( func_total_links ( i ) ) ;
20
21
22
return _matrix_paginas ;
23
24
25
26
Equao de Chapman-Kolmogorov
Para que o software consiga achar o grau de relevncia da pgina atual necessrio
um algoritmo que permita analisar a importncia das outras pginas associadas, porm
sem calcular todos os dados da matriz.
A equao de Chapman-Kolmogorov, representada em (2.31) possibilita que este
requisito seja efetivamente obedecido.
O Cdigo 2 implementa a classe ChapmanKolmogorov que modela a funo
recursiva capaz de calcular a importncia da pgina web sem a necessidade de calcular
todos os elementos da matriz de transio (que em alguns casos pode ser da ordem dos
milhes).
/**
*/
33
int u ;
else
10
11
12
13
fator += v [ i ][ u ]* probabilidade (v ,t -1 ,o ,u , j ) ;
14
15
16
return fator ;
}
17
18
19
34
35
4.1 Contextualizao
Para evidenciar os efeitos da deriva, a modelagem do Biopagerank considera
populaes com as seguintes caractersticas:
Populao finita;
Organismos diploides;
Nmero infinito de gametas;
Geraes sem sobreposio;
Ambiente de seleo neutra;
Utilizando o modelo de Wright-Fisher para dois alelos hipotticos, A e a, possvel
representar a probabilidade condicional do nmero de genes A no tempo t + 1, dado o
nmero de genes A no tempo t e o tamanho das populaes. Se n(t) for o nmero de genes
A na populao nesse tempo t, tem-se a seguinte distribuio:
2N i
P (n(t + 1) = j|n(t) = i, N ) =
2N
j
j
i
1
2N
2N j
(4.1)
P10
P20
T =
P30
Pn0
0
P11
P21
P31
:
Pn1
0
36
0
P12
P22
P32
:
Pn2
0
0
P13
P23
P33
:
Pn3
0
...
0
... P1n
... P2n
... P3n
...
:
... Pnn
...
1
(4.2)
(n)
pij =
k
X
(u) (nu)
pir prj
, 0 < u < n.
(4.3)
r=1
37
P ter mltiplas iteraes com um vetor inicial para proporcionar o estado allico de cada
populao em determinados intervalos de tempo.
A equao de Chapman-Kolmogorov facilita esse processo, uma vez que no
(n)
necessrio calcular todas iteraes para achar um valor especfico Pij .
Os valores calculados so inseridos em uma matriz linha, chamada de matriz
BiopageRank, que contm a frequncia allica das populaes estudadas.
4.2 Codificao
A implementao do Biopagerank possui uma interface que permite inicializar o
software com :
Nmero de geraes;
Frequncia dos alelos observada na gerao inicial;
Tamanho da populao;
Nmero de populaes no estudo;
Algoritmo de Wright-Fisher
Utilizando a mtodo implementado de Wright-Fisher, pode-se calcular a frequncia
exata do alelo estudado.
A Tabela 5 representa os resultados do algoritmo implementado para uma srie de
casos de testes com tamanhos de populaes variveis.
Tabela 5 Tabela de teste para Wright-Fisher
Tamanho da populao
Cpias do gene(2N)
Wright-Fisher
2
4
0.375
5
10
0.246
10
20
0.176
50
100
0.080
100
200
0.056
500
1000
0.025
1000
2000
0.018
10.000
20.000
0.006
38
/**
*/
39
double u ; n =0;
n = n1 ;
10
fator_Num =2* n ;
11
fator_Den = j ;
12
13
14
15
else {
for ( u = fator_Den -1; u >0; u - -) fator_Den = fator_Den * u ;
16
17
18
19
else {
for ( u = fator_Den2 -1; u >0; u - -) fator_Den2 = fator_Den2 * u ;
20
21
22
23
24
25
26
27
28
29
40
/**
*/
5
6
int i , j ;
10
11
12
13
14
15
16
17
return vetorTransic ;
18
19
4.3 Resultados
O software BiopageRank mapeia as frequncias allicas sob o efeito da deriva
gentica utilizando o modelo proposto. A Tabela 6 resume um conjunto de populaes
com caractersticas hipotticas, bem como o resultado do processamento realizado pelo
Biopagerank.
Tabela 6 Mapeamento do alelo estudado ao longo de 100 geraes
Caractersticas
Geraes
Frequncia inicial do alelo
Tamanho da populao
Nmero de populaes
Populaes extintas
Populaes sobreviventes
Populaes com alelo fixado
Quantidade
100
50
100
50
12
38
13
41
Quantidade
100
30
50
2
1
1
1
42
A Tabela 8 resume o teste realizado por Buri (1956) com moscas do tipo Drosophila.
Tabela 8 Mapeamento Realizado por Buri
Caractersticas
Geraes
Frequncia inicial do alelo
Tamanho da populao
Nmero de populaes
Populaes extintas
Populaes sobreviventes
Populaes com alelo fixado
Quantidade
19
50
16
107
30
77
28
43
Quantidade
19
50
16
107
35
72
33
Na Figura 13 percebe-se que quase metade das populaes est sofrendo evoluo,
mas a seleo natural no a responsvel por esse processo. A relao 35:33 encontrada
pela computao do Biopagerank tambm satisfaz as condies necessrias para a deriva
gentica.
A variabilidade Gentica sob o efeito da deriva cai haja vista que o nmero de
heterozigotos nas populaes tambm diminui, a Figura 14 ilustra o mapeamento da
frequncia de heterozigotos de acordo com o experimento de Buri e com o Software
baseado no modelo proposto.
44
45
N k
p (1 p)N k
P (k) =
k
(4.4)
V ar(K) = N p(1 p)
(4.5)
V ar(p) = V ar(K/N ) =
1
p(1 p)
V ar(K) =
2
N
N
(4.6)
V ar(pt+1 ) =
pt (1 pt )
2N
(4.7)
A varincia mensura o grau de incerteza sobre as frequncias dos alelos nas prximas
geraes dados as atuais frequncias. Quanto maior o grau de incerteza, maior ser o efeito
da deriva. Esta afirmativa pode ser provada analisando o desvio padro da deriva gentica,
pois quanto menor o valor de N (nmero de indivduos), maior ser o desvio padro.
O Biopagerank modela o seguinte sistema:
pk qk
pk qk
, qk+1 = qk + / 2
,
= pk + / 2
2N
2N
r
pk+1
p, q R
(4.8)
46
5 Concluso
Este trabalho apresenta um modelo preditivo para anlise de frequncias allicas
sob o efeito da deriva via Cadeias de Markov e o modelo de Wright-Fisher, tornando-se
uma alternativa para futuros pesquisadores que queiram resultados rpidos e eficientes
para suas pesquisas.
O software pode ser facilmente estendido para englobar outros mecanismos evolutivos, bem como modificar as condies do prprio Biopagerank, como exemplo pode-se
alterar as populaes de finitas para infinitas, considerar geraes com sobreposio, etc.
47
Referncias
ANDERSEN, R. et al. Local graph partitioning using pagerank vectors. Proceedings of the
47th Annual IEEE Symposium on Foundations of Computer Science, 2006. Citado na
pgina 22.
ASCENSO, C. P. Como funciona um motor de busca? 2014. Website.
Disponvel em: <http://www.portalwebmarketing.com/MotoresdeBusca/
Comofuncionaummotordebusca/tabid/435/Default.aspx>. Acesso em: 04/02/2015.
Citado na pgina 21.
BORGES-OSORIO, W. M. R. M. R. Gentica Humana. 3. ed. So Paulo: Artmed Editora,
2013. ISBN 9788565852906. Citado 2 vezes nas pginas 15 e 16.
BURI, P. Gene frequency in small populations of mutant drosophila. Evolution, 1956.
Citado 5 vezes nas pginas 13, 42, 43, 44 e 50.
CUNHA, A. M. da; VELHO, L. Metodos probabilisticos para reconhecimento de voz.
IMPA - VISGRAF Laboratory, 2003. Citado na pgina 24.
DASGUPTA, A. Probability for Statistics and Machine Learning: Fundamentals and
Advanced. New York: Springer, 2011. ISBN 978-1-4419-9633-6. Citado na pgina 27.
DURRETT, R. Probability Models for DNA Sequence Evolution. 2. ed. New York:
Springuer, 2008. ISBN 978-0-387-78169-3. Citado 2 vezes nas pginas 17 e 35.
EWENS warren J. Mathematical Population Genetics. 2. ed. New York: Springuer, 2004.
ISBN 0-38720191-2. Citado na pgina 17.
FUTUYAMA, D. J. Biologia Evolutiva. 2. ed. So Paulo: FUNPEC, 2002. ISBN
0-87893-188-0. Citado na pgina 16.
GLEICH, D. F. Models and algorithms for Pagerank sensitivity. 198 p. thesis, 2009.
Citado 2 vezes nas pginas 22 e 23.
GOLUB, G. H.; LOAN, C. F. V. Matrix Computations. [S.l.]: The Johns Hopkins
University Press, 1996. ISBN 9780801854149. Citado na pgina 23.
GOVAN, A. Y. et al. Generalizing googles pagerank to rank national football league
teams. SAS Global Forum, 2008. Citado na pgina 22.
KLIMAN, B. S. R. et al. Genetic Drift and Effective Population Size.
2008. Website. Disponvel em: <http://www.nature.com/scitable/topicpage/
genetic-drift-and-effective-population-size-772523>. Acesso em: 12/05/2015. Citado na
pgina 38.
LANGVILLE, C. D. M. A. N. Googles PageRank and Beyond: The Science of Search
Engine Rankings. 2. ed. New Jersey: Princeton, 2012. ISBN 978-0691152660. Citado na
pgina 20.
Referncias
48
49
para o alelo bw, como esperado a partir das frequncias iniciais dos dois alelos.
50