Você está na página 1de 192

M

etodos Estatsticos Aplicados em


Gen
etica Humana
Mariza de Andrade
Division of Biostatistics
Mayo Clinic Rochester
MN, U.S.A.

Hildete Prisco Pinheiro


Departamento de Estatistica
UNICAMP
SP, Brasil

PY
CO

Pref
acio

Para Lydia e John.


Para Tas, Joana e Alusio.

Estas notas elaboradas para o mini-curso a ser ministrado no XV SINAPE pretendem servir a, basicamente, dois propositos:

NO
T

1. constituir-se num mini-texto de Estatstica Genetica para alunos de


Graduac
ao e de Mestrado nas areas de Matematica, Estatstica, Biologia e etc.

2. servir como referencia para aqueles indivduos interessados em fazer


trabalhos na
area de genetica humana.

DO

Com o desenvolvimento da tecnologia molecular, o mapa do genoma


humano est
a praticamente completo. Centenas de doencas Mendelianas ja
foram mapeadas e, na maioria dos casos os genes responsaveis ja foram
localizados e sequenciados, o que nao e o caso de doencas complexas como
hipertens
ao. Este texto foi estruturado para descrever e delinear a area
emergente de Estatstica Genetica no contexto de localizacao de genes no
genoma, descrevendo a metodologia estatstica que pode ser utilizada nessa
area.
Primeiramente, apresentamos conceitos basicos de genetica humana e de
genetica populacional, indo do conceito de alelos ate o conceito de diversidade. No Captulo 2, introduzimos o conceito de correlacoes familiares, como
calcul
a-las e fazer testes de hip
oteses a respeito. A ideia basica de analise
de segregac
ao ser
a introduzida no Captulo 3. No Captulo 4, discutimos a
metodologia estatstica usada em analise de ligacao. Finalmente, revisamos
as medidas de dist
ancia aplicadas em genetica populacional e molecular e
mostramos alguns novos metodos estatsticos que podem ser utilizados na
analise de seq
uencias gen
omicas no Captulo 5.
O conte
udo destas notas n
ao e uma enciclopedia, mas somente uma
apresentac
ao de conceitos fundamentais para dar uma base de entendimento
i

PY

ii

CO

para o problema. Outros topicos importantes e atuais sao modelos animais,


envolvendo ratos e ratazanas, e analise de microarrays, mas neste texto nao
cobriremos tais
areas de pesquisa. Pretendemos, no entanto, preparar uma
continuac
ao desta monografia num futuro proximo.
Gostaramos de agradecer `a FAPESP e `a Divisao de Bioestatstica da
Mayo Clinic, pelo apoio financeiro e academico, aos alunos do programa
de mestrado em estatstica da UNICAMP, em particular, Benilton Carvalho, Roberta de Souza e Tatiana Benaglia, pela valiosa contribuicao na
elaborac
ao deste texto e ao grande amigo Prof. Sergio dos Reis, do Instituto
de Biologia, pela ajuda e paciencia na explicacao dos conceitos biologicos.

DO

NO
T

Mariza de Andrade e Hildete Pinheiro


Campinas, 2002.

Conte
udo
1 Conceitos B
asicos de Gen
etica Humana
1.1 Terminologia usada em genetica
humana . . . . . . . . . . . . . . . . . . . . . .
1.1.1 As leis de Mendel . . . . . . . . . . . . .
1.2 Estimacao de freq
uencias alelicas . . . . . . . .
1.2.1 Freq
uencias alelicas multinomiais . . . .
1.2.2 Estimacao por maxima verossimilhanca
1.2.3 Metodo dos momentos . . . . . . . . . .
1.2.4 Estimacao Bayesiana . . . . . . . . . . .
1.3 Desequilbrio . . . . . . . . . . . . . . . . . . .
1.3.1 Desequilbrio de Hardy-Weinberg . . . .
1.3.2 Desequilbrio de ligacao . . . . . . . . .
1.3.3 Desequilbrios genotpicos compostos . .
1.3.4 Testes m
ultiplos . . . . . . . . . . . . .
1.3.5 Testes de homogeneidade . . . . . . . .
1.4 Diversidade . . . . . . . . . . . . . . . . . . . .
1.4.1 Heterozigosidade . . . . . . . . . . . . .
1.4.2 Diversidade genetica . . . . . . . . . . .

1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

1
6
6
7
16
21
22
26
26
37
44
46
47
48
49
52

2 Correla
c
ao Familiar
59
2.1 Matrizes estocasticas: ITU . . . . . . . . . . . . . . . . . . . . 59
2.2 Conceito de correlacoes . . . . . . . . . . . . . . . . . . . . . 65
2.3 Componentes de vari
ancia . . . . . . . . . . . . . . . . . . . . 68
2.4 Teste de associacao . . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.1 Estudo caso-controle . . . . . . . . . . . . . . . . . . . 72
2.4.2 Estudo caso-genitores . . . . . . . . . . . . . . . . . . 72
2.4.3 Associacao entre fenotipos quantitativos e marcadores
geneticos . . . . . . . . . . . . . . . . . . . . . . . . . 74
iii


CONTEUDO

iv

3 An
alise de Segrega
c
ao
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Analise de segregacao classica . . . . . . . . . . . . . . . . .
3.2.1 Modelo poligenico para fen
otipos discretos . . . . . .
3.3 Analise de segregacao moderna . . . . . . . . . . . . . . . .
3.3.1 A distribuicao genotpica conjunta dos conjuges. . .
3.3.2 A distribuicao fenotpica condicionada no genotipo. .
3.3.3 Transmissao genetica do genotipo principal. . . . . .
3.3.4 Tipos de amostragem. . . . . . . . . . . . . . . . . .
3.3.5 Metodo de verossimilhanca . . . . . . . . . . . . . .
3.3.6 Selecionamento atraves do probando . . . . . . . . .
3.3.7 Testes de hip
oteses geneticas . . . . . . . . . . . . .
3.4 Modelos regressivos . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Fenotipos binarios . . . . . . . . . . . . . . . . . . .
3.4.2 Idade do incio da doenca . . . . . . . . . . . . . . .
3.4.3 Analise condicional dependendo do selecionamento .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

75
75
75
79
80
81
81
81
82
83
83
84
84
88
89
90

4 An
alise de Liga
c
ao
4.1 Recombinacao genetica . . . . . . . . . . . .
4.2 Analise pontual e multipontual . . . . . . .
4.3 Modelo parametrico . . . . . . . . . . . . .
4.4 Formas de heranca genetica . . . . . . . . .
4.5 Analise de dados familiares . . . . . . . . .
4.5.1 Exemplo de analise:
doenca autossomica dominante - fase
4.6 Testes de homogeneidade . . . . . . . . . .
4.7 Testes de heterogeneidade . . . . . . . . . .
4.8 Funcoes de mapeamento . . . . . . . . . . .
4.9 Analise nao-parametrica . . . . . . . . . . .
4.9.1 Pares de irm
aos afetados . . . . . . .
4.10 Analise multipontuais . . . . . . . . . . . .
4.11 Pacotes de computadores . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

101
103
104
105
108
109

desconhecida
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

109
112
113
114
114
115
117
119

5 An
alise de Dados Moleculares
5.1 Introducao . . . . . . . . . . . . . . .
5.2 Medidas de diversidade genetica . .
5.2.1 Medidas intrapopulacionais .
5.2.2 Medidas interpopulacionais .
5.2.3 Testando hip
oteses . . . . . .
5.3 Distancias entre seq
uencias de DNA

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

121
121
122
122
125
128
129

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.


CONTEUDO

5.4

5.5

5.3.1 Distancias baseadas em modelos . . . . . . . . . . . .


5.3.2 Distancia log determinante . . . . . . . . . . . . . . .
5.3.3 Distancia de Hamming . . . . . . . . . . . . . . . . . .
Matrizes de distancia . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Teste de correlacao de Mantel . . . . . . . . . . . . . .
5.4.2 Analise de variancia molecular - AMOVA . . . . . . .
CATANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Motivacao estatstica . . . . . . . . . . . . . . . . . . .
5.5.2 Variacao em dados categoricos e seq
uencias genomicas
5.5.3 Particionando a medida de diversidade: uma u
nica
posicao . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.4 Particionando a medida de diversidade:
m
ultiplos stios . . . . . . . . . . . . . . . . . . . . . .
5.5.5 O modelo probabilstico . . . . . . . . . . . . . . . . .
5.5.6 Momentos das medidas de diversidade . . . . . . . . .
5.5.7 A estatstica de teste . . . . . . . . . . . . . . . . . . .
5.5.8 Analise de dados . . . . . . . . . . . . . . . . . . . . .

Bibliografia

v
129
135
135
136
136
138
144
145
150
154
155
157
159
162
168
171


CONTEUDO

DO

NO
T

CO

PY

vi

1.3
1.4
1.5
1.6

2.1

3.1

3.2

PY

Coeficientes de relacionamento e relacao para diversos tipos


de parentesco. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Matriz de transmiss
ao genetica para um locus autossomico
com dois alelos. Cada casela e uma distribuicao genotpica
(puF uM AA puF uM Aa puF uM aa ) . . . . . . . . . . . . . . . . . .
Probabilidades de Transmissao para modelos de um u
nico
locus com dois alelos (A1 e A2 ). . . . . . . . . . . . . . . . . .
C
alculo da func
ao de verossimilhanca de um modelo autossomico com 50% de risco para o heterozigoto no heredograma
da Figura 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DO

3.3

Amino
acidos. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Freq
uencias dos tipos de acasalamento e prole de uma populac
ao em equilbrio de Hardy-Weinberg com genotipos dos
genitores nas proporc
oes p2 : 2pq : q 2 . . . . . . . . . . . . . .
Freq
uencias genotpicas para os grupos sang
uneos M N entre
m
aes e pais. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Freq
uencias Alelicas e genotpicas para o locus Pgm em dados
de mosquitos (Weir, 1996) . . . . . . . . . . . . . . . . . . . .
Teste Exato para o EHW no locus Pgm para os dados da
tabela 1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Teste de homogeneidade dos dados de Mendel sobre a forma
da semente (R: redonda, W: enrugada) em 10 plantas F2
(Weir, 1996) . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NO
T

1.1
1.2

CO

Lista de Tabelas

3.3
3.3
3.3
3.2

vii

10

24
32

33

48

62

82
92

94
95
96
97
98

LISTA DE TABELAS

PY

viii

Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1
4.2
4.3

Resumo de Recombinacao . . . . . . . . . . . . . . . . . . . . 104


An
alise do Heredograma 1 . . . . . . . . . . . . . . . . . . . . 112
Resultados da Analise de Ligacao . . . . . . . . . . . . . . . . 112

5.1
5.2
5.3

N
umero de Substituicoes de Nucleotdeos . . . . . . . . . . . 132
Substituic
oes de Nucleotdeos . . . . . . . . . . . . . . . . . . 133
Delineamento para Analise de Variancia Molecular Hierarquica (AMOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Tabela de Contingencia (K posicoes). . . . . . . . . . . . . . . 147
Sum
ario dos Dados (Uma Posicao) . . . . . . . . . . . . . . . 154
Comparac
ao da Variacao entre os Compartimentos. indica
os dados cujas visitas estejam faltando. Estatsticas de teste
com ? se encontram acima do percentil 99.5 da distribuicao de
referencia e aqueles com ?? se encontram acima do seu maximo.171

DO

NO
T

5.4
5.5
5.6

CO

3.3

99

PY
CO

Lista de Figuras
2.1
2.2

C
alculo da identidade por descendencia . . . . . . . . . . . .
Mecanismos de associacao . . . . . . . . . . . . . . . . . . . .

60
71

3.1

Exemplo de Heredograma . . . . . . . . . . . . . . . . . . . .

91

4.1
4.2
4.3
4.4

Recombinac
ao - Loci Proximos . . . .
Recombinac
ao - Loci Distantes . . . .
Heredograma 1 . . . . . . . . . . . . .
Heredograma considerando duas fases

.
.
.
.

.
.
.
.

DO

NO
T

.
.
.
.

ix

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

104
105
110
110

DO
NO
T

PY

CO

Captulo 1

Conceitos B
asicos de
Gen
etica Humana
1.1

Terminologia usada em gen


etica
humana

Atualmente, em biologia, as diferencas geneticas entre os organismos


sao, em geral, encontradas por analise molecular direta do DNA ou protenas.
Analise genetica e possvel em qualquer organismo. Por esta raz
ao, conceitos e enfoques experimentais de genetica populacional tem atrado quase
todas as areas da biologia moderna. Genetica populacional e o estudo de
diferencas geneticas naturais entre organismos. Diferencas geneticas que
sao comuns entre organismos da mesma especie sao chamadas polimorfismo
genetico, enquanto que diferencas geneticas acumuladas entre especies constituem divergencia genetica. Podemos ent
ao definir genetica populacional
como o estudo de polimorfismo e divergencia.
O que e gen
otipo e fen
otipo?
Gene e um termo geral que significa a entidade fsica transmitida de
pai para filho durante o processo de reproducao que influencia as caractersticas hereditarias. O conjunto de genes presentes num indivduo constitui o seu gen
otipo. A expressao fsica ou bioqumica do genotipo e denominada fen
otipo. Os fen
otipos podem ser quantitativos ou qualitativos. Um
fenotipo e considerado quantitativo se ele e medido numa escala contnua,
como a altura e o peso; e considerado qualitativo quando e medido de forma
categorica, como nvel de gravidade de uma doenca (dicotomico ou politomico). Genes podem existir em diferentes formas ou estados. Estas
formas alternativas de um gene sao chamadas alelos. Alelos podem ser do1

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

minantes, recessivos ou codominantes. Alelos dominantes s


ao aqueles em
que somente uma c
opia alelica e suficiente para a expressao do fenotipo.
Para os alelos recessivos e necess
ario duas copias alelicas para a expressao
do fenotipo e, para o alelo codominante n
ao h
a domin
ancia completa sobre
a outra forma alelica. Do ponto de vista bioqumico, um gene corresponde a
uma seq
uencia especfica de componentes (chamados nucleotdeos) ao longo
de uma molecula de DNA (acido desoxiribonucleico).
Nucleotdeos sao as unidades fundamentais dos genomas e cada nucleotdeo consiste de um acu
car, um fosfato e uma base. Numa macromolecula de
acido nucleico, todos os acu
cares sao do mesmo tipo, ribose ou desoxiribose.

Assim, acidos nucleicos vem em duas formas: Acido


Ribonucleico (RNA)

ou Acido
Desoxirinucleico (DNA). O DNA tem quatro possveis bases de
nucleotdeo: Adenina (A), Citosina (C), Guanina (G) e Timina (T), onde
A pareia com T e G com C. RNA tambem tem quatro bases: A, C, G e
Uracila (U) no lugar de T. A e agora o complementar de U. Ao contrario
do DNA, o RNA e uma fita simples.
Cada grupo adjacente de 3 nucleotdeos constitui um c
odon (Tabela 1.1),
que especifica um aminoacido correspondente na cadeia polipeptdica (ou
proteica).
AUG codigo de incio para sntese polipeptdica.
UAA, UAG e UGA especificam o termino da sntese polipeptdica.
Uma protena e feita de uma seq
uencia de amino
acidos. Para transformar
as palavrasde DNA em aminoacidos, uma maquin
aria molecular sofisticada e necess
aria. A Transcric
ao e o processo pelo qual as duas fitas de DNA
sao abertas e uma molecula de RNA e construda ao longo de uma fita de
DNA pela enzima RNA polimerase para iniciar a sntese de protena. Cada
base deste RNA mensageiro (mRNA) e complementar `a base de DNA correspondente. O mRNA ent
ao carrega essa informacao genetica do DNA para
a fabrica de protenas, os ribossomos. No citoplasma, o mRNA e traduzido
em protena pela acao de varias moleculas de tRNA (RNA transportador),
cada uma especfica para um aminoacido. O tRNA traduz o codigo genetico
em amino
acidos. De um lado da molecula de tRNA possui uma estrutura
denominada anticodon que se liga ao codon complementar de mRNA e, o
outro lado carrega os amino
acidos. Como o ribossomo se move ao longo da
seq
uencia de mRNA, os aminoacidos s
ao ligados e separados do tRNA. O
processo continua ate que o ribossomo alcance um codon de parada.
Seq
uencias podem ser comparadas a nvel de nucleotdeo ou amino
acido.
Substituicoes de nucleotdeos podem ser avaliadas se causam mudancas nos
aminoacidos (n
ao sin
onimas) vs. substituicoes que nao causam mudancas
(silenciosas ou sin
onimas). Ainda, substituicoes entre purinas (A e G)


1.1. TERMINOLOGIA USADA EM GENETICA

HUMANA

Tabela 1.1: Aminoacidos.


Aminoacidos
Glicina (GLY)
Alanina (ALA)
Valina (VAL)
Leucina (LEU)
Isoleucina (ILE)
Serina (SER)
Treonina (THR)

Acido
Asp
artico (ASP)

Acido
Glut
amico (GLU)
Lisina (LYS)
Arginina (ARG)
Asparagina (ASN)
Glutamina (GLN)
Cisteina (CYS)
Metionina (MET)
Fenilalanina (PHE)
Tirosina (TYR)
Triptofano (TRP)
Histidina (HIS)
Prolina (PRO)

Codons
GGT, GGC, GGA, GGG
GCT, GCC, GCA, GCG
GTT, GTC, GTA, GTG
TTA, TTG, CTT, CTC, CTA, CTG
ATT, ATC, ATA
TCT, TCC, TCA, TCG, AGT, AGC
ACT, ACA, ACG, ACC
GAT, GAC
GAA, GAG
AAA, AAG
CGT, CGC, CGA, CGG, AGA, AGG
AAT, AAC
CAA, CAG
TGT, TGC
ATG
TTT, TTC
TAT, TAC
TGG
CAT, CAC
CCT, CCC, CCA, CCG

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

somente ou piramidinas (C e T) somente sao denominadas transic


oes e,
aquelas entre uma purina e uma piramidina (A C, A T, G C,
G T) transvers
oes.
O 1o Passo da expressao genica e transcric
ao: a seq
uencia de nucleotdeos
presente em uma fita de DNA do gene e copiada fielmente para os nucleotdeos de uma molecula de RNA. Enquanto o RNA transcrito e sintetizado, cada base no DNA vai pareando com uma base no RNA. As regras
de pareamento sao as mesmas do DNA, sendo que a base U (Uracila) e
encontrada no lugar de T (Timina).
O 2o Passo e o processamento do RNA, em que certos segmentos do
RNA transcrito sao removidos por splicing. Os segmentos que s
ao eliminados s
ao conhecidos como introns. No splicingde RNA, cada intron
e clivado nas suas extremidades e descartado, enquanto que as extremidades das seq
uencias de RNA sao ligadas. As regioes entre os introns que
permanecem no RNA totalmente processado sao chamadas de Exons. O
RNA completamente processado constitui o RNA maduro. A traducao do
RNA mensageiro ocorre no ribossomo dentro do citoplasma para produzir
a protena que e codificada na seq
uencia de nucleotdeos.
Uma mutac
ao e definida como qualquer alteracao permanente do DNA,
isto e, uma alteracao da seq
uencia de nucleotdeos ou arranjo do DNA no
genoma. Em termos geneticos, as mutacoes classificam-se em tres categorias:
mutac
oes do genoma (como e o caso da Sndrome de Down, em que h
a tres
copias do cromossomo 21), dos cromossomos (que e a troca de segmentos de
cromossomos nao hom
ologos) e dos genes (como a doenca de Huntington,
em que ha mutacao de pares de bases). Delec
ao e a perda de um segmento
cromossomico.
A totalidade de DNA numa celula e o genoma. Dentro de uma celula, os
genes s
ao dispostos em uma ordem linear ao longo de corp
usculos filamentosos microsc
opicos chamados cromossomos. A celula humana reprodutiva
contem 23 cromossomos e um genoma de tamanho aproximadamente 3109
pares de bases. A posicao de um gene ao longo do cromossomo e chamada
de locus do gene. Na maioria dos organismos, como nos seres humanos, cada
celula contem duas copias de cada tipo de cromossomo, um vindo da sua
mae, atraves do ovulo e o outro vindo do pai atraves do espermatoz
oide.
A meiose e o processo de divis
ao celular pelo qual as celulas dipl
oides de
linhagem germinativa dao origem a gametas hapl
oides. Celulas diploides
consistem de 46 cromossomos (uma copia materna e outra paterna de 23
cromossomos cada), e portanto os gametas (o ovulo ou o espermatozoide),
que s
ao hapl
oides, consistem de 23 cromossomos. A mitose e a divisao habitual das celulas som
aticas (nao germinativas), pelo qual o corpo cresce,


1.1. TERMINOLOGIA USADA EM GENETICA

HUMANA

se diferencia e se reconstitui. A diferenca entre estes dois processos e que a


meiose ocorre nas celulas germinativas (gametas) e a mitose nas celulas n
ao
germinativas (somaticas).
Recombinac
ao genetica e um fenomeno que esta intimamente ligado com
devido a ocorrencia de recombinacao que existe um aua meiose celular. E
mento na variabilidade genetica, conferindo igual variacao aos descendentes
de uma especie formados a partir dessas celulas.
De forma resumida, pode-se dizer que a recombinacao baseia-se em quebras que ocorrem enquanto os cromossomos homologos est
ao emparelhados,
sendo que estas quebras sempre atingem duas crom
atides irmas em pontos
correspondentes e sao seguidas de soldadura. Sua localizacao e casual, variando de celula para celula e o n
umero de recombinacoes e muito irregular.
As cromatides que trocam pedacos, na seq
uencia da meiose, ser
ao os novos cromossomos que se distribuir
ao entre as celulas filhas e, dessa forma, o
conjunto genetico recebido pelos descendentes depende do resultado das trocas ocorridas durante o processo de divisao celular. Um conjunto de alelos
localizados numa pequena secao da crom
atide e denominado hapl
otipo.
No calculo da distancia entre genes ao longo de um cromossomo, empregase a freq
uencia de recombinacao, pois esta depende da distancia entre os
pontos nos quais ocorrem as quebras e permutas. Na recombinacao, os alelos apenas trocam de posicao dentro do par de cromossomos hom
ologos, de
modo que a estrutura e a funcao cromoss
omica permanecem inalteradas.
Esse processo n
ao deve ser confundido com mutacao.
Na formacao de um gameta, os dois hom
ologos s
ao copiados de cada
par de cromossomos. Na distribuicao de cromossomos homol
ogos, a selecao
de qualquer um deles proveniente do pai ou da mae para uma celula filha
e aleatoria. Quando os pares de cromossomos homologos alinham-se, pode
ocorrer um processo chamado de crossing-over, o qual resulta na recombinacao genetica.
Recombinacoes ocorrem freq
uentemente e o n
umero de crossing-over depende do tamanho do cromossomo. Dessa forma, pode-se relacionar fracao
de recombinacao com distancia genetica.
O fundamento da An
alise de Ligac
ao e que eventos de recombinacao
ocorrem entre dois loci geneticos (genes, marcadores, aberracoes cromossomicas, etc) segundo uma razao relacionada com a distancia entre eles em um
mesmo cromossomo, isto e, loci que estao muito proximos tendem a serem
herdados juntos, conforme a Figura 4.1.
Em cada locus, todo indivduo contem 2 alelos: um a cada posicao
(homologa) correspondente no cromossomo materno e paterno. Se 2 alelos num locus nao s
ao distintos, o indivduo e dito ser homozigoto naquele

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

locus. Se 2 alelos num locus sao distintos, o indivduo e dito ser heterozigoto.

1.1.1

As leis de Mendel

As doencas monogenicas s
ao tambem conhecidas como doencas Mendelianas, devido a Gregor Mendel, um monge austraco do seculo XIX que
deduziu importantes princpios geneticos baseados nos seus experimentos
com ervilhas. Mendel estudou sete fen
otipos da ervilha, cada qual determinado por um u
nico gene. Duas leis fundamentais emergiram do trabalho de
Mendel, que sao:
1. Primeira lei de Mendel: Lei da segrega
c
ao. Para cada locus,
cada genitor transmite um alelo, materno ou paterno, independentemente para cada indivduo na prole. O princpio basico desta lei afirma
que os genes permanecem intactos e distintos.
2. Segunda lei de Mendel: Lei da distribui
c
ao independente. Genes localizados em diferentes loci s
ao transmitidos independentemente.

1.2

Estima
c
ao de freq
u
encias al
elicas

Esta secao trata basicamente da obtencao dos estimadores das freq


uencias alelicas populacionais e do calculo das respectivas variancias.
O criterio pelo qual uma estatstica e construda para dar uma estimativa e chamado de estimador. A media amostral e um estimador da media
populacional - um valor especfico da media amostral e uma estimativa. Estimadores sao ditos serem consistentes se estes sao cada vez mais precisos
a medida em que o tamanho da amostra aumenta. Um estimador n
ao viciado tem seu valor esperado igual ao parametro para qualquer tamanho de
amostra. Estimadores consistentes ser
ao sempre nao viciados para grandes
amostras e podem ser nao viciados para qualquer tamanho de amostra.
Um parametro genetico pode ter v
arios estimadores consistentes, ou
ainda nao viciados. Logo, alguns criterios s
ao necess
arios para a escolha
destes estimadores. O primeiro criterio e o quanto eles variam entre as
amostras. Uma pequena variacao e o desejavel e, a quantidade de variacao e
quantificada pela variancia do estimador, isto e, o valor esperado do desvio
quadratico das estimativas em torno da media. Um estimador consistente,
nao viciado, com uma pequena variancia vai se distanciar menos, em media,
do verdadeiro valor do parametro do que um com uma grande variancia.

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

Posteriormente veremos que um limite inferior na vari


ancia para um estimador nao viciado ser
a dado. Ha um valor abaixo do qual a vari
ancia de um
estimador nao viciado nao pode atingir e, este limite mnimo de variancia
vem da funcao de verossimilhanca. Estimadores com variancia mnima sao
ditos serem eficientes.
Ou
ltimo conceito para avaliar um estimador e a suficiencia. Uma estatstica suficiente contem toda a informacao existente numa amostra sobre
o parametro sendo estimado. Para estimar a freq
uencia de um alelo, e suficiente saber quantas c
opias deste alelo aparecem numa amostra, nao a ordem
em que eles sao vistos, por exemplo. Ha um estimador com limite mnimo
de variancia somente se existir uma estatstica suficiente para tal par
ametro.

1.2.1

Freq
u
encias al
elicas multinomiais

O conjunto de dados geneticos populacionais consiste das freq


uencias dos
genotipos. O modelo de amostragem estatstica assume que todo indivduo
dentro da populacao tem a mesma probabilidade de ter um determinado
genotipo, isto na pratica nao e necessariamente verdade porque a amostragem de um indivduo reduz a freq
uencia daquele tipo dentro da populacao
e ent
ao reduz a probabilidade de escolha daquele tipo para subsequentes
membros amostrados. A distribuic
ao multinomial e apropriada neste caso
pois, embora os indivduos sejam amostrados sem reposicao e portanto as
freq
uencias assumirem uma distribuic
ao hipergeometrica, em geral, assumimos que a populacao sendo amostrada e muito grande, de tal forma que a
amostragem pode ser considerada como sendo com reposicao. Suponha que
os genotipos definem um conjunto de k categorias indexadas por i. Cada
indivduo amostrado tem probabilidade Qi de estar na categoria i, ou seja,
a proporcao populacional do gen
otipo i e Qi . Como cada indivduo e amostrado independentemente, a probabilidade da amostra ter ni membros na
categoria i, i = 1, 2, ..., k numa amostra de tamanho n e:
P (N1 = n1 , N2 = n2 , ..., Nk = nk ) = Qk

n!

k
Y

i=1 ni ! i=1

A equacao acima define a distribuicao multinomial.


Momentos multinomiais

Qni i

(1.1)

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Em particular, a esperanca e a vari


ancia do n
umero de indivduos para
a categoria i numa amostra de tamanho n e:
E(Ni ) = nQi

V ar(Ni ) = nQi (1 Qi )

A proporcao amostral do n
umero de indivduos na categoria i numa
amostra de tamanho n e portanto:
Ni
Qi =
n
Qi (1 Qi )
V ar(Qi ) =
n
A covariancia entre as freq
uencias de duas categorias i e j, i 6= j e dada
por:
E(Qi ) = Qi

Cov(Ni , Nj ) = E(Ni Nj ) E(Ni )E(Nj )

(1.2)

= n(n 1)Qi Qj n Qi Qj
= nQi Qj


j
pois, como Ni Bin(n, Qi ) e Nj | Ni = ni Bin (n ni ), 1Q
, podei
mos escrever

E(Ni Nj ) = E[E(Ni Nj | Ni )] = E Ni (n Ni )

Qj
1 Qi


Qj 
nE(Ni ) E(Ni2 )
1 Qi
i
Qj h 2
=
n Qi (nQi (1 Qi ) + n2 Q2i )
1 Qi
= n(n 1)Qi Qj

Portanto

Qi Qj
Cov(Qi , Qj ) =
n

Vari
ancia das Freq
u
encias Al
elicas dentro da Popula
c
ao
Suponhamos que temos uma amostra com Nuu homozigotos Au Au e Nuv
heterozigotos Au Av , o n
umero Nu de alelos Au e :
Nu = 2Nuu +

X
v6=u

Nuv

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

Sejam Puu e Puv a proporcao populacional dos genotipos Au Au e Au Av ,


respectivamente, entao o valor esperado para o n
umero de alelos Au e:

E(Nu ) = 2nPuu +

nPuv

v6=u

1X
= 2n Puu +
Puv = 2npu
2 v6=u

e a variancia e:

V ar(Nu ) = V ar 2Nuu +

Nuv = 2n(pu + Puu 2p2u )

(1.3)

v6=u

A proporcao amostral do alelo Au e


pu =

Nu
2n

entao
E(pu ) = pu

V ar(pu ) =

pu + Puu 2p2u
2n

(1.4)

Lei de Hardy-Weinberg
Introduziremos agora o conceito de acasalamento (ou cruzamento) aleatorio e preferencial. Acasalamento aleat
orio e a escolha de um companheiro
aleatoriamente, i.e., um indviduo tem a mesma chance de cruzar com qualquer outro indivduo do sexo oposto, de tal forma que os genotipos sao
aleatoriamente pareados. Acasalamento preferencial e a escolha de um companheiro porque ele possui alguma caracterstica particular, por exemplo,
pessoas altas casam com pessoas altas. Conseq
uentemente os genotipos nao
sao aleatoriamente pareados. Isto induz um aumento na proporcao dos
genotipos homozigoticos em detrimento do genotipo heterozigoto.
Consideramos um locus com dois alelos, A1 e A2 , com as respectivas
frequencias, p e q = 1 p. A lei de Hardy-Weinberg diz que as freq
uencias
das tres combinacoes genotpicas serao:

Freq
uencias
Genotipos

p2
A1 A1

2pq
A1 A2

q2
A2 A2

Uma conseq
uencia importante desta lei e que as proporcoes dos gen
otipos
nao mudam de uma geracao para outra. Na geracao que suscede a populacao

10

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Tabela 1.2: Freq


uencias dos tipos de acasalamento e prole de uma populacao em equilbrio de Hardy-Weinberg com genotipos dos genitores nas
proporcoes p2 : 2pq : q 2 .
Tipos de
acasalamento
Mae
Pai
A1 A1 A1 A1
A1 A1 A1 A2
A1 A2 A1 A1
A1 A1 A2 A2
A2 A2 A1 A1
A1 A2 A1 A2
A1 A2 A2 A2
A2 A2 A1 A2
A2 A2 A2 A2

Freq
uencias
2
p p2 = p4
2
p 2pq = 2p3 q
2pq p2 = 2p3 q
p2 q 2 = p2 q 2
p2 q 2 = p2 q 2
2pq 2pq = 4p2 q 2
2pq q 2 = 2pq 3
2pq q 2 = 2pq 3
q2 q2 = q4

A1 A1
p4
1/2(2p3 q)
1/2(2p3 q)
0
0
1/4(4p2 q 2 )
0
0
0

Prole
A1 A2
0
1/2(2p3 q)
1/2(2p3 q)
1(p2 q 2 )
1(p2 q 2 )
1/2(4p2 q 2 )
1/2(2pq 3 )
1/2(2pq 3 )
0

A2 A2
0
0
0
0
0
1/4(4p2 q 2 )
1/2(2pq 3 )
1/2(2pq 3 )
1(q 4 )

Soma da prole A1 A1 = p4 + 2p3 q + p2 q 2 = p2 (p2 + 2pq + q 2 ) = p2 .


Soma da prole A1 A2 = 2p3 q + 4p2 q 2 + 2pq 3 = 2pq(p2 + 2pq + q 2 ) = 2pq.
Soma da prole A2 A2 = q 4 + 2q 3 p + p2 q 2 = q 2 (p2 + 2pq + q 2 ) = q 2 .
A proporcao dos genotipos na prole e p2 :2pq:q 2 , como na geracao dos genitores.
cujos gen
otipos A1 A1 , A1 A2 , A2 A2 estao presentes nas proporcoes p2 : 2pq
: q 2 , os gen
otipos aparecer
ao nas mesmas proporcoes relativas (Tabela 1.2).
O fato de os genotipos se distribuirem proporcionalmente a`s freq
uencias
dos alelos numa populacao e permanecerem constantes de geracao para geracao e o princpio b
asico do fundamento da genetica populacional, que e a
lei de Hardy-Weinberg. Esta lei explica a base das freq
uencias constantes
dos genes como uma aplicacao do binomio de Newton.
Notas:
1. As freq
uencias genotpicas de um locus autoss
omico atingem as proporcoes de H-W depois de uma u
nica geracao de acasalamento aleat
orio, independente das freq
uencias genotpicas iniciais.
2. Quando as freq
uencias alelicas nao mudam de geracao para geracao
dizemos que elas estao em equilbrio.
3. Quando se combina a proporcao de H-W com o equilbrio dizemos que

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

11

ha equilbrio de Hardy-Weinberg (EHW).


possvel que as freq
4. E
uencias alelicas mudem de geracao para geracao,
mas mesmo assim as freq
uencias genotpicas satisfacam a proporcao
de HW em cada geracao.
5. Satisfazer a proporcao de H-W nao implica estar em equilbrio.

Dizemos que uma populacao se encontra em equilbrio de Hardy-Weinberg


quando
Puu = p2u
Puv = 2pu pv
E a vari
ancia se reduz a
V ar(pu ) =

pu (1 pu )
2n

(1.5)

(isto e, variancia da proporcao cuja freq


uencia tem distribuicao Bin(2n, pu ))
Portanto para populacoes de Hardy-Weinberg o n
umero de genes, assim
como o n
umero de genotipos, sao distribudos multinomialmente.
Suponha que dois alelos num locus dentro de um indivduo sao indexados
por j, j = 1, 2, e os indivduos amostrados s
ao indexados por i, i = 1, 2, ..., n.
A variavel indicadora Xij e ent
ao definida por
(

Xij =

1 se o alelo j no indivduo i e do tipo Aj


0 caso contrario

A proporcao populacional do alelo A1 e representada por pA1 = p e do alelo


A2 por (1 p) = q. A proporcao amostral para o alelo A1 pode ser expressa
por
n X
2
1 X
Xij
pA1 = p =
2n i=1 j=1
E(Xij ) = 1P (Xij = 1) + 0P (Xij = 1) = p
portanto
E(
p) = p
Note que E(Xij2 ) = E(Xij ) = p, E(Xij Xij 0 ) = PA1 A1 e,
para j 6= j 0
E(Xij Xi0 j 0 ) = E(Xij )E(Xi0 j 0 ) = p2

12

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

para i 6= i0
E(
p2 ) = p2 +

V ar(
p) =

p + PA1 A1 2p2
2n

(1.6)

p + PA1 A1 2p2
2n

(1.7)

Utilizando a parametrizacao f , onde f e uma medida de endocruzamento


que esta relacionada com o equilbrio de H-W, temos:
PA1 A1

= p2 + pqf

PA1 A2

= 2pq(1 f )

PA2 A2

= q 2 + qpf

Logo,
V ar(
p) =

p(1 p)(1 + f )
2n

(1.8)

Quando f = 0 a populacao est


a em equilbrio de H-W.
Covari
ancia das propor
co
es al
elicas dentro da popula
c
ao
Sejam Xij e Yij variaveis indicadoras para os alelos A1 e A2 respectivamente.
Pn

i=1

p1 =

P2

j=1 Xij

(1.9)

2n
Pn

p2 =

i=1

P2

j=1 Yij

(1.10)

2n

Cov(p1 , p2 ) = E(p1 p2 ) E(p1 )E(p2 )


Podemos escrever

E(
p1 p2 ) =

XX
XX
1
(
E
X
)(
Yij )
ij
4n2
i
j
i
j
XX
XXX
1

E
X
Y
+
Xij Yij 0
ij
ij
4n2
i
j
i j6=j 0 j 0

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

13

XXXX
i

i0 6=i

Xij Yi0 j 0

j0

1
=
[2n 0 + nP12 + 4n(n 1)p1 p2 ]
4n2
1
= p1 p2 +
(P12 4p1 p2 )
(1.11)
4n
Note que o zero resulta do fato de que nao e possvel para o alelo j no
indivduo i ser ambos do tipo A1 e A2 . Subtraindo p1 p2 temos a covari
ancia
1
(P12 4p1 p2 )
(1.12)
4n
Para populacoes sem endocruzamento, com P12 = 2p1 p2 , a covariancia
reduz-se ao valor binomial
p1 p2
Cov(p1 , p2 ) =
(1.13)
2n
Cov(p1 , p2 ) =

Vari
ancia total das freq
u
encias al
elicas
A variancia de freq
uencias alelicas mostradas nas equacoes (1.4) ou (1.8)
se referem a variacao de repetidas amostras da mesma populacao. Para fazer
afirmacoes sobre freq
uencias alelicas que nao sao limitadas a uma particular
replica da populacao, a variancia total de uma freq
uencia alelica amostral
e utilizada. A variancia total deve tambem levar em conta a amostragem
genetica que d
a origem a` variacao que existe entre todas as possveis amostras replicadas de todas as possveis populacoes replicadas mantidas sob
as mesmas condicoes. Obviamente, a variancia total sera maior do que a
variancia dentro da populacao, pois esta contem uma contribuicao para a
variacao entre populacoes.
Como na secao anterior, Xij se refere ao j-esimo alelo no i-esimo indivduo amostrado, com Xij = 1 se o alelo e do tipo A. Valores esperados de
Xij , Xij2 , Xij Xij 0 tem a mesma forma, mas o produto Xij Xi0 j 0 deve mudar.
Neste caso, diferentes indivduos nao podem ser considerados amostrados
independentemente e o componente da variacao entre populacoes e dado
pela covari
ancia entre os indivduos dentro das populacoes. Portanto, trabalhando com variaveis indicadoras, temos para diferentes indivduos,
E(Xij Xi0 j 0 ) = PA/A

(1.14)

que e a proporcao com a qual dois indivduos numa populacao carregam o


alelo A.

14

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA
Seguindo os mesmos argumentos da secao anterior, a vari
ancia total sera
V ar(pA ) = (PA/A p2A ) +

1
(pA + PAA 2PA/A )
2n

(1.15)

O primeiro termo na express


ao representa a contribuicao da variabilidade entre populacoes. As proporcoes pA , PAA , PA/A todas se referem aos
valores esperados sobre populacoes replicadas, o que e outra diferenca das
proporcoes dentro da populacao que se referem a uma populacao especfica.
A equacao (1.15) pode ser expressa de uma maneira mais conveniente
com a introducao do coeficiente de endocruzamento dentro da populacao.
As quantidades FIT e FST sao o coeficiente total de endocruzamento e o
coeficiente de coancestralidade, respectivamente. Eles se referem a pares de
alelos dentro e entre indivduos (Wright, 1951). Assim,
PAA = p2A + pA (1 pA )FIT
PA/A = p2A + pA (1 pA )FST
Utilizando as expressoes acima, podemos reescrever a equacao (1.15) como


V ar(
pA ) = pA (1 pA ) FST +

FIT FST
1 FIT
+
n
2n

(1.16)

com tres componentes que podem ser identificados como a variacao entre
populacoes, entre indivduos dentro de populacoes e entre alelos dentro de
indivduos dentro de populacoes, respectivamente. O termo em parenteses
e o coeficiente do grupo coancestral, L . Note que o componente entre populacoes depende da relacao entre alelos de diferentes indivduos dentro das
populacoes e, este pode ser escrito com (FST 0), ao inves de somente FST ,
onde 0 indica que a relacao entre alelos de diferentes populacoes e zero.
Numa populacao de cruzamento aleatorio, pares de alelos tem a mesma
relacao sendo ou nao localizados no mesmo indivduo. Logo, FIT = FST e a
variancia total da freq
uencia alelica torna-se
V ar(
pA ) = pA (1 pA )FST + pA (1 pA )

1 FIT
2n

Se a amostra e muito grande, nao ha necessidade do componente dentro


da populacao e a variancia se refere a variacao, causada pela amostragem
genetica, entre populacoes:
V ar(
pA ) = pA (1 pA )FST

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

15

A estimacao dos par


ametros FIT e FST sera tratada posteriormente, mas
note que n
ao e possvel estim
a-los, ou a vari
ancia total de uma freq
uencia
alelica, atraves de dados de uma u
nica populacao. As tres medidas de relacionamento que tem sido usadas para pares de alelos s
ao relacionadas atraves
de f
FIT FST
1 FST

f=

Com cruzamento aleatorio, FIT = FST e f = 0.


Aproxima
c
ao de Fisher para a f
ormula da vari
ancia
Atraves do metodo Delta uma aproximacao para a vari
ancia de uma
estatstica T e obtida:
V ar(T )

X  T 2
i

Ni

V ar(Ni ) +

X X T T
i

j6=i

Ni Nj

Cov(Ni , Nj )

onde cada derivada e avaliada substituindo Ni por seu valor esperado.


Considerando a distribuicao das freq
uencias multinomiais temos
V ar(Ni ) = nQi (1 Qi )
Cov(Ni , Nj ) = nQi Qj
e portanto
V ar(T ) n

X  T 2
i

= n

X  T 2
i

Ni
Ni

X  T 2
i

Ni

Qi (1 Qi ) n

X X T T
i

Qi n

X  T 2

Ni

Qi n

X T
i

Ni

Ni Nj

Q2i n

Qi Qj

X X T T
i

Ni Nj

Qi Qj

!2

Qi

(1.17)

Quando T e uma funcao homogenea de grau zero (isto e, e funcao das


freq
uencias Ni divididas pelo total n) ,
V ar(T ) n

X  T 2
i

Ni

T
Qi n
n


2

16

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

1.2.2

Estimac
ao por m
axima verossimilhan
ca

O metodo de maxima verossimilhanca pode ser usado para estimar os


parametros de uma distribuicao. Para analise dentro da populacao a distribuicao multinomial e usada como base para estimacao da verossimilhanca.
Neste caso a funcao de verossimilhanca sera
L(1 , ...s ) =

n!
ki=1 ni !

ki=1 [Qi (1 , ..., s )]ni

e os estimadores de m
axima verossimilhanca, EMVs, dos 0j s sao aqueles
valores que maximizam esta funcao. Como maximizar L e equivalente a
maximizar ln(L) ent
ao neste caso, assim como em varios outros, e mais
facil trabalhar com a funcao de log-verossimilhanca. Para obter o EMV e
necessario obter a derivada de ln(L) com respeito a cada parametro j e
iguala-la a zero. Estas derivadas sao chamadas de Escores (Sj )
Sj =

lnL
j

Para verificar que o procedimento nos leva a bons resultados, iremos


estimar as proporcoes alelicas num locus com dois alelos numa populacao
que se encontra em equilbrio de Hardy-Weinberg. Os genotipos AA, Aa,
e aa tem proporcoes que podem ser expressas em termos de um simples
parametro pA
PAA = p2A
PAa = 2pA (1 pA )
Paa = (1 pA )2
e a verossimilhanca destes parametros e
L(pA ) =

 nAA
h
inaa
n!
p2A
[2pA (1 pA )]nAa (1 pA )2
nAA !nAa !naa !

ln L(pA ) = Cte + (2nAA + nAa ) ln pA + (2naa + nAa ) ln(1 pA )


Derivando com relacao a pA e igualando o Escore a zero temos,
SpA

(2nAA + nAa ) (nAa + 2naa )

=0
pA
1 pA
1
pA =
(2nAA + nAa )
2n
=

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

17

Deve-se verificar que a segunda derivada em relacao a pA e negativa quando


pA = pA .
Quando o equilbrio de H-W nao e assumido, usando pA e a parametrizacao f para uma analise dentro da populacao, temos
PAA = p2A + pA (1 pA )f
PAa = 2pA (1 pA )(1 f )
Paa = (1 pA )2 + pA (1 pA )f
a funcao de verossimilhanca neste caso e:
n!
{pA [pA + (1 pA )f ]}nAA
nAA !nAa !naa !
[2pA (1 pA )(1 f )]nAa {(1 pA )[(1 pA ) + pA f ]}naa

L(pA , f ) =

ln L(pA , f ) (nAA + nAa ) ln pA + nAA ln[pA + (1 pA )f ]


+(nAa + naa ) ln(1 pA ) + nAa ln(1 f )
+naa ln[(1 pA ) + pA f ]
Os Escores sao

SpA

Sf

nAA + nAa nAa + naa


nAA (1 f )

+
pA
1 pA
pA + (1 pA )f
naa (1 f )

(1 pA ) + pA f
nAA (1 pA )
nAa
naa pA
=

+
pA + (1 pA )f
1f
(1 pA ) + pA f

Para obtencao dos EMVs neste caso sera necess


ario a utilizacao de algum metodo numerico pois, como podemos observar, a solucao se encontra
implcita na equacao. Alguns destes metodos serao vistos nas pr
oximas
secoes.
M
etodos num
ericos para a obten
c
ao do EMV
Metodo de Bailey
Este metodo e utilizado quando o n
umero de parametros independentes
e igual ao de graus de liberdade, nos dados. Bailey mostrou que o EMV e
obtido quando igualamos as observacoes aos seus valores esperados.

18

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Suponhamos que existam s parametros a serem estimados e s graus de


liberdade nos dados. O metodo de Bailey consiste em escrever
E(Ni ) = mi
mi = ni
para os s parametros j .
P
P
Neste caso multinomial, para k categorias, ki=1 mi = ki=1 nQi = n e
portanto
k
X
mi
=0
j
i=1
j = 1, 2, ..., s
A log-verossimilhanca neste caso e:
ln L = Cte +

ni ln mi

que tem derivadas


Sj

=
=

ln L X ln mi
ni
=
j
j
i
X ni mi
i

mi j

X mi
i

i
e a solucao e obtida igualando os Sj s a zero. Como i m
j = 0, Sj = 0 e
a solucao e o EMV. Para que os dois conjuntos de equacoes tenha solucao,
e necessario que s = k 1. O n
umero de parametros tem que ser igual ao
n
umero de categorias independentes.
Para ilustracao desse procedimento, retornaremos ao caso de estimar pA
e o coeficiente de endocruzamento f para um locus com dois alelos. Temos
duas categorias independentes (podemos tomar AA e Aa) e entao aplicamos
o metodo de Bailey:

E(NAA ) = nAA n[pA 2 + pA (1 pA )f ] = nAA


E(NAa ) = nAa n[2pA (1 pA )(1 f )] = nAa
e obtem-se
1
(2nAA + nAa )
2n
nAa
f = 1
2n
pA (1 pa )

pA =

(1.18)

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

19

Metodo Iterativo de Newton-Raphson


Este metodo se baseia na expans
ao em serie de Taylor ate 1a ordem.

Para se obter o EMV de , o escore e expandido em serie de Taylor e


com chute inicial (i) . Assim, temos
igualado a zero em ,
S = 0 = S(i) + ( (i) )


=(i)

Rearranjando esta expressao obtem-se um valor aproximado (i+1) para


S(i)
(i+1) = (i) h S i

= (i) +

(i)
=

S(i)
I((i) )

Este novo valor ent


ao serve como um valor inicial para a proxima iteracao:
(i+2) = (i+1) +

S(i+1)
I((i+1) )

Em situacoes com mais de um parametro, a informacao I() e uma matriz,


e o procedimento de iteracao necessita a inversao da matriz:
(i+1) = (i) + I 1 ((i) )S (i)

Obs:
1) O metodo falha quando a informacao e zero ou a matriz de informacao
e singular.
sempre vi
2)E
avel tentar varios chutes iniciais e comparar as verossimilhancas encontradas ap
os a convergencia.
Uma maneira de verificar a convergencia e adotando um criterio de
parada como, por exemplo, dado  > 0 arbitrariamente pequeno, |(n)
(n1) | < .
Algoritmo EM
Este metodo iterativo e utilizado quando os dados sao incompletos. Em
cada iteracao obtem-se uma esperanca e uma maximizacao (EM).
Uma situacao na qual este metodo pode ser utilizado e na estimacao da
proporcao de genes num locus com dois alelos quando distingue-se somente

20

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

duas classes de genotipos, uma dominante (AA + Aa) e a outra recessiva


(aa), mas na realidade existem tres.
Para encontrar o EMV da proporcao pa do alelo recessivo, o primeiro
passo e estimar as duas proporcoes genotpicas PAA e PAa . Considerando
equilbrio de H-W a soma destas duas proporcoes e 1 p2a . Neste caso,
PAa
) ou
PAA + PAa
2pa (1 pa )
| (NAA + NAa ) = (n naa ) Bin(n naa ,
)
1 p2a

NAa | (NAA + NAa ) = (n naa ) Bin(n naa ,


NAa

(supondo equilbrio de H-W). Portanto,


E(NAa | (NAA + NAa ) = (n na )) = (n na )

2pa (1 pa )
1 p2a

que consiste no passo da esperanca. O passo da maximizacao consiste em


estimar pa atraves do EMV (proporcao observada), ent
ao, usando nAa =
E(NAa | NAA + NAa = n na ) e um chute inicial p0a
pa =
=

1
(n + 2naa )
2n Aa


1 2p0a (1 p0a )
(n naa ) + 2naa
2n 1 (p0a )2

(1.19)

Neste exemplo da estimacao da proporcao do alelo recesivo, uma solucao


analtica pode ser encontrada pelo reconhecimento de que convergencia significa que o valor pa nao sera alterado pela equacao (1.19):
1 pa (1 pa )
(n naa ) + naa
n
1 p2a


pa =

e solucionando esta equacao temos:


pa =

naa /n

(1.20)

Tendo em vista que assumimos equilbrio de H-W, note que temos duas
classes observaveis ou 1 grau de liberdade e um par
ametro a ser encontrado.
Logo, poderamos usar o metodo de Bailey e encontraramos mais facilmente
o estimador dado na equacao (1.20). Note que o metodo se baseia numa
suposicao sobre as observacoes faltantes: eles foram estimados assumindo
equilbrio de H-W. Sem esta suposicao nao e possvel estimar freq
uencias
alelicas em loci que mostre dominancia.

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

21

Podemos usar o metodo de aproximacao de Fisher para encontrar a


variancia do estimador dado em (1.20). Assim, temos
1
(1 Paa )
4n
n naa
4n2

V ar(
pa )
dp ) =
V ar(
a

Para proporcoes de Hardy-Weinberg, Paa = p2a , esta vari


ancia e maior do
que o valor encontrado para alelos codominantes (dados completos):
V ar(
pa ) =

1
pa (1 pa )
2n

refletindo o fato de que temos menos informacao disponvel.

1.2.3

M
etodo dos momentos

Como visto na secao anterior, os estimadores de maxima verossimilhanca


tem otimas propriedades para grandes amostras, mas em alguns casos eles
nao sao muito bons para pequenas amostras. Os EMV podem ser viciados
para pequenas amostras, por exemplo. H
a situacoes em que o vcio e um
grande problema e outras, em que nao e possvel escrever a verossimilhanca
explicitamente porque a distribuicao amostral e desconhecida. Nessas situacoes outras alternativas de estimacao s
ao necess
arias e, uma das mais
simples e o metodo dos momentos.
O metodo dos momentos consiste na escolha de estatsticas em que seus
valores esperados sugiram uma forma funcional para um estimador. Como
exemplo, vejamos o caso da estimacao de um coeficiente de endocruzamento
f para um locus com mais de dois alelos. Embora seja possvel encontrar
o EMV, e necessario uma solucao numerica de uma equacao de verossimilhanca nao linear. Apos expressar as freq
uencias de homozigotos em termos
de pu e f , a equacao (1.6) nos da
E(
p2u ) = p2u +

1
pu (1 pu )(1 + f )
2n

Ent
ao, somando para todos os alelos,
X

E(

p2u ) =

p2u +

X
1
(1
p2u )(1 + f )
2n
u

enquanto que somando para todos os gen


otipos homozigotos,
E(

X
u

Puu ) =

X
u

p2u + (1

X
u

p2u )f

22

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Estas duas equacoes nos levam a duas express


oes em que os seus valores
esperados diferem somente por um fator f :
E

X
1
E(1
Puu ) = (1
2n
u
u
X
X
1
E(1
p2u )
E(1
Puu ) = (1
2n
u
u

(Puu p2u ) +

X
1
)f (1
p2u )
n
u
X
1
)(1
p2u )
n
u

Tomando a razao dessas duas equacoes, temos


f =

(1

P
1
u Puu )
2n (1
P
1
u Puu )
2n (1

p2u ) +

u (Puu

2u )
up

(1.21)

Para dois alelos, o estimador reduz-se a


f = 1

(n 1)nAa /n
2n
pA pa nAa /2n

(1.22)

que nao e o mesmo do EMV dado na equacao (1.18).


O estimador de momentos tem um vcio menor do que o de MV, mas ele
pode ter uma variancia maior.

1.2.4

Estimac
ao Bayesiana

Freq
u
encias al
elicas
Suponha que uma populacao esta em equilbrio de Hardy-Weinberg e que
o alelo A tem proporcao populacional pA e contagem nA numa amostra de
2n alelos (n indivduos). A suposicao de H-W nos garante que a distribuicao
de NA dado pA e:
NA | pA Bin(2n, pA )
(2n)!
Pr(NA = nA | pA ) =
pnA (1 pA )2nnA
nA !(2n nA )! A
Uma analise Bayesiana requer uma distribuicao a priori para pA , e uma
escolha conveniente e a distribuic
ao beta, que e a analogia contnua da binomial. Para a distribuicao beta com parametros e , a notacao e funcoes
densidade sao
pA Be(, )
( + ) 1
(pA ) =
p
(1 pA )1
()() A

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

23

A func
ao gamma (x) geralmente precisa ser avaliada numericamente. No
entanto, se x e um inteiro (x) = (x 1)! e a similaridade entre as distribuicoes beta e binomial s
ao claras. A funcao integra no intervalo [0, 1]
Z

(pA )dpA = 1
0

e tem media igual a /( + ). A distribuicao beta pode ter v


arias formas,
variando desde de unimodal com um pico em pA = ( 1)/( + 2)
quando , > 1, uniforme quando = = 1, ate em forma de U com a
maioria da densidade perto dos limites pA = 0, 1 quando , < 1.
Com esta priori, o teorema de Bayes nos da a seguinte distribuicao a
posteriori
(2n)!
nA
2nnA (+) p1 (1 p )1
A
nA !(2nnA )! pA (1 pA )
()() A
R1
(2n)!
(+)
nA
1
1 dp
2nnA
A
0 nA !(2nnA )! pA (1 pA )
()() pA (1 pA )

Cancelando os termos que nao envolvem pA , temos


(pA | nA ) =
=

A 1
p+n
(1 pA )+2nnA 1
A
+nA 1
(1 pA )+2nnA 1 dpA
0 pA
( + + 2n)
p+nA 1 (1 pA )+2nnA 1
( + nA )( + 2n nA ) A

R1

Ent
ao, a distribuicao a posteriori e tambem uma distribuicao beta, mas com
parametros modificados pelos dados, isto e, Be(+nA , +2nnA ). Em outras palavras, a beta e uma distribuicao conjugada para a binomial. Apesar
de toda a distribuicao a posteriori estar disponvel para a freq
uencia alelica
pA , e conveniente tomar um u
nico ponto desta distribuicao como sendo um
estimador Bayesiano de pA . Por exemplo, a media desta distribuicao e
+ nA
+ + 2n

nA
= x
+ (1 x)
+
2n
= xE(pA ) + (1 x)
pA

E(pA | NA = nA ) =

que e uma soma ponderada da media a priori e do estimador de m


axima verossimilhanca de pA , onde o peso x e (+)/(+ +2n). Alternativamente,
o maximo (se , > 1) da densidade a posteriori e
max[(pA | nA )] =

+ nA 1
+ + 2n 2

24

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA
1
nA
+ (1 y)
+2
2n
= ymax[(pA )] + (1 y)
pA
= y

que e a soma ponderada do maximo da priori e do estimador de maxima


verossimilhanca de pA . O peso y e (+ 2)/(+ +2n2). Tanto a media
como a moda da distribuicao a posteriori podem servir como estimadores,
mas cada um deles e um resumo da distribuicao a posteriori como um todo.
Tabela 1.3: Freq
uencias genotpicas para os grupos sang
uneos M N entre
maes e pais.
Genotipo Pai M
ae Total
MM
26
27
53
MN
44
51
95
NN
23
15
38
Total

93

93

186

Como exemplo, Gunel e Wearden (1995) tomaram uma Be(61, 44) como
sendo a distribuicao a priori de (pM ) para o alelo M no sistema de grupos
sang
uneo M N . Eles se basearam em informacoes de amostras anteriores.
Da Tabela 1.3, nM = 201 e 2n = 372. Assumindo equilbrio de H-W, a
distribuicao a posteriori (pM | nM ) e Be(61+201, 44+171) = Be(262, 215).
A funcao de verossimilhanca de pM dado nM e
L(pM ) = P r(Nm = 201 | pM ) =

372!
(pM )201 (1 pM )171
201!171!

A densidade a posteriori (pM | nM ) e mais estreita do que a priori (pM ),


indicando informacao mais precisa sobre o parametro pM . Isto e esperado,
pois h
a informacao proveniente dos dados. Neste exemplo, a media a priori
foi muito perto da media amostral, mas e a media amostral (o estimador de
maxima verossimilhanca) que tem a maior influencia na estimativa Bayesiana (a media a posteriori ou a moda).
M
ultiplos alelos
Assim como a distribuicao multinomial e a extensao da binomial de
duas para v
arias categorias, a distribuic
ao de Dirichlet e a extens
ao da beta.
A distribuicao de Dirichlet e u
til para estimarmos freq
uencias alelicas para

DE FREQU
ENCIAS

1.2. ESTIMAC
AO
ALELICAS

25

locus com m
ultiplos alelos. A essencia do metodo de estimacao sera mostrada
a seguir.
Suponha que os alelos Ai tem freq
uencias populacionais pi e contagens
P
P
amostrais ni , onde i pi = 1, i ni = 2n. Para uma populacao em equilbrio
de H-W, as contagens tem uma distribuicao multinomial.
Pr({ni } | {pi }) =

P
ni )! Y
Qi
(pi )ni

i (ni )!

Supondo que os pi s tem distribuicao a priori Dirichlet com par


ametros i
(

i i )

({pi }) = Q

(pi )i 1

i (i )

ent
ao a distribuicao a posteriori e tambem Dirichlet, mas com parametros
i + ni
({pi } | {ni }) =

P
(i + ni )] Y
Q i
(pi )i +ni 1

i (i

+ ni )

mostrando que a Dirichlet e a conjugada da multinomial. A media da distribuicao a posteriori e


i + ni
E(pi | {ni }) = P
i (i + ni )
ni
i
+ (1 x) P
= xP

i i
i ni
= xE(pi ) + (1 x)
pi
P

onde o peso e x = ( i i )/[ i (i + ni )].


A verossimilhanca Pr({ni } | {pi }) e a probabilidade das contagens amostrais condicionado nos parametros. Integrando sobre todos os valores dos
parametros temos a probabilidade marginal das contagens
Pr({ni }) =
=

Pr({ni } | {pi })({pi })

P
( i ni )!
Q

dpi

Y (i + ni )
( i i )
P
(ni )! ( i i + i ni ) i
(i )
P

Esta distribuicao e chamada de Dirichlet-Multinomial. Para o caso dos dois


alelos, com contagens amostrais nA , na , a distribuicao beta-binomial e
Pr(nA , na ) =

(nA + na )!
(A + a )
(A + nA ) (a + na )
nA !na ! (A + a + nA + na ) (A )
(a )

Estimadores de maxima verossimilhanca dos parametros dessas distribuicoes requerem metodos numericos (Lange 1995).

26

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

1.3
1.3.1

Desequilbrio
Desequilbrio de Hardy-Weinberg

Uma vez que as freq


uencias alelicas e genotpicas foram estimadas, uma
das primeiras analises feitas em dados de genetica populacional e verificar a
associacao entre dois alelos recebidos por um indivduo em um determinado
locus. Quando nao ha forcas que provocam dist
urbios, tais como, selecao,
mutacao ou migracao, que poderiam mudar as freq
uencias alelicas ao longo
do tempo e, quando ha cruzamento aleatorio em grandes populacoes, estes
pares de alelos n
ao sao associados. Uma conseq
uencia desta independencia
e que as proporcoes genotpicas sao iguais aos produtos das freq
uencias
alelicas:
Puu = p2u

para homozigotos Au Au

Puv = 2pu pv , u 6= v

para heterozigotos Au Av

O controle da obtencao destas proporcoes de Hardy-Weinberg pode ser


caracterizado de varias maneiras, como por exemplo, incluindo o uso do
coeficiente de endocruzamento f dentro da populacao. As freq
uencias de
genotipos podem ser escritas como:
Puu = p2u + pu (1 pu )f
Puv = 2pu pv (1 f ),
quando f = 0 tem-se o equilbrio de H-W e
0 Puu pu
0 Puv min(2pu , 2pv )
desde que pu /(1 pu ) f 1, u . Para um indivduo escolhido aleatoriamente, seja:
(
1 se o j-esimo alelo e A
Xj =
0 caso contrario
Ent
ao f pode tambem ser considerado como sendo a correlacao de Xj e Xj 0 ,
j 6= j 0 , pois temos
V ar(Xj ) = E(Xj2 ) E 2 (Xj ) = pA p2A = pA (1 pA )
Cov(Xj , Xj 0 ) = E(Xj Xj 0 ) E(Xj )E(Xj 0 ) = PAA p2A
= p2A + pA (1 pA )f p2A = pA (1 pA )f
Cov(Xj , Xj 0 )
pA (1 pA )f
Corr(Xj , Xj 0 ) = q
=
=f
pA (1 pA )
V ar(Xj )V ar(Xj 0 )

1.3. DESEQUILIBRIO

27

Coeficiente de desequilbrio
Desequilbrios sao denotados por Ds e para proporcoes alelicas em um
locus eles s
ao definidos pela relacao:
Puu = p2u + Duu
Puv = 2(pu pv Duv )
Ha ainda uma dependencia entre coeficientes causada pelas proporcoes
de genotipos que somam as proporcoes alelicas.
Puv
2 P
X
v6=u Puv
= pu
pv
2
v6=u

Duv = pu pv
X

Duv

v6=u

= pu (1 pu )

v6=u Puv

2
P
v6=u uv
= pu p2u
2
P
P
P
uv
v6=u
v6=u Puv
2
= Puu +
pu
2
2
= Puu p2u = Duu
P

portanto
Duu =

Duv

v6=u

Isto implica que existem tantos Ds independentes quantos sao os tipos


). No caso de existirem somente dois alelos (A e a),
de heterozigotos ( k(k1)
2
exite apenas um tipo de heterozigoto (Aa) e portanto somente um coeficiente
de desequilbrio indepentente que chamaremos DA , ou seja
DAA = DAa

Daa = DAa

DAA = Daa

Estimando o desequilbrio DA
Pela propriedade de invari
ancia dos estimadores de m
axima verossimilhanca, ou atraves do metodo de Bailey, podemos obter o EMV para DA :
A = PAA p2A
D

28

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

A esperanca do estimador neste caso e:


A ) = E(PAA p2A ) = E(PAA ) E(
E(D
p2A )
= PAA (V ar(
pA ) + E 2 (
pA )) de (1.6) e (??)
1
(pA + PAA 2p2A )]
= PAA [p2A +
2n
1
= DA
(pA + DA p2A )
2n
1
= DA
[DA + pA (1 pA )]
2n

(1.23)

A e um estimador viciado de DA . Podemos observar


e portanto o EMV D
que este vcio diminui conforme aumenta o tamanho da amostra.
Usando a aproximacao de Fisher para a f
ormula da vari
ancia, temos:
2
A ) = 1 [p2A (1 pA )2 + (1 2pA )2 DA DA
V ar(D
]
n

Testando o equilbrio de Hardy-Weinberg com DA


Quando uma populacao tem proporcoes de Hardy-Weinberg, o coeficiente de desequilbrio DA e esperado ser zero, o que sugere um teste de
hipoteses H0 : DA = 0 vs Ha : DA 6= 0, que e equivalente a testar o
equilbrio de H-W. Um estado de equilbrio e aquele no qual propriedades
da populacao nao sao mudadas em sucessivas geracoes. No caso de estar
em equilbrio de H-W implica a falta contnua de forcas tais como selecao,
migracao e mutacao assim como a sucessao de pares aleatorios. Por outro
lado, este teste checa a consistencia das proporcoes amostrais dos genotipos
com aquelas esperadas pela lei de Hardy-Weinberg.
A e normalmente distribudo:
Para grandes amostras o EMV D
A E(D
A)
D
Z= q
N (0, 1)
A)
V ar(D
O excesso ou a falta de homozigotos implica em valores positivos ou negativos de desequilbrio, respectivamente. No caso de termos menos heterozigotos na populacao do que o previsto por H-W, a hip
otese nula H0 : DA = 0
podera ser testada contra a hip
otese alternativa Ha : DA > 0. A hipotese
nula seria rejeitada para um grande valor positivo de DA , ou um grande valor positivo de z. Para um teste com nvel de signific
ancia de 5% a hip
otese
nula e rejeitada quando z > 1.64.

1.3. DESEQUILIBRIO

29

Um procedimento equivalente consiste em considerar X = Z 2 , onde


X 2 com 1 grau de liberdade, neste caso

2
nD
A
pA 2 (1 pA )2

XA =

Este resultado tambem pode ser aproximado atraves do teste 2 de bondade


de ajuste, tambem para grandes amostras. O seguinte conjunto de valores
esperados valem para tres freq
uencias genotpicas quando H0 e verdade:
Genotipo
N
umero observado
N
umero esperado
Observado - Esperado

AA
nAA
npA 2
A
nD

AA
nAA
2npA (1 pA )
A
2nD

AA
nAA
n(1 pA )2
A
nD

A estatstica deste teste e:

XA =

genotipos
=
=
=
=

(observado esperado)2
esperado

(nAA npA 2 )2 (nAA 2npA (1 pA ))2 (nAA n(1 pA )2 )2


+
+
2npA (1 pA )
n(1 pA )2
npA 2
A )2
A )2
A )2
(nD
(nD
(2nD
+
+
2npA (1 pA ) n(1 pA )2
npA 2
)2 [2(1 p )2 + 4p (1 p ) + 2p2 ]
(nD
A

2npA (1 pA
2

nDA
2
pA (1 pA )2

)2

Exemplo: Para ilustrar o uso do teste descrito acima, suponha que na


amostra, a freq
uencia de M e 0.57 e a de N e 0.43. Usando o metodo descrito acima e comparando os valores observados e esperados, temos:

30

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Classe

Observado

Esperado

(0E)2
E

MM
MN
NN

600
419
400

(0.57)2
2(0.57)(0.43)
(0.43)2

461
696
262

41.9
110.2
72.2

Total

1419

1419

224.8

O valor da estatstica qui-quadrado e 224.8. Como ha um grau de


liberdade, estes dados sao significativamente diferentes dos preditos pelo
equilbrio de H-W, p valor << 0.01.
Este teste e muito sensvel a pequenos valores esperados, desde que eles
estao no denominador da estatstica XA , valores pequenos podem superestimar o valor da estatstica e portanto para um valor esperado 5, este teste
nao deve ser usado, sendo neste caso aconselh
avel o uso de testes exatos os
quais serao vistos na proxima secao.
Como estamos trabalhando com dados discretos e a distribuicao 2 se
aplica a dados contnuos podemos usar a correcao de continuidade de Yates.

XA =

genotipos

(|observado esperado| 0.5)2


esperado

Testes exatos para o equilbrio de Hardy-Weinberg


Para aplicarmos estes testes exatos devemos determinar as probabilidades de todas as possveis amostras de mesmo tamanho da amostra em
questao assumindo H0 verdadeira. Ordena-se as amostras de acordo com
suas probabilidades entao soma-se a probabiladade da amostra observada
a soma de todas as probabilidades das amostras menores ou iguais `a da
amostra observada e ent
ao rejeita-se a hipotese nula do teste de nvel se
a probabilidade total for menor que .
Para um locus com dois alelos, A e a, a probabilidade do conjunto observado de freq
uencias de gen
otipos nAA , nAa e naa numa amostra de tamanho

1.3. DESEQUILIBRIO

31

n, sob a hipotese de equilbrio de H-W, e


P (NAA = nAA , NAa = nAa , Naa = naa )
 nAA
 naa
n!
=
p2A
(2pA pa )nAa p2a
nAA !nAa !naa !
As freq
uencias de genes NA e Na sao binomialmente distribudas quando
o equilbrio de H-W e assumido:
P (NA = nA , Na = na ) =

(2n)!
(pA )nA (pa )na
nA !na !

Portanto a probabilidade das freq


uencias de genotipos observadas, assumindo equilbrio de H-W , condicionada a`s freq
uencias alelicas observadas
e:
P r = P [NAA = nAA , NAa = nAa , Naa = naa | (NA = nA , Na = na )]
P (NAA = nAA , NAa = nAa , Naa = naa , NA = nA , Na = na )
=
P (NA = nA , Na = na )
P (NAA = nAA , NAa = nAa , Naa = naa )
=
P (NA = nA , Na = na )
n!nA !na !2nAa
=
(2n)!nAA !nAa !naa !
Como podemos observar esta probabilidade depende somente das freq
uencias
observadas e do tamanho da amostra. Esta probabilidade pode ser reescrita
como
P r(x | nA ) = P (X = x/NA = nA )
n!nA !(2n nA )!2x

 h
i
=
(2n)!x! nA2x ! 2n(n2A +x) !
Como exemplo utilizaremos os dados da tabela abaixo:
Colapsando a tabela para alelos 1 e nao-1:
n11 = 9, n11 = 1, n11 = 30; n1 = 19, n1 = 61
Os possveis n
umeros de heterozigotos, x, quando ha n1 = 19 alelos do tipo
1 numa amostra de tamanho n = 40, s
ao n
umeros mpares de 1 a 19 e as
probabilidades P r(x | 19) sao dadas na Tabela 1.5. Note que o conjunto de
freq
uencias genotpicas observadas tem a menor probabilidade dentre todas
as amostras possveis e a hipotese de EHW seria rejeitada a um nvel de

32

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Tabela 1.4: Freq


uencias Alelicas e genotpicas para o locus Pgm em dados
de mosquitos (Weir, 1996)
Genotipo Freq
uencia Alelo Freq
uencia
11
9
1
19
12
1
2
26
22
5
3
17
13
0
4
18
23
7
33
0
Total
80
14
0
24
8
34
10
44
0
Total

40

significancia bem pequeno. Note tambem que um n


umero grande e pequeno
de heterozigotos pode levar a probabilidades bem pequenas ou valores 2
grandes e, conseq
uentemente a rejeicao da hipotese nula. Neste exemplo, em
particular, o teste exato e bilateral e a regiao de rejeicao consiste somente
de pequenos n
umeros de heterozigotos.
Adicionando as probabilidades para 1, 3, 5, 7 e 9 heterozigotos encontramos uma regiao de rejeicao de tamanho 0.0229. Esta probabilidade e
o nvel de significancia ou a probabilidade do erro do tipo I. Se adicionarmos a proxima probabilidade, para 19 heterozigotos, teremos um teste de
tamanho 8.23%, o que geralmente e considerado como sendo muito grande.
Estatsticas para testes 2 sao tambem mostradas na Tabela 1.5 e os resultados demonstram que os dois procedimentos diferem mesmo para amostras
de tamanho 40. O teste 2 rejeita para 19 heterozigotos enquanto que o
teste exato nao rejeita. Aplicando a correcao de continuidade de Yates nos
da um valor de X 2 igual a 2.62 para x = 19, que e abaixo do valor crtico
de 3.84 e os dois testes coincidem.
Teste da raz
ao de verossimilhan
ca para o equilbrio de HardyWeinberg (EHW)
Testes estatsticos podem ser obtidos como raz
oes de verossimilhancas.
Suponha que denote o espaco parametrico, para testarmos as hipoteses

1.3. DESEQUILIBRIO

33

Tabela 1.5: Teste Exato para o EHW no locus Pgm para os dados da tabela
1.4
Amostras Possveis
Probabilidade Desequi11 11 11
Probabilidade Acumulada
lbrio
2
9
1 30?
0.0000
0.0000
0.1686 34.67
8
3 29
0.0000
0.0000
0.1436 25.15
7
5 28
0.0001
0.0001
0.1186 17.16
6
7 27
0.0023
0.0024
0.0936 10.69
5
9 26
0.0205
0.0229
0.0686
5.74
0 19 21
0.0594
0.0823
-0.0564
3.88
4 11 25
0.0970
0.1793
0.0436
2.32
1 17 22
0.2308
0.4101
-0.0314
1.20
3 13 24
0.2488
0.6589
0.0186
0.42
2 15 23
0.3411
1.0000
-0.0064
0.05
? Amostra observada.
H0 : 0 vs Ha : , compara-se as duas funcoes de verossimilhanca,
L0 , que e a m
axima verossimilhanca sob H0 , e L1 , a maxima verossimilhanca
sob o modelo irrestrito, atraves da razao entre elas:
=
=

sup0 L()
sup L()
L0
L1

lembrando que L0 s se referem `as maximas verossimilhancas que s


ao calculadas utilizando os EMVs dos par
ametros nos dois casos. Se existem s
parametros independentes em e (s r) parametros independentes em 0
entao sob H0 temos:
2 ln = 2(ln L0 ln L1 ) 2(s(sr)) 2(r)
Testes da razao de verossimilhanca para proporcoes multinomiais s
ao
2
tambem chamados de testes-G, com a estatstica do teste G sendo definida
como:
L1
G = 2 ln
L0
2

(1.24)

Para testarmos a hip


otese de que DA = 0 (EHW), temos que, sob o modelo

34

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

irrestrito, os EMVs sao as proporcoes amostrais, como foi visto anteriormente, ent
ao a maxima verossimilhanca L1 e
n!
)nAA (PAa )nAa (Paa )naa
(PAA
nAA !nAa !naa !
(nAA )nAA (nAa )nAa (naa )naa
n!
nAA !nAa !naa !
nn

L1 =
=

Sob a hipotese de equilbrio de H-W tem-se


L0 =

(nA )nA (na )na


n!
nAA !nAa !naa !
(2n)2n

Entao temos
2nAa (n)n (nA )nA (na )nA
2 ln = 2 ln
2(21) 2(1)
(2n)2n (nAA )nAA (nAa )nAa (naa )naa


Note que esta estatstica envolve somente freq


uencias observadas de alelos e
genotipos.
M
ultiplos alelos
O metodo da razao de verossimilhanca oferece um caminho sistem
atico
de testar o EHW quando h
a mais do que dois alelos em um locus. Cada
um dos gen
otipos pode ser diferente das proporcoes de Hardy-Weinberg, e
portanto pode ser de interesse testar cada coeficiente de desequilbrio Duv ,
para os alelos Au e Av , separadamente.
Quando h
a k alelos codominantes,
existem k(k+1)
proporcoes de genotipos
2


que nos dao

k(k+1)
2

1 graus de liberdade e permitem que k1 proporcoes

alelicas sejam estimadas e k(k1)


coeficientes de desequilbrio sejam estima2
dos e testados de que sao diferentes de zero.
Para o modelo irrestrito, os EMVs, como visto anteriormente, s
ao
pu = pu

uv = pu pv Puv
D
2
com uma log-verossimilhanca
ln L1 = Cte +

X
u

nuu ln

nuu
n

XX
u v>u

nuv ln

nuv
n

1.3. DESEQUILIBRIO

35

Quando o modelo e restrito por ter as proporcoes de H-W para todos


os genotipos, o que significa ter todos os desequilbrios iguais a zero, a logverossimilhanca se reduz a
ln L0 = Cte +

X
u

nu
nu ln
2n


Atraves da razao de versosssimilhanca temos


L0
L1

2 ln = 2(ln L0 ln L1 )
sob a hip
otese de EHW tem distribuicao chi-quadrado com
hesta quantidade,
i
1 [k 1] = k(k1)
graus de liberdade.
2
O mesmo tipo de teste e encontrado atraves do teste de bondade de
ajuste em todas as classes de gen
otipos. Sob H0
k(k+1)
2

XT2 =

X (nuu n
p2u )2

n
p2u

X X (nuv 2n
pu pv )2
u

2n
pu pv

Obs: Os valores esperados devem ser maiores que cinco.


Este teste qui-quadrado tambem tem k(k1)
graus de liberdade.
2
2
Note que XT tambem pode ser expresso em termos dos coeficientes de desequilbrio:

XT2

X [n(Puu p2 )]2
u

n
p2u

2
X nD
uu
u

p2u

X X [n(Puv 2
pu pv )]2
u

2n
pu pv

2
X X 2nD
uv
u

pu pv

uu e a soma dos desequilbrios para todos os heterozigotos que


onde D
envolvem o alelo u.
No caso de tres alelos temos
D11 = D12 + D13
D22 = D12 + D23
D33 = D13 + D23

36

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Para testarmos a hipotese de que D12 = 0 atraves do metodo da razao de


verossimilhanca, neste caso, sob a hipotese nula temos:
D11 = D13
D22 = D23
D33 = D13 + D23
e entao
L13,23 = max{L(p1 , p2 , p3 , D13 , D23 )}
para o modelo irrestrito
L1 = max{L(p1 , p2 , p3 , D12 , D13 , D23 )}
e a estatstica G212 :
G212 = 2(ln L13,23 ln L1 )
esta estatstica tem distribuicao qui-quadrado com (65) graus de liberdade,
ou seja, 1 grau de liberdade sob H0 . Neste caso para obter os EMV o metodo
de Bailey nao pode ser usado, sendo ent
ao necessarios metodos numericos
para a obtencao dos estimadores.
Um procedimento alternativo, quase tao bom quanto ao da razao de
verossimilhanca, foi descrito por Hern`
andez e Weir (1989). Eles usaram
a normalidade assintotica do desequilbrio estimado. Atraves da formula
da aproximacao de Fisher para a variancia obtem-se uma expressao para a
uv :
variancia de D
uv ) = pu pv [(1 pu )(1 pv ) + pu pv ]
2nV ar(D
[(1 pu pv )2 2(pu pv )2 ]Duv
+

2
(p2u Dvw + p2v Duw ) Duv

w6=u,v

Para testar se Duv e zero, esta condicao e usada na formula da variancia


e o teste estatstico se torna
2
Xuv
=

2
D
uv
uv )
V ar(D
2
uv
2nD

pu pv [(1 pu )(1 pv ) + pu pv ] +

vw
p2u D
w6=u,v (

uw )
+ p2v D

1.3. DESEQUILIBRIO

37

no caso de tres alelos, por exemplo,

2
X12
=
2
X13
=
2
X23
=

1.3.2

2
2nD
12
23 + p2 D

p1 p2 [(1 p1 )(1 p2 ) + p1 p2 ] + (
p21 D
2 13 )
2
2nD
13

23 + p2 D

p1 p3 [(1 p1 )(1 p3 ) + p1 p3 ] + (
p21 D
3 12 )
2
2nD
23

13 + p2 D

p2 p3 [(1 p2 )(1 p3 ) + p2 p3 ] + (
p22 D
3 12 )

Desequilbrio de liga
c
ao

O proximo passo no estudo da associacao entre genes e analisar as proporcoes alelicas em diferentes loci. Proporcoes de alelos em diferentes loci
mostram a associacao entre estes loci onde pode existir ou nao a ligacao .
Desequilbrio de gametas em dois loci
Neste caso nao e preciso se preocupar com associacoes de gen
otipos, pois
os dados a serem considerados sao avaliados em gametas. Para pares de alelos em dois loci, os procedimentos para definir, estimar e testar desequilbrio
sao totalmente analogos a`queles para pares de alelos num simples locus.
O coeficiente de desequilbrio para os alelos A e B em dois loci compara
a proporcao de gametas com o produto das proporcoes alelicas.
DAB = pAB pA pB
e inferencias sao baseadas na suposicao de distribuicao multinomial dos ga B
significam n
metas. Sendo que A,
ao-A e n
ao-B podemos colocar as proporcoes gameticas numa tabela de contingencia 2 2:

Freq
uencias
Locus A

Total

A
A

Locus B
B
nAB
nAB

B
nAB
nAB

Total
nA
nA

nB

nB

38

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA
O EMV de DAB e encontrado diretamente das proporcoes observadas.
AB = pAB pA pB
D
Como as freq
uencias de gametas tem distribuicao multinomial,

E(
pAB ) = pAB


E(
pA pB ) = E
= E

(NAB + NAB ) (NAB + NAB


NA NB
)
=E
n n
n
n
!
2
NAB + NAB NAB
+ NAB
NAB + NAB
NAB

n2


= E(
p2AB + pAB pAB
AB pAB + pAB pAB
+p
)
= E(
p2AB ) + E(
pAB pAB
pAB pAB ) + E(
pAB pAB
) + E(
)
= [V ar(
pAB ) + E 2 (
pAB )] + [Cov(
pAB , pAB
pAB )E(
pAB
) + E(
)] +
+[Cov(
pAB , pAB ) + E(
pAB )E(
pAB )] +
+[Cov(
pAB , pAB
pAB )E(
pAB
) + E(
)]

 

pAB (1 pAB )
pAB pAB

2
=
+ pAB +
+ pAB pAB
+

n
n
 


pAB pAB
pAB pAB

+ pAB pAB +
+ pAB pAB
+

n
n
apos algumas manipulacoes algebricas
E(
pA pB ) =

pAB
(n 1)
+
pA pB
n
n

(1.25)

e portanto
AB ) = E(
E(D
pAB pA pB ) = E(
pAB ) E(
pA pB )
n1
pAB
= pAB (
+
pA pB )
n
n
(n 1)
=
(pAB pA pB )
n
(n 1)
=
DAB
n
e pela formula da aproximacao de Fisher para a variancia, para grandes
amostras, temos:
AB ) = 1 [pA (1 pA )pB (1 pB ) + (1 2pA )(1 2pB )DAB D2 ]
V ar(D
AB
n

1.3. DESEQUILIBRIO

39

Uma estatstica qui-quadrado para a hipotese de nao existencia de desequilbrio, H0 : DAB = 0 pode ser obtida atraves do quadrado da variavel Z
que tem, assintoticamente, distribuicao normal:
Z=

AB E(D
AB )
D
q

AB )
V ar(D

portanto, sob H0 ,
2
XAB
= Z2 =

2
nD
AB
pA (1 pA )
pB (1 pB )

A mesma estatstica e encontrada atraves do teste qui-quadrado de bondade de ajuste para as quatro classes de gametas:
Gametas
Freq
u
encias Observadas
Freq
u
encias Esperadas

AB
nAB
n
pA pB

AB
nAB
n
pA pB

AB
nAB

n
pA pB

AB
nAB
n
pA pB

Total
n
n

Teste exato para o desequilbrio de gametas


Este teste depende das probabilidades de todas as possveis amostras de
freq
uencias de gametas para uma freq
uencia alelicas observada. Freq
uencias
de gametas assumem distribuicao multinomial, entao neste caso, as freq
uencias alelicas sao binomialmente distribudas, isto e:
n

P (NAB = nAB , NAB = nAB , NAB


= nAB
, NA
B
= nA
B
) =
P (NA = nA , NA = nA ) =
P (NB = nB , NB = nB ) =

AB
AB
A
n!pnAB
pAABB pAB
pA
B

nAB !nAB !nAB


!nA
B
!
n!
n
pnAA pAA
nA !nA !
n!
n
pnB p B
nB !nB ! B B

e portanto, sob a hipotese H0 : DAB = 0


P (NAB = nAB , NAB = nAB , NAB
, NA
B
= nA
B
/NA = nA , NB = nB ) =
= nAB
n
n
n

AB
AB
A
B
(pA pB )nAB nA !nA !nB !nB !
n!(pA pB )
(pA pB )
(pA pB )
=
n
n
nAB !nAB !nAB
n!n!pnAA pAA pnBB pBB
!nA
B
!

40

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

P (NAB = nAB , NAB = nAB , NAB


= nAB
, NA
B
= nA
B
/NA = nA , NB = nB ) =
n

n!pAAB

+nAB nAB +nAB


n +nAB nAB +nAB

pB
pAAB
pB

nAB !nAB !nAB


!nA
B
!

nA !nA !nB !nB !


n
n
n!n!pnAA pAA pnBB pBB

P (NAB = nAB , NAB = nAB , NAB


= nAB
, NA
B
= nA
B
/NA = nA , NB = nB ) =
nA !nA !nB !nB !
=
n!nAB !nAB !nAB
!nA
B
!

Desequilbrio de gametas com m


ultiplos alelos
Neste caso, continuamos avaliando dois loci sendo que pode ocorrer
varios alelos em cada locus, ou seja, um coeficiente Duv e definido para
cada par de alelos Au e Bv
Duv = puv pu pv
Estes coeficientes podem ser testados separadamente com as estatsticas
qui-quadrado
2
uv
nD
2
Xuv
=
pu (1 pu )
pv (1 pv )
enquanto que a hipotese de que nenhum dos Duv s e diferente de zero pode
ser testada com a estatstica
XT2

=
=
=

k X
l
X
(nuv n
pu pv )2
u=1 v=1
k X
l
X

n
pu pv

n
[
puv pu pv ]2
p

u=1 v=1 u v
k X
l
X

n 2
D
p

p uv
u=1 v=1 u v

que tem distribuicao 2 com (k 1)(l 1) graus de liberdade.

1.3. DESEQUILIBRIO

41

Vari
ancias e covari
ancias do desequilbrio de liga
c
ao dos gametas
O interesse inicial esta na associacao entre alelos em dois loci, mas a
maioria dos conjuntos de dados contem proporcoes em mais de dois loci
e equilbrios de ordens superiores podem ser definidos. Se o desequilbrio
de ligacao dos gametas DAB e DBC sao estimados para os alelos A,B e
C em tres loci, espera-se que seus valores estejam relacionados por causa
possvel rearranjar a f
da dependencia em comum no alelo B. E
ormula da
aproximacao de Fisher para a variancia para obter as aproximacoes para
as covariancias das funcoes S e T de freq
uencias multinomiais Ni (estas
freq
uencias tem valores esperados nQi ):
X S T
1
S T
Cov(S, T ) =
Qi
n
N
N
n n
i
i
i

A aplicacao deste resultado permite que as covariancias entre os desequilbrios


amostrais sejam encontradas:
AB , D
BC ) =
Cov(D
AB , D
CD ) =
Cov(D

1
[pB (1 pB )DAC + (1 2pB )DABC DAB DBC ]
n
1
[DAC DBD + DAD DBC + DABCD ]
n

Note que desequilbrios entre gametas em tres e quatro loci, os quais ser
ao
obtidos na proxima secao, estao envolvidos.
Obs: Verifique que DAB = DAB = DAB
= DA
B
.
Desequilbrio de gametas em tr
es ou quatro loci
Os desequilbrios serao obtidos atraves da formula aditiva de Bennett
(1954), que subtrai os termos de desequilbrios de menores ordens. Para os
alelos A, B e C em tres loci:
DABC = pABC pA DBC pB DAC pC DAB pA pB pC

(1.26)

e para os alelos A, B, C e D em quatro loci:


DABCD = pABCD pA DBCD pB DACD pC DABD pD DABC
pA pB DCD pA pC DBD pA pD DBC
pB pC DAD pB pD DAC pC pD DAB
DAB DCD DAC DBD DAD DBC pA pB pC pD (1.27)

42

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Os EMV destes desequilbrios sao obtidos substituindo estas proporcoes


pelos seus valores observados, existe um vcio desprezvel nestes estimadores que sera ignorado. As vari
ancias dos estimadores s
ao obtidas atraves
da formula de Fisher, no caso de quatro loci e necessario um tratamento
computacional. Sejam as quantidades A e A para o alelo A:
A = pA (1 pA ),

A = (1 2pA )

entao
1
2
[A B + A B DAB DAB
]
n
2
ABC ) = 1 [A B C + 6DAB DBC DAC + A (B C DBC DBC
)
V ar(D
n
2
2
+B (A C DAC DAC
) + C (A B DAB DAB
)
AB ) =
V ar(D

+DABC (A B C 2A DBC 2B DAC 2C DAB DABC )]


Para testarmos a hipotese H0 : DABC = 0 atraves da estatstica quiquadrado, temos:
2
D
2
ABC
XABC
=
ABC )
V ar(D
onde, sob H0 o coeficiente DABC vale zero e os outros termos sao substitudos
por seus valores observados.
Desequilbrio de gen
otipos em dois loci
Quando dados de populacoes geneticas sao coletados atraves dos genotipos, e possvel checar as associacoes entre alelos, ou atraves de um locus ou
atraves de um gameta. Vamos lembrar que o equilbrio de H-W e testado
atraves de dois alelos num mesmo locus mas em diferentes gametas, e o
equilbrio de ligacao e testado atraves de dois alelos num mesmo gameta
mas em diferentes loci. Existe uma terceira alternativa - dois genes em
diferentes gametas e em diferentes loci. Portanto a possibilidade deste novo
tipo de desequilbrio sera investigada.
Neste caso podemos assumir que proporcoes gameticas podem ser obtidas
das proporcoes de gen
otipos, ou seja
AB
pAB = PAB
+


1  AB
AB
AB
PAB + PAB
+ PA
B

1.3. DESEQUILIBRIO

43

Chamaremos este novo desequilbrio de desequilbrio digenico, pois se


refere a genes em diferentes loci e em diferentes gametas dentro de um
indivduo e e definido como:
DA/B = pA/B pA pB
onde a proporcao nao gametica
AB
pA/B = PAB
+


1  AB

AB
AB
+
P
PAB + PAB

AB
2

Para os coeficientes trigenicos, proporcoes de triplas de alelos (proporcoes


genotpicas) sao comparadas com os produtos das proporcoes alelicas, apos
remover algum desequilbrio digenico. As duas proporcoes trigenicas sao
1
AB
pAAB = PAB
+ PAAB

2 B
1 AB
AB
pABB = PAB
+ PAB

2
e os desequilbrios sao definidos como
DAAB = pAAB pA DAB pA DA/B pB DA p2A pB
DABB = pABB pB DAB pB DA/B pA DB pA p2B
O coeficiente de desequilbrio quadrigenico, apos remover todos os desequilbrios digenicos e trigenicos:
AB
AB
DAB
= PAB
2pA DABB 2pB DAAB 2pA pB DAB 2pA pB DA/B
2
2
p2A DB p2B DA DAB
DA/B
DA DB p2A p2B

Agora as freq
uencias de genotipos e que s
ao multinomialmente distribudas e isto deve ser refletido nas variancias amostrais, neste caso as variancias
A e D
B continuam as mesmas, mas D
AB se torna:
de D
AB ) =
V ar(D


1 
2
2
AB
A B + A B DAB DAB
+ DA DB + DA/B
+ DAB
2n

Atraves da aproximacao de Fisher:


A/B ) =
V ar(D


1 
2
2
AB
A B + A B DA/B DA/B
+ DA DB + DAB
+ DAB
2n

44

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

As variancias dos EMV dos coeficientes trigenicos e quadrigenicos tambem


podem ser obtidas atraves da formula da aproximacao de Fisher mas exigem que manipulacoes algebricas sejam feitas em computadores. Para o
coeficiente trigenico
AAB ) = ( 2 + 2 DA D2 )(B + DB ) + A A B (DAB + DA/B )
2nVar(D
A
A
A
2
2DAAB
+ (1 5A + DA )(DAB + DA/B )2 + 2A A DABB

+[A2 B 2DA B 4A (DAB + DA/B )]DAAB


AB
+(A2 2DA )(DAB
2DAB DA/B )

(1.28)

e para o coeficiente quadrigenico


AB
2
2
2
2
AB 2
AB
2nVar(D
) = (A
+ A2 DA DA
)(B
+ B2 DB DB
) + . . . (DAB
)

Uma estrategia apropriada para testarmos o desequilbrio digenico e,


inicialmente, testar os desequilbrios de maiores ordens, e portanto primeiro
AB = 0 atrav
testamos a hip
otese H0 : DAB
es da estatstica

2
XAABB
=

AB
D
AB


2

AB
V ar D
AB

AB assumindo ser zero e todos os outros termos assumindo seus valores


com DAB
observados, na formula da variancia.
Se a hipotese nao for rejeitada, o coeficiente quadrigenico pode assumir
o valor zero no teste para o desequilbrio trigenico e digenico. Caso contrario, termos de ordens maiores devem ser includos no teste estatstico para
desequilbrio de menores ordens.
Quando o desequilbrio quadrigenico puder ser ignorado, o teste estatstico para o coeficiente digenico se reduz a

1.3.3

2
XAB
=

2
2nD
AB
AD
B + D
2

A
B + D
A/B

2
XA/B
=

2
2nD
A/B

B + D
2

A
B + DA D
AB

Desequilbrios genotpicos compostos

1.3. DESEQUILIBRIO

45

Muitas vezes nao e possvel distinguir entre os dois tipos de duplos hete e AB/
AB
e dessa forma n
rozigotos AB/AB
ao e possvel fazer inferencias
sobre as freq
uencias gameticas. Sob a suposicao de cruzamento aleatorio, no
qual freq
uencias genotpicas sao assumidas sendo o produto das freq
uencias
gameticas, e possvel estimar freq
uencias gameticas utilizando o algoritmo
EM. Se quisermos evitar a suposicao de cruzamento aleat
orio, e possvel
trabalhar com um conjunto de coeficientes de desquilbrios compostos.
Mesmo nao sendo possvel observar separadamente as proporcoes digenicas pAB e pA/B , a soma delas pode ser:
AB
AB
pAB + pA/B = 2PAB
+ PAAB
+ PAB
+
B


1  AB

AB
PAB + PAB

O desequilbrio digenico e medido atraves de uma medida composta AB


definida por
AB = pAB + pA/B 2pA pB = DAB + DA/B

(1.29)

que e a soma dos coeficientes gameticos e nao gameticos.


Suponha que nove classes genotpicas s
ao numeradas de acordo com a
tabela abaixo:
B
B

BB B B
9
X
AA n1
n2
n3
ni = n
AA n4
n5
n6
i=1
AA n7
n8
n9
A freq
uencia digenica para AB + A/B e:
1
1
1
1
1
1
1
1
n1 +
n1 + n1 + n2 + n2 + n4 + n4 + n5
=
2
2
2
2
2
2
2
2
AB
A/B A/B AB A/B AB A/B AB
1
= 2n1 + n2 + n4 + n5
2


n(AB+A/B)

1
n1 +
2
AB

o EMV para o desequilbrio de ligacao composto e


AB = 1 n(AB+A/B) 2

pA pB
n
Note que n e o n
umero de indivduos na amostra.
Nao h
a problemas com os desequilbrios trigenicos quando nao podemos distinguir entre os duplos heterozigotos, mas as definicoes podem ser
simplificadas
DAAB = pAAB pA AB pB A p2A pB
DABB = pABB pB AB pA B pA p2B

46

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Uma modificacao do coeficiente quadrigenico e necessaria por causa da


falta de conhecimento de DAB e DA/B . Um coeficiente composto AABB e
definido por
AB
AABB = DAB
2DAB DA/B
AB
= PAB
2pA DABB 2pB DAAB 2pA pB AB 2AB

p2A DB p2B DA DA DB p2A p2B


Substituindo as freq
uencias observadas nas equacoes temos os EMVs e a
formula de Fisher nos da as variancias aproximadas
AB ) = (A + DA )(B + DB ) + 1 A B AB
nV ar(
2
+A DABB + B DAAB + AABB
onde o divisor e agora n (para n indivduos) ao inves de 2n. As vari
ancias
para os coeficientes trigenicos nao s
ao alteradas (equacao 1.28), mas elas
podem ser simplificadas utilizando-se os dois coeficientes compostos AB e
AABB . Finalmente, a vari
ancia quadrigenica e
2
2
2
2
AABB ) = (A
nV ar(
+ A2 DA DA
)(B
+ B2 DB DB
)

+ . . . 2AABB
Detalhes estao em Weir & Cockerham (1989).
Se os coeficientes quadrigenicos e trigenicos puderem ser ignorados, a
estatstica do teste para o desequilbrio de ligacao digenico composto e
2
XAB
=

1.3.4

2
n
AB
A )(
B)
(
A + D
B + D

Testes m
ultiplos

Se estamos interessados em saber se o EHW e satisfeito em cada um dos


loci, em particular, ent
ao os testes que foram apresentados s
ao apropriados.
No entanto, se estamos interessados em saber se o EHW e satisfeito na
populacao, estes loci servem para dar testes m
ultiplos da mesma hip
otese.
Atraves de um conjunto de L testes o valor qui-quadrado excedera 3.84
mais do que 5% das vezes, simplesmente porque ele e maior. O nvel de
significancia 0 do conjunto de testes e a probabilidade de que um ou mais

1.3. DESEQUILIBRIO

47

deles causem a rejeicao da hipotese quando ela e verdadeira, ou seja


0 = Pr(pelo menos um teste cause a rejeicao | H0 verdadeira)
= 1 P r(nenhum teste cause a rejeicao | H0 verdadeira)
= 1 [Pr(um teste nao cause a rejeicao | H0 verdadeira)]L
= 1 (1 )L L

(1.30)

onde e o nvel de significancia para um teste individual. Este argumento,


chamado de procedimento de Bonferroni, assume que todos os testes sao
independentes, o que nao e necessariamente verdade, mas o erro em assumir
esta suposicao nao e grande. Com um nvel de 5% usado para 10 testes, o
nvel real de significancia para o conjunto de 10 testes e
0 = 1 0.9510
= 0.40
o que e bem maior. Para evitar este tipo de problema, cada teste individual
necessita ser mais conservador. Para um nvel total 0 = 0.05, e necess
ario
que os valores individuais sejam = 0.005. Este valor individual e obtido
de
= 1 (1 0 )1/L
0 /L

1.3.5

Testes de homogeneidade

A maioria dos dados ser


ao avaliados de v
arias amostras e geralmente
deseja-se a combinacao de tais dados para que se possa produzir um teste de
adequacao de ajuste onde todas as informacoes possam ser avaliadas. Antes
de fazer isso, e necess
ario verificar que as amostras s
ao homogeneas e podem
ent
ao ser combinadas. Um teste de homogeneidade e essencialmente um
teste de independencia das linhas (amostras) numa tabela de contingencia.
Para os dados da forma dos gr
aos de Mendel, de 10 plantas (Weir, 1996),
pode ser construda uma tabela de contingencia 2 10. As dez linhas sao
as amostras e as duas colunas sao as formas dos gr
aos. Se as dez amostras
sao homogeneas, cada uma tem a mesma proporcao de graos redondos, e
uma proporcao comum e estimada atraves da proporcao total 336/437. Sob
a hip
otese de homogeneidade, a freq
uencia esperada de gr
aos redondos e
57336/437 = 43.83. Estes c
alculos e o valor da estatstica de qui-quadrado

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

48

Tabela 1.6: Teste de homogeneidade dos dados de Mendel sobre a forma da


semente (R: redonda, W: enrugada) em 10 plantas F2 (Weir, 1996)
Observ.

Esperado

Esperado

Planta

X2

1
2
3
4
5
6
7
8
9
10

45
27
24
19
32
26
88
22
28
25

12
8
7
10
11
6
24
10
6
7

42.75
26.25
23.25
21.75
32.25
24.00
84.00
24.00
25.50
24.00

14.25
8.75
7.75
7.25
10.75
8.00
28.00
8.00
8.50
8.00

0.47
0.09
0.10
1.39
0.01
0.67
0.76
0.67
0.98
0.17

0.49
0.09
0.10
1.30
0.01
0.71
0.79
0.63
1.06
0.17

43.83
26.92
23.84
22.30
33.06
24.60
86.11
24.60
26.14
24.60

13.17
8.08
7.16
6.70
9.94
7.40
25.89
7.40
7.86
7.40

0.14
0.00
0.00
2.11
0.15
0.34
0.18
1.19
0.57
0.03

0.14
0.00
0.00
1.92
0.14
0.36
0.18
1.11
0.61
0.03

336

101

327.75

109.25

5.31

5.34

336

101

4.71

4.49

Total

X2

sao dados na Tabela 1.6. A estatstica tem valor 4.71 e tem distribuicao quiquadrado com 9 graus de liberdade sob a hipotese de homogeneidade (neste
caso a hip
otese n
ao e rejeitada). O teste G foi definido na equacao (1.24).
Uma simples estatstica qui-quadrado com 1 grau de liberdade pode ser
obtida para testarmos a hipotese de que os dados suportam uma razao de
3 : 1.
(336 327.75)2 (101 109.25)2
+
327.75
109.25
= 0.83

X2 =

Sob a teoria de Mendel, cada amostra deveria exibir uma raz


ao de 3 :
1 de gr
aos redondos versus graos rugosos. Na Tabela 1.6 as freq
uencias
observadas sao comparadas, uma a uma, com as freq
uencias esperadas sob a
razao 3 : 1, e nenhum dos valores de qui-quadrado com 1 grau de liberdade
deu significante. A sua soma de 5.31, que tem distribuicao 2 com 10 graus
de liberdade, tambem n
ao e significante.

1.4

Diversidade

1.4. DIVERSIDADE

49

O estudo da evolucao e caracterizado pelas extens


oes e causas de variacao
genetica. Na presente discussao, ser
ao consideradas diferentes maneiras de
medir variacao genetica. Uma simples medida seria simplesmente a freq
uencia de alelos ou gen
otipos, mas daremos enfase para heterozigosidade e
diversidade genetica. A freq
uencia de heterozigotos e importante, pois cada
indivduo heterozigoto carrega alelos diferentes e representa a existencia de
variacao. Ha situacoes, no entando, onde a variacao resulta da presenca
continuada de diferentes homozigotos e a diversidade genetica e ent
ao uma
medida mais apropriada.

1.4.1

Heterozigosidade

Uma simples medida de variabilidade genetica numa populacao e a heterozigosidade observada. Seja nluv o n
umero observado de heterozigotos
Au Av , u 6= v, num locus l numa amostra de tamanho n. Ent
ao a proporcao
amostral de heterozigotos no locus l e
l =
H

X X nluv

u u6=v

Se existem m loci, a heterozigosidade media e


m
X
l
= 1
H
H
m l=1

l e a soma de freq
Como H
uencias de heterozigotos que sao multinomialmente

distribudas, cada Hl e binomialmente distribuda com


l ) = Hl
E(H

l) =
Var(H

1
Hl (1 Hl )
n

l pode
onde Hl e a proporcao de heterozigotos no locus l na populacao. H
tambem ser escrita como
n
X
l = 1
Xjl
H
n j=1
em que
(

Xjl =

1 se o indivduo e heterozigoto no locus l


0 caso contrario

e para uma populacao, temos


E(Xjl ) = Hl ,

2
E(Xjl
) = Hl

E(Xjl Xj 0 l ) = Hl2 ,

50

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

assumindo que os indivduos sao independentes dentro de uma amostra.


X
= 1
l a estimativa da heterozigosidade media dentro de
Seja H
H
m l
uma populacao. Entao,
=
E(H)

1 X
Hl = H
m l

precisamos levar em consideracao a coPara calcular a variancia de H,


variancia entre heterozigosidades em diferentes loci, pois estes n
ao sao independentes.

X
1X
l, H
l0 ) = E 1
Xjl
Cov(H
Xj 0 l0 Hl Hl0
n j
n j0

=
=
=

XX
1 X
Xjl Xjl0 +
Xjl Xj 0 l0 Hl Hl0
E
2
n
j j6=j 0
j

1
[nHll0 + n(n 1)Hl Hl0 ] Hl Hl0
n2
1
(Hll0 Hl Hl0 )
n

X
X
X
1
l) +
l, H
l0 )
Var(H
Cov(H
2

=
Var(H)

l l0 6=l

XX
1 X
[ Hl (1 Hl ) +
(Hll0 Hl Hl0 )
2
nm l
l l0 6=l

em que a heterozigosidade em dois locus Hll0 = E(Xjl Xjl0 ) e a probabilidade


de que um indivduo escolhido aleatoriamente seja heterozigoto nos loci l e
l0 .
A variancia amostral de heterozigosidade por locus e
s2H

1 X
2
(Hl H)
m1 l

XX
1 X 2
1
lH
l0
Hl
H
m l
m(m 1) l l0 6=l

com
E(s2H ) =

1 X
1
Hl2 + Hl (1 Hl )
m l
n


1.4. DIVERSIDADE

51
XX
1
1
Hl Hl0 + (Hll0 Hl Hl0 )
m(m 1) l l0 6=l
n


2 ) = H 2 + Var(H
l ) e E(H
l H
l0 ) = Hl Hl0 + Cov(H
l, H
l0 ).
Note que E(H
l
l
Para obtermos a variancia entre populacoes, precisamos levar em consideracao a dependencia entre membros da mesma populacao causada pela
amostragem genetica. Seja
Ml = E(Xjl Xj 0 l ), j 6= j 0
em que Ml e a probabilidade de que dois indivduos na mesma populacao
sejam heterozigotos. Entao,
l ) = Hl
E(H

1 X 2 X X
l )]2
E
Xjl +
Xjl Xj 0 l [E(H
n2
0
j
j j6=j

l) =
Var(H

1
(Hl Ml )
n
Tomando a media sobre todos os m loci
X
XX
l = 1
= 1
H
xjl
H
m l
nm j l
= (Ml Hl2 ) +

Denote por Mll0 a probabilidade de que dois indivduos escolhidos aleatoriamente da mesma populacao sejam heterozigotos, um no locus l e outro no
locus l0 :
Mll0 = E(Xjl Xj 0 l0 )
Logo,

E(H)

1 X
1 X
E(Hl ) =
Hl
m l
m l

XX
XXX
1
2
E
Xjl
+
Xjl Xj 0 l
2
2
m n
j
j j 0 6=j l
l

Var(H)

XXX
j

l0 6=l

Xjl Xjl0 +

X X XX
j

j 0 6=j

Xjl Xj 0 l0 H 2

l0 6=l

XX
1 X
(Ml Hl2 ) +
(Mll0 Hl Hl0 )
2

1
m2 n

l l0 6=l

X
XX
(Hl Ml ) +
(Hll0 Mll0 )
l

l l0 6=l

(1.31)

52

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Os quatro termos na expressao (1.31) podem ser rearranjados para mostrar como populacoes, loci e indivduos contribuem para a variancia da heterozigosidade media, colocando estes calculos num contexto similar ao usado
para uma analise de variancia.
Agora, um ndice i e adicionado a variavel indicadora para denotar a
populacao sendo amostrada, i.e.,
(

xijl =

1 se o indivduo j da populacao i e heterozigoto no locus l


0 caso contrario

Quando m loci sao observados em n indivduos tomados de cada uma das r


populacoes, as variaveis indicadoras podem ser representadas por um modelo
linear
xijl = i +ij +l +()il +()ijl , i = 1 . . . , r, j = 1, . . . , n, l = 1, . . . , m
em que i representa o efeito populacional, ij o efeito de indivduo-dentroda populacao, l o efeito do locus, ()il a interacao populacao-por-locus
e ()ijl a interacao locus por indivduo dentro da populacao. l e um
efeito fixo, pois os mesmos loci s
ao repetidamente observados (o investigador
esta interessado somente nestes particulares loci) e todos os outros efeitos
sao considerados aleatorios.
E(i ) = 0, Var(i ) = p2
2
E(ij ) = 0, Var(ij ) = i/p
E(l ) = Hl
2,
E(()il ) = 0, Var(()il ) = pl
2
E(()ijl ) = 0, Var(()ijl ) = li/p

1.4.2

Diversidade gen
etica

Uma medida de variacao alternativa, muitas vezes chamada de heterozigosidade media, mas mais apropriadamente conhecida como Diversidade
uma
Genetica, e formada da soma de quadrados das proporcoes alelicas. E
medida mais apropriada de variabilidade para populacoes endocruzadas,
onde ha muito pouco heterozigotos, mas pode haver muitos tipos diferentes
de homozigotos. Para populacoes de cruzamento aleatorio, seu valor ser
a
bem perto da heterozigosidade.
Seja plu a proporcao do u-esimo alelo no l-esimo locus, a diversidade
genetica neste locus e
Dl = 1

X
u

p2lu

(1.32)

1.4. DIVERSIDADE

53

e a media sobre m loci,


D =1

1 XX 2
p
m l u lu

(1.33)

Proporcoes alelicas amostrais nos dao EMV da diversidade genetica:


XX
=1 1
p2
D
m l u lu

(1.34)

Entre amostras dentro de uma populacao, os valores esperados dos quadrados das proporcoes alelicas foram calculados na Secao 1.2. Ent
ao,
l) = 1
E(D

p2lu

1+f
2n

1 X
plu (1 plu )(1 + f )
2n u

Dl

Note que ha um pequeno vcio de (2n 1)/(2n) para populacoes sem endocruzamento, mas um vcio ainda maior caso contrario. A presenca do
depende tanto das proporcoes
termo f indica que o valor esperado de D
genotpicas como das alelicas.
A variancia requer a soma das variancias e covariancias dos quadrados
das freq
uencias alelicas no mesmo locus. Usando a aproximacao de Fisher,
temos
Var(
p2lu ) =
Cov(
p2lu , p2lv ) =

1 3
2p (1 plu )(1 + f )
n lu
1 2 2
2p p (1 + f ), v 6= u
n lu lv

Logo,
l) =
Var(D

Var(
p2lu ) +

Cov(
p2lu , p2lv )

u v6=u

XX

2(1 + f ) X 3
plu

!2
p2lu

Para m
ultiplos loci, nao h
a problema para calcular as proporcoes alelicas,
pois as proporcoes genotpicas em cada locus separadamente s
ao multinomialmente distribudas. H
a uma covariancia entre as freq
uencias alelicas em
diferentes loci, causada pelas freq
uencias sendo estimadas dos mesmos indivduos e, portanto h
a tambem uma covari
ancia entre os quadrados das proporcoes amostrais. Os momentos multinomiais mostram que a covari
ancia

54

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

entre as proporcoes plu e pl0 v dos alelos u e v nos loci l e l0 , respectivamente,


e dada pelo coeficiente de desequilbrio de ligacao composto para estes dois
alelos
1
Cov(
plu , pl0 v ) =
plu pl0 v lu,l0 v
2n
e a formula de Fisher da a covariancia aproximada entre os quadrados das
proporcoes alelicas em diferentes loci
Cov(
p2lu , p2l0 v ) =

2
plu pl0 u lu,l0 v
n

Esta u
ltima expressao nos da a covariancia das diversidades em diferentes
loci:
XX
l, D
l0 ) = 2
plu pl0 v lu,l0 v
Cov(D
n u v
A variancia da diversidade genetica media entre as amostras de uma mesma
populacao e dada por

=
Var(D)

XX X
1 X X
Var(
p2lu ) +
Cov(
p2lu , p2lv )
2
m
u
u v6=u
l
l

XXXX
l l0 6=l u

Cov(
p2lu , p2l0 v )

X
X
2 X
(1 + fl ) p3lu
p2lu
2
m n l
u
u

!2

2 XXXX
plu pl0 v lu,l0 v
m2 n l l0 6=l u v

(1.35)

em que fl representa a associacao entre os alelos no locus l e lu,l0 v representa a associacao entre alelos em diferentes loci. Simplesmente tomando
a variancia de diversidades em um u
nico locus iria ignorar as associacoes
entre locus, assim como tambem iria ignorar as diferencas na diversidade
esperada entre loci.
Quando a diversidade genetica e calculada para loci, em que todos tem
dois alelos, a equacao (1.35) pode ser simplificada. Se pl e a proporcao de
um dos dois alelos no locus l e ll0 e o coeficiente de desequilbrio de ligacao
composto entre estes alelos nos loci l e l0
Dl = 1

X
u

p2lu = 1 p2l (1 pl )2 = 2pl (1 pl )

1.4. DIVERSIDADE

55

e
=
Var(D)

i
2 Xh
2
(1
+
f
)p
(1

p
)(1

2p
)
l l
l
l
m2 n l

+
=

2 XX
(1 2pl )(1 2pl0 )ll0
m2 n l l0 6=l

(1.36)

2 X
1
(Dl Hl )(1 2pl )2
m2 n l
2
+

2 XX
(1 2pl )(1 2pl0 )ll0
m2 n l l0 6=l

Esta expressao e zero quando pl = 0, 5, indicando a necessidade de reter os


termos de ordem n2 que sao ignorados pela formula de Fisher.
Vari
ancia total de diversidade gen
etica
Quando esperancas s
ao tomadas de replicas de populacoes assim como
de replicas de amostras de uma mesma populacao, a esperanca para alelos
de diferentes indivduos e dada por
E(Xij Xi0 j 0 ) = PA/A
que e a proporcao com que dois indivduos em uma populacao ambos carreguem o alelo A. Com isso, temos que vari
ancia total e (ver Secao 1.2 Variancia Total de Freq
uencias Alelicas).
Var(
pA ) = (PA/A p2A ) +

1
(pA + PAA 2PA/A )
2n

(1.37)

Mas,
PAA = p2A + pA (1 pA )FIT
PA/A = p2A + pA (1 pA )FST
Logo,


Var(
pA ) = pA (1 pA ) FST +

FIT FST
1 FIT
+
n
2n

(1.38)

Diante desses argunmentos,


E(
p2lu ) = Var(
plu ) + [E(
plu )]2
= p2lu + plu (1 plu )FST +

(1.39)
1
plu (1 plu )(1 + FIT 2FST )
2n

56

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

e a esperanca total de diversidade genetica e




l ) = Dl (1 FST )
E(D

1
(1 + FIT 2FST )
2n

(1.40)

Cockerham (1967) definiu um coeficiente do grupo de coancestralidade


L = FST +

(FIT FST ) (1 FIT )


+
n
2n

que se refere `a identidade de um par de alelos aleat


orios entre os 2n alelos de
n indivduos. Este coeficiente permite que a diversidade genetica esperada
seja escrita como
l ) = (1 L )Dl
E(D
A variancia total requer esperancas de quadrados e produtos de quadrados
das proporcoes alelicas. Na Secao 1.2, foi necessario introduzir a proporcao
conjunta PA|A para a esperanca total de pA . Aqui, freq
uencias conjuntas
para tres ou quatro alelos s
ao necessarias. Tirando o ndice l, a esperanca
para os alelos u e v sao (Weir, 1989)
3
(P
+ Puu|u|u 2Pu|u|u|u )
n u|u|u
1 
P
+ Pu|u|v + 4Puv|u|v +
E(
p2u p2v ) = Pu|u|v|v +
2n u|v|v

+Puu|v|v + Pvv|u|u 12Pu|u|v|v , v 6= u
E(
p4u ) = Pu|u|u|u +

Uma quantidade como Puu|v|v e a proporcao com que um indivduo carrega


duas copias do alelo u e dois indivduos cada um tem uma copia do alelo v.
A variancia total da diversidade genica amostral num locus ent
ao e
l) =
Var(D

XX

Pu|u|v|v
u

!2
Pu|u

X
X
X
X
1
+ 2
Pu|u|u
Puu
Pu|u + 2
Pu|u
n
u
u
u
u

!2

XX

(2Puv|u|v + Puu|v|v 6Pu|u|v|v

Para a diversidade media sobre os loci, as esperancas totais necess


arias s
ao
bem complicadas. A notacao para proporcoes alelicas em diferentes loci

1.4. DIVERSIDADE

57

separa alelos em diferentes indivduos com uma barra vertical e alelos em


diferentes gametas dentro de indivduos pelo smbolo /. Com esta convencao, as esperancas necess
arias sao
1
(Plu,l0 v + Plu/l0 v 2Plu|l0 v )
2n
1 h
0 + Plu|l0 v|l0 v
P
E(
p2lu p2l0 v ) = Plu|lu|l0 v|l0 v +
2n lu|lu|l v
i
+ 4(Plu,l0 v|lu|l0 v + Plu/l0 v|lu|l0 v ) 12Plu|lu|l0 v|l0 v

E(
plu pl0 v ) = Plu|l0 v +

A variancia total da diversidade genetica e uma expressao muito complicada.


Estimando a vari
ancia da diversidade
Para dados de uma u
nica populacao, a variancia da diversidade genetica e
estimada substituindo os valores observados na equacao (1.35). Uma f
ormula
mais conveniente para a vari
ancia dentro da populacao e
2
m2 n

=
Var(D)

(
"
X X

(p3lu + p2lu Plu,lu 2p4lu )

1XX
plu plv (Plu,lv 4plu plv
+
2 u v6=u
)

XXXX
u

l0

plu pl0 v lu,l0 v

Para dois alelos, temos


2
m2 n

=
Var(D)

(
Xh

+p2l2 )2

p3l1 + p3l2 2(p2l1

+ p2l1 Pl1,l1 + p2l2 Pl2,l2 + pl1 pl2 Pl1,l2

XX

(1 2pl1 )(1 2pl0 1 )l1,l0 1

(1.41)

l0

Para populacoes que tem EHW em cada locus, as proporcoes genotpicas


podem ser substitudas pelos produtos das proporcoes alelicas e as equacoes
(1.36) e (1.41) ambas tornam-se
=
Var(D)

2
m2 n

(
Xh
l

pl1 pl2 (pl1 pl2 )

XX

(1 2pl1 )(1 2pl0 1 )l1,l0 1

l0

58

CAPITULO 1. CONCEITOS BASICOS


DE GENETICA
HUMANA

Estimacao da variancia total requer dados de mais de uma populacao. No entanto, em geral, sugere-se que diferentes loci podem fazer o papel de replicas
de populacoes para que a variancia entre diversidades de diferentes loci sirva
como uma estimativa da variancia total.
e tomada como sendo 1/m
Utilizando esta tecnica, a variancia total de D

vezes a variancia entre os Dl s. Se esta variancia e escrita como s2D , entao


s2D =

1 X
2
(Dl D)
m1 l

Mas tomando o valor esperado e escrevendo m1 = m(m 1), temos


E

s2D
m

X
XX
l, D
l0 )
+ 1 (Dl D)2 +
Cov(D
= Var(D)
m1 l
0
l l 6=l

Como para a heterozigosidade, s2D pode servir como um estimador da variancia total da diversidade media somente quando cada locus tem a mesma
diversidade esperada e quando as diversidades em diferentes loci tem covariancia zero. Estas condicoes s
ao satisfeitas para populacoes de cruzamento aleatorio e loci independentes. Uma boa indicacao de que esta tecnica
nao e valida seria quando ha evidencias de desequilbrio de ligacao entre
loci. Nos casos de populacao de plantas com misturas entre si e cruzamento
aleatorio, a covariancia entre diversidades em dois loci e diretamente proporcional ao desequillibrio de ligacao (composto) entre loci e, s2D /m nao
deve ser usado para estimar a vari
ancia total de diversidade media se os
desequilbrios forem significativamente diferentes de zero.

PY
CO

Captulo 2

Correla
c
ao Familiar

DO

NO
T

Consideremos a relac
ao genetica entre pares de parentes, { X, Y}. Um ou
dois alelos de X podem ser identicos aos alelos de Y. Definimos, identico por
descendencia (IPD), se X e Y tem alelos que sao identicas copias de um alelo
derivado de uma replicac
ao em um ancestral comum e que e transmitido para
X e Y (Figura 2.1). Definimos, identico por estado (IPS), se os alelos sao
identicos em termos da composicao e funcao de DNA, mas sem considerar
a ancestralidade. Os alelos que sao IPD sao IPS, mas se os alelos sao IPS e
nao sao originado de um ancestral comum, eles nao sao IPD. Portanto, as
relacoes geneticas dependem do IPD e para cada locus autossomico, X e Y
compartilham 0, 1, ou 2 alelos IPD.
Definimos acasalamento consang
uneo (endocruzamento) como sendo o
acasalamento de indivduos que tem pelo menos um ancestral comum, e a
progenie (prole) deste acasalamento e definida como endocruzada. O acasalamento consang
uneo permite que alelos menos comuns tornem-se homozigoticos e, conseq
uentemente alguns dist
urbios recessivos raros aparecem
mais freq
uentemente na progenie deste endocruzamento. Parentes unilaterais sao aqueles relacionados biologicamente atraves de um lado da famlia
(por exemplo, meio-irm
aos, primos, tios, tias, sobrinhos, sobrinhas) e eles
somente compartilham 0 ou 1 alelos IPD. Parentes bilaterais sao aqueles relacionados biologicamente atraves do genitor maternal e paternal (por exemplo, irm
as, primos-duplos) e eles compartilham 0, 1 ou 2 alelos IPD.

2.1

Matrizes estoc
asticas: ITU

59

3 4

1 3

IPD=2
=1

CO

1 2

1 3

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

60

2 3

1 4

IPD=1
=1/2

IPD=0
=0

IPD: nmero de alelos idnticos compartilhados por descendncia


: proporo de alelos idnticos compartilhados por descendncia

NO
T

Figura 2.1: Calculo da identidade por descendencia


Estas matrizes, ITU (Identidade, Transmissao, Nao relacionada) sao importantes para definir a matriz estocastica, R, cujos elementos sao as probabilidades de um indivduo Y ter o j-esimo genotipo, dado que o parente
X tem o i-esimo gen
otipo. Uma condicao que estas matrizes tem que satisfazer e que a soma de cada linha seja igual a 1 porque cada linha e uma
distribuic
ao de probabilidade condicional. Vamos construir primeiramente
as matrizes, ITU, assumindo que ha um locus com dois alelos A e a, com
freq
uencias, p e q = 1 p, respectivamente, numa populacao grande, com
acasalamneto aleat
orio e EHW.
A matriz I (Identidade) e construda se X e Y compartilham 2 alelos IPD,
como gemeos univitelinos.

AA
1 0 0

I = Aa 0 1 0
aa
0 0 1

DO

A matriz U (unrelated - nao relacionada) e construda se X e Y compartilham


0 alelos IPD, como indivduos nao relacionados.

AA
p2 2pq q 2
2

U = Aa p 2pq q 2
2
2
aa
p 2pq q


2.1. MATRIZES ESTOCASTICAS:
ITU

PY

61

A matriz T (Transmiss
ao) e construda se X e Y compartilham 1 alelo IPD,
como genitor e prole.

p
q
0
AA

T = Aa p/2 1/2 q/2


0
p
q
aa

CO

Vamos agora construir a probabilidade condicional do indivduo Y ter o


genotipo, gY , dado que X tem o genotipo, gX .
P(gY = AA | gX = AA) = P(X transmitir A e o alelo aleatorio em Y = A)
=1p=p
P(gY = AA | gX = Aa) = P(X transmitir A e o alelo aleatorio em Y = A)
= 1/2 p
P(gY = Aa | gX = Aa) = P(X transmitir A e o alelo aleatorio em Y = a)
+ P(X transmitir a e o alelo aleatorio em Y = A)= 1/2 q + 1/2 p =
1/2.
A matriz estoc
astica, R, para um determinado tipo de parente e escrita
como
2
X

P (IP D = i)P (gY | gX , IP D = i).

NO
T

P (gY | gX ) =

i=0

Portanto, podemos agora definir :

R = cI I + cT T + cU U

para

cI

= P (X,Y compartilharem 2 alelos IPD);

cT

= P (X,Y compartilharem 1 alelo IPD);

cU

= P (X,Y compartilharem 0 alelo IPD).

DO

Por exemplo, numa famlia nuclear com 2 genitores e 2 filhos, onde o pai
tem o gen
otipo, A1 A2 , e a m
ae tem o genotipo, A3 A4 , o n
umero de alelos
IPD dos filhos e representado pela seguinte tabela:

A1 A3
A1 A4
A2 A3
A2 A4

A1 A3
2
1
1
0

Y
A1 A4
1
2
0
1

A2 A3
1
0
2
1

A2 A4
0
1
1
2

com
cI
cT
cU

= P (IP D = 2) = 1/4
= P (IP D = 1) = 1/2
= P (IP D = 0) = 1/4

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

62

NO
T

CO

Para melhor entender o relacionamento genetico entre dois indivduos


que s
ao biologicamente relacionados, vamos definir dois coeficientes. O coeficiente de relacionamento (kinship coefficient) entre os indivduos X e Y
e definida como a probabilidade de que um alelo aleatorio de um locus autoss
omico do indivduo X seja IPD com o alelo aleatorio no mesmo locus do
indivduo Y, representado como K = 1/2cI + 1/4cT + 0cU . Por exemplo,
no caso de gemeos univitelinos, K = 1/2 porque dos 4 alelos dos gemeos,
2 s
ao IPD e 2 n
ao s
ao IPD. O coeficiente de relac
ao entre os indivduos
X e Y e definido como sendo a proporcao esperada dos alelos IPD, ou a
correlac
ao genetica entre os indivduos X e Y , representado por r = 2K.
Estes coeficientes est
ao apresentados na Tabela 2.1 para diferentes tipos de
parentesco.

DO

Tabela 2.1: Coeficientes de relacionamento e relacao para diversos tipos de


parentesco.

Relacionamento
Gemeos univitelinos
Genitor-filho
N
ao relacionados
Irm
aos
Meio-irm
aos
Tio(a)-sobrinho(a)
Av
os-netos
Primos de 1o grau
Primos de 2o grau
Primos em 1o grau duplo

cI
1
0
0
1/4
0
0
0
0
0
1/16

cT
0
1
0
1/2
1/2
1/2
1/2
1/4
1/16
6/16

cU
0
0
1
1/4
1/2
1/2
1/2
3/4
15/16
9/16

K
1/2
1/4
0
1/4
1/8
1/8
1/8
1/16
1/64
1/8

r
1
1/2
0
1/2
1/4
1/4
1/4
1/8
1/32
1/4

Ent
ao a distribuic
ao conjunta dos genotipos e definida multiplicando-se
cada linha da matriz R, definida acima, pela probabilidade do genotipo para


2.1. MATRIZES ESTOCASTICAS:
ITU

PY

63

os indivduos X e Y e, esta e escrita como

p2 0
0

J = P (gx , gy ) = 0 2pq 0 R
0
0 q2

com
E[xy] =

2
2 X
X
x=0 y=0

onde P(x,y) e elemento da matriz J, e


2
X

xyP (x, y)

xP (x), E[y] =

2
X

yP (y)

NO
T

E[x] =

CO

Para se definir a covari


ancia genetica entre X e Y, consideramos x e y como
sendo o n
umero de alelos A nos indivduos X e Y, respectivamente. Por
exemplo, se os gen
otipos de X s
ao AA, Aa e aa, entao os valores x serao 2,
1, 0. Portanto,
Cov(x, y) = E[xy] E[x]E[y]

y=0

x=0

onde P(x) e a soma total de cada linha da matriz J e P(y) e a soma total
de cada coluna da matriz J. Conseq
uentemente, a variancia e a correlacao
genetica ser
ao
2

V (x) = E[x ] (E[x]) =

2
X

x P (x)

#2

xP (x)

x=0

x=0

" 2
X

Cov(x, y)
Corr(x, y) = p
.
V (x)V (y)

DO

Como exemplo, vamos calcular a correlacao genetica entre genitor e filho.


A matriz R neste caso e definida como R = 0 I + 1 T + 0 U = 1 T,
onde

p2 0
0
p
q
0

J = 0 2pq 0 p/2 1/2 q/2


0
0 q2
0
p
q

p3 p2 q 0
2

J = p q pq pq 2
2
3
0 pq
q

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

64

p2

Total das linhas de J = 2pq


q2
Total das colunas de J =

p2 2pq q 2

E[x2 ] = 4[p2 ] + 1[2pq] + 0[q 2 ] = 2p2 + 2p

CO

E[x] = 2[p2 ] + 1[2pq] + 0[q 2 ] = 2p


V [x] = 2p2 + 2p 4p2 = 2pq

E[x, y] = 4[p3 ] + 2[p2 q] + 2[p2 q] + 1[pq] = 3p2 + p


Cov(x, y) = 3p2 + p 4p2 = pq
Ent
ao

1
pq
=
Corr(x, y) =
2pq 2pq
2

NO
T

Portanto, a correlac
ao dos genotipos entre genitor e filho e 1/2.
Vamos agora definir a distribuicao condicional dos fenotipos. Primeiramente, vamos definir penetrancia. Penetr
ancia e definida como sendo a
probabilidade de um indivduo ser afetado dado o seu genotipo, i.e., P(ser
afetado | gen
otipo). Consideremos f o vetor de penetrancia, onde
Genotipo
AA
Aa
aa

P(afetado | genotipo)
fAA
fAa
faa

A prevalencia populacional e a probabilidade de uma pessoa escolhida


aleatoriamente na populacao ser afetada, que e representada por
= P (afetada) =

P (gen
otipo)P (afetada | gen
otipo) = p2 fAA +2pqfAa +q 2 faa .

Ent
ao o i-esimo elemento do vetor Rf e representado por
P (Y ser afetado | gx = i) =

P (gy | gx = i)P (Y ser afetado | gy ).

gx

DO

Seja o i-esimo elemento


ai = P (pessoa aleatoria ter o genotipo i |
 2 do vetor a, onde

0
p fAA 2pqfAa q 2 faa
afetado), onde a =
,
. Entao, P ( Y ser afetado | X ser afetado) =
,

a Rf . Esta probabilidade pode ser usada para calcular a probabilidade de


que um parente de uma pessoa afetada fique afetado.
Para concluir, dizemos que estes coeficientes de correlacao familiar:


2.2. CONCEITO DE CORRELAC
OES

PY

65

1. medem uma associac


ao linear. Portanto, e uma medida de associacao
entre dois fen
otipos bin
arios e dois fenotipos contnuos distribudos
como uma bivariada normal.
2. s
ao medidas primariamente descritivas, mas se todo = 0 significa
que n
ao h
a evidencia de etiologia genetica.

CO

3. s
ao estimadores consistentes da correlacao verdadeira se eles sao baseados em famlias aleatoriamente selecionadas da populacao. Se as
famlias s
ao selecionadas atraves de um probando, estes estimadores
s
ao viciados (subestimados).

2.2

NO
T

Definimos probando ou caso-ndice como sendo uma pessoa com um determinado fen
otipo que, independentemente de todas as outras pessoas com
o mesmo fen
otipo, faz com que sua famlia entrar no estudo. Para famlias
selecionadas atraves dos probandos, a associacao familiar e melhor caracterizada pela distribuic
ao de um fen
otipo entre as classes especficas de parentes
dos probandos. Por exemplo, no caso binario, P(afetado | parente do probando).

Conceito de correlaco
es

Em estudos geneticos, definimos estas correlacoes em duas classes: interclasse e intraclasse. A correlacao e de interclasse se ha duas classes de
parentes envolvidas. A correlac
ao e de intraclasse se ha somente uma classe
de parentes envolvida. Exemplos de correlacoes ignorando sexo, para interclasse s
ao: c
onjuges, genitor-filho, avos, tio(a)-sobrinho(a), e para intraclasse s
ao: irmandade, meio-irm
aos, primos. Quando sexo nao e ignorado,
irmaos do mesmo sexo pertencem `a intraclasse e irmaos de sexos diferentes
`a interclasse.
A correlac
ao de interclasse e a correlacao dos produtos dos momentos de
Pearson, que e calculada como
x
)(yi y)
SP (x, y)
p
=
P
SQ(x)SQ(y)
)2 i (yi y)2
i (xi x

DO

r = pP

i (xi

onde SQ e a soma dos quadrados, SP e a soma dos produtos, (x, y) representa n pares, e a somat
oria e sobre estes pares, que nao estao ordenados.
Por exemplo, no caso de correlacao mae-filho(a), e o par da mae (x) com
cada filho(a) (yi ).

FAMILIAR
CAPITULO 2. CORRELAC
AO

PY

66

CO

A correlac
ao de intraclasse envolve somente uma classe e ha somente uma
media e uma vari
ancia total. Mas esta correlacao tambem pode ser calculada
usando a correlac
ao de Pearson quando os pares sao includos duas vezes,
i.e., usando 2n pares.
Podemos calcular cada media como sendo sexo dependente, tanto para
interclasse como intraclasse. Entao, no caso da correlacao de intraclasse de
irm
aos, ela e obtida combinando a soma dos quadrados e o produto cruzado
para os 3 subtipos;
1/2SP (filho-filho) + SP (irmao-irma) + 1/2SP (irma-irma)
p
SQ(meninos)SQ(meninas)
Podemos tambem permitir que as medias sejam dependentes das variaveis
explanat
orias no c
alculo de SQ e SP, mas homoscedasticidade e freq
uentemente assumida em todos os grupos.
As correlac
oes podem tambem ser calculadas usando tres esquemas de
pesos diferentes:

NO
T

1. Pares com pesos iguais. Todo par de um determinado tipo de dado


tem o mesmo peso para calcular SQ e SP, i.e., uma famlia nuclear
com os dois genitores e 4 filhos tem o mesmo peso que uma famlia
nuclear com dois genitores e 2 filhos.

2. Pesos iguais para heredogramas. Cada famlia tem o mesmo peso


no c
alculo da media, SQ e SP. Primeiro, a media de um determinado
sexo e calculada para cada heredograma, depois uma media geral e
obtida usando todos os heredogramas. Usando esta media, calculamos
para cada heredograma, SP/(# de pares) e SQ/(# de pares). Estas medias s
ao somadas sobre todas as famlias e SP e SQ totais sao
obtidos. Usando estes valores, calculamos a correlacao.

DO

3. Pesos iguais para famlias nucleares. Cada heredograma e dividido em famlias nucleares. Para cada famlia nuclear obtemos as
medias, uma media geral e obtida usando todas as famlias nucleares
dentro de um heredograma, e entao uma media final e obtida usando
todos os heredogramas. SP e SQ sao calculados para cada famlia
nuclear dentro de cada heredograma e dividida pelo n
umero de pares
contido em cada famlia. Estas medias sao entao somadas usando todas as famlias nucleares e todos os heredogramas. Obtemos os SQ e
SP totais e depois a correlacao.

Outro metodo de estimacao da correlacao familiar e usando a ANOVA.


Vamos considerar a correlacao intraclasse e, por exemplo, vamos usar a


2.2. CONCEITO DE CORRELAC
OES

PY

67

correlac
ao da irmandade. Assumimos um modelo linear aleatorio,
yij = + Ai + ij

CO

para i = 1, 2, . . . , S para o j-esimo par de irmaos e j = 1, 2, . . . , ki para


o j-esimo par de irm
aos na i-esima irmandade. Ai e o efeito aleatorio
2 ), onde 2
N (0, A
e
a
vari
ancia entre as classes (neste caso, a irmandade).
A
ij e o efeito aleat
orio ambiental N (0, 2 ). Entao a correlacao intraclasse
e estimada por

2
SS = 2 A 2 .


A +
onde SS representa a irmandade (it sibship). Portanto,
SS
=

DM QA DM QW
DM QA + (k0 1)DM QW

onde DM QA e o desvio medio quadratico entre grupos, DM QW e o desvio


medio quadr
atico dentre grupos,
k0 =

S
X

ki

2
i=1 ki
PS
i=1 ki

1
.
(S 1)

NO
T

i=1

PS

Notas: A estatstica F tambem pode ser usada para testar H0 : SQ = 0.


O estimador de pode ser negativo. Este estimador e o de MV somente se
todas as irmandades s
ao do mesmo tamanho.
A estimac
ao de MV pode ser usada para estimar as correlacoes intra0
classe e interclasse. Neste caso, consideramos um vetor Y = (Y1 , Y2 , . . . , Yn )
que representa os valores do fen
otipo da famlia e mi o tamanho da i-esima
classe dentro da famlia, com Y N (, V). Para exemplificar, vamos considerar uma famlia com 7 pessoas, 2 genitores, 5 filhos (3 filhas e 2 filhos).
Entao, o pai (F) e a m
ae (M) constituem duas classes de tamanho 1, m1 =
m2 = 1, as tres filhas (D) uma classe de tamanho 3, m3 =3, e os dois filhos
(S) uma classe de tamanho 2, m4 = 2. Como X tem distribuicao normal, o
0
vetor da media e = (F , M , D , D , D , S , S ) e a matriz simetrica V
pode ser escrita como

DO

F
M
D
D
D
S
S

F2

F M
2
M

F D F D F D F S F S
M D M D M D M S M S
2
D
DD DD DS DS
2
D
DD DS DS
2
D
DS DS
S2
SS
S2

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

68
e pode ser particionada,

V1 V12 V13 V14

V2 V23 V24

V3 V34
V4

CO

Se Vi e uma matriz mi mi com a diagonal representada por i2 e as covari


ancias i = i i2 , entao i e a correlacao de intraclasse. Se Vij e uma
matriz mi mj com covariancias ij = i i j , entao ij e a correlacao de interclasse. Observe que a intraclasse tem as mesmas medias, mas interclasse
pode ter medias diferentes e, as correlacoes de interclasse sao dependentes
das medias entre classes. Portanto, e importante ajustar o fenotipo com as
vari
aveis explanat
orias, como sexo e idade, usando regressao linear. Como
estamos assumindo normalidade para o vetor de fenotipos, a funcao de verossimilhanca para a i-esima famlia e representada por
0

NO
T

Li = 1/2 ln | Vi | 1/2(yi i ) V1
i (yi i )

ao ha solucoes
e o log da verossimilhanca para N famlias e igual a N
i=1 Li . N
explcitas na estimac
ao dos parametros, so iterativas, exceto quando cada
fen
otipo tem uma media diferente, no nosso exemplo, sete medias para sete
pessoas.
Podemos usar a transformacao exata de Fisher para calcular a correlacao
quando temos famlias com irmandade de tamanho 2. Entao,
P

Z(
) N (Z(), Z2 ),

2
onde Z() = 1/2 ln 1+
lias com irmandade
1 e, Z = 1/(n 3). Para fam
de tamanho maior que 2, o uso de Z(
) e uma aproximacao conservativa.
Uma aproximac
ao recomendada para este caso e calcular um tamanho de
amostra efetivo.

DO

2.3

Componentes de vari
ancia

Consideremos o modelo linear


Y = + g +  + ig


2.3. COMPONENTES DE VARIANCIA

PY

69

onde Y e o fen
otipo quantitativo, e a media total, g e o efeito do genotipo,
 e o efeito do ambiente, e ig e o efeito de interacao entre o genotipo e o
ambiente. Portanto, a vari
ancia de Y e dada por
V (Y ) = g2 + 2 + 2Cov(g, ) + i2 .

CO

Quando n
ao h
a correlac
ao entre o genotipo e o ambiente, Cov(g, e) = 0
e, quando n
ao h
a interac
ao, o modelo linear pode ser representado por
Y = + g + ,
e

V (Y ) = g2 + 2 .

Podemos particionar a vari


ancia genetica como
g2 = a2 + d2 + 2

NO
T

onde a2 e a vari
ancia genetica aditiva, d2 e a variancia genetica dominante, e
2
ancia genetica epist
atica. A variancia genetica aditiva representa a
e e a vari
variac
ao no fen
otipo que e transmitida de pai para filho e e a maior causa de
semelhanca entre os parentes. A variancia genetica dominante representa a
variac
ao da interac
ao dos alelos em cada locus e contribui para a semelhanca
entre parentes que compartilham genotipos com 2 alelos IPD. A variancia
genetica epist
atica representa a variacao da interacao inter-loci.
Usando estas vari
ancias podemos definir a contribuicao relativa de cada
componente com respeito a vari
ancia total do fenotipo. Esta contribuicao
genetica e conhecida como herdabilidade. Definimos herdabilidade no sentido
amplo como sendo a proporc
ao da variancia total que e devida a variancia
genetica, i.e.,
g2
2 + d2 + e2
2
h = 2 = a
Y
Y2

DO

Esta medida pode ser estendida para efeitos geneticos principais. A herdabilidade no sentido restrito e
2
h2 = 2a
Y
Normalmente para se calcular estas medidas, certas suposicoes sao necessarias
como Cov(gen
otipo, ambiente) = 0, nao ha interacao entre o genotipo e o
ambiente, e n
ao h
a epistasis. A herdabilidade nao nos da informacao sobre
o mecanismo biol
ogico.

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

70

A vari
ancia ambiental pode ser particionada entre a variancia do ambiente compartilhado e a variancia do resduo ambiental, i.e.,
2 = c2 + r2 .

Cov(yi , yj ) =

CO

A vari
ancia do ambiente compartilhado e similar `a variancia entre grupos,
que e similar a correlacao intraclasse, pois conjuges e irmaos compartilham
o mesmo ambiente. A variancia do resduo ambiental e similar `a variancia
dentre grupos.
Neste caso, podemos estender a covariancia genetica para famlias de
gerac
oes m
ultiplas. Para simplificar, assumimos que a Cov(g,) = 0, nao
h
a interac
ao entre o genotipo e o ambiente e nao ha variancia do ambiente
compartilhado. Ent
ao, y representa um vetor de medidas (fenotipos) de
uma famlia, e V representa a matriz de covariancia de Y definida por
para i = j
a2 + d2 + 2
2
2
2Kij a + ij d para i 6= j

NO
T

Kij e o coeficiente de relacionamento para i e j, ij e a probabilidade de


i e j compartilhar 2 alelos IPD, a2 e a variancia aditiva genetica dos loci
n
ao observados (poligenicos) e d2 e a variancia aditiva dominante dos loci
n
ao observados (poligenicos). A correlacao dos irmaos pode ser maior que
a correlac
ao dos genitores-filhos devido a dominancia e ao ambiente comum
compartilhado pela irmandade. Quando os efeitos dos loci sao aditivos, a
correlac
ao familiar n
ao nos da nenhuma informacao sobre o n
umero de loci
envolvidos.
Um metodo de estimacao comumente usado e o de maxima verossimilhanca. Se assumirmos que cada i-esima famlia, Yi N (i , Vi ), de tal
forma que a func
ao de log verossimilhanca e
L=

N h
X

ln | Vi | (Yi i ) V1 (Yi i ) ,

i=1

DO

h
a limitac
oes quando se usa a normal multivariada, pois muitas vezes os
fen
otipos n
ao satisfazem esta suposicao. No entanto, podemos usar metodos
robustos como a distribuicao t-multivariada ou transformar os fenotipos, de
tal forma que satisfacam `a suposicao de normalidade.

2.4

Teste de associac
ao


2.4. TESTE DE ASSOCIAC
AO

PY

71

CO

O objetivo da an
alise de associacao e determinar se um dist
urbio investigado e associado com um determinado marcador genetico, ou melhor, com
um determinado alelo deste marcador. Dizemos que o marcador genetico
e polim
orfico se o alelo mais freq
uente ocorre em menos que 99% da populacao. Exemplos de marcadores polimorficos sao os variantes antigenicos,
variantes de protena, marcadores geneticos anonimos (restriction fragment
length polymorphisms (RFLP), variable number tandem repeats (VNTR),
microsatelite), gene candidato.

Seleo

(a)

m
Diferentes
raas
d

(c)

m
d

D
(e)

NO
T

(d)

(b)

Figura 2.2: Mecanismos de associacao

DO

As causas de associac
ao s
ao varias. A Figura 2.2 mostra varios mecanismos. Para melhor interpretar a figura, vamos definir m, M , d, e D como
sendo o locus genetico do marcador, o marcador do fenotipo, o locus genetico
da doenca e o fen
otipo da doenca, respectivamente. A Figura 2.2a mostra o
caso em que o marcador genetico, m, sozinho causa a doenca, D. A Figura
2.2b mostra o caso em que ambos o marcador genetico, m e o locus genetico
da doenca, d, causam a doenca. Estes dois casos sao conhecidos como efeito
pleitropico. Definimos pleitropia quando um u
nico gene ou par de genes
produz efeitos fenotpicos diversos. A Figura 2.2c mostra o caso de selecao
conjunta do marcador e da doenca. A Figura 2.2d mostra a situacao em
que ha mistura de populac
oes nas quais as freq
uencias alelicas do marcador
genetico e as freq
uencias alelicas da doenca sao distintas. A Figura 2.2e mostra o caso de desequilbrio de ligacao, onde os alelos do marcador genetico
e os alelos da doenca n
ao s
ao independentes devido a recombinacao, normalmente dito estar em ligac
ao apertada. Ha varios tipos de planejamento
para se estudar associac
ao na populacao. Um deles e usar controle nao relacionado com o caso, mas devido ao impacto do confundimento dos efeitos
geneticos, quando se estuda populacoes mistas, foi proposto por Spielman e

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

72

Ewens (1993) o uso do controle, que e geneticamente relacionado com o caso,


i.e., os genitores (n
ao afetados) e, recentemente os irmaos foram propostos
por Curtis (1997). H
a vantagens e desvantagens em cada tipo de estudo.
Vamos apresentar somente os estudos caso-controle e caso-genitores quando
a doenca e bin
aria (afetado ou nao).

Estudo caso-controle

CO

2.4.1

Nesta sec
ao vamos discutir testes de associacao em indivduos nao relacionados. Em epidemiologia isto e conhecido como o estudo caso-controle.
Neste caso, temos a seguinte situacao:

Marcador

+ (M M , M m)
- (mm)

Casos
a
c
c1

Controles
b
d
c2

r1
r2
N

NO
T

Para se testar se ha associacao entre o marcador genetico e o fato de


ter a doenca, aplicamos o teste 2 de Pearson, i.e., H0 : nao ha associacao,
onde a estatstica X e
X=

(ad bc)2 N
21
r1 r2 c1 c2

. Podemos tambem usar o teste exato de Fisher. A medida de associacao


ca
usada e a da raz
ao de chance (RC), RC = ad
bc . Se a probabilidade da doen
e pequena, a RC e equivalente a medida de risco relativo (RR), definida por
RR = PP (D|+)
ao substitudos por uma amostra aleatoria da
(D|) . Se os controles s
d
populac
ao, ent
ao o RC
e um estimador consistente do RR. Mas a associacao
encontrada neste estudo nao implica, necessariamente, uma ligacao entre o
marcador e a doenca.

2.4.2

Estudo caso-genitores

DO

Este planejamento de estudo e uma alternativa do estudo anterior. Aqui,


os controles s
ao os genitores. Este tipo de estudo evita os problemas relacionados com a escolha do controle quando ha populacao mista. Os casos
podem ser probandos, pois estes sao afetados pela doenca e, na maioria das
vezes h
a informac
ao genetica nos casos e nos genitores. Por exemplo, consideremos uma famlia nuclear, onde os genitores tem os genotipos M m e mm


2.4. TESTE DE ASSOCIAC
AO

PY

73

e o caso (filho) tem o gen


otipo M m, entao escrevemos a seguinte tabela de
transmiss
ao dos alelos de genitores para o caso,

M
m

CO

Alelos
Transmitidos

Alelos nao transmitidos


M
m
0
1
0
1

O objetivo deste estudo de associacao e observar o seguinte: Se o alelo


M aumenta o risco da doenca, entao M devera ser mais freq
uente entre os
dois alelos transmitidos que entre os alelos nao transmitidos.
Para testar a hip
otese de n
ao associacao, podemos aplicar os seguintes
testes:
1. Teste de McNemar. Primeiramente, classificamos cada um dos 2n
genitores, como a tabela descrita acima, e n e o n
umero de casos.

NO
T

Alelos nao transmitidos


M
m
a
b
c
d
a+c
b+d

Alelos
Transmitidos

M
m

a+b
c+d
2n

O teste estatstico usado e o de McNemar, que e representado com


X=

(b c)2
b+c

DO

onde sob H0 , X 21 . Neste teste, H0 : (1 2) = 0, onde e


a medida de associac
ao de desequilbrio de ligacao e e a fracao de
recombinac
ao. Portanto, nao ha associacao se = 0 ou = 1/2, e
existe associac
ao se ambos 6= 0 e < 1/2, i.e., se ha associacao e
ligac
ao. Este teste e tambem conhecido como o teste de de transmissao
de desequilbrio (Transmission/Disequilibrium Test (TDT)). Este teste
foi generalizado para alelos m
ultiplos (ver Sham e Curtis, 1995; Ewens
e Spielman, 1999).

2. Risco Relativo do Hapl


otipo (Haplotype Relative Risk (HRR)).
Este teste difere do de McNemar no seguinte aspecto: so as marginais
da tabela acima s
ao consideradas, i.e., o caso transmite 2 alelos e o
controle n
ao transmite 2 alelos como mostra a tabela abaixo.

Caso
Controle

PY

FAMILIAR
CAPITULO 2. CORRELAC
AO

74

Alelos nao transmitidos


M presente M ausente
a+b
c+d
a+c
b+d

CO

A estatstica HRR e representada por

2n
2n
4n

HRR =

(a + b)(b + d)
.
(a + c)(c + d)

Se = 0, HRR = RR. Se o loci do marcador e da doenca estao em


ligac
ao ( < 1/2)) e em desequilbrio de ligacao ( 6= 0), a associacao
medida pelo HRR nunca e maior que a medida pelo RR.

2.4.3

Associac
ao entre fen
otipos quantitativos e marcadores
gen
eticos

NO
T

O marcador genetico pode ser gene candidato, ou um marcador ligado


ao gene candidato. Neste caso, vamos considerar o modelo linear
y = m + g + 

DO

em que y e o fen
otipo quantitativo, m e a media do marcador genetico observado, g e o efeito genetico nao observado e  e o efeito ambiental. Entao,
V (y) = g2 + 2 . Assumimos que a Cov(g, ) = 0 (nao ha correlacao entre
o gen
otipo e o ambiente) e nao ha interacao. Neste caso, podemos usar
ANOVA ou modelos lineares para estimar o efeito do marcador genetico observado, quando os indivduos nao sao relacionados, i.e., sao independentes.
A suposic
ao de normalidade e essencial para se fazer um teste de hipotese
v
alido. Quando selecionamos famlias, os resduos, depois de considerar o
marcador genetico observado, podem ser correlacionados entre os parentes
atraves dos poligenes e do ambiente comum. Podemos usar o modelo poligenico para estimar a covariancia poligenica. A variancia ambiental pode
ser particionada em duas variancias, o ambiente compartilhado e os resduos.
Podemos tambem aplicar metodos de verossimilhanca para componentes de
vari
ancia quando assumimos uma distribuicao normal multivariada. Allison
(1997) e Rabinowitz (1997) propuseram testes de associacao para fenotipos
quantitativos.

PY
CO

Captulo 3

An
alise de Segrega
c
ao
3.1

Introdu
c
ao

DO

NO
T

An
alise de segregac
ao pode ser definida como uma metodologia estatstica usada para determinar a forma de heranca de um determinado
fenotipo usando famlias de estrutura complexa ou heredograma, com foco
no efeito genetico principal. No caso de doencas mendelianas, analise de segregac
ao e uma ferramenta b
asica em genetica humana, especialmente para
futuros estudos de ligac
ao. No caso de doencas comuns onde nao ha um
efeito genetico principal, ela n
ao e de muita utilidade. Com o mapeamento
do genoma humano e a descoberta de milhoes de single nucleotypes repeats
(SNP) an
alise de segregac
ao e atualmente considerada, por alguns, como
uma metodologia arc
aica, mas para outros ainda e uma metodologia valiosa, especialmente no caso de doencas complexas raras que agregam em
famlias. Portanto, este captulo tem como objetivo introduzir varias etapas do desenvolvimento desta metodologia, desde o princpio do seculo XX
com a an
alise de irm
aos afetados ate os dias de hoje com o uso dos mo tambem importante salientar que o
delos probabilsticos e regressivos. E
desenvolvimento dela e devido ao acesso de computores com processadores
ultra-r
apidos, que sem os quais as analises sofisticadas seriam impossveis
de serem calculadas.

3.2

An
alise de segregac
ao cl
assica

O objetivo da an
alise de segregacao classica e detectar a razao mendeliana para doencas raras e fenotipos raros. Ela e realizada somente em
75

CAPITULO 3. ANALISE
DE SEGREGAC
AO

PY

76

CO

irmandades. Em um cruzamento heterozigoto (Aa x Aa) produz-se os seguintes gen


otipos: AA, Aa, aa com as respectivas freq
uencias p2 , 2p(1 p),
2
q , onde p e (1 p) sao as freq
uencias dos alelos A e a. Se o alelo A representa o alelo causador da doenca e todos os indivduos com pelo menos
uma c
opia do alelo A sao afetados com a doenca, dizemos que a doenca e
dominante. Se somente os indivduos com duas copias do alelo A sao afetados, dizemos que a doenca e recessiva. Se a heranca genetica e dominante e
p tem um valor pequeno, neste cruzamento metade desta prole sera afetada
pela doenca. Se a heranca genetica e recessiva e p tem um valor grande,
neste cruzamento 1/4 desta prole sera afetada pela doenca.
A distribuic
ao binomial e usada para representar a probabilidade de r
irm
aos serem afetados em uma irmandade de tamanho s,
!

P (r | s, p) =

s r
p (1 p)sr
r

(3.1)

DO

NO
T

Normalmente, quando famlias sao selecionadas para estudos geneticos,


elas s
ao selecionadas atraves do filho afetado pela doenca de interesse e nao
pelo tipo de cruzamento dos pais. A selecao atraves do filho afetado altera
a raz
ao do filho afetado em comparacao com o filho nao afetado. Isto cria
um vcio na estimacao da proporcao de segregacao. Por exemplo, o cruzamento entre dois heterozigotos (Aa x Aa) produz a razao familiar 1:2:1
dos gen
otipos AA, Aa, aa entre a irmandade e isto resulta numa proporcao
de segregac
ao de 0.25 de doencas autossomicas recessivas. Entretanto, se
somente famlias com um ou mais filhos afetados sao selecionadas, entao
uma certa proporc
ao de todos os cruzamentos Aa x Aa nunca sera observada porque, por acaso, eles nao produziram nenhum filho afetado. 75%
de toda a irmandade de tamanho 1 nao serao selecionados (1 - 0.25), 56.3%
(0.752 ) de toda irmandade de tamanho 2 nao serao selecionados, e assim por
diante. Neste caso, temos uma distribuicao binomial truncada devido ao selecionamento do filho afetado. Em resumo, a proporcao (1 p)s de todas as
irmandades de tamanho s nao serao elegveis para entrar na selecao. Neste
caso, a distribuic
ao do filho afetado entre todas as irmandades elegveis para
selec
ao e descrita como

P (r > 0 | s, p) =
=

P (r | s, p)
P (r > 0)
s r
sr
r p (1 p)
1 (1 p)s

(3.2)

77

PY

CLASSICA

3.2. ANALISE
DE SEGREGAC
AO

O metodo de MV pode ser usado para estimar a proporcao de segregacao


(Elandt-Johnson, 1971). Weinberg (1912) usou esta distribuicao truncada
para estimar a proporc
ao de segregacao que e similar ao estimador de maxima
verossimilhanca, mas com uma variancia maior. Li e Mantel (1968) estimaram esta proporc
ao atraves de uma aproximacao que e
R J1
S J1

(3.3)

CO

p =

onde R e o n
umero total de indivduos afetados na irmandade numa amostra
de s indivduos, J1 representa o n
umero de irmandades com somente um
indivduo afetado. A vari
ancia deste estimador e maior que a variancia do
estimador de m
axima verossimilhanca, mas menor do que o estimador de
Weinberg. Para amostras grandes, a variancia de (3.3) e
V ar(
p) =

(R J1 )(S R) 2J2 (S R)
+
(S J1 )3
(S J1 )4

(3.4)

DO

NO
T

onde J2 e o n
umero de irmandades com dois indivduos afetados (Davies,
1979).
A distribuic
ao binomial truncada representa somente a distribuicao de
indivduos afetados e sadios nas irmandades elegveis. Isto representa o caso
em que toda a irmandade elegvel e identificada com a mesma probabilidade
como se ela fosse selecionada na populacao geral. Entretanto, freq
uentemente irmandades com mais que 2 indivduos afetados serao selecionadas
mais freq
uentemente do que as irmandades com somente um indivduo afetado, e conseq
uentemente criando uma distorcao no n
umero de indivduos
afetados e n
ao afetados, sendo entao p um estimador viciado. Por esta razao,
o conceito de probando foi criado. Define-se probando (ou caso ndice) como
sendo um indivduo afetado que seleciona uma famlia para um estudo ou
amostra e, que e selecionado independentemente de todos os outros probandos. Famlias podem ter mais que 2 probandos (por exemplo, procura de
defeitos de nascimento usando um registro estadual). Famlias podem ter
indivduos afetados que n
ao s
ao probandos (por exemplo, indivduo nascido
em outro estado). Mas toda famlia selecionada tera um probando.
possvel obter um estimador nao viciado de p, se a probabilidade,
E
, de um indivduo afetado ser selecionado como probando e especificada.
Neste caso, v
arias suposic
oes s
ao necessarias. Se assumirmos que todos
os probandos s
ao selecionados independentemente, a distribuicao binomial
truncada pode ser usada para descrever a distribuicao de c probandos entre
r irmaos afetados numa famlia,

r c
(1 )rc .
c

P (c | r, ) =

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

78

(3.5)

Como as famlias com c = 0 nunca serao identificadas, a distribuicao dos


probandos entre r afetados numa irmandade selecionada sera

CO

P (c > 0 | r, ) = 1 (1 )r .

(3.6)

A distribuic
ao das probabilidades dos probandos entre todos os indivduos
afetados precisa ser combinada com a distribuicao dos indivduos afetados
entre todas as irmandades para se obter a probabilidade de selecionar uma
irmandade (Elandt-Johnson, 1971). Entao, temos

P (c > 0 | s, r, ) =

r=1
s
X

s r
p (1 p)sr [1 (1 )r ]
r

s
X
s r
s r
p (1 p)sr
p (1 p)sr (1 )r
r
r
r=1

NO
T

s
X

r=1

= 1 (1 p)

s
X

r=1

s
[(1 )p]r (1 p)sr
r

= 1 (1 p)s .

(3.7)

Observe que p representa a probabilidade conjunta de ser afetado e ser


selecionado como probando. Desta forma a probabilidade de r indivduos
afetados em irmandades selecionadas de tamanho s sera expressa como

P (r | c > 0, s, r, ) =

P (r | s, p) P (c > 0 | r, )
P (c > 0 | r, )
s r
sr [1 (1 )r ]
r p (1 p)
.
1 (1 p)s
T

(3.8)

DO

Esta probabilidade condicional pode ser usada para se calcular os estimadores de m


axima verossimilhanca de p, a razao de segregacao, e , a probabilidade de um indivduo afetado ser probando, onde p e o parametro de
interesse e e o par
ametro secundario ou nuisance.
Como 0 1, podemos definir os seguintes casos de selecionamento.
Selecionamento u
nico quando 0, selecionamento m
ultiplo quando 0 <


CLASSICA

3.2. ANALISE
DE SEGREGAC
AO

PY

79

< 1 e, selecionamento completo quando = 1. No caso de selecionamento


u
nico ( 0), a equac
ao (3.8) sera igual a
!

s 1 r1
p (1 p)sr .
r1

CO

OBS: 1(1p)s = 1(1r . . .) r, que e a probabilidade de que pelo


menos um probando seja selecionado e proporcional ao n
umero de irmaos
s
afetados e, 1 (1 p) = 1 (1 sp . . .) sp.
No caso de selecionamento completo ( = 1), a equacao (3.8) sera igual a
equacao (3.2) (distribuic
ao truncada binomial).
Podemos usar a func
ao descrita na equacao (3.8), para determinar se a
forma de heranca e recessiva ou dominante. Neste caso, as hipoteses serao
H0 : p = 1/4 ou H0 : p = 1/2. Podemos estimar p usando o metodo
de maxima verossimilhanca (no caso de > 0 usamos metodos iterativos)
e o compararemos com o seu erro padrao. No caso de amostras grandes,
podemos usar o teste da raz
ao de verossimilhanca

ou

P (y | p = 1/4)
maxp P (y | p)

NO
T

max P (y1 | p = 1/4, )


maxp, P (y1 | p, )

em que y representa os dados e y1 = rs pr (1 p)sr


compararemos 2 ln com a distribuicao 21 .


3.2.1

(rt)t (1)rt
1(1p)s

. Entao

Modelo polig
enico para fen
otipos discretos

DO

No caso de modelos poligenicos, assumimos que ha muitos loci autossomicos, onde os alelos em cada locus sao classificados como baixo e alto risco.
O risco de ser afetado depende somente do n
umero acumulado de alelos
de risco alto ou ac
ao genetica acumulada e de que os efeitos alelicos sejam
independentes e igualmente aditivos. Por exemplo, consideremos cinco loci
com os seguintes gen
otipos: genotipo 1 = AA Bb Cc dd EE; genotipo
2 = Aa BB Cc DD ee, onde a letra mai
uscula representa o risco alto e
a letra min
uscula o risco baixo. Os genotipos 1 e 2 tem o mesmo risco,
i.e., seis alelos de risco alto. Numa populacao de cruzamento aleatorio, a
proporc
ao de alelos de risco alto converge para uma distribuicao normal
quando o n
umero de loci aumenta. Portanto, o risco depende do genotipo

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

80

que e equivalente a dizer que o risco depende do risco genetico, G, onde


G N (0, 2 ). Definimos entao a funcao risco de um indivduo como


P (indivduo ser afetado | G) =


Z

GT

GT

x2
1
e 2 dx
2

(3.9)

CO

em que T e o valor limiar. Esta funcao risco e tambem conhecida como


penetr
ancia.
Definimos prevalencia da doenca, como
=

X
i

para gen
otipos discretos, gi e
Z

P (gi )P (afetado | gi )

G2
1
GT
e 2

dG =

T
1 + 2

NO
T

para valores contnuos, G.


Se assumimos que o risco genetico G N (0, 1), o risco ambiental E
N (0, 2 ), G e E independentes, entao o risco total, L = G+E N (0, 1+ 2 ),
se definirmos que um indivduo e afetado quando L > T , entao
T
P (afetado) = 1
1 + 2


T
.
=
1 + 2


(3.10)

Neste caso, a func


ao risco e o modelo usando o valor limiar sao iguais.

3.3

An
alise de segregac
ao moderna

DO

A diferenca entre a analise de segregacao classica e a moderna e que nao


h
a restric
ao na freq
uencia alelica, o fenotipo pode ser contnuo ou discreto,
e a estrutura das famlias pode ser arbitraria. Ha duas maneiras nas quais a
func
ao de probabilidade pode ser generalizada para representar um modelo
no qual a hip
otese de segregacao mendeliana pode ser testada: estendendo
a an
alise de segregac
ao classica e, incorporando a heranca poligenica no
modelo.


MODERNA
3.3. ANALISE
DE SEGREGAC
AO

PY

3.3.1

81

A distribuic
ao genotpica conjunta dos c
onjuges.

Aqui, definimos u como sendo o genotipo principal e G como sendo a


2 ), onde
distribuic
ao dos poligen
otipos N (0, G
(2)
uF GF uM GM

freq
uencia

uF uM

2 )
2
uF (GF , G
uM (GM , G )

1
2W

onde (z, w) =

3.3.2

exp 12 zw

A distribuic
ao fenotpica condicionada no gen
otipo.

Definimos z como o fen


otipo. Entao

gen
otipo

(1)
u

(2)
uG

f.d.p.
contnuo
discreto

gu (z)
(z u , 2 )
fu

guG (z)
(z u G, 2 )
( Gu
)

NO
T

3.3.3

CO

cruzamento

(1)
uF uM

Transmiss
ao gen
etica do gen
otipo principal.

A heranca genetica de uma geracao para outra pode ser escrita como a
distribuic
ao genotpica do filho condicionada nos genotipos dos pais. Definimos puF uM u como a probabilidade de um indivduo ter genotipo u dado
que seus pais tem gen
otipos uF e uM , que e representada por

DO

puF uM u

uF uM se

(1

)
+

(1
uF ) se
=
uF
uM
uM

(1 uM )(1 uF ) se

u = AA
u = Aa
u = aa

Estas probabilidades podem ser vistas como os elementos de uma matriz


estocastica tri-dimensional chamada matriz de transmissao genetica. No
caso das transmiss
oes mendelianas, estes valores sao definidos como:
AA = P (genitores com gen
otipo AA transmitem o alelo A) = 1,
Aa = P (genitores com gen
otipo Aa transmite o alelo A) = 1/2 e,

CAPITULO 3. ANALISE
DE SEGREGAC
AO

PY

82

aa = P (genitores com genotipo aa transmite o alelo A) = 0.


Um caso particular desta matriz e apresentado na Tabela 3.1.

uF
AA
Aa
aa

AA
(1 0 0)
(1/2 1/2 0)
(0 1 0)

CO

Tabela 3.1: Matriz de transmissao genetica para um locus autossomico com


dois alelos. Cada casela e uma distribuicao genotpica (puF uM AA puF uM Aa
puF uM aa )
uM
Aa
(1/2 1/2 0)
(1/4 1/2 1/4)
(0 1/2 1/2)

aa
(0 1 0)
(0 1/2 1/2)
(0 0 1)

No caso do modelo poligenico aditivo, definimos


pGF GM G (G

2
GF + GM G
,
)
2
2

NO
T

pois a populac
ao de valores de gametas transmitidos por qualquer poligene
2 /2 e quaisquer dois
e normalmente distribuda com media G/2, variancia G
gametas produzidos por G tem uma correlacao igual a 1/2 e o cruzamento
dos pais e aleat
orio. A distribuicao para o modelo misto, que contem os
componentes poligenicos e monogenicos, e obtida multiplicando-se as duas
distribuic
oes correpondentes, puF GF uM GM uG = puF uM u pGF GM G .

3.3.4

Tipos de amostragem.

DO

A populac
ao a ser estudada pode ser selecionada atraves de uma amostragem aleat
oria, que e uma populacao bem definida de unidades aleatorias
distintas, cada qual com a mesma probabilidade de ser selecionada. Todas
as pessoas morando numa determinada area geografica definem uma populac
ao de estrutura distinta. Podemos considerar uma amostra aleatoria de
indivduos, que s
ao os nossos probandos aleatorios. E aumentamos a amostra acrescentando os parentes destes indivduos. Esta amostra de famlias e
ent
ao considerada como uma amostra aleatoria da populacao. No caso de
doencas raras, a selec
ao aleatoria nao e eficiente porque a amostra sera constituda de indivduos sem a doenca, e conseq
uentemente nao informativa.
Neste caso, as famlias sao selecionadas para participar no projeto porque
pelo menos um elemento da famlia e afetado. Este tipo de amostragem e

83

PY

MODERNA
3.3. ANALISE
DE SEGREGAC
AO

3.3.5

M
etodo de verossimilhanca

CO

conhecido como selec


ao atraves do probando (ou caso-ndice). Selecionamento foi definido inicialmente para doencas dicotomicas (afetado ou nao)
segregando em irmandades (Secao 3.2) e estendido para fenotipos contnuos
por Elston e Yelverton (1975). O mesmo tipo de criterio pode ser usado em
famlias constitudas de v
arias geracoes. O selecionamento u
nico (Cannings
e Thompson, 1979) e o mais utilizado e de facil implementacao.

Usando o modelo de transmissao probabilstica


L=

XX

...

u1 u2

ni=1 P (ui )gui (zi )

un

onde P (ui ) = ui para os fundadores e igual a PuF uM ui para os naofundadores. Aqui usamos o algoritmo de Elston-Stewart para calcular a
funcao de verossimilhanca.
Usando os modelos mistos e unificados,
Z

NO
T
L=

XX

...

P (ui )P (Gi )guG (zi )

...

G1

u1 u2

G2

Gn

2 ) para os fundadores
onde P (ui ) = ui (Gi , G
e igual a PuF uM ui PGF GM Gi
para os n
ao-fundadores. O algoritmo de Elston-Stewart nao pode ser usado
exceto com uma aproximac
ao.

3.3.6

Selecionamento atrav
es do probando

A correc
ao de selecionamento na analise de segregacao classica e dada
por

1 (1 )r
1 (1 p)s

se e conhecido

DO

r t (1 )rt
t 1 (1 p)s

se e desconhecido e ha t probandos

Seja

(zi ) =

(zi ) se
1 (zi ) se

i e um probando
i nao e um probando

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

84

Ent
ao, para (z) desconhecido, o fator de correcao de selecionamento e
dado por

1
P

R
z1

ni=1 (zi )
R
n
z2 . . . zn i=1 [1 (zi )]

3.3.7

CO

onde
substitui quando z e discreto. O denominador e equivalente a
probabilidade do heredograma ter pelo menos um probando, que e por sua
vez igual a 1 - probabilidade do heredograma nao ter probandos.

Testes de hip
oteses gen
eticas

NO
T

Akaike (1977) sugeriu a escolha da hipotese que maximiza a entropia


esperada, i.e., que minimize AIC = -2 ln (maxima verossimilhanca) + 2
(n
umero de par
ametros estimados independentemente). A vantagem deste
teste e que os modelos nao precisam ser hierarquicos. No caso de modelos
hier
arquicos, podemos aplicar o teste da razao de verossimilhanca, que e 2[ln
(m
axima verossimilhanca sob o modelo geral) - ln (maxima verossimilhanca
sob H0 )] 2gl sob H0 , onde gl e o n
umero de parametros extras estimados
independentemente sob o modelo geral. Uma das condicoes deste teste ser
assintoticamente 2 sob H0 e que H0 tem que ser uma regiao interior do
espaco de par
ametros do modelo.
Exemplos de H0 :

1. Testar a hip
otese
e,
p de Hardy-Weinberg: H0 : Aa = 2 AA aa , isto
2
2
2p(1 p) = 2 (1 p) p .

2. Testar a hip
otese de transmissao mendeliana: H0 : AA = 1, Aa =
1/2, aa = 0
3. Testar a hip
otese de que nao ha componente poligenico, assumindo
transmiss
ao mendeliana: H0 : g2 = 0.

DO

4. Testar a hip
otese de que nao ha um gene principal, assumindo transmiss
ao mendeliana: H0 : AA = Aa = aa ou AA = Aa = 0.

3.4

Modelos regressivos

85

PY

3.4. MODELOS REGRESSIVOS

CO

Estes modelos foram desenvolvidos por Bonney (1984, 1986) e eles sao
mais flexveis que os modelos propostos anteriormente porque eles permitem uma estrutura de correlac
ao mais flexvel para o componente poligenico
e computacionalmente s
ao mais razoaveis para heredogramas de estrutura
complexa (ou de tamanho grande). Estes modelos sao classificados como
dependentes de relac
oes biol
ogicas. O modelo regressivo classe A considera
a distribuic
ao poligenica de um indivduo condicionada na distribuicao dos
pais independentes e a correlac
ao poligenica da irmandade e uma funcao da
correlac
ao poligenica dos pai-filho e conjuges. O modelo regressivo classe B
ou C considera, alem da dependencia dos pais, a dependencia dos irmaos
mais velhos, i.e., a distribuic
ao poligenica dos irmaos mais novos condicionada na distribuic
ao dos pais e dos irmaos mais velhos sao independentes.
O modelo regressivo classe D considera a distribuicao poligenica de um indivduo condicionada na distribuicao dos pais e na soma dos componentes
dos irm
aos mais velhos independentes. No caso de famlias nucleares, os modelos mistos e unificados s
ao casos especiais desta classe. Antes de explicar
estes modelos em detalhes, vamos primeiramente revisar o seguinte teorema:
0

NO
T

Se y0 = (y1 , y2 ) tem uma distribuicao normal multivariada com

y1
y2

1
2

eV

y1
y2

P P !
P11 P12
.
12

22

Entao a distribuic
ao de y1 | y2 e uma normal multivariada com
P0 P1
P
P
P0 P P
1.2 = 1 + 12 22 (y2 2 ) e 1.2 = 11 12 1
12 .
22

DO

Por simplicidade vamos considerar o caso de uma famlia nuclear (pais


e filhos), na qual observamos um fenotipo contnuo em todos os membros
da famlia, e sem efeito genetico principal. Se assumimos que nesta famlia,
0
0
o valor do fen
otipo e representado pelo vetor y = (yF , yM , y1 , . . . , yc ) , que
tem uma distribuic
ao normal, entao a funcao densidade de probabilidade
desta famlia pode ser expressa como
0
f (y) = (2)n/2 |V |1/2 {exp(y ) V 1 (y )}
em que o n
umero total de indivduos na famlia e n = c + 2, e a media, a
variancia e a matriz de correlac
ao familiar sao representadas por E(yi ) = ,

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

86
V (yi ) = 2 ,

.
.
.
.

F M

P O

, V = 2 .

F M
1
P O
.
.
.
P O

P O P O
P O
.
1
.
.
.
SS
.
.
.
SS
.

.
.
. P O
.
.
.
.
.
.
.
.
.
1

CO

P O

Podemos agora decompor f (y) como


f (y) = f (yF )f (yM | yF )f (y1 | yF , yM )f (y2 | yF , yM , y1 ) . . .
f (yc | yF , yM , y1 , . . . , yc1 ) = ci=1 (zi , wi ),
onde z e a media ajustada e w a variancia condicional. Este resultado pode
ser obtido seguindo as etapas:
1. A distribuic
ao de yF N (, 2 ), entao f (yF ) = (yF , 2 ), onde
zF = yF e wF = 2 .

NO
T

2. Pelo teorema especificado acima,


yM
yF

2
2
F M

2 F M
2

!!

Ent
ao a media condicional e a variancia condicional sao representadas
por
E(yM | yF ) = + F M (yF ),
V ar(yM | yF ) = 2 (1 2F M ),

com f (yM | yF ) = (yM F M (yF ), 2 (1 2F M )). Neste caso,


zM = yM bF M (yF ) com bF M = F M e wM = 2 (1 2F M ).

3. A distribuic
ao de y1 | yF , yM e uma normal trivariada com

DO

yF

yF
2

2
E yM = , V yM = F M
y1

y1
2 P O

2 F M
2
2
P O

2 P O

2 P O .
2

Ent
ao a media condicional e a variancia condicional sao representadas
por
E(y1 | yF , yM ) = +

P O
P O
(YF ) +
(YM ),
1 + F M
1 + F M

87

w1 = V ar(y1 | yF , yM ) =

22P O
1
1 + F M

com
z1 = y1 b1F (YF ) b1M (YM )
P O
1+F M

em que b1F =

e b1M =

P O
1+F M .

PY

3.4. MODELOS REGRESSIVOS

CO

4. Calculamos as distribuic
oes de y2 | yF , yM , y1 , y3 | yF , yM , y1 , y2 ate
yc | yF , yM , y1 , . . . , yc1 da mesma forma que o item 3, para obter
P
zi = yi biF (yF ) biM (yM ) i1
j=2 bij (yj ) e wi , para
i = 1, 2, . . . , c, em que
"

biF = biM

bij =

(i 1)(SS 22P O )
P O
1
=
1 F M
1 SS + (i 1)(SS 22P O )

1 SS

SS 22P O
, j = 2, . . . , i 1
+ (i 1)(SS 22P O )

wi = 2 [1 biF P O biM P O (i 1)bij SS ] .

NO
T

Observe que os bij n


ao dependem dos js, o que significa que todas as
regress
oes nos outros filhos sao iguais.
Agora vamos assumir que cada indivduo da famlia tem um particular
genotipo principal, u. A func
ao de verossimilhanca e escrita como o produto
de c + 2 densidades normais, ci=F,M,1 (zi , wi ), em que
zF

= yF uF

zM

= yM uM bM F (yF uF )

z1 = y1 u1 b1F (yF uF ) b1M (yM uM )


z2 = y2 u2 b2F (yF uF ) b2M (yM uM ) + b21 (y1 u1 )
..
.
zc = yc uc bcF (yF uF ) bcM (yM uM ) + . . . + bc,c1 (yc1 uc1 )

DO

com os bs e os ws definidos como antes. A funcao de verossimilhanca para


uma famlia nuclear e
XXX
uF uM u1

onde

P (ui ) =

...

ci=F,M,1 P (ui )(zi , wi )

uc

ui
PuF uM ui

para i = F ou M
para i = 1, 2, . . . , c

Portanto, a func
ao e escrita como
X

P (uF )(zF , wF )

uF

P (uM )(zM , wM ) ci=1

uM

X
u1

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

88

...

P (ui )(zi , wi ).

uc

NO
T

CO

A somat
oria m
ultipla e necessaria por causa da dependencia entre a irmandade.
O modelo regressivo mais utilizado e o classe D por causa da sua propriedade de que os resduos do genotipo principal (RGP) de um indivduo
s
ao independentes dos RGP dos ancestrais condicionados no RGP dos pais
e irm
aos, i.e., o fen
otipo de um indivduo depende do fenotipo dos ancestrais somente atraves dos genotipos e fenotipos dos pais e dos irmaos. Para
famlias nucleares, os modelos regressivos classe D incluem o modelo misto
como caso especial. Para famlias de estruturas complexas, eles sao aproximados. Bonney (1984) mostrou que a diferenca na correlacao dos RGP dos
av
os-netos no modelo misto nao pode exceder 1/16. O modelo regressivo
classe D pode ser facilmente estendido para incluir regressao de mae-filho e
pai-filho, vari
ancia para sexo e genotipo especifico, i.e., um modelo dependente de covariadas pode ser escrito como
zi = yi i 2 xi1 2 xi2 . . .

3.4.1

Fen
otipos bin
arios

Quando o fen
otipo e binario , usamos o modelo classe A. Neste caso, em
vez de uma regress
ao linear, o modelo pode ser escrito como uma regressao
logstica (Bonney, 1986).
e yi i
,
P (yi ) =
1 + ei
yi = 0 ou 1, e
i = ui + M (yM ) + F (yF ) + S (yS ) + 1 xi + 2 x2 + . . .

DO

Assumimos que o ajuste familiar permite dependencias, tal que a verossimilhanca para uma famlia nuclear pode ser representada por
P (yF , yM , y1 , y2 , . . . , yc ) =

e yi i
eyF F eyM M c

1 + eF 1 + eM i=1 1 + ei

Quando este modelo e estendido para a classe D, a verossimilhanca depende


da seq
uencia na qual a irmandade e incorporada. Bonney (1992) introduziu
os modelos regressivos compostos para contornar este problema.

3.4.2

89

PY

3.4. MODELOS REGRESSIVOS

Idade do incio da doenca

CO

Cystic Fibrosis e Huntington sao exemplos de doencas dependentes da


idade do incio da doenca. Conseq
uentemente existem genes que causam estas doencas implicando em gen
otipos com penetrancia dependente da idade.
Pelo fato de a idade ser associada com a doenca, na maioria dos casos, nao
podemos confundir este efeito de idade quando investigamos, como sendo
a causa da doenca, que e o objetivo da analise de segregacao. Ha varias
maneiras de superar este problema;

1. Usar a idade do dia do exame como uma covariavel na analise. Entao a


idade do dia do exame e assumida nao ser correlacionada com a idade
do incio da doenca.
2. Pre-estimar a distribuic
ao da idade do incio da doenca do dado populacional, permitindo assim a censura. Isto assume que ha somente
uma distribuic
ao da idade do incio da doenca.

NO
T

3. Usar classes de riscos. Cada classe e representada pela incidencia ou


prevalencia da doenca especfica da faixa etaria, que e calculada atraves
de dados populacionais. O pacote P.A.P. (Pedigree Analysis Package)
usa estas classes para ajustar a idade no modelo.
4. Modelar a distribuic
ao da idade do incio da doenca e estimar todos
os par
ametros simultaneamente, com a possibilidade de fixar uma incidencia acumulada de idade especfica. O pacote S.A.G.E. (Statistical
Analysis of Genetic Epidemiology) usa isto.

DO

Outra definic
ao importante e a de susceptibilidade (). A susceptibilidade e definida como sendo a probabilidade de que uma pessoa selecionada
aleatoriamente na populac
ao seja afetada pela doenca quando sua idade
atingir o infinito. Ent
ao definimos as pessoas na populacao que nunca ficarao afetadas como sendo 1 . Somente as pessoas susceptveis terao
uma idade de incio da doenca. Normalmente, assumimos que a idade de
incio da doenca, a, tem uma densidade f (a) e uma distribuicao acumulada
F (a). Ent
ao, para um indivduo na populacao, definimos a sua susceptibilidade como sendo f (a), para um indivduo com a idade do incio da doenca
0
conhecida a, F (a ), para um indivduo afetado com a idade de incio da
0
doenca desconhecida, mas com a idade do dia do exame conhecida, a , e
0
1 F (a ) para um indivduo afetado com a idade do dia do exame co0
nhecida, a . Quando estas func
oes sao genotipos especficos, elas podem ser

CAPITULO 3. ANALISE
DE SEGREGAC
AO

PY

90

interpretadas como as funcoes de penetrancia. Por exemplo, quando f (a)


tem uma densidade logstica,
f (a) =

e+a
(1 + e+a )2
e+a
1 + e+a

CO

F (a) =
2

NO
T

onde E(a) = e V ar(a) = 3


otipos dependentes
2 , e podem ser gen
e pode ser ainda mais dependente das covariadas, incluindo o estado de
estar doente do c
onjuge e dos pais. A funcao +a pode ser substituda por
P
u + u a + S (yS ) + M (YM ) + j xj , onde e o parametro basal (baseline)
e e o coeficiente de idade, os s sao os coeficientes regressivos, j sao os
coeficientes de regress
ao e os xj sao as covariaveis.
No pacote S.A.G.E. duas distribuicoes sao assumidas para a: a distribuic
ao normal e a logstica. A distribuicao logstica tem a vantagem de que
os par
ametros podem ser interpretados como incrementos no logaritmo da
chance na populac
ao susceptvel ou na populacao toda, se e igual a 1.
Ent
ao definimos
0

P (de ser afetado na idade a ) =


0

e+a

1 + e+a
0

Ent
ao a chance de ser afetado na idade a e e+a e o logaritmo da chance
0
ser
a + a , que significa que o log da chance aumenta pelo fator para
0
cada unidade (ano) aumentada em a . Se o log da chance para um indivduo
0
com gen
otipo G e G + a entao para os indivduos susceptveis da mesma
idade, o aumento no log da chance para os indivduos portadores do gene
0
0
dominante A e (A. + a ) (aa + a ) = (A. aa ).

3.4.3

An
alise condicional dependendo do selecionamento

DO

No caso de selecionamento para que os estimadores de maxima verossimilhanca sejam consistentes da populacao, a funcao de verossimilhanca tem
que ser condicionada no evento que causa a famlia ser selecionada e, diferentes criterios de amostragem podem causar mais vcio do que outros, sendo
este vcio maior em certos parametros que em outros. Condicionando em
outros eventos, alem do selecionamento, pode dar resultados validos ou nao
v
alidos. Quanto mais condicionamento e usado menos eficientes sao os es importante esclarecer quando probandos nao sao selecionados
timadores. E

91

PY

3.4. MODELOS REGRESSIVOS

CO

independentemente. Por exemplo, uma famlia selecionada atraves de dois


irmaos probandos n
ao e uma famlia selecionada porque tem dois irmaos afetados. Uma famlia selecionada atraves de dois probandos e um exemplo de
selecionamento m
ultiplo (multiple ascertainment). Uma famlia selecionada
porque ela tem dois irm
aos afetados e um caso de selecionamento multiplex.
No caso de selecionamento u
nico (single/simplex) condicionamos a funcao
de verossimilhanca no fen
otipo do probando, i.e. para ser um probando, o
indivduo tem que ter o fen
otipo maior que um valor T.
Exemplo
Para ilustrar como uma func
ao de verossimilhanca e realmente calculada
num dado heredograma, considere o heredograma da figura 3.1. O modelo
de heranca considerado e um u
nico locus autossomico com dois alelos A1
(com freq
uencia p) e A2 (com freq
uencia q = 1 p), onde A1 e responsavel
pela doenca. Se o mutante A1 A1 homozigoto tem 100% de probabilidade
de ter a doenca, enquanto A1 A2 heterozigoto tem somente 50% de risco, os
parametros de penetr
ancia s
ao dados pela seguinte tabela:
P(afetado)
1.0
0.5
0.0

P(nao afetado)
0.0
0.5
1.0

NO
T

Gen
otipo
A1 A1
A1 A2
A2 A2

DO

Figura 3.1: Exemplo de Heredograma

Os par
ametros de transmiss
ao sao dados na Tabela 3.2.
Seguindo a notac
ao matricial desenvolvida por Smith (1976), o processo
seq
uencial condicional (equivalente ao processo de peeling de Cannings e
colegas (1978)) pode ser pensado como uma aplicacao serial de princpios

CAPITULO 3. ANALISE
DE SEGREGAC
AO

PY

92

CO

Bayesianos onde em cada passo uma probabildade a priori e multiplicada por


uma verossimilhanca condicional para dar uma probabilidade a posteriori.
importante notar, no entanto, que nenhuma normalizacao e feita ate o
E
final do processo de peeling num u
nico heredograma. Neste ponto, a soma
destas verossimilhancas nao normalizadas sobre todos os possveis genotipos
(ou tipos mais gerais para o caso dos modelos nao Mendelianos) serve como
a func
ao de verossimilhanca para o modelo. A Tabela 3.3 mostra cada passo
para o processo condicional para o heredograma dado na Figura 3.1.

NO
T

Tabela 3.2: Probabilidades de Transmissao para modelos de um u


nico locus
com dois alelos (A1 e A2 ).
Para um u
nico locus autossomico
Tipo de
genotipo da prole
Acasalamento Paternal A1 A1 A1 A2 A2 A2
A1 A1 A1 A1
1
0
0
A1 A1 A1 A2
1/2
1/2
0
A1 A1 A2 A2
0
1
0
A1 A2 A1 A1
1/2
1/2
0
A1 A2 A1 A2
1/4
1/2
1/4
A1 A2 A2 A2
0
1/2
1/2
A2 A2 A1 A1
0
1
0
A2 A2 A1 A2
0
1/2
1/2
A2 A2 A2 A2
0
0
1

Para um u
nico locus ligado ao X, as probabilidades de transmissao analogas
dependem do sexo da prole

DO

Tipo de
Acasalamento Paternal
A1 A1 A1 Y
A1 A1 A2 Y
A1 A2 A1 Y
A1 A2 A2 Y
A2 A2 A1 Y
A2 A2 A2 Y

Genotipo da
A1 A1 A1 A2
1
0
0
1
1/2
1/2
0
1/2
0
1
0
0

Filha
A2 A2
0
0
0
1/2
0
1

Genotipo do Filho
A1 Y A2 Y
1
0
1
0
1/2
1/2
1/2
1/2
0
1
0
1

A func
ao de verossimilhanca obtida e um polinomio complexo em termos
das freq
uencias alelicas p e q. Os coeficientes deste polinomio sao funcoes da
penetr
ancia e dos par
ametros de transmissao que sao fixados neste exemplo.
importante ressaltar que outras seq
E
uencias do peeling aplicadas ao mesmo

93

PY

3.4. MODELOS REGRESSIVOS

DO

NO
T

CO

heredograma fornecer
ao verossimilhancas identicas, se os passos condicionais
sao feitos corretamente e toda a informacao disponvel e usada. Em outras
palavras, se o caminho reverso para este heredograma foi usado (onde o
G, J, K e L foram peeled em F; entao A, B, E e F foram peeled em D; e,
finalmente, C, D e I foram peeled na crianca nao afetada H), a funcao de
verossimilhanca teria o mesmo valor, como mostrado na Tabela 3.3. Para
qualquer heredograma, v
arias seq
uencias do peeling validas existem, mas
algumas s
ao computacionalmente mais eficientes do que outras.
Alem de avaliar a func
ao de verossimilhanca total para este modelo genetico em particular, como uma funcao de freq
uencias alelicas, este metodo
seq
uencial condicional e u
til para calcular a probabilidade de qualquer indivduo ter um determinado gen
otipo. No exemplo em questao, o vetor final
(3 1) de probabilidades genotpicas obtidas ao final do processo de peelingpode ser convertido em uma probabilidade apropriada para esta pessoa
pela simples divis
ao de cada elemento vetorial pela propria verossimilhanca.
Logo, se os fen
otipos de L s
ao desconhecidos porque ele ainda nao nasceu
(ou ainda n
ao foi concebido), o risco de algum(a) filho(a) de F e G poderia
ser facilmente calculado para qualquer valor dado da freq
uencia alelica ou
dentro de um intervalo de freq
uencias.
Claramente, este processo e muito exaustivo para calculo manual, mas
e instrutivo em v
arios nveis. Primeiro, esta notacao matricial permite ver
a contribuic
ao de cada indivduo na verossimilhanca total e em que pontos certos gen
otipos s
ao excludos por certos indivduos. Segundo, indo
pelo heredograma sistematicamente desta maneira, pode-se assegurar que
as combinac
oes geneticas menos provaveis nao sao ignoradas. Por exemplo,
se a caracterstica e um doenca genetica rara e facilmente diagnosticada, e
razoavel assumir que F e heterozigoto e G e homozigoto para o alelo normal, o que significa que o risco de L e 0.5, ignorando a possibilidade de nova
mutac
ao. No entanto, se a caracterstica e comum e/ou imperfeitamente
identificada, a contribuic
ao dos termos representando outros genotipos para
F e G pode ter um papel mais importante na determinacao do risco de
L. Para finalizar, a probabilidade de G ser heterozigoto ou F ser homozigoto para o alelo mutante deveria ser considerada. O calculo dos riscos
desta maneira sistem
atica levar
a em conta todas as possveis combinacoes
genotpicas.

CAPITULO 3. ANALISE
DE SEGREGAC
AO

PY

94

Passo I: Peel C, H e I em D

CO

Tabela 3.3: C
alculo da funcao de verossimilhanca de um modelo autossomico
com 50% de risco para o heterozigoto no heredograma da Figura 3.1

1. Condicione C e D na crianca I: (cb)I = Ti

0.0
0.5
1.0
0.5
0.5
0.5
1.0
0.5
0.0

0.0
0.0
0.0
0.0
0.25
0.5
0.0
0.5
1.0

1.0

0.5
=

0.0

NO
T

1.0
0.5
0.0
0.5
0.25
0.0
0.0
0.0
0.0

2. Condicione C e D na crianca H: (cd)H = Th

DO

0.0
0.25
0.5
0.25
0.5
0.75
0.5
0.75
1.0

1.0
0.75
0.5
0.75
0.5
0.25
0.5
0.25
0

95

PY

3.4. MODELOS REGRESSIVOS

Tabela 3.3: Continuacao


3. Combine estes vetores condicionais em C e D

CO

(cd)HI = (cd)I
(cd)H =

0
.19
.25
.19
.25
.19
.25
.19
0

4. Condicione D em C

NO
T
dCHI

= (I c? ) (cd)HI

0 pq q 2 0 0 0 0 0
0 0 pq q 2 0 0
0 0 0 0 0 0 0 pq

0 0

0
100

= 010 pq (cd)HI
q2
001

q2

0
.19
.25
.19
.25
.19
.25
.19
0

.19pq + .25q 2

= .25pq + .19q 2
.19pq

DO

NOTA: O vetor de probabilidade a priori


0
(p2 , 2pq, q 2 ) .

p2

?
Considerando que C n
ao e afetado, c = 2pq
q2

para qualquer original e

0
0

0.5 = pq
1.0
q2

CAPITULO 3. ANALISE
DE SEGREGAC
AO

PY

96

Tabela 3.3: Continuacao

CO

5. Condicione D no seu fenotipo

0
0

?
d = dCHI 0.5 = .13pq + .09q 2
1.0
.19pq
Passo II; Peel A, B, D, E em F:
1. Condicione A & B em D:

NO
T

?
(ab)D = T d =

0
.06pq + .05q 2
.13pq + .09q 2
.06pq + .05q 2
.11pq + .05q 2
.16pq + .05q 2
.13pq + .09q 2
.16pq + .05q 2
.19pq

2. Condicione A & B em E:

DO

(ab)E = T e =

0
0.25
1.0
0.25
0.5
0.75
0.5
0.75
1

97

PY

3.4. MODELOS REGRESSIVOS

Tabela 3.3: Continuacao


3. Combine estes vetores condicionais

(ab)DE = (ab)D
(ab)E =

0
.016pq + .012q 2
.125pq + .094q 2
.016pq + .012q 2
.055pq + .023q 2
.117pq + .035q 2
.063pq + .047q 2
.117pq + .035q 2
.188q 2

4. Incorpore fen
otipo em A

0
p2

= pq 2pq (ab)DE
q2
q2

NO
T

(ab)? = (a b) (ab)DE

CO

0
0
0
4
2
.016p q + .012p3 q 3
.109p3 q 3 + .047p2 q 4
.117p2 q 4 + .035pq 5
.063p3 q 3 + .047p2 q 4
.234p2 q 4 + .070pq 5
.188q 6

DO

NOTA: Como B tem um fen


otipo desconhecido, o vetor de prioris e b =
2
2
(p 2pq q ). Como A n
ao e afetado,

p2
0
0

a = 2pq 0.5 = pq
q2
1.0
q2

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

98

Tabela 3.2: Continuacao


0

5. Condicione F em A e B: fAB = T (ab)?

6. Incorpore fen
otipo em F:

f? = fAB

CO

.008p4 q 2 + .033p3 q 3 + .012p2 q 4

= .008p4 q 2 + .096p3 q 3 + .246p2 q 4 + .105pq 5


.027p3 q 3 + .188p2 q 4 + .053pq 5 + .188q 6

1
.008p4 q 2 + .033p3 q 3 + .012p2 q 4



0.5 = .004p4 q 2 + .048p3 q 3 + .123p2 q 4 + .053pq 5
0
0

Passo III: Peel F, G, J, K em L:


1. Codicione F e G em J e K:
1
0.75
0.5
0.75
0.5
0.25
0.5
0.25
0

NO
T

(fg)J = Tj =

(fg)K = Tk =

0
0.25
0.5
0.25
0.5
0.75
0.5
0.75
1

2. Calcule vetor a priori em F e G:

DO

?
?
f g = f pq =

q2

0
5
3
.008p q + .033p4 q 4 + .012p3 q 5
.008p4 q 4 + .033p3 q 5 + .012p2 q 6
0
5
3
4
4
.004p q + .048p q + .123p3 q 5 + .053p2 q 6
.004p4 q 4 + .048p3 q 5 + .123p2 q 6 + .053pq 7
0
0
0

99

3. Combine a priori e condicional:


= (fg) (fg)J (fg)K

(fg)?JK

0
.001p5 q 3 + .006p4 q 4 + .002p3 q 5
.002p4 q 4 + .008p3 q 5 + .003p2 q 6
0
.001p5 q 3 + .012p4 q 4 + .031p3 q 5 + .013p2 q 6
.001p4 q 4 + .009p3 q 5 + .023p2 q 6 + .010pq 7
0
0
0

NO
T

CO

Tabela 3.3: Continuacao

PY

3.4. MODELOS REGRESSIVOS

4. Calcule o vetor a priori em L:


IF GJK

= T (fg)?JK

.001p5 q 3 + .006p4 q 4 + .009p3 q 5 + .003p2 q 6

= .001p5 q 3 + .011p4 q 4 + .024p3 q 5 + .021p2 q 6 + .005pq 7


.0002p5 q 3 + .003p4 q 4 + .012p3 q 5 + .015p2 q 6 + .005pq 7

Agora, como nenhuma informac


ao adicional e disponvel em L, a verossimilhanca e a soma de todos os elementos deste u
ltimo vetor, i.e.,
L(modelo | A K) = .002p5 q 3 + .021p4 q 4 + .045p3 q 5
+.039p2 q 6 + .010pq 7

DO

Para calcular a probabilidade do indivduo L ter quaisquer dos tres possves


genotipos, simplesmete divida o elemento apropriado do vetor (3 1) dado
acima por esta verossimilhanca.

PY

CAPITULO 3. ANALISE
DE SEGREGAC
AO

DO

NO
T

CO

100

PY
CO

Captulo 4

An
alise de Liga
c
ao

DO

NO
T

O objetivo da an
alise de ligacao e localizar genes que causam doencas
geneticas nos cromossomos do genoma humano. Isto e realizado atraves de
coleta de heredogramas, pequenos ou grandes, com dois ou mais indivduos
afetados com a doenca. Dependendo de quanto se conhece do mecanismo de
transmiss
ao da doenca (ou quanto se pode estimar dos dados), podemos realizar an
alise de ligac
ao parametrica ou nao-parametrica. A analise de ligacao
parametrica requer algum conhecimento da transmissao da doenca, como heranca dominante ou recessiva, penetrancia, razao de fenocopia, freq
uencia
alelica. A an
alise de ligac
ao parametrica e freq
uentemente usada quando a
doenca e bem caracterizada ou quando grandes heredogramas com m
ultiplos
afetados est
ao disponveis, de forma que alguns dos parametros podem ser
estimados dos dados. Quando a forma da heranca e desconhecida ou mais
que um gene est
a envolvido, e/ou pequenos heredogramas com dois ou mais
indivduos afetados est
ao disponveis , realizamos analise de ligacao naoparametrica, que geralmente requer menos suposicoes.
Ligac
ao e a tendencia dos alelos em diferentes loci localizados no mesmo
cromossomo de serem transmitidos juntos, implicando numa associacao intrafamiliar dos fen
otipos e gen
otipos. Geralmente, esta associacao nao e
observada na populac
ao .
Cromossomos hom
ologos segregam de modo independente. Alelos para
locus de um mesmo cromossomo podem co-segregar para uma razao relacionada com a dist
ancia entre eles no cromossomo. Tal razao e a probabilidade
do evento recombinante ocorrer entre os dois loci ou fracao de recombinacao,
denotada por .
A frac
ao de recombinac
ao varia entre zero (quando os loci estao muito
101

CAPITULO 4. ANALISE
DE LIGAC
AO

PY

102

DO

NO
T

CO

pr
oximos) e 0.5 (quando estao muito distantes ou em cromossomos diferentes). Portanto, pode ser empregada como uma medida de distancia genetica,
bastante funcional para pequenas distancias. Entretanto, a fracao de recombinac
ao n
ao e uma medida de distancia aditiva (devido `a possibilidade de
ocorrencia de m
ultiplos crossing-overs).
A unidade de medida de ligacao genetica e a extensao genetica de um
cromossomo no qual se observa, em media, um evento de recombinacao
por meiose. Esta unidade e conhecida como Morgan. Um centiMorgan
(cM) e a extens
ao genetica na qual se observa uma recombinacao 1% das
vezes. Um cM e aproximadamente um milhao de pares de bases. Esta
estimativa sugere que cada cromossomo possui um comprimento aproximado
de 100 a 300 cM. Portanto, estima-se que ha, em media, 1 a 3 eventos de
recombinac
ao por cromossomo por meiose. Este fato e importante de ser
mencionado porque reforca o conceito da individualidade genetica humana,
isto e, um cromossomo herdado por uma crianca de um dos seus pais, jamais
e exatamente igual a uma das copias daquele cromossomo original. Na
realidade o cromossomo da crianca e uma colcha de retalho formada por
partes alternadas do cromossomo dos avos.
Dois loci s
ao ditos geneticamente ligados quando 0. O objetivo da
an
alise de ligac
ao e estimar e testa-lo contra a hipotese H : < 0.50. A
e uma proporcao de recombinacao
estimativa da frac
ao de recombinacao, ,
(proporc
ao de indivduos que possuem um cromossomo recombinado) em
todas as oportunidades para recombinacao e, inicialmente, varia no intervalo [0, 1]. Entretanto, a estimativa de maxima verossimilhanca e definida
no conjunto de valores admissveis do parametro, assim nao excede 0.50.
Quando h
a um crossing-over, metade dos gametas resultantes continuam
sendo n
ao recombinantes. Portanto, se um crossing-over ocorre a cada meiose, metade dos gametas continuam originais. Assim, pode alcancar, no
m
aximo o valor 0.5.
O termo ligac
ao refere-se a locus e nao para associar alelos `a locus. Nao e
correto dizer que o gene de uma determinada doenca esta ligado com o alelo
A pelo locus marcador. Isto e mais apropriado de ser usado nos estudos de
associac
ao, nos quais o objetivo e determinar a associacao entre um alelo do
gene candidato e o fenotipo de interesse.
Consideremos os alelos Tf e Mf herdados do pai , e Tm e Mm sao os
alelos herdados da m
ae. Entao definimos como a fracao de recombinacao,
a probabilidade de um gameta ser Tf Mm ou Tm Mf que, por sua vez, e a
probabilidade de um n
umero impar de crossing-over ocorrer entre 2 loci.
Consideremos a seguinte situacao. Dois loci com 2 alelos produzem 10
Ab
gen
otipos: AABB, AABb, AAbb, AaBB, AB
ab ou aB , Aabb, aaBB, aaBb,

GENETICA

4.1. RECOMBINAC
AO

4.1

AB
ab

Ab
aB ,

PY

aabb. Os gen
otipos,

103

estao em diferentes fases de ligacao .

Recombina
c
ao gen
etica

DO

NO
T

CO

deEste fen
omeno est
a intimamente ligado com a meiose celular. E
vido a ocorrencia de recombinacao que existe um aumento na variabilidade
genetica, conferindo igual variac
ao aos descendentes de uma especie formados a partir dessas celulas.
De forma resumida, pode-se dizer que a recombinacao baseia-se em quebras que ocorrem enquanto os cromossomos homologos estao emparelhados,
sendo que estas quebras sempre atingem duas cromatides irmas em pontos
correspondentes e s
ao seguidas de soldadura. Sua localizacao e casual, variando de celula para celula e o n
umero de recombinacoes e muito irregular.
As crom
atides que trocam pedacos, na seq
uencia da meiose, serao os novos
cromossomos que se distribuir
ao entre as celulas filhas e, dessa forma, o conjunto genico recebido pelos descendentes depende do resultado das trocas
ocorridas durante o processo de divisao celular.
No c
alculo da dist
ancia entre genes ao longo de um cromossomo, empregase a freq
uencia de recombinac
ao, pois esta depende da distancia entre os
pontos nos quais ocorrem as quebras e permutas. Na recombinacao, os alelos apenas trocam de posic
ao dentro do par de cromossomos homologos, de
modo que a estrutura e a func
ao cromossomica permanecem inalteradas.
Esse processo n
ao deve ser confundido com mutacao.
Na formac
ao de um gameta, os dois homologos sao copiados de cada
par de cromossomos. Na distribuicao de cromossomos homologos, a selecao
de qualquer um deles proveniente do pai ou da mae para uma celula filha
e aleat
oria. Quando os pares de cromossomos homologos alinham-se, pode
ocorrer um processo chamado de crossing-over, o qual resulta na recombinacao genetica.
Recombinac
oes ocorrem freq
uentemente e o n
umero de crossing-over depende do tamanho do cromossomo. Dessa forma, pode-se relacionar fracao
de recombinac
ao com dist
ancia genetica.
O fundamento da An
alise de Ligacao e que eventos de recombinacao ocorrem entre dois loci geneticos (genes, marcadores, aberracoes cromossomicas,
etc) segundo uma raz
ao relacionada com a distancia entre eles em um mesmo
cromossomo, isto e, loci que est
ao muito proximos tendem a serem herdados
juntos, conforme a Figura 4.1.
Quando os loci s
ao fisicamente distantes, maior torna-se a chance de

a
b

CO

A
B

PY

CAPITULO 4. ANALISE
DE LIGAC
AO

104

a
b

A
B

A
B

a
b

NO
T

Figura 4.1: Recombinacao - Loci Proximos

crossing-over e, conseq
uentemente, a de recombinacao. Assim, de acordo
com a Figura 4.1, a presenca de recombinacao e um indicador da ausencia
de ligac
ao.
A Tabela 4.1 apresenta um sumario das possibilidades em uma analise
de ligac
ao.
Tabela 4.1: Resumo de Recombinacao

DO

Freq
uencia de
Crossing-Over
Ligac
ao

4.2

Mesmo Cromossomo
Muito Proximo Proximo Distante
Rara
Pouca
Freq
uente
Sim
0%

Sim
1-49%

Nao
50%

An
alise pontual e multipontual

Cromossomos
Diferentes
Freq
uente
Nao
50%


4.3. MODELO PARAMETRICO

A
B

A
b

a
B

CO

a
b

A
B

PY

105

a
b

recombinantes

NO
T

Figura 4.2: Recombinacao - Loci Distantes


Com um teste de ligac
ao, deseja-se saber se os dados possuem informacoes
suficientes para afirmar-se da existencia de ligacao entre dois genes. Usualmente, possuem-se loci marcadores com localizacao genetica conhecida e
uma doenca para a qual deseja-se encontrar a causa genetica. Portanto,
constr
oi-se um teste baseando-se na possibilidade de ligacao entre o gene da
doenca e os loci marcadores. Geralmente, um valor crtico maior ou igual
que 3 e aceito como evidencia significante de ligacao, a um nvel de significancia aproximado de 5%. Para doencas complexas, este valor crtico pode
apresentar-se pequeno.

4.3

Modelo param
etrico

DO

Um teste de ligac
ao pode ser feito com um teste qui-quadrado (k recombinacoes e n k n
ao recombinac
oes comparadas com n/2 recombinacoes sob
H0 ). Mas, geralmente, n
ao e possvel contar o n
umero de recombinacoes
em heredogramas humanos. Portanto, podemos calcular a funcao de verossimilhanca com respeito a um conjunto de dados familiares se assumirmos
um modelo para cada locus e as probabilidades de transmissao de dois loci
dependendo de . Esta func
ao e representada por L(). Entao, assumiremos

CAPITULO 4. ANALISE
DE LIGAC
AO

PY

106
que:

CO

1. A distribuic
ao conjunta dos genotipos de um casal e geralmente considerada sendo o produto da distribuicao individual, a distribuicao do
locus do fen
otipo e geralmente estimada pela analise de segregacao
e, geralmente o locus do marcador mostra uma relacao 1-1 entre o
gen
otipo e o fen
otipo.
2. A distribuic
ao bivariada do fenotipo condicionada no genotipo e o
produto das duas distribuicoes univariadas.
3. A transmiss
ao genetica e definida como:

T M1 T M = 1/2(1 ) = T M1 tM
tM2

T M1 T M = 1/2 = T M1 tM
T M2

tM2

tM2

NO
T

4. N
ao h
a necessidade de usar o fator de correcao de selecionamento,
porque, se o selecionamento e atraves de uma das variaveis (geralmente o fen
otipo), entao ha uma independencia entre os dois loci na
populac
ao e, como o parametro a ser estimado e a fracao de recombinac
ao, a correcao feita pelo selecionamento se cancela na razao de
verossimilhanca.
Para testar a existencia de ligacao , as hipoteses sao
H0 : 0 = 0.5 (nao existe ligacao) contra H1 : 1 6= 0.5.

(4.1)

Um teste uniformemente mais poderoso baseado nestas hipoteses, pode ser


encontrado utilizando o teste da razao de verossimilhanca, conjuntamente
com o Lema de Neyman-Pearson, que e similar ao
=

L(1 )
.
L(0 )

(4.2)

DO

Este teste e comumente expresso em termos do logaritmo na base 10, e


e conhecido como lod escore, assim:
L(1 )
lod escore = Z() = log10
L(0 )
= log10 [L(1 )] log10 [L(0 )].


(4.3)
(4.4)


4.3. MODELO PARAMETRICO

PY

107

A aplicac
ao mais comum de analise de ligacao e localizar, no genoma,
um gene respons
avel por uma doenca herdada de acordo com as leis Mendelianas.
Ent
ao, calculamos L() para varios valores de , (0,0.05,0.1,0.2,0.3,0.4,0.5),
e o resultado e representado como lod escores
L()
L(0.5)

CO

log10

ou com dependendo do genero masculino e feminino,


log10

L(M , F )
L(0.5, 0.5)

NO
T

Se as famlias s
ao independentes, o valor total dos lod escores e a soma dos

L()
pode ser
lod escores de cada famlia. Se os valor e escalar, 2 loge L(0.5)
2
comparado com uma 1 .
Nota: 2 loge (x) = 2 loge (10) log10 (x) ' 4.6 log10 (x).
Para o resultado ser significante, normalmemte o valor de
log10

L()
> 3,
L(0.5)

o que corresponde a

2 loge

L()
> 13.8
L(0.5)

DO

, para p valor = 103 104 , i.e., teste unilateral ( < 1/2 em vez de
6= 1/2). Assintoticamente, 25-30 informacoes completas das meioses nos
dao uma boa aproximac
ao para p-valores de 0.05 e 0.1. Entao, p 103
4
em vez de 10 . Porque o valor de p tem que ser pequeno? Para poder
permitir uma probabilidade a priori de ligacao entre dois loci aleatorios se
quisermos controlar a probabilidade de fazer um erro quando quisermos concluir que h
a ligac
ao ( 5%) (Morton, 1955). Entao, se a probabilidade a
priori e alta (gene candidato) n
ao necessitamos de um valor de p pequeno,
e nao necessitamos fazer correc
oes para marcadores m
ultiplos. Isto e baseado na suposic
ao de que estamos trabalhando com dois loci mendelianos.
Para uma doenca rara, a freq
uencia alelica nao e crtica para a analise de
ligacao, pois quando usamos os metodos de maxima verossimilhanca, erros no modelo, como n
umero de loci, forma de heranca familiar, valores dos
parametros, podem nos levar a estimativas inconsistentes, testes invalidos ou
falta de potencia do teste e, mais importante, as funcoes de verossimilhanca

PY

CAPITULO 4. ANALISE
DE LIGAC
AO

108

dependem do modo de selecionamento. Entretanto, erros na suposicao em


somente uma das variaveis envolvendo fenotipo ou marcador, nao inflacionar
a a signific
ancia, que e a probabilidade sob os dados assumindo que nao
existe ligac
ao (H0 : = 1/2).

Formas de heranca gen


etica

CO

4.4

Os padr
oes de heranca de uma determinada caracterstica sao diferentes
se o gene estiver nos autossomos ou nos cromossomos sexuais.
Na heranca autossomica dominante:

1. O traco aparece em geracoes sucessivas, ocorre intensamente em


todas as geracoes;
2. A transmissao e dada de um indivduo heterozigoto `a metade de
seus filhos;
3. Os afetados sao principalmente heterozigotos;

NO
T

4. Homens e mulheres tem a mesma probabilidade de transmissao


(e recepc
ao) da caracterstica;
5. Penetr
ancia reduzida e, freq
uentemente, a doenca tem incio tardio.

Na heranca autossomica recessiva (traco raro):


1. Caracterstica aparece apenas entre irmaos, sendo os genitores
n
ao afetados;
2. A freq
uencia esperada de afetados e de 25%;
3. H
a um aumento na probabilidade de que os genitores de um afetado sejam cosang
uneos;
4. Probabilidade de ser afetado independe do sexo;
5. Doenca inicia-se em idade pediatrica.

DO

Quando o traco recessivo e ligado ao cromossomo X:


1. A ocorrencia da caracterstica e mais comum em homens;
2. O traco e transmitido por um homem afetado `a metade de suas
filhas (portadores assintomaticas), que transmitem `a metade de
seus filhos de sexo masculino;

109

PY

4.5. ANALISE
DE DADOS FAMILIARES

3. A caracterstica n
ao e transmitida de pai para filho do sexo masculino.
Quando o traco dominante e ligado ao cromossomo X:

CO

1. Todas as filhas (mas nenhum dos filhos) de homens afetados apresentam o traco;

2. Quando a mulher e afetada, o padrao da heranca nao pode ser


distinguido daquele da heranca autossomica dominante;;
3. As mulheres s
ao mais comumente afetadas (duas vezes mais que
os homens, se a condicao for rara).

4.5

An
alise de dados familiares

4.5.1

NO
T

Aqui ser
ao realizadas an
alises de 2 pontos: um locus marcador e outro
da caracterstica de interesse. Os haplotipos dominantes sao representados,
respectivamente, como D no locus da doenca e 1 no marcador. Quadrados
representam indivduos do sexo masculino e figuras pintadas representam
indivduos afetados pela caraterstica de interesse.

Exemplo de an
alise:
doenca autoss
omica dominante - fase desconhecida

DO

O heredograma (Figura 4.3) corresponde a uma famlia composta por


um casal com cinco filhos. A meiose so pode trazer informacao a respeito
da ligac
ao se os pais forem heterozigotos em ambos os loci. Caso contrario,
nenhuma informac
ao pode ser obtida; por exemplo, se os pais sao 1/1 para
o locus marcador, n
ao h
a meios de dizer qual alelo foi transmitido para os
descendentes.
Na Figura 4.3, observa-se que a mae e homozigoto para ambos os loci,
assim, ela n
ao e informativa para ligacao. Por outro lado, o pai e informativo para a ligac
ao, pois e heterozigoto no marcador (1/2) e, possivelmente,
no locus da doenca (D/N). Entretanto, nao se sabe em qual fase esses alelos existem no pai, mas h
a duas escolhas (D1/N2 ou N1/D2)(ver Figura
4.4). Tal n
ucleo familiar e dito ser de fase desconhecida, porque apenas a
informac
ao genotpica e conhecida e nao as informacoes haplotpicas sobre
os duplos heterozigotos do pai.

1/2

1/1

CO

1/2

PY

CAPITULO 4. ANALISE
DE LIGAC
AO

110

1/2

1/2

1/1

1/1

Figura 4.3: Heredograma 1

NO
T

Cada uma das fases possui mesma chance de ocorrencia (sob a hipotese
de equilbrio de ligac
ao). Para proceder com a analise, e possvel analisar os
descendentes para contar as recombinacoes e as nao recombinacoes em cada
fase.
Pode ser retirado o que cada indivduo recebeu da mae e considerar o
heredograma reduzido (Figura 4.4), que inclui apenas os alelos derivados do
pai. H
a 3 hapl
otipos observados nos descendentes:
1. D2,

2. N1 e
3. N2.

DO

Fase 1: D1/N2
Fase 2: N1/D2

Fase 1:
Fase 2:

N2

D2

D2

N1

N1

N
R

R
N

R
N

R
N

R
N

Figura 4.4: Heredograma considerando duas fases


4.5. ANALISE
DE DADOS FAMILIARES

PY

111

CO

Se a fase 1 for correta, os haplotipos (1) e (2) sao ambos recombinantes


(tipos diferentes dos hapl
otipos paternos) e o haplotipo (3) e nao recombinante (tipos semelhantes de haplotipos paternos). Similarmente, sob a fase
2, ocorre o oposto.
Deste modo, sob a fase 1, existem 4 recombinacoes e 1 nao recombinacao.
Sob a fase 2, s
ao 4 n
ao recombinacoes e 1 recombinacao. Devido a probabilidade de uma recombinac
ao ser (fracao de recombinacao), e possvel
calcular a verossimilhanca para esse heredograma. Sob a fase 1, a verossimilhanca e
P (dados | fase 1) = k4 (1 ),
(4.5)
enquanto, sob a fase 2, tem-se

P (dados | fase 2) = k(1 )4 ,

(4.6)

onde k e o coeficiente binomial. Como cada fase e igualmente provavel, a


verossimilhanca total e:
P (dados) = P (fase 1)P (dados | fase 1) + P (fase 2)P (dados | fase 2)
= (0.5)k4 (1 ) + (0.5)k(1 )4 .

(4.7)

NO
T

Recordando o teste de hip


oteses apresentado em (4.1) juntamente com
o teste da raz
ao de verossimilhanca em (4.2), tem-se:
K

1 4
2 (1

) + 21 (1 )4

1
4
2 (0.5) (0.5)

+ 21 (0.5)(0.5)4

4 (1 ) + (1 )4
(0.5)4

(4.8)

Previamente definimos a estatstica lod escore em (4.3), como


Z() = log10 ()

= log10 [4 (1 ) + (1 )4 ] 4 log10 [0.5].

(4.9)

DO

Como a func
ao lod escore e obtida tomando-se o logaritmo da verossimilhanca e o logaritmo e uma funcao monotona, tem-se que, maximizar
a func
ao Lod Score e equivalente a maximizar a verossimilhanca. Dessa
forma, o valor que maximiza o Lod Score e o estimador de maxima verossimilhanca da frac
ao de recombinacao . Nesse caso, o ponto maximo e
aproximadamente = 0.21 com Lod Score dado por:
Z( = 0.21) = log10 [(0.21)4 (1 0.21) + (0.21)(1 0.21)4 ] 4 log10 [0.5]
= 0.1249295.

(4.10)

PY

CAPITULO 4. ANALISE
DE LIGAC
AO

112

A an
alise de ligacao do heredograma (Figura 4.3) foi feita utilizando-se
o programa Linkage e foram obtidos os seguintes resultados:
Tabela 4.2: Analise do Heredograma 1
log10 (Verossimilhanca)

-8.592238
-8.489680
-8.519383
-8.582434
-8.613924

Lod Escore

0.021685
0.124243
0.094541
0.031489
0.000000

CO

0
0.1
0.2
0.3
0.4
0.5

NO
T

Nota-se que o valor de que maximiza o lod escore pertence ao intervalo


(0.1;0.3). Dessa forma, os valores da log-verossimilhanca e do lod escore sao
apresentados na tabela abaixo.
Tabela 4.3: Resultados da Analise de Ligacao

0.10
0.15
0.20
0.21
0.22
0.25
0.30

log10 (Verossimilhanca)
-8.592238
-8.513656
-8.489680
-8.488994
-8.489365
-8.495824
-8.519383

Lod Escore
0.021685
0.100267
0.124243
0.124930
0.124558
0.118099
0.094541

DO

Portanto, a estimativa de maxima verossimilhanca para a fracao de recombinac


ao e dada por = 0.21, que e equivalente a estimativa obtida pelo
modelo proposto.
Sendo o valor do lod escore (0.12493) menor que 3, nao ha evidencias
significativas de ligacao entre esse marcador e a doenca.

4.6

Testes de homogeneidade

113

PY

4.7. TESTES DE HETEROGENEIDADE

CO

Ha v
arias formas de olhar este problema. Morton considerou a seguinte
situac
ao: se os heredogramas estao divididos em k grupos, e possvel que a
fracao de recombinac
ao seja diferente em cada classe? Se assumirmos que o
n
umero de meioses informativas em cada classe e grande, entao o teste sera
assintoticamente distribudo como 2k1 ou 22(k1) , quando considerarmos
duas vezes a diferenca nas func
oes de verosssilhanca se maximizarmos sob a
amostra total e sob cada classe separadamente. Por sua vez, Smith (1963)
considerou a seguinte situac
ao: se ha ligacao, em somente uma proporcao
dos heredogramas, ent
ao L(, ) = L() + (1 )L(1/2) com 0
1, 0 1/2. Quando testamos a hipotese de nao heterogeneidade,
H0 : = 1, o teste convergir
a para 1/2 21 + 1/2, i.e.,
P (teste < x) = 1/2 + 1/2P (21 < x)
e

P (teste > x) = 1 P (teste < x)

= 1 (1/2 + 1/2P (21 < x))

NO
T

= 1/2(1 P (21 < x))


Au
ltima opc
ao seria se h
a diferenca entre a fracao de recombinacao e entre
os generos masculino e feminino. Neste caso, H
:
0 : M = F = contra H1 

F 6= M . O teste de m
axima verossimilhanca, 2 loge L() loge L(M , F )
tem uma distribuic
ao assint
otica 21 .

4.7

Testes de heterogeneidade

Faraway (1993) prop


os um teste de ligacao na presenca de heterogeneidade. Este teste assume o modelo definido na secao acima por Smith, onde
0 1, 0 1/2. Neste caso, a hipotese H0 de nao ligacao e
equivalente a dois testes, onde
(

DO

H0 =

= 1/2, e irrelevante
.
=
0, e irrelevante

Portanto, o teste de raz


ao de verossimilhanca e assintoticamente distribudo
como max(21 , 21 ). Como H1 : 6= 1/2, devemos usar a metade da significancia (P(teste < x)).
Se houver heterogeneidade, os lod escores podem ser expressos como a
razao de verossimilhanca, onde e fixo para ser igual ao seu estimador de

PY

CAPITULO 4. ANALISE
DE LIGAC
AO

114

m
axima verossimilhanca, devido ao fato de que o parametro pode ser dife,)

rente entre as populacoes, i.e., loge L(


, mas isto nao e feito normalmente.
,1/2

4.8

Fun
c
oes de mapeamento

CO

Uma func
ao de mapeamento converte a fracao de recombinacao, 0
1/2, na dist
ancia aditiva genetica, x > 0, medida em Morgans (ou centiMorgans). Durante a epoca do cruzamento, cada par de cromossomo e representado como quatro cromatides. Para cada dois gametas que tem um crossingover, h
a dois gametas sem crossing-over. Cada crossing-over pode ser visto
microscopicamente como uma quiasma. Entao a distancia em Morgans entre
dois loci pode ser escrita como E(n
umero de crossing-over por cromatide) =
1/2E(n
umero de quiasma). Portanto, x
= . Ha varias funcoes de mapeamento.

NO
T

Dist
ancia em Morgans
x=
x = -[ln(1 - 2 )]/2
x = [tanh1 (2 )]/2
x = [tan1 (2 ) + tanh1 (2 )]/4

Morgan
Haldane
Kosambi
Carter & Falconer

A func
ao de mapeamento de Haldane resulta da suposicao de que os
eventos crossing-over sao independentes, resultando em uma distribuicao
Poisson. Por outro lado, se assumirmos que o n
umero de crossing-over tem
uma distribuic
ao negativa binomial, nos temos a seguinte funcao proposta
por Karlin,
h
i
1
x = 1/2N 1 (1 2) N ,
para = 1/2, x = 1/2N.

DO

4.9

An
alise n
ao-param
etrica

An
alise de ligac
ao envolvendo metodos de verossimilhanca assume que
a forma da heranca familiar e conhecido, o que nao e verdade para muitas doencas. Mas a ligacao da doenca com o marcador genetico produz
um metodo importante de detectar a segregacao genetica. Modelagem de
met
odos geneticos n
ao-parametrica sao baseadas na identidade por estado

4.9. ANALISE
NAO-PARAM
ETRICA

PY

115

4.9.1

Pares de irm
aos afetados

O m
etodo de Haseman-Elston (H-E)

CO

ou identidade por descendencia. Os metodos usando identidade por descendencia s


ao mais poderosos que os de estado. Iremos nos concentrar
em metodos que usam identidade por descendencia, que sao varios. Estes met
odos dependem do tipo de estudo, se e de pares de irmaos afetados,
de pares de irm
aos discordantes com respeito a doenca, de pares de parentes
afetados, famlias nucleares ou de geracoes m
ultiplas.

Uma das tecnicas mais usadas para investigar fenotipos quantitativos e


o met
odo de Haseman-Elston (H-E) (Haseman e Elston, 1972). Este modelo assume fen
otipos com somente variancia genetica aditiva, populacao
em equilibro quando h
a acasalamento aleatorio. Definimos os fenotipos de
cada irm
ao como sendo
xij = + gij + ij ,

NO
T

onde i = 1, 2 e j = 1, 2, . . . , n. Definimos Yj = (x1j x2j )2 = (g1j


g2j + 1j 2j )2 . A vari
ancia de Yj , V (Yj ), e representada como E(Yj ) =
2a2 2Cov(g1j , g2j ) + V (1j 2j ), assumindo que 1j 2j e independente
de g1j g2j . Definimos jt como sendo a proporcao de alelos IPD para o
j-esimo par no fen
otipo t. Ent
ao
E(Yj | jt ) = 2a2 + 2 2a2 jt ,

onde a2 e a vari
ancia genetica aditiva e 2 e a variancia devido ao erro
ambiental. Se o locus do fen
otipo t esta em ligacao com o locus do marcador
m, com uma frac
ao de recombinacao , e jm sendo a proporcao de alelos
compartilhados IPD no locus do marcador para o j-esimo par de irmaos,
entao,
E(Yj | jm ) = + jm ,

DO

onde, para meio-irm


aos e irm
aos completamente relacionados, = 2(1
2
2
2) a . Ent
ao, = 0 = 1/2 ou a2 = 0 e < 0 6= 1/2 ou a2 6= 0.
Esta formulac
ao vale para diferentes pares de parentes como sera visto a
seguir.
Estimac
ao de jm . Definimos fij , como sendo a probabilidade de que o
j-esimo par de parentes tenha em comum i genes IPD no locus do marcador.
Pelo teorema de Bayes, podemos escrever
P (i)P (informacao do marcador no par | i)
,
cao do marcador no par | k)
k P (k)P (informa

fij = P

PY

CAPITULO 4. ANALISE
DE LIGAC
AO

116

i, k = 0, 1, 2. Para quaisquer pares de parentes, estimamos a proporcao de


genes em comum por IPD no locus do marcador como sendo

jm = f2j + 1/2f1j .

CO

As probabilidades, P (i) para i = 0, 1, 2 e P(informacao do marcador no


par | i), s
ao representadas nas Tabelas abaixo.
Tipos de parentesco
irm
aos
primos
meio-irmaos
tio(a)-sobrinho(a)
avos-netos
e

P(0)
p4j
2p2j p2k
4p3j pk
4p2j pk pl
4p2j p2k
8p2j pk pl
8pj pk pl pm

P(i)
P(1)
1/2
1/4
1/2
1/2
1/2

P(2)
1/4
0
0
0
0

P(i)
P(1)
p3j
0
2p2j pk
0
pj pk (pj + pk )
2pj pk pl
0

NO
T

Gen
otipos
do par
Aj Aj Aj Aj
Aj Aj Ak Ak
Aj Aj Aj Ak
Aj Aj Ak Al
Aj Ak Aj Ak
Aj Ak Aj Al
Aj Ak Al Am

P(0)
1/4
3/4
1/2
1/2
1/2

P(2)
p2j
0
0
0
2pj pk
0
0

DO

Aj , Ak , Al , Am s
ao alelos distintos.
Este met
odo pode ser estendido para m
ultiplos locus e para fenotipos
qualitativos. Um problema com o metodo de H-E para analise de ligacao
pontual e que nem todos os pares na familia sao uteis. Eles sao ditos serem
n
ao informativos porque o n
umero de alelos compartilhados nao podem ser
calculados sem ambiguidade. Metodos que usam multiplos locus usam a
informac
ao dos marcadores na vizinhanca para estimar o IPD nestes casos
ambiguos, i.e., com marcadores polimorficos localizados proximos (cerca de
alguns cM). Este metodo e implementado nos pacotes S.A.G.E. e Genehunter.
As vantagens de usar pares de parentes afetados sao: nao ha penetrancia
incompleta porque estamos analisando so pares afetados, e as pessoas afetadas cooperam. As disavantagens sao: um grande n
umero de pares e necess
ario e presenca de casos esporadicos (fenocopias).


4.10. ANALISE
MULTIPONTUAIS

PY

4.10

117

An
alise multipontuais

CO

Com o desenvolvimento da genetica molecular, muitos marcadores geneticos est


ao disponveis para se examinar minuciosamente o genoma humano.
Para se fazer um exame minucioso do genoma humano (genome wide scan),
a teoria da an
alise de ligac
ao descrita anteriormente se extende para multipontos. Para se fazer uma an
alise de ligacao multipontual, usa-se cerca de
400 marcadores geneticos distribuidos no genoma. O n
umero de marcadores
por cromossomo depende do tamanho do cromossomo. O cromossomo 1 tem
mais marcadores que o cromossomo 2 e assim por diante. Estes marcadores
sao geralmente distribudos uniformemente nos cromossomos, cerca de 10-20
cM a parte.
Para fen
otipos quantitativos, podemos estender o modelo de componentes de vari
ancia descrito no capitulo 2, para ser utilizado em analise de
ligacao pontual e multipontual. Neste caso, o efeito genetico principal e
incluido no modelo, que pode ser descrito como:

NO
T

yi = + Xi + ai + gi + i ,

DO

onde yi e o vetor dos valores observados do fenotipo para a i-esima famlia,


e o vetor da media total, ai e o vetor de valores nao observados dos
efeitos geneticos aditivos aleat
orios para a i-esima familia, gi e o vetor de
valores n
ao observados dos efeitos aleatorios do gene principal para a i-esima
familia, Xi e a matriz das covariaveis observadas, e o vetor dos coeficientes
das covariaveis observadas, e i e o vetor do efeitos ambientais para a iesima famlia. E mais as suposicoes para modelos poligenicos discutidas no
captulo 2. Assumimos sob a suposicao de ligacao ( = 0), que o efeito
genetico principal, gi tenha media 0 e variancia g2 Zi , onde Zi e a matriz de
valores IPD. Observe que n
ao assumimos que o efeito genetico principal tem
uma distribuic
ao normal. Mas y = (y1 , y2 , ..., yni )T tem uma distribuicao
normal multivariada com media i = + Xi e matriz de variancia-covariancia Vi = 2 Gi + g2 Zi + 2 I. Como o modelo poligenico, este modelo
pode ser ajustado e as estimativas para , , 2 , g2 e 2 podem ser obtidas
usando metodos de m
axima verossimilhanca. A hipotese a ser testada e
H0 : g2 = 0 e o teste usado e o da razao de maxima verossimilhanca, i.e.,
L(H0 )
LRT = 2 ln
L(H1 )


que e 1/220 + 1/221 (Self e Liang, 1987). Extensoes e detalhes deste


modelo podem ser encontradas em varias plublicacoes (Amos, 1994; de An-

CAPITULO 4. ANALISE
DE LIGAC
AO

PY

118

NO
T

CO

drade et al., 1999; Almasy e Blangero, 1998; Amos e de Andrade, 2001).


Este metodo e implemetado nos pacotes ACT, SOLAR e Genehunter.
Para fen
otipos qualitativos, podemos usar o teste nao-parametrico, NPL
NonParametric Linkage, desenvolvido por Kruglyak e outros (1996) usando
o algoritmo de Lander e Green (1987). Esta estatstica mede a quantidade
de alelos compartilhados entre os indivduos afetados no heredograma. O
metodo NPL pode analisar dados usando somemte dados pareados, i.e., pares de indivduos (a estatstica N P Lpairs ) e tambem todos os indivduos
afetados na famlia (a estatistica N P Lall ). Este metodo e multipontual porque ele calcula a probabilidade IPD para quaisquer ponto no chromossomo
usando a distribuic
ao de hereditariedade (inheritance distribuition) para todos marcadores disponivel neste cromossomo. A calculo da estatstica NPL
pode ser feita em duas etapas. A primeira etapa e o calculo da distribuicao
de hereditariedade, pode ser usada para estimar os alelos compartilhados entre um conjunto de indivduos afetados, sejam eles pares ou o heredograma
completo (para maiores detalhes, veja Kruglyak e outros (1996) e Lander
e Green (1987)). A segunda etapa do calculo e a avaliacao individual da
func
ao escore (scoring) que determina se a informacao de hereditariedade e
indicativa de ligac
ao.
Se a forma da hereditariedade pode ser determinada sem problemas num
heredograma, a estatistica do N P Lpairs e
Spairs =

Sij

onde i e j s
ao dois indivduos comparados e Sij = 0,1, ou 2, dependendo de
como os alelos s
ao compartilhados IPD. Se ha problemas em se determinar
a forma da heriditariedade, a estatistica Sij sera a media de todas formas
possiveis. Para se comparar Spairs com uma distribuicao estatistica, ela e
normalizada
Spairs E(Spairs )
Zpairs = q
var(Spairs )

onde E(Spairs ) e Var(Spairs ) sao a media e a variancia sob a hipotese nula.


A estatstica geral sobre todo o heredograma e
X

1 m (Zpairs )i
Z=

DO

onde (Zpairs )i e o escore normalizado para um heredograma, e m e o n


umero
de heredogramas.
A estatstica do N P Lall e definida como
Sall = 2a

X h 2f

i=1 bi (h)!

119

PY

4.11. PACOTES DE COMPUTADORES

Pacotes de computadores

NO
T

4.11

CO

onde a e o n
umero de indivduos afetados num heredograma, h e o conjunto
de alelos gerado quando s
o um alelo e considerado para cada indivduo afetado (existem 2a possibilidades), 2f e o n
umero total de alelos fundadores
em um heredograma, i.e, o n
umero total de alelos de origens distintas que
sao diferentes, e bi (h) e o n
umero total de um especfico alelo fundador (i)
no conjunto (h). Esta estatistica e a media sobre todas as possveis formas de hereditariedade, normalizada, e ponderada sobre os heredogramas
da mesma maneira que a estatstica N P Lpairs .
O teste de signific
ancia e determinado atraves da comparacao do escore Z
com uma distribuic
ao normal padrao. O uso da distribuicao normal padrao
e uma aproximac
ao, e geralmente conservativa, i.e., o verdadeiro p-valor e
freq
uentemente menor que o p-valor obtido da tabela da distribuicao normal
padrao. Este metodo e implementado nos pacotes Genehunter e GenehunterPlus.

A seguir apresentamos uma lista de varios pacotes de computadores que


realizam an
alise de ligac
ao.
1. S.A.G.E. calcula teste de transmissao de desequilbrio, metodos naoparametricos para pares de irmaos afetados, analise de segregacao e
de ligac
ao, correlac
ao familiar entre outros metodos.
2. P.A.P. calcula an
alise de segregacao e de ligacao, correlacao familiar
entre outros metodos.
3. Mapmaker/SIBS calcula lod escores para pares de irmaos afetados.
4. Aspex realiza an
alise de ligacao nao-parametrica para pares de parentes
afetados.

DO

5. Linkage realiza an
alise de ligacao parametrica para fenotipos qualitativos e quantitativos, usa heredogramas de tamanho grande mas poucos
marcadores.
6. Mendel realiza an
alise de ligaccao parametrica para fenotipos qualitativos e quantitativos, usa heredogramas de tamanho grande mas poucos
marcadores.

CAPITULO 4. ANALISE
DE LIGAC
AO

PY

120

7. Genehunter e Genehunter-Plus realizam analise de ligacao parametrica


e n
ao-parametrica para fenotipos quantitativos e qualitativos, usa m
ultiplos marcadores mas heredogramas de tamanho moderado (no maximo 16 meioses), calcula analise de haplotipo, pode ser usado para
pares de irm
aos afetados.

CO

8. Simwalk2 realiza analise de ligacao nao-parametrica para fenotipos


qualitativos, calcula lod escores aproximado usando o algoritmo de
Monte Carlo Markov Chain (MCMC), usa m
ultiplos marcadores e heredogramas de tamanho grande, e calcula analise de haplotipo.
9. ACT realiza an
alise de ligacao nao-parametrica para fenotipos quantitativos, usa m
ultiplos marcadores e heredogramas de tamanho grande.

10. SOLAR realiza analise de ligacao nao-parametrica para fenotipos quantitativos, usa m
ultiplos marcadores e heredogramas de tamanho grande.

DO

NO
T

11. Para mais informacao sobre pacotes, veja a lista de pacotes em


http://linkage.rockefeller.edu.

PY
CO

Captulo 5

An
alise de Dados
Moleculares
Introdu
c
ao

NO
T

5.1

A comparac
ao da variabilidade em um conjunto de seq
uencias, por
exemplo de HIV (human immunodeficiency virus), e fundamental para entender press
oes de selec
ao e outros processos dinamicos as quais essas seq
uencias
estejam sujeitas. Algumas das questoes que a metodologia deseja responder
a populacao
sao as seguintes. No caso do HIV, poderamos perguntar: E
viral mais homogenea no plasma do que no semen? A diversidade viral esta
sofrendo algum impacto dos agentes terapeuticos? Ao longo do tempo, a
diversidade viral se mantem em um determinado indivduo?

DO

Neste captulo revisamos algumas medidas de diversidade usualmente


utilizadas em genetica populacional, tanto comparacoes intra quanto entre populac
oes (Sec
ao 5.2). Consideramos tambem diferentes medidas de
distancia para comparac
oes pareadas de seq
uencias (Secao 5.3). Descrevemos algumas de suas caractersticas e discutimos sua adequabilidade para
dados de seq
uencias de HIV. Analisamos duas metodologias que permitem
a inclus
ao de importantes informacoes de covariancia na analise. Uma delas lida com as matrizes de correlacoes das distancias e covariaveis (Secao
5.4.1). A outra engloba covari
aveis atraves de uma analise de variancia
(Secao 5.4.2). Por fim, mostraremos uma analise de variancia para dados
categoricos (Sec
ao 5.5).
121

5.2

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

122

Medidas de diversidade gen


etica

NO
T

CO

Um grande n
umero de metricas tem sido construdas para medir distancias. Alguns exemplos dessas medidas sao a de Hamming, Nei e dist
ancia
de Mahalanobis, ... (Jorde, 1980; Lalouel, 1980; Chakraborty & Rao. 1991;
Seillier-Moiseiwitsch et al., 1994 entre outras). Elas estao em duas classes:
elas medem a variabilidade genetica dentre ou entre populacoes.
No presente contexto, um locus e simplesmente uma posicao ao longo
do genoma e os alelos, os aminoacidos ou nucleotdeos nessa posicao. Uma
populac
ao e um conjunto de seq
uencias com caractersticas comuns, como
estipulados pelo objetivo do estudo. Por exemplo, se o objetivo do estudo e
caracterizar a variac
ao global no gene envelope (env) do HIV, a populacao
de interesse e constituda de seq
uencias coletadas em diferentes pases, com
os subgrupos relevantes consistindo de seq
uencias do mesmo grupo. Para
ilustrar, num estudo longitudinal de diversidade, cada indivduo define uma
populac
ao e, conjunto de seq
uencias amostradas no mesmo tempo formam
os subgrupos a serem comparados. As metricas descritas abaixo sao apropriadas quando considera-se uma u
nica posicao ou um n
umero pequeno de
posic
oes, de tal forma que o n
umero total de possveis alelos nao seja muito
grande (com muitas posicoes, um alelo e constitudo de uma serie de labels, um para cada posicao). Em particular, elas sao u
teis para o estudo
conjunto das posic
oes da protease que escondem mutacoes resistentes a um
especfico inibidor dessa protease.

5.2.1

Medidas intrapopulacionais

Diversidade gen
etica

O Indice
de Simpson de diversidade ecologica (Simpson, 1949), tambem
conhecido como diversidade genetica (Nei, 1972; Lewontin, 1972) e uma
medida de variac
ao genetica num locus especfico. Se p1 , p2 , . . . , pk representam as verdadeiras freq
uencias populacionais dos k alelos em um locus,
a diversidade genetica nesse locus e

DO

h=1

k
X

p2i

(5.1)

i=1

Isso e, de fato, a probabilidade de que dois genes, aleatorimente escolhidos da populac


ao, sejam dissimilares no seu perfil alelico. Sua estimativa
b
amostral, h, e obtida pela substituicao dos pi s por seus respectivos equivalentes amostrais, pbi s. Apesar de o vcio desse estimador ser pequeno, ate

123

PY

5.2. MEDIDAS DE DIVERSIDADE GENETICA

para pequenos tamanhos amostrais (n 100), e recomendado que se use


k
X
n
(1
pb2i )
n1
i=1

Indice de informa
c
ao de Shannon

O Indice
de informac
ao de Shannon
hs =

k
X

CO

que e n
ao-viciado (Nei & Roychoudhury, 1974; Nei, 1978).

pi loge pi

i=1

(5.2)

NO
T

tem sua origem no conceito de funcoes de entropia na Teoria de Informacao


e Fsica Te
orica. Tem sido tambem utilizado no contexto de estudos evolucion
arios e ecol
ogicos (Lewontin, 1972; Rao, 1982a,b; Magurran, 1988).
Novamente, seu equivalente amostral e viciado (Hutcheson, 1970; Bowman
et al., 1971). Ajust
a-lo por seu vcio nao e trivial por ser uma funcao dos
pi s. No entanto,
bs =
h

k
X

pbi loge pbi +

i=1

k1
n

DO

corrige boa parte de seu vcio: torna-o de ordem n2 , sendo desprezvel


quando n > 100 (Peet, 1974).
importante destacar que estudos evolucionarios apontam algumas desE
vantagens dessa medida. Primeiramente, seu sentido biologico e difuso. Em
segundo lugar, mesmo sendo seu valor mnimo zero (para um locus fixo), ele
pode atingir valores muito grandes: quando cada um dos k alelos e igualmente freq
uente na populac
ao, hs atinge seu valor maximo, loge k. Sua distribuic
ao amostral depende da verdadeira distribuicao de freq
uencias. Para
loci independentes, pela propriedade de aditividade dos logaritmos dos produtos, os hs s medidos em cada locus podem ser ponderados para obter a
diversidade media por locus dentro da populacao.
Medidas de diversidade unificadas
Num esforco de entender suas propriedades matematicas, medidas de variacao genetica tem sido classificadas sob diferentes conceitos matematicos.


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

124

Todas as medidas aqui consideradas pertencem a uma classe geral dotada


de fortes embasamentos matematicos.
Rao (1982c) formulou um teorema de caracterizacao para um u
nico locus,
com k diferentes alelos, com respectivas freq
uencias populacionais p1 , p2 , . . . ,
pk , se uma medida de diversidade, h(p) = h(p1 , p2 , . . . , pk ), satisfaz aos
seguintes postulados.

CO

(i) h(p) e simetrica com respeito aos componentes de p e atinge seu


m
aximo quando todas as k categorias sao igualmente freq
uentes

(ii) h(p) admite derivadas parciais de ate segunda ordem para os k 1


componentes independentes de p e a matriz de segundas derivadas
00
00
parciais, h00 (p) = (hij (p)), para i, j = 1, 2, . . . , k 1, com hij (p) =
2 h(p)/pi pj , e contnua e nao-nula em p = e (1/k, 1/k, . . . , 1/k)
(iii) h{(p + e)/2} =
constante

1
2 {h(p)

+ h(e)} = c{h(e) h(p)}, onde c e uma

NO
T

ent
ao h(p) tem que ser da forma
"

h(p) = a 1

k
X

p2i

+b

i=1

onde a > 0 e b s
ao constantes. Este teorema, portanto, essencialmente
caracteriza o ndice de diversidade genetica (5.1) e seus relativos.
O Indice de Informac`ao de Shannon (5.2) e seus quatro ndices (Rao,
1982a; Rao & Boudreau, 1984),
Entropia de ordem alpha de Havrda e Charav
at
h (p) = [1

k
X

pi ]/[21 1] para > 0 e 6= 1,

i=1

Entropia de Shannon pareada

DO

hp (p) =

k
X

pi loge pi

i=1

k
X

(1 pi )loge (1 pi ),

i=1

Entropia de ordem de Renyi


k
X

hR (p) = (1 )1 loge (

i=1

pi ) for 0 < < 1,

Func
ao de -entropia
k
X
1/
pi ) ]/[1 21 ] for > 0, 6= 1,

h (p) = [1 (

i=1

125

PY

5.2. MEDIDAS DE DIVERSIDADE GENETICA

hH (p) =

" k
X

CO

satisfazem as duas seguintes condicoes:


C1 : h(p) = 0 se e somente se todos os componentes de p sao zero, a menos
de um (i.e., pi = 1, para algum i e os outros pj s todos nulos)
C2 : h{ p + (1 )q} h(p) + (1 )h(q), com igualdade se e somente
se p = q (propriedade de concavidade).
O ndice
#1/(1)

pi

i=1

5.2.2

NO
T

e a base de uma outra metodologia para a unificacao das medidas de diversidade (Hill, 1973). Para v
arios valores de , reduz-se a conhecidos ndices.
Quando se comparam seq
uencias de DNA ou aminoacidos, as medidas de
diversidade acima envolvem um locus por vez. Elas seriam, portanto, inadequadas para o estudo de segmentos genomicos relativamente grandes. Se
assumirmos dependencia entre as posicoes, o Indice de Informacao de Shannon e sua vers
ao pareada podem ser medidas sobre todos os loci, por sua
propriedade de aditividade j
a citada. Entretanto, geralmente, em seq
uencias
de DNA, dependencias entre posicoes de nucleotdeos vizinhos sao fato concreto (Tavare & Giddings, 1989). Em seq
uencias de aminoacidos de HIV,
ligacoes entre as posic
oes j
a foram identificadas (Korber et al., 1993; Bickel
et al., 1996; Karnoub et al., 1999).

Medidas interpopulacionais

Dist
ancia de Mahalanobis

DO

Para uma populac


ao , suponha que as freq
uencias alelicas relativas
num locus k-alelico possa ser representada por um vetor k-dimensional p =
(p1 , p2 , . . . , pk ). Para duas populacoes, e , a dist
ancia de Mahalanobis
e
2

D =

k1
X k1
X

(pi pi )V(pj pj )

(5.3)

i=1 j=1

onde V e a matriz simetrica (k 1) (k 1) cujas entradas se baseiam nas


freq
uencias alelicas amostradas 12 (pi + pi ) (i = 1, 2, . . . , k) (Mahalanobis,

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

126

1936). V e na realidade a inversa da submatriz de covariancias multinomiais


relativas `
as entradas independentes do vetor de probabilidades 21 (p + p ):
seu (i, j)-esimo elemento e
(

vij =

2/(pk + pk )
for i 6= j, i, j = 1, 2, . . . , k 1
(5.4)
2/(pi + pi ) + 2/(pk + pk ) for i = j.

D2 =

CO

Substituindo-se (5.4) em (5.3), obtem-se

k
X
(pi pi )2
i=1

2 (pi + pi )

(5.5)

que e equivalente `
a dist
ancia de Sanghvi (Sanghvi, 1953). Quando {pi
pi , i = 1, ..., k} s
ao pequenos, (5.3) se aproxima da distancia de Bhattacharyya 2 (Bhattacharyya, 1946), definida por
cos =

k
X

pi pi

i=1

NO
T

Essas dist
ancias tem por objetivo principal a classificacao de populacoes
em detrimento de estudos evolutivos. Sob um modelo evolutivo definido, elas
n
ao seguem um padr
ao especfico: podem, por exemplo, deixar de crescer
com o tempo (Chakraborty & Rao, 1991).
Dist
ancia de Nei

Se estamos investigando distancias entre m


ultiplas populacoes, a matriz
V em (5.3) envolve medias sobre todas as freq
uencias relativas populacionais.
Consequentemente, as distancias pareadas (5.5) sao tambem funcoes das
freq
uencias relativas de populacoes exceto as duas sendo comparadas. Isto
levou Nei (1972) a considerar
Dm =

k
1X
(pi pi )2
2 i=1

(5.6)

DO

como a mnima dist


ancia entre as populacoes e . Escrevendo-se Dm como
p

Dm = ( J

J )2 + 2

J J (1 cos )

onde J e a probabilidade de dois genes serem identicos, quando ambos sao


amostrados da populacao , i.e. J =

k
X
i=1

p2i , J =

k
X
i=1

p2i e e o angulo


5.2. MEDIDAS DE DIVERSIDADE GENETICA

PY

127

entre os vetores de freq


uencias relativas alelicas das duas populacoes (Rao,
1982c), torna-se clara sua dependencia tanto na diferenca em diversidade das
duas populac
oes como no
angulo entre seus vetores de freq
uencias relativas.
A medida de dist
ancia genetica padrao (Nei, 1972)
J
DN = loge p
J J

CO

(5.7)

onde J e a probabilidade de que dois genes sejam identicos quando um foi


amostrado da populac
ao e o outro da populacao , i.e., J =

k
X

pi pi ,

i=1

so depende do
angulo , visto que (Rao, 1982c)
DN = loge cos .

NO
T

Extens
oes para v
arios loci s
ao diretas: Dm deve ser calculada para cada
locus e, ent
ao, a media dessas estatsticas especficas para cada locus e calculada, enquanto que, para DN , os Js sao valores medios sobre os loci
considerados. DN e u
til nos estudos evolucionarios pois pode ser estimado
sob varios modelos (em termos de tempo evolucionario e tamanhos populacionais efetivos). Numa an
alise de aglomerados populacionais, como DN
nao e uma metrica pr
opria, Rao (1982c, 1984) sugere o uso de .
Dm e DN s
ao estimados pelo metodo dos momentos, por
b m = (1 Jb ) 1 [(1 Jb ) + (1 Jb )]
D
2

b N = log q
e D
e

Jb
Jb Jb

b e p
b
substituindo-se p e p por seus respectivos equivalentes amostrais p
b (Nei & Roychoudhury, 1974; Nei, 1978).
nos Js, a fim de obterem-se os Js
Os respectivos vcios dos resultantes estimadores sao
"

1 1 J 1 J
+
4
n
n

"

1 1 J 1 J
e
+
4 n J
n J

DO

e J , onde
para reduz-los, Nei (1978) substitui Jb e Jb por J

J
=

2 n

pb2i 1

2 n 1

2 n

e J
=

pb2i 1

2 n 1

Com isto, os vcios tornam-se de ordem n2 .

5.2.3

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

128

Testando hip
oteses

Para estudos intrapopulacionais, e possvel construir testes assintoticos


(utilizando os momentos da distribuicao multinomial) para medidas de
X diversidade generalizadas (Nayak, 1983) ou qualquer funcao regular
pi
i

b1 D
b2
D


b12 +
b22

CO

(Chakraborty & Rao, 1991). Com esses testes, podemos comparar diversib1 e D
b 2 estimativas
dade em dois loci ou duas populacoes. De fato, sejam D
da diversidade, respectivamente, entre n1 NSI e n2 SI seq
uencias num esb12 e
b22
pecfico stio de protease relacionada a resistencia a drogras. Se
denotam as estimativas de variancia para D1 e D2 , respectivamente, entao,
o teste a seguir
1/2

N (0, 1)

NO
T

pode ser utilizado para compararem-se as diversidades de duas populacoes


com diferentes caractersticas biologicas, desde que cada indivduo contribua com uma u
nica seq
uencia para o estudo. Esses testes tambem podem
auxiliar em confirmar se a diversidade em um determinado locus se ajusta
ao que se esperaria sob um especfico modelo de evolucao. Por exemplo,
amostrando n seq
uencias de uma populacao que ja atingiu sua distribuicao
estacion
aria, a esperanca e variancia da medida de diversidade sao calculadas sob a suposic
ao de neutralidade (Kimura & Crow, 1964): p.ex., para
(5.1)
E(h) =

n1
n +1

"

n1
5n(n 1) + 2 8(n 1)(n 2) 3(n 2)(n 3)
V (h) = 3

+
2n (1 + )
1 + )
2+
3+
n1
3
n

n1
2+
1+

!#

DO

= 4Ne , com Ne sendo o tamanho populacional efetivo e a taxa de


mutac
ao por locus por geracao (Chakraborty & Fuerst, 1979; Chakraborty
& Griffiths, 1982). Entao,
b E(h)
b
h

Vb (h)1/2

N (0, 1)

129

PY

ENCIAS

5.3. DISTANCIAS
ENTRE SEQU
DE DNA

pode ser usado como um teste de neutralidade (Nei et al., 1976; Fuerst et
al., 1977).
Para comparac
oes entre populacoes, um teste baseado na distancia de
Sanghvi
k
X
i=1

(pi pi )2
n pi + n pi

2k1

CO

2 n n

e adequado para testar a hip


otese de que D(, ) = 0, quando o tamanho
amostral e grande (Nei, 1987). Para garantir que a aproximacao assintotica
seja v
alida, e necess
ario combinar os alelos raros em um u
nico grupo. No
teste de contraste de dist
ancias ou na comparacao de m
ultiplas populacoes, a
distancia mnima de Nei e a u
nica medida que pode ser facilmente adaptada
para diversos loci (Chakraborty, 1985; Nei, 1987). De fato, podemos testar
D(, ) = D(, ) usando
tR1

NO
T

R
b m (, ; r) D
b m (, ; r)
1 X
D
r


R r=1
b m (, ; r) D
b m (, ; r)
V ar D

onde r indica os loci (Chakraborty, 1985).

5.3

Dist
ancias entre seq
u
encias de DNA

DO

Para seq
uencias com grande divergencia, substituicoes m
ultiplas podem
ter ocorrido em stios muito polimorficos. O n
umero observado de diferencas de nucleotdeos subestima o real n
umero de substituicoes ocorridas
desde a divergencia entre as seq
uencias. Assim, para estudos comparativos
de seq
uencias de DNA (por exemplo, reconstrucao de relacoes filogeneticas
e avalic
ao de taxa de evoluc
ao), metodos estatsticos para estimacao do
n
umero de substituic
oes de nucleotdeos se baseiam em modelos de evolucao
molecular. Quando seq
uencias sao originarias do mesmo indivduo, nao e
muito prov
avel que tenham ocorrido repetidas mutacoes nos mesmos stios.
Nestes casos, a Dist
ancia de Hamming produz uma boa estimativa da real
distancia entre as seq
uencias.

5.3.1

Dist
ancias baseadas em modelos

Considere duas seq


uencias homologas que divergiram ha t unidades de
tempo. Denote por I(t) a probabilidade de que duas bases de nucleotdeos


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

130

CO

em stios correspondentes sejam identicas no tempo t. Assume-se que a taxa


de substituic
ao e a mesma para todos os pares de nucleotdeos e tambem e
constante ao longo do tempo (Jukes & Cantor, 1969). Chama-se esta taxa
de . Ent
ao, para um dado stio, a probabilidade de que dois nucleotdeos
hom
ologos permanecam identicos em t + 1 quando eles sao identicos no
tempo t e igual a [(1 3)2 + 32 ] I(t).
Esta probabilidade envolve dois eventos mutuamente exclusivos: ambas bases mudam para duas bases identicas com probabilidade 32 e, ambos nucleotdeos permanecem inalterados com probabilidade (1 3)2 . E, a probabilidade de que dois stios de nucleotdeos tornem-se identicos no tempo
t + 1 quando eles s
ao diferentes em t e igual a [2(1 3) + 22 ][1 I(t)],
o que novamente consiste de dois eventos mutuamente exclusivos: uma mudanca ocorre em um dos stios e o outro stio permanece inalterado com
probabilidade 2(1 3) e, ambas bases mudam simultaneamente para outras duas bases identicas com probabilidade 22 . Logo,
I(t + 1) = ((1 3)2 + 3)I(t) + (2(1 3) + 22 )(1 I(t))

NO
T

Com a condic
ao inicial de que I(0) = 1,
1
I(t) = [1 + 3(1 8 + 162 )t ]
4

Como e, em geral, muito pequeno, os termos 2 sao desprezveis e


1
3
I(t) [1 + 3(1 8)t ] 1 (1 e8t )
4
4

(Nei, 1975; Gojobori et al., 1990). Seja K a distancia evolutiva, i.e., o


n
umero medio de substituicoes de nucleotdeos acumulados por stio no
tempo t.
3
4
K = 2 3t = ln(1 FD )
(5.8)
4
3
onde FD = 1 I(t). O erro padrao de K e
q

DO

K =

1
n FD (1 FD )
1 43 FD

onde n e o n
umero total de stios comparados (Kimura & Ohta, 1972).
Quando comparamos varias seq
uencias de cada dois grupos (geralmente
chamados de especies), devemos considerar a possibilidade de que quaisquer duas seq
uencias podem ser descendentes de diferentes seq
uencias na

131

PY

ENCIAS

5.3. DISTANCIAS
ENTRE SEQU
DE DNA

populac
ao ancestral. Seja S uma medida de similaridade intra-especie, que
depende do tamanho da populac
ao e da taxa de mutacao. Com a populacao
ancestral em equilbrio, (com relacao a mutacao e deriva genetica aleatoria),
b Levando
S e esperado permanecer constante com o tempo a algum valor S.
em conbsiderac
ao a variac
ao intra-especies, a distancia de Jukes-Cantor pode
ser modificada para
!

CO

KW

3
4Sb 1
= ln
4
4I 1

que mede a dist


ancia entre as populacoes recente e ancestral. S e estimada a
partir da variac
ao observada em cada uma das duas especies recentes (Cockerham, 1984; Weir & Basten, 1990). Suponha que ni seq
uencias sao amostradas da populac
ao i. Define-se rijj 0 como a proporcao de bases homologas
que sao iguais nas seq
uencias j e j 0 . A similaridade amostral dentro da
populac
ao i e
1

ni X
X

ni (ni 1)

i=1 j6=j 0

rijj 0

1
S = (S1 + S2 )
2

NO
T

Si

Se sjj 0 e o n
umero de bases identicas entre a seq
uencia j na populacao 1 e
seq
uencia j 0 na populac
ao 2, a similaridade entre populacoes e estimada por
I =

n1 X
n2
1 X
sjj 0
n1 n2 j=1 j 0 =1

No modelo de Jukes-Cantor, todas as mutacoes ocorrem com a


mesma taxa, o que e bastante improvavel na pratica. Modelos mais realsticos
tem sido propostos (veja Gojobori et al. (1990) para uma revisao). Um resumo das express
oes para K e as taxas instantaneas de substituicoes de
nucleotdeos sob estes modelos estao nas Tabelas 5.1 e 5.2.
No modelo de dois par
ametros (Kimura, 1980), e sao as taxas de
transic
ao e transvers
ao. Seja P + Q = FD , onde
P P (t)

1 1 4(+)t 1 8t
1 1
e
+ e
e Q Q(t) e8t .
4 2
4
2 2

DO

P e Q representam as proporc
oes de stios de nucleotdeos com, respectivamente, diferencas tipo transicao e transversao entre as duas seq
uencias
comparadas. Sob este modelo, k = + 2 e o n
umero de substituicoes
de nucleotdeos por stio por ano e, K = 2kt e o n
umero total de substituicoes de nucleotdeos por stio entre duas seq
uencias que divergiram do
seu ancestral comum t anos atr
as.

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

132

Tabela 5.1: N
umero de Substituicoes de Nucleotdeos

Formulas para estimacao de K


43 ln(1 FD )
p
21 ln{(1 2P Q) (1 2Q)}

41 ln{1
( 2P 2Q)(1 2P 2R)(1 2Q 2R)}

(S13 Q1 )(S24 Q2 ) [(P R)/2]2


41 ln
w(1 )w)


P + R 8w(1w)1
1
2w(1

w)





B1
2qA qT
p
3E12
pq ln

ln
F12 B1 +
pq
 p
 3qA qT
 B1
2qC qG
q
3E34

ln
F34 B1 +
q
3qC qG
B1

CO

Par
ametros
1
2
3

DO

NO
T

No modelo de tres par


ametros (Kimura, 1981), P (t) denota a proporcao
de stios mostrando os pares de nucleotdeos TC ou AG no tempo t nas

duas seq
uencias consideradas, Q(t)
a proporcao de stios com TA ou CG,
e R(t) a proporc
ao de stios com TG ou CA:
P P (t) = [1 e4(+)t e4(+)t + e4(+)t ]/4
Q(t)
= [[1 e4(+)t + e4(+)t e4(+)t ]/4
Q
R R(t) = [1 + e4(+)t e4(+)t e4(+)t ]/4 .
Agora, o n
umero total de substituicoes de nucleotdeos por stio e K =
2( + + ) t.
No modelo de cinco par
ametros (Takahata & Kimura, 1981), w repre 1 , Q1 , P e Q sao
senta a frac
ao de A + T nas duas seq
uencias. S13 , S24 , Q
as frac
oes de stios tendo, respectivamente, AA ou TT, CC ou GG, AT,
GC, CT ou AG, e GT ou AC pares de nucleotdeos.
O modelo de seis par
ametros (Gojobori et al., 1982) e baseado no modelo
de tres par
ametros de Kimura (Kimura, 1981). Neste modelo, qA , qT , qC ,
e qG denotam, respectivamente, o conte
udo de A, T, C e G nas seq
uencias
em estudo:
p = qA + qT , q = qC + qG , B1 = pq (xAC + xAG + xT C + xT G )
E12 = (qA q xAC xAG )(qT q xT C xT G )
E34 = (qC p xAC xT C )(qG p xAG xT G )
F12 = xAA + xT T xAT p2 + 3qA qT e F34 = xCC + xGG xCG
q 2 + 3qC qG
onde xii representa a fracao de stios tendo o mesmo par de base i e, 2 xij (i 6=


ENCIAS

5.3. DISTANCIAS
ENTRE SEQU
DE DNA

PY

133

CO

Tabela 5.2: Substituicoes de Nucleotdeos


Nucleotdeo Substitudo

DO

NO
T

Nucleotdeo Original
Modelo de Um Par
ametro
A
T
C
G
Modelo de Dois Par
ametros
A
T
C
G
Modelo de Tres Par
ametros
A
T
C
G
Modelo de Cinco Par
ametros
A
T
C
G
Modelo de Seis Par
ametros
A
T
C
G


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

134

NO
T

CO

j) a frac
ao de stios tendo diferentes pares de bases i e j (i, j = A, C, T, G).
Um processo de substituicao e dito ser tempo reversvel se a probabilidade de, comecando com o nucleotdeo i e mudando para o nucleotdeo j em
um intervalo de tempo, e a mesma da probabilidade de, comecando com j e
mudando para i no mesmo perodo, i.e., reversibilidade no tempo requer que
pij(t) i = pji(t) j para todo i e j e todo t; i e a probabilidade de equilbrio
do nucleotdeo i (Li, 1997) . Note que a reversibilidade no tempo se aplica
para os modelos de um, dois e tres parametros descritos na Tabela 5.2, pois
as matrizes de transicao sao simetricas e nos estamos assumindo freq
uencias
de bases iguais (i.e, i = 1/4 para todo i). Para os modelos de cinco e
seis par
ametros a propriedade de reversibilidade do tempo nao e valida, as
matrizes n
ao s
ao simetricas. Em reconstrucao filogenetica, se o processo e
tempo reversvel, qualquer no ou ponto da arvore pode ser tomado como o
n
o ancestral. Isto e devido ao chamado princpio da polia (pulley principal)
(Felsenstein, 1981). No entando, quando o processo nao e tempo reversvel,
n
os devemos selecionar uma seq
uencia para enraizar a arvore.
Todos os modelos descritos ate o momento assumem que as freq
uencias
de bases {A , C , T , G } sao iguais. Extensoes dos modelos acima com
a remoc
ao desta restricao tem sido propostos. Por exemplo, modelo de
Felsenstein (1981)

T
A
A T
A T

C
C

G
G
G

corresponde ao modelo de um parametro e, o modelo de Hasegawa et al.


(1985)

T
A
A T
A T

C
C

G
G
G

DO

ao modelo de dois parametros. Estes dois modelos sao casos especiais do


modelo geral de cadeias de Markov reversvel (Tavare, 1986)

1 T
1 A

2 A 4 T
3 A 5 T

2 C
4 C

6 C

3 G
5 G
6 G

5.3.2

Dist
ancia log determinante

135

PY

ENCIAS

5.3. DISTANCIAS
ENTRE SEQU
DE DNA

CO

Para calcular dist


ancias entre seq
uencias com diferentes composicoes de
nucleotdeos ou amino
acidos, Lockhart et al. (1994) introduziu a Dist
ancia
Log Determinante. Ela se baseia na chamada matriz de divergencia Fxy .
Para seq
uencias x e y, seu elemento (i, j) e a proporcao de stios em que
x esta na categoria (i.e., nucleotdeo ou aminoacido) i enquanto y e j. A
soma de todos os elementos da matriz e 1. A Dist
ancia LogDet entre x e y
e defnida como
dxy ln(det Fxy )

onde det e o determinante da matriz. Para assinalar uma distancia de


zero entre uma seq
uencia e ela mesma, esta quantidade e modificada: para
seq
uencias de nucleotdeos, torna-se

d0xy

1
detFxy

ln q
4
(detFxx )(detFyy )

5.3.3

NO
T

Note que quando as quatro freq


uencias de bases sao iguais, detFxx = detFyy
4
= (1/4) , e o valor esperado da Dist
ancia LogDet e o n
umero medio de
substituic
oes por stio.

Dist
ancia de Hamming

A Dist
ancia de Hamming e muito utilizada como analise descritiva (veja
Seillier-Moiseiwitsch et al. (1994) para uma revisao). Seja Xi = (Xi1 , Xi2 ,
. . . , XiK )0 um vetor representando a seq
uencia i de tamanho K. Xik e entao
o nucleotdeo ou amino
acido presente na posicao k. Considere Xi e Xi0 . A
dist
ancia de Hamming Hii0 e
Hii0

K
1 X
(Xik 6= Xi0 k )
K k=1

1
n
umero de posicoes onde Xi e Xi0 diferem
K
onde denota a func
ao indicadora (i.e., (A) = 1 se o evento A e verdade e
0 caso contr
ario). Enquanto esta distancia so deve ser tratada como uma estatstica descritiva em muitas situacoes, ela nos da uma estimativa razoavel
da atual dist
ancia quando as seq
uencias estao muito proximas em relacionamento (i.e., elas est
ao separadas por poucas replicacoes de tal forma que
numa posic
ao especfica, e muito raro ter ocorrido ambas, uma mutacao
reversa e forward).

DO

5.4
5.4.1

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

136

Relacionando matrizes de dist


ancia a
covari
aveis
Teste de correlac
ao de Mantel

CO

Um teste para comparacao de duas matrizes de distancia foi introduzido


por Mantel (1967) para acessar agrupamento de doencas de acordo com
o espaco e tempo. A comparacao de matrizes e comumente usada para
detectar uma correspondencia entre dois tipos de medidas de distancias.
Tais dist
ancias podem ser geneticas, morfologicas ou geograficas.
Para que entendamos o procedimento, considere um exemplo de Manly
(1985). Suponha que uma populacao e amostrada em quatro colonias e
proporc
oes morfol
ogicas sao determinadas. Estas proporcoes sao mostradas
em uma matriz de distancia 4 4 onde cada entrada da linha i e coluna j
e a dist
ancia morfol
ogica entre a colonia i e a colonia j. Distancias entre
col
onias com proporc
oes similares sao pequenas, enquanto que distancias
entre col
onias com muitas proporcoes diferentes sao grandes. A matriz de
dist
ancia morfol
ogica e
0.0
1.0
1.4
0.9

1.0
0.0
1.1
1.6

1.4
1.1
0.0
0.7

NO
T

M=

0.9
1.6
0.7
0.0

Como usual, os elementos da diagonal sao zero porque eles representam


dist
ancias de col
onias para elas mesmas e, a matriz e simetrica, pois a
dist
ancia da col
onia i para colonia j deve ser a mesma da distancia da
col
onia j para a col
onia i. No contexto de seq
uencias de HIV, as linhas
e colunas de M relacionam as u
nicas seq
uencias ou grupos de seq
uencias
e, os elementos de M sao distancias calculadas com quaisquer das medidas
descritas na Sec
ao 5.3.
Agora, suponha que uma variavel ambiental e medida em cada colonia,
o que resulta numa matriz de dist
ancias ambientais entre as colonias, como
a matriz abaixo

DO

E=

0.0
0.5
0.8
0.6

0.5
0.0
0.5
0.9

0.8
0.5
0.0
0.4

0.6
0.9
0.4
0.0

Para fitas de DNA, esta matriz poderia guardar, por exemplo, se elas foram
amostradas do mesmo compartimento (com 0se elas sao e 1se nao sao).


5.4. MATRIZES DE DISTANCIA

PY

137

O teste de Mantel foi construdo para investigar se os elementos de M


e E sao correlacionados. Seja a distancia morfologica da colonia i para a
colonia j mij , com mij = mji e mii = 0. Este padrao tambem se aplica a
E. A estatstica do teste e
Z=

XX

mij eij

CO

NO
T

Sua distribuic
ao e obtida tomando as colonias numa ordem aleatoria para
uma das matrizes, i.e., a matriz M permanece como e e uma permutacao
aleatoria e escolhida para as colonias em E (chame esta matriz de ER ).
Z e ent
ao calculada a partir de M e ER . Repetindo-se este procedimento
utilizando todas as diferentes ordenacoes aleatorias para ER , obtemos a
distribuic
ao aleatorizada de Z. A ideia e que, se distancias ambientais e
morfol
ogicas n
ao s
ao correlacionadas, entao E e somente como uma das
matrizes de ordenac
ao aleat
oria ER e o Z observado e um tpico valor Z
aleatorio. Se as dist
ancias tem uma correlacao positiva (negativa), o Z
observado tende a ser maior (menor) do que os valores aleatorios.
Quando h
a poucas col
onias, e possvel calcular todos os valores de Z
aleatoriazados. A medida em que o n
umero de colonias aumenta, torna-se
impratic
avel enumerar todos os valores de Z aleatorizados. Entao, pode-se
fazer o teste de Mantel de duas maneiras. Gera-se um grande n
umero de
matrizes ER aleatorizadas e a distribuicao emprica dos valores de Z e uma
estimativa da verdadeira distribuicao aleatoria. Alternativamente, a media
E(Z) e vari
ancia V (Z) de Z aleatorio sao calculadas e, a distribuicao de
Z =

Z E(Z)
V (Z)1/2

e aproximada pela distribuic


ao normal padrao. No exemplo acima, Z =
0.92836 e, Pr(Z aleat
orio Z observado) = 0.0789.
Considere a situac
ao geral onde M e E sao de ordem LL. Para calcular
E(Z) e V (Z), as seguintes quantidades sao necessarias:

AM =

L X
L
X

mij

BM =

DO

i=1 j=1

GM = A2M

AE =

GE =

L X
L
X

i=1 j=1
A2E

eij

L X
L
X

m2ij

DM =

i=1 j=1

HM = DM BM
BE =

L X
L
X

e2ij

i=1 j=1

HE = DE BE

L
X

L
X

i=1

mij

j=1

KM = GM + 2BM 4DM
DE =

L
X

L
X

i=1

eij

j=1

KE = GE + 2BE 4DE .

Mantel(1967) mostrou que para Z aleatorio


AM AE
E(Z) =
e V (Z) =
L(L 1)

2BM BE +

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

138

KM KE
GM GE
4HM HE
+

L2
(L 2)(L 3) L(L 1)
L(L 1)

Z E(Z)

r="
BM

5.4.2

CO

A ligac
ao entre Z e o coeficiente de correlacao de Pearson entre os elementos
de M e E e a seguinte

G2M

L(L 1)

G2E
BE
L(L 1)

!#1/2

An
alise de vari
ancia molecular - AMOVA

NO
T

Um problema interessante em biologia molecular e o estudo da variacao


molecular dentro de uma especie ou entre especies. Excoffier e outros (1992)
usou informac
ao de divergencia de haplotipos de DNA para incorporar o formato de an
alise de variancia, derivado a partir de uma matriz de quadrados
de dist
ancias entre todos os pares de haplotipos. Essa metodologia pode
ser tambem aplicada a seq
uencias de HIV quando, por exemplo, estamos
interessados na comparacao de taxas de mutacao entre e dentre subtipos de
seq
uencias de HIV.
M
etrica de dist
ancias

Para cada subtipo de HIV podemos ter uma seq


uencia consensual. Comparamos cada seq
uencia com a seq
uencia consensual e olharemos as diferencas. A resposta e entao binaria e podemos representar da seguinte forma:
Seja
(
0 se nao ha mutacao no stio s
ys =
1 se ha mutacao no stio s

DO

Para uma seq


uencia com S stios, toda a seq
uencia pode ser considerada
como um vetor Booleano S-dimensional da forma
y0 = (y1 y2 . . . yS ),

(5.9)

A divergencia entre duas seq


uencias Sj e Sk e definida como (yj yk )
(y0j y0k )0 = [(y1j y1k ) (y2j y2k ) . . . (ySj ySk )].

(5.10)


5.4. MATRIZES DE DISTANCIA

PY

139

2 ) entre seq
Definimos uma dist
ancia metrica Euclidiana (jk
uencias Sj e Sk
como
2
jk
= (yj yk )0 W(yj yk ),

(5.11)

2
jk
=

S
X

CO

onde W e uma matriz de pesos para os varios stios. A matriz de pesos W


toma v
arias formas. Se todos os stios sao assumidos serem independentes e
igualmente informativos, W = I, a matriz identidade, e a distancia metrica
e igual ao n
umero de diferencas nos stios de restricao. No caso em que W e
diagonal, W = diag{ws2 }, pesando os stios diferentemente, mas tratando-os
como independentes, equac
ao (5.11) pode ser reescrita como
ws2 (ysj ysk )2

s=1

(5.12)

NO
T

Nos usaremos a notac


ao matricial para o resto da analise, para que os resultados n
ao dependam da forma escolhida para W; mas nos iremos asssumir
que a matriz de pesos foi escolhida previamente.
Particionando a matriz de dist
ancias

Consideremos N indivduos (i.e., seq


uencias) de I populacoes (por exemplo, subtipos do vrus) numa matriz de distancia, D2 , particionada em uma
serie de submatrizes correspondentes a subdivisoes particulares:
"

D2 =

D211
D221
...
..
.

D212
D222
D22I
..
.

D2I1

...

...

D21I

..
...
.
. . . D2II

DO

onde os elementos das submatrizes bloco-diagonais D2ii contem os quadrados


2 ) entre indiv
das dist
ancias em pares (jk
duos da mesma (i-esima) populacao
e, aqueles elementos fora da diagonal D2ii0 contem quadrados das distancias
em pares entre indivduos, um da i-esima populacao e o outro da i0 -esima
populac
ao. Indivduos (seq
uencias) podem tambem ser agrupados em nveis
mais altos, de acordo com
areas geograficas ou tipos de infeccao do HIV.
Pode-se mostrar que a soma de quadrados convencional (SQ(T otal) ) pode
ser escrita, a menos de uma constante (2N ), como a soma de quadrados entre
as diferencas de todos os pares de N itens (Hoeffding, 1948).


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

140

No caso multidimensional, a soma de quadrados convencional torna-se


uma soma de quadrados de desvios (SQD) do centroide de um espaco multidimensional. Logo,
SQD(T otal) =

N
X

)0 W(yj y
)
(yj y

j=1

1 X
N
1 NX
(y yk )0 W(yj yk ),
N j=1 k>j j

SQD(T otal) =

N
N X
1 X
(y yk )0 W(yj yk )
2N j=1 k=1 j

ou

CO

N
N X
1 X
2
2N j=1 k=1 jk

(5.13)

NO
T

2 = 0 quando comparamos a seq


tendo em vista que jj
uencia j com ela
mesma.
Se indivduos s
ao dispostos em populacoes e populacoes aninhadas dentro
de grupos definidos a priori em criterios nao geneticos, um modelo linear
possvel seria

yjig = + ag + big + ejig

(5.14)

DO

onde yjig indexa o j-esimo indivduo (j = 1, . . . , Nig ) na i-esima populacao


(i = 1, . . . , Ig ) no g-esimo grupo (g = 1, . . . , G), e e o valor esperado de
yjig , sobre todo o estudo. a representa o efeito do grupo, b o efeito das
populac
oes e e e o efeito de indivduos dentro de populacoes. Todos os
efeitos s
ao aleat
orios, aditivos e nao correlacioandos, tendo componentes de
2
2
vari
ancia a , b e e2 , respectivamente.
Como na decomposicao usual de analise de variancia padrao, para qualquer escolha de particao hierarquica de N indivduos (seq
uencias) em estratos, n
os podemos escrever
SQD(T otal) = SQD(Entre Estratos) + SQD(Dentro de Estratos)

designando aqui como Analise de Variancia Molecular, AMOVA. Para ilustrac


ao iremos particionar a soma de quadrados dos desvios total (SQD(T otal) )
em componentes de variancia dentro de populacoes (SQD(W P ) ), variacao


5.4. MATRIZES DE DISTANCIA

PY

141

entre populac
oes dentro de grupos (SQD(AP/W G) ) e variacao entre grupos
(SQD(AG) ).
Nig Nig
X
X

j=1 k=1

g=1 i=1

2Nig

(5.15)

CO

SQD(W P ) =

2
jk

Ig
G X
X

Nig Nig
X
X

Ig Nig Ig
i0 g
X
XXX

2
2

jk
jk

Ig
G
X
X
i=1 j=1 i0 =1 k=1

j=4 k=1

SSD(AP/W G) =

Ig
2N
ig

X
g=1
i=1

2N
ig

i=1

N
N X
X

G
X
i=1 j=1 i0 =1 k=1

NO
T

j=1 k=9
SSD(AG) =

2N

Mg Nig Ig
i0 g
X
XXX

2
jk

Ig

g=1

2Nig

(5.16)

2
jk

(5.17)

i=1

DO

Note que Nig e o n


umero de indivduos (seq
uencias) na i-esima populacao
PG PIg
do g-esimo grupo, N = g=1 i=1 Nig e o total de indivduos em estudo, Ig
P
e o total de populacoes
e o n
umero de populac
oes no g-esimo grupo, G
g=7 Ig
em estudo e G e o n
umero de grupos em estudo.
Os desvios medios quadr
aticos (DM Q) sao obtidos pela divisao de cada
SQD pelos seus graus de liberdade, como mostrado na Tabela 5.3. Os
coeficientes n na Tabela 5.3 representam os tamanhos medios amostrais dos
nveis hier
arquicos, permitindo diferentes tamanhos de amostra,
Ig

X
2

Nig
Ig
G X
G

X
X
i=1

Nig
I

g
X

g=1 i=1
g=1

Nig

n=

i=1
G
X
g=1

Ig G


CAPITULO 5. ANALISE
DE DADOS MOLECULARES
Ig

X
2

Nig
G

X
i=1

g
X

g=1

Nig

2
Nig

g=1 i=1
G Ig

XX

Nig

g=1 i=1

i=1

n0 =

Ig
G X
X

CO

G1
G
X

PG

g=1

PIg

i=1 Nig

Ig
X

Nig

g=1

i=1
Ig
G
XX

Nig

g=1 i=1

n =

PY

142

G1

NO
T

Tabela 5.3: Delineamento para Analise de Variancia Molecular Hierarquica


(AMOVA)
Fonte de Variac
ao
g.l.
DMQ
E(DMQ)
Entre Regi
oes
G1
DM Q(AG)
e2 + n0 b2 + na2
PG
DM Q(AP/W G) e2 + nb2
Entre Populac
oes
g=1 Ig G
dentre Regi
oes
Entre Indivduos
dentre Populac
oes

Total

N 1

PG

g=1 Ig

DM Q(W P )

e2

DO

Tomando valores esperados dos desvios quadrados medios (DM Q), podemos obter componentes de variancia de cada nvel hierarquico. A estrutura da an
alise e como a estatstica F descrita para o tratamento de
sistemas polim
orficos (Cockerham, 1969, 1973). Aqui tambem seria u
til empregar algo an
alogo para as medidas de correlacao entre seq
uencias, que
chamaremos de estatsticas . Teremos entao,
e2 = (1 ST ) 2 ,
b2 = (ST CT ) 2 ,
a2

(5.18)

= CT ,

onde 2 = a2 +b2 +e2 , ST representa a correlacao de seq


uencias aleatorias
dentro de populac
oes com relacao `aqueles pares de seq
uencias tirados de


5.4. MATRIZES DE DISTANCIA

PY

143

ST =

a2 + b2
,
2

CT =

a2
,
2

CO

todo o estudo; CT e a correlacao de seq


uencias aleatorias dentro de um
grupo de populac
oes com relac
ao `aqueles pares de seq
uencias retiradas de
todo o estudo e, SC e a correlacao da diversidade molecular de seq
uencias
aleatorias dentro de populac
oes com relacao `aqueles pares de seq
uencias
retirados aleatoriamente de um grupo ou regiao. Podemos reescrever as
equacoes (5.18) em termos das estatsticas ,

SC =

b2
.
b2 + e2

(5.19)

Testando a signific
ancia dos componentes de vari
ancia e estatsticas

NO
T

O metodo sugerido aqui requer poucas suposicoes. Sob a hpotese nula,


amostras s
ao consideradas como retiradas de uma populacao global com variacao devido a amostra aleat
oria na construcao de populacoes. Para obter
a distribuic
ao sob a hip
otese nula, alocamos cada indivduo (seq
uencia) a
uma populac
ao escolhida aleatoriamente (por exemplo, um especfico subgrupo de HIV), enquanto fixamos os tamanhos de amostra constantes nos
valores observados. Este metodo e um teste de permutacao como o proposto
por Mantel(1967). Fazemos permutacoes aleatorias das linhas (e correspondentes colunas) da matriz de distancias quadraticas. Os componentes de
variancia s
ao estimados para cada um de um n
umero grande de matrizes
permutadas. Este procedimento e usado para obter uma distribuicao nula e
para testar a signific
ancia de ST and e2 .

DO

Os outros dois esquemas de permutacao sao u


teis para testar a significancia dos outros componentes de variancia. O primeiro metodo de permutac
ao e para obtenc
ao da distribuicao nula de SU e b2 . Ele assume que
os grupos (por exemplo, diferentes areas geograficas ou diferentes grupos de
risco de indivduos infectados com HIV) sao reais mas que as populacoes
dentro deles n
ao, permutando indivduos dentro dos grupos sem levar em
conta as populac
oes. O segundo metodo de permutacao obtem a distribuicao nula de CT e a2 . Assume-se que, enquanto as populacoes sao reais,
o agrupamento e artificial, permutando todas as populacoes em cruzamento
com os grupos. Neste caso, os tamanhos dos grupos podem variar com cada
permutac
ao.

5.5

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

144

An
alise de vari
ancia para dados categ
oricos ou
seq
u
encias gen
omicas

NO
T

CO

Simpson (1949), aparentemente com desconhecimento do trabalho de


Gini (1912), prop
os uma medida de biodiversidade. Trabalhando com uma
medida de variac
ao qualitativa semelhante, Light e Margolin (1971, 1974) desenvolveram uma an
alise de variancia para tabelas de contingencia que pode
ser aplicada a vari
aveis categoricas (CATANOVA). Anderson e Landis (1980;
1982) estenderam este trabalho para tabelas de contingencia multidimensionais envolvendo v
arios fatores. No contexto de seq
uencias genomicas, esta
tecnica pode ser utilizada para comparar a variabilidade numa u
nica posicao
entre e dentre grupos. Em varias situacoes, em particular para seq
uencias
virais, uma u
nica posicao nos da muito pouca informacao. Para lidarmos
com v
arios stios, Pinheiro e colegas (2000) adotaram um metodo pseudomultidimensional e estudaram os componentes de variancia. Esta analise
de vari
ancia foi desenvolvida para dados categoricos quando a variavel resposta n
ao e ordenada. Ela e particulamente bem aplicada a comparacoes de
conjuntos de seq
uencias. Estas comparacoes podem ser feitas entre e dentro de grupos para verificar se a variabilidade e semelhante em cada grupo.
Similarmente, quando estudamos varios indivduos e obtemos um conjunto
de seq
uencias para cada um em diferentes tempos, nosso interesse seria a
estimac
ao da variabilidade entre e dentre indivduos. Baseado na suposta
independencia entre as posicoes ao longo das seq
uencias, um teste estatstico
para a hip
otese nula de homogeneidade entre os grupos e investigado, a distribuic
ao da estatstica do teste e considerada.

DO

A motivac
ao aqui e apresentar modelos de an
alise de vari
ancia multivariada (MANOVA) e ferramentas de analise para dados categoricos de
dimens
ao elevada que sao qualitativos e nao ordenados. O foco cientfico
e a comparac
ao de seq
uencias genomicas do virus de imunodeficiencia humana (HIV). Por exemplo, se tivermos amostras de seq
uencias provenientes
de diferentes regi
oes geograficas para verificar se a variabilidade entre as
seq
uencias e similar em cada regiao. Estes sao exemplos tpicos de estudos
moleculares epidemiol
ogicos de seq
uencias genomicas que pertencem `a diferentes estratos, de tal forma que o componente entre-grupos pode precisar
ser particionado em v
arios subgrupos. Em todos esses casos a variavel resposta em cada posic
ao e o aminoacido ou o nucleotdeo. Logo, veremos uma
variac
ao qualitativa. Nesta situacao, os modelos classicos de MANOVA nao
s
ao apropriados. A elevada dimensao (i.e., varias posicoes) ainda aumenta
mais a complexidade da modelagem e do esquema de analise.

145

PY

5.5. CATANOVA

DO

NO
T

CO

O Indice
de biodiversidade Gini-Simpson (GSI) (Gini, 1912; Simpson,
1949) e expresso exclusivamente em termos de freq
uencias em cada categoria e e extremamente insensvel a qualquer informacao quantitativa que essas
categorias possam ter. Com base numa medida similar de diversidade, Light
e Margolin (1971, 1974) desenvolveram uma analise de variancia (CATANOVA) para dados categ
oricos para tabelas de contingencia sob um modelo
produto multinomial. Essa metodologia pode ser usada no presente contexto para comparar a variabilidade da resposta numa u
nica posicao, entre
e dentre grupos. Na an
alise de dados genomicos, uma u
nica posicao fornece
pouca informac
ao. Conseq
uentemente, precisamos de considerar regioes do
genoma. Para o HIV-1, as regi
oes de interesse variam de 35 a centenas de
amino
acidos. Geralmente, tanto a importancia relativa das posicoes como
seus padr
oes de dependencia estocastica podem ser desconhecidos.
Extrair informac
ao quantitativa de seq
uencias genomicas requer certo conhecimento de biologia molecular. Os conceitos basicos de biologia estao no
captulo 1. Baseados nos fundamentos biologicos, suposicoes para modelos
estatsticos e motivac
oes b
asicas sao apresentados na secao 5.5.1. Componentes de variac
ao s
ao derivados em analogia `a variac
ao para respostas quantitativas e diversidade para respostas qualitativas. Em qualquer dos casos, o
objetivo e decompor a variac
ao ou divergencia total em componentes identificaveis. Esses an
alogos com a Analise de Componentes de Variancia sao
apresentados em detalhes nas secoes subseq
uentes. Seq
uencias genomicas
nao sao consideradas em suas caractersticas individuais mas como contribuidoras na variabilidade total de uma distribuicao categorica com alta dimensao. A formulac
ao de uma medida de diversidade para dados desse tipo
e em si mesma uma tarefa estatstica complexa cuja solucao ainda nao foi
encontrada em toda sua generalidade. Para apresentar as ideias basicas de
forma simples, n
os particionamos as medidas de diversidade com respeito
a alguns fatores (usualmente de natureza epidemiologica), assumindo independencia entre as posic
oes e desenvolvemos uma estatstica de teste para a
hipotese nula de homogeneidade entre os grupos (Secao 5.5.7). Uma breve
ilustrac
ao em um conjunto de dados e feita na Secao 5.5.8.

5.5.1

Motivac
ao estatstica

Em an
alises de seq
uencias genomicas, encontramos dados com um grande
n
umero de posic
oes para v
arios grupos. Para cada posicao a resposta e


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

146

DO

NO
T

CO

categ
orica com 4 a 20 categorias. A natureza destas categorias (i.e., nucleotdeos ou amino
acidos) e totalmente qualitativa. Logo, lidamos com
conjuntos de dados como o que esta resumido na Tabela 5.4. As relacoes
espaciais dos stios podem nao ser conhecidas nem podem ser consideradas estatisticamente independentes. Neste contexto de dimensao elevada, e
difcil incorporar modelos de analises de variancia multivariada (MANOVA)
padr
ao e ferramentas de analises para fazer inferencia. Modelos de analise de
vari
ancia categ
oricas (CATANOVA) sao em geral mais apropriados nessas
situac
oes n
ao-padr
oes.
Light e Margolin (1971, 1974) desenvolveram um modelo CATANOVA
e um esquema de an
alise para tabelas de contingencia. Eles investigaram
as propriedades dos componentes de variacao sob um modelo multinomial
comum e, tambem estudaram o comportamento dos testes propostos para
pequenas amostras. Anderson e Landis (1980, 1982) estenderam o procedimento CATANOVA para tabelas de contingencia envolvendo varios fatores.
Uma analogia `
a an
alise de variancia de delineamento de experimentos nos
ajuda a entender sua estrategia: os grupos, seq
uencias e posicoes fazem o
papel dos blocos, plots e split plots, respectivamente. Como geralmente ha
um n
umero muito grande de stios (por exemplo, o V3 loop do gene env do
HIV contem 35 amino
acidos, i.e. 105 nucleotdeos). Fatores com um grande
n
umero de nveis criam problemas. O principal interesse e a diferenca entre
grupos, sendo as posicoes um fator secundario. Conseq
uentemente, ha uma
natural motivac
ao pelo uso de modelos do tipo MANOVA, em que se tratem as posic
oes como coordenadas de respostas multivariadas. No entanto,
devido ao grande n
umero de posicoes com relacao ao n
umero de seq
uencias,
a tradicional MANOVA pode acabar tendo pouco poder. Logo, modelagens
e esquemas de an
alise alternativos devem ser utilizados.
Como j
a comentado, nosso interesse principal e quantificar a heterogeneidade entre os grupos. Havendo K( 2) stios, nos estaremos diante de uma
formulac
ao MANOVA em que a dispersao entre os grupos sera testada contra a componente de variancia dentro dos grupos. Seja pcgk a probabilidade
(populacional) de uma unidade amostral pertencer `a categoria c, no grupo
g e posic
ao k (c = 1, . . . , C; k = 1, . . . , K; e g = 1, . . . , G). A hipotese nula
de homogeneidade dos G grupos pode entao ser formulada como
pcgk = pck g = 1, . . . , G

c = 1, . . . , C

k = 1, . . . , K.

Por conveniencia notacional, seja


Pg = (pcgk , c = 1, . . . , C, k = 1, . . . , K),

147

CO

PY

5.5. CATANOVA

Tabela 5.4: Tabela de Contingencia (K posicoes).

Grupo
1
1
..
.

Posic
ao
1
2
..
.

1
n111
n112
..
.

Categorias
2
...
n211 . . .
n212 . . .
..
.
...

1
Total
2
2
..
.

n11K
n11
n121
n122
..
.

n21K
n21
n221
n222
..
.

2
Total
...
G
G
..
.

n12K
n12
...
n1G1
n1G2
..
.

n22K
n22
...
n2G1
n2G2
..
.

n1GK
n1G
n1

n2GK
n2G
n2

Total
n11 = N
n12 = N
..
.

nC1K
nC1
nC21
nC22
..
.

n1K = N
n1 = N K
n21 = N
n22 = N
..
.

nC2K
nC2
...
nCG1
nCG2
..
.

n2K = N
n2 = N K
...
nG1 = N
nG2 = N
..
.

nCGK
nCG
nC

nGK = N
nG = N K
n = N GK

NO
T

1
2
..
.

...
...
...
...

C
nC11
nC12
..
.

DO

G
Total
TOTAL

...
1
2
..
.
K

...
...
...
...
...
...
...
...
...
...


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

148

para g = 1, . . . , G.
Nossa hip
otese nula pode, entao, ser, diretamente descrita pela propria
homogeneidade desses Pg s, sob as restricoes adicionais de que
C
X

pcgk = 1, k = 1, . . . , K e g = 1, . . . , G.

CO

c=1

Desse ponto de vista, podemos argumentar que a classica estatstica de


Pearson para a adequacao de ajuste e adequada. Essa estatstica 2 aplicada
a Tabela 5.4, assumindo independencia entre as posicoes resulta em
`
nck
K G ncgk
C X
G X
X
G
2P =
N
n
ck
g=1 c=1 k=1


2

DO

NO
T

que possui K(G1)(C 1) graus de liberdade (g.l.). A suposta distribuicaolimite 2 s


o se torna operacionalmente factvel, segundo vasta literatura,
quando todas as freq
uencias das caselas, ncgk s, forem grandes (maiores do
que 5). Outro fator de distanciamento entre a suposta distribuicao-limite e
a verdadeira distribuicao do problema e qualquer estrutura de dependencia
estoc
astica nas K posicoes. Na analise de seq
uencias genomicas, sabemos
fato corriqueiro que
que essas condic
oes n
ao serao usualmente atendidas. E
stios apresentem alguns poliformismos com baixssimas freq
uencias e, a fim
de se obter uma protena funcional, mutacoes numa posicao serao compensadas por substituic
oes em stios vizinhos. De forma semelhante a do teste
exato de Fisher, a distribuicao nula nao e facilmente acessvel para pequenos valores de N , se G ou K forem grandes. Por exemplo, se o n
umero de
graus de liberdade for grande, mas o parametro de nao-centralidade nao o
for proporcionalmente, o teste resultante tera possivelmente menos poder
do que testes cujas alternativas sejam direcionados a hipoteses especficas.
importante frisar que esses testes tem em geral graus de liberdade muito
E
grandes: com efeito, ao compararem-se dois grupos de cem nucleotdeos,
temos g.l.=300. Logo, para a adequada utilizacao do teste 2 de Pearson
e sua distribuic
ao-limite, nos podemos necessitar de um grande n
umero de
observac
oes (pelo menos 1500 e, em geral, mais do que isso, visto que as categorias n
ao devem ser igualmente provaveis). Alem disso, com os altos g.l.s,
os testes ter
ao em geral nveis crticos grandes e, portanto, o poder pode
n
ao ser muito grande. Por todas essas razoes, nos precisamos de usar uma
outra perspectiva (pseudo-multivariada) para quantificar a homogeneidade
entre os grupos, com menor sensitividade a grandes valores de K.

149

PY

5.5. CATANOVA

DO

NO
T

CO

Ambas as metodologias discutidas (Anderson-Landis e 2 de Pearson)


assumem independencia entre grupos, seq
uencias e posicoes, resultando em
um produto de K modelos multinomiais. Nos dados geneticos, no entanto,
indivduos raramente podem ser considerados independentes, a comecar por
sua ancestralidade comum. Para seq
uencias de HIV, a condicao de que os
indivduos amostrados sejam epidemiologicamente independentes nao e tao
restritiva pela r
apida evoluc
ao do vrus (Seillier-Moiseiwitsch e colegas, 1994
entre outros). Entretanto, com as extremas interrelacoes posicionais, ha outras e b
asicas complicac
oes `
a modelagem estatstica: mesmo a independencia
entre grupos e entre seq
uencias nao implica em um modelo produto de multinomiais.
Mesmo sabendo que as posicoes tem alguma relacao de dependencia, e
comum que n
ao saibamos qual seja sua estrutura exata. Logo, o classico
modelo logstico pode n
ao funcionar muito bem, sem informacoes adicionais sobre a subestrutura espacial. Modelos parametricos para interdependencia das posic
oes, como Cadeias de Markov, se mostram ineptos para
um bom ajuste de dados geneticos. Outros modelos de dependencia utilizam todas as possveis associacoes de varias ordens. No caso binario, o
modelo de representac
ao de Bahadur (1961) ou o modelo sugerido por Li!
K
ang, Zeger e Qaqish (1992), com dependencia apenas pareada (K +
2
parametros). Esses modelos contem em geral parametros demais para que
os possamos estimar de forma confiavel. Idealmente, a razao entre o n
umero
de seq
uencias e par
ametros deve ser pelo menos de 5. Portanto, deveramos
K(K + 1)
ter 5
seq
uencias , n
umero difcil de se obter na pratica. A
2
situac
ao se agrava nas respostas politomicas:
! o modelo proposto por Liang,
K
Zeger and Qaqish(1992) tem KC + C 2
parametros, com C categorias.
2
A fim de reduzir esse n
umero, poderamos assumir correlacao entre todas
as posic
oes, o que n
ao e uma assercao realista. Essas situacoes requerem
extremos cuidados na formulac
ao das restricoes e nao sao consideradas em
nosso estudo. Uma referencia u
til nesse assunto e Karnoub et al. (1999),
que o trata no contexto de testes de independencia para substituicao em
dois stios especficos. Situac
oes de um conjunto de stios mais geral ainda
aguarda formulac
oes precisas.
Como um primeiro passo, nosso objetivo e testar a diferenca entre e
dentro dos grupos, usando uma medida de diversidade para respostas categoricas e assumindo-se independencia entre as posicoes. Para grandes valore de K e forte dependencia, a distribuicao da estatstica de teste degenera


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

150

5.5.2

CO

para uma distribuic


ao-limite de dimensao positiva mas inferior. Condicionada `
a informac
ao de algumas posicoes, outras serao redundantes mas, como
desconhecemos qual subconjunto pode ser descartado, tomamos um procedimento intermedi
ario, assumindo g.l.s diminuindo quando K aumenta. Isso
tambem permite a utilizacao de modelos intercambiaveis para grandes K,
com estrutura de pequena dependencia dentro das classes. Portanto, grandes
K podem ter um efeito de suavizacao, permitindo resultados semelhantes
ao da situac
ao de verdadeira independencia.

Variac
ao em dados categ
oricos e seq
u
encias gen
omicas

NO
T

Para dados categ


oricos, com ndices qualitativos, a media e uma medida de tendencia central descaracterizada. Conseq
uentemente, medidas
de variac
ao, como a variancia ou o desvio medio absoluto, adequadas para
vari
aveis contnuas, n
ao mais se aplicam. Precisamos, portanto, utilizar medidas de variac
ao que se adeq
uem `a ausencia de concentracao ou diversidade
de forma fisicamente sensvel. O ndice de Gini foi proposto exatamente com
esses prop
ositos (Gini, 1912). Para interpreta-lo, introduzimos brevemente
dados com variac
ao quantitativa.
Seja X uma vari
avel aleatoria. Sua variancia, definida por E(X EX)2 ,
pode tambem ser escrita como E(X1 , X2 ), onde (a, b) = 21 (a b)2 (Hoeffding, 1948). Similarmente, o desvio medio absoluto (em torno da media) e
definido como E|X EX|. Considere um conjunto de N unidades experimentais independentes com medidas (quantitativas) X1 , . . . , XN . A variancia
amostral e definida como
s2N

N
1 X
2=
=
(Xi X)
N 1 i=1

n
2

!1
X

(Xi , Xj ),

i<j

DO

N
X
= 1
onde X
Xi . De forma analoga, a soma dos quadrados e definida
N i=1
como

SS =

N
X

N X
N
X
1
2= 1
(Xi X)
(Xi Xj )2 =
2N i=1 j=1
N
i=1

d2ij (5.1)

1iN

onde dij = |Xi Xj | denota a distancia Euclidiana.


No contexto de seq
uencias genomicas, cada Xi esta em uma de C possveis
categorias e a dist
ancia Euclidiana nao e uma medida apropriada. Seja

151

PY

5.5. CATANOVA

d(Xi , Xj ) = dij , uma dist


ancia dicotomica (qua assume apenas os valores 0
ou 1), para o par de observac
oes, (Xi , Xj ),
(

dij =

1 se Xi e Xj estao em diferentes categorias


0 c.c. .

CO

A variac
ao para respostas categoricas X1 , . . . , XN e

(5.2)

N X
N X
N
N
1 X
1 X
d2ij =
dij ,
2N j=1 i=1
2N j=1 i=1

(5.3)

onde dij e definido como em (5.2) (Gini, 1912). Assumindo cada resposta
um e s
o um valor entre C categorias possveis, os dados sao sumarizados
pelo vetor = (n1 , . . . , nC ), cuja componente ni e o n
umero de respostas
na categoria i (i = 1, . . . , C), de forma que

C
X

ni = N . Portanto, a variacao

i=1

nas respostas e
(


C 
X
ni 2

NO
T

N
1 X
ni nj =

2N i6=j
2

DN

i=1

(5.4)

Num contexto ecol


ogico, Simpson (1949), aparentemente desconhecendo
o trabalho de Gini, prop
os o seguinte ndice de diversidade. Suponha haver
C especies e sejam p1 , . . . , pC as respectivas probabilidades de cada uma
dessas C especies. O ndice de diversidade de Simpson e dado por
IS (p) 1 p0 p = 1

C
X

p2i

(5.5)

p2i ,

(5.6)

i=1

e sua vers
ao amostral

=1
0p
IS (p) = 1 p

C
X
i=1

DO

onde pi = ni /N (i = 1, . . . , C) representa a proporcao amostral. Chamaremos IS o ndice Simpson-Gini (GS) de diversidade. Desta forma,
DN =

N
IS (p)
2

As definic
oes (5.4) e (5.5) s
ao motivadas por duas propriedades:


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

152

(a) A variac
ao de N respostas categoricas e mnima se e somente se todas
pertencerem `
a mesma categoria, i.e., pi = 1, i = 1, . . . , C.

(b) A variac
ao de N respostas categoricas e maxima se e somente se as
respostas foram distribdas por todas as categorias da forma mais homogenea possvel, i.e., pi = 1/C, i = 1, . . . , C.

CO

Medidas mais complexas foram propostas a partir dessa simples formulac


ao e incorporam funcoes de distancia mais sofisticadas. Rao (1982a,
1982b, 1982c, 1984), Nayak (1986a, 1986b) e Sen (1999), entre outros, sao
boas fontes de referencia. Enquanto algumas dessa medidas tem sido utilizadas para estudos de variacao genetica (Chakraborty and Rao, 1991), outras
tem sido aplicadas para ndices de desigualdade economica e de pobreza
(Sen, 1999).
Defina-se a medida de entropia como
E(p) =

C
X

pc log pc ,

c=1

NO
T

no C-simplex SC = {p 0 : p0 p = 1}. Sabe-se que E(p) nao pode ser


menor do que GS (Sen, 1999). Portanto, pode haver um inflacionamento
tendencioso. De fato, Rao (1982a, 1982b, 1982c) estudaram os aspectos das
medidas de entropia em dados geneticos e apontaram limitacoes de E(p)
como uma medida de diversidade biologica. Essas observacoes sao pertinentes no contexto atual. Para reduzir o impacto desses fatores indesejaveis,
Rao introduziu a medida de entropia de Shannon pareada
S(p) =

C
X

{pc log pc + (1 pc ) log(1 pc )}.

c=1

Ele tambem considerou uma variacao da entropia de grau de Renyi


1

R(p) = (1 )

loge (

C
X

pc ), for 0 < < 1.

c=1

DO

Nayak (1986a, 1986b) utilizou a medida de entropia quadratica de Rao


H(p) = p0 p,

com = (dij ), onde os dij s sao as distancias entre as categorias i e j.


Ele corretamente observou que a escolha de nao e um problema estatstico, sendo basicamente dirigido pela natureza intrnseca do problema

153

PY

5.5. CATANOVA

IU GS =

C
X
c=1

CO

sob investigac
ao. Em particular, se nos colocarmos = 110 I, teremos
H(p) = 1 p0 p = IS (p). H
a dificuldades em se escolher um adequado
em nossa aplicac
ao, por ser a estrutura tridimensional das protenas praticamente desconhecida. Conseq
uentemente, para adotar a medida de entropria
quadr
atica de Rao, pode ser vantajoso explorar diferentes funcoes de utilidade. Sen (1999) considerou a seguinte medida
uc pc (1 pc ),

DO

NO
T

onde os uc s denotam os pesos de utilidade. No contexto de ndices de pobreza, Sen (1999) ilustrou o uso de apropriados pesos de utilidade. Ele
tambem apontou o valor de um tal ndice to tipo Gini-Simpson com orientacao de utilidade para estudos de qualidade de vida, entre outros. Para
seq
uencias gen
omicas, dependendo de seu tipo (aminoacidos or nucleotdeos),
podemos colocar pesos apropriados de acordo com sua importancia no espectro de diversidade. Para seq
uencias de nucleotdeos, substituicoes (do consenso) dentro do grupo de purinas ou do grupo de piramidinas podem nao
ser tao relevantes quanto substituicoes entre os grupos. Para aminoacidos,
pode ser a polaridade sua caracterstica crucial (enquanto outros aspectos,
como o tamanho, podem ser menos relevantes). Estes pesos de utilidade
podem ser escolhidos como n
ao-negativos ou pertencendo ao intervalo [0, 1].
Novamente, GS corresponde ao caso particular cujos pesos uc s sao todos
iguais a 1.
Se nosso interesse consiste de um u
nico stio com um certo n
umero
de respostas (qualitativamente diferentes), entao podemos utilizar um dos
ndices aqui discutidos na quantificacao das variacoes intra e entre os grupos. De fato, sob essa perspectiva, o problema se reduz a comparar algumas
populac
oes multinomiais (a menos da ordem das categorias) e o trabalho
de Light e Margolin (1971, 1974) e Nayak (1986a, 1986b) sobre CATANOVA e bastante pertinente. Sua implementacao e detalhada na proxima
secao. O problema, entretanto, e de que temos um certo (e grande) n
umero
de posic
oes e, portanto, estamos diante de um analogo multidimensional
dos procedimentos CATANOVA. Nos modelos MANOVA usuais (ou suas
extens
oes via modelos mistos), os padroes de dependencia das variaveisresposta s
ao fundamentais. Sob esse aspecto, como os stios nao sao em geral mapeados tridimensionalmente, identificar suas interacoes e, no mnimo,
uma tarefa difcil. Por essa raz
ao, na Secao 5.5.8, nos apresentamos uma
situac
ao tpica, ilustrada com a discussao da metodologia estatstica basica
e sugest
oes de formulac
oes vi
aveis na pratica.


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

154

5.5.3

Particionando a medida de diversidade: uma u


nica posic
ao

CO

O esprito dessa secao e primariamente motivacional, pois seus resultados n


ao s
ao utilizados na pratica, onde em geral lidamos com m
ultiplas
posic
oes. Voltando `
a Tabela 5.4, onde tnhamos G grupos, cada qual com
N seq
uencias com K posicoes. A resposta em cada stio recai em uma de
g
g 0
C categorias. Seja Xgi = (Xi1
, . . . , XiK
) um vetor aleatorio representando
a i-esima seq
uencia do g-esimo grupo, para i = 1, . . . , N, k = 1, . . . , K e
g
g = 1, . . . , G. Xik
e portanto uma variavel aleatoria assumindo um entre
C categorias (sem nocao de ordem), a qual denota o que esta presente na
k-esima posic
ao na i-esima seq
uencia no g-esimo grupo. Especificamente,
para seq
uencias de nucleotdeos, xgik {A, C, T, G} e C = 4.
Primeiramente, assumamos que cada seq
uencia consista de uma u
nica
posic
ao: sumarizamos as possibilidades na Tabela 5.5.
Tabela 5.5: Sumario dos Dados (Uma Posicao)

1
x11
x12
x13
..
.

x1N

x2N

NO
T
Seq
uencias
1
2
3
..
.

Grupos
2
3
...
x21 x31 . . .
x22 x32 . . .
x23 x33 . . .
..
..
..
.
.
.
x3N

...

G
xG
1
xG
2
xG
3
..
.
xG
N

Seja

dij =

6 Xjg
1 se Xig =
0 se Xig =
6 Xjg .

DO

o total n
umero de respostas e
NG =

G
X
g=1

ng =

C
X
c=1

nc =

C X
G
X

ncg

c=1 g=1

onde ncg e o n
umero de respostas na categoria c para o grupo g e N =
ng =

C
X
c=1

ncg e o n
umero de respostas para o grupo g, que e simplesmente o

155

PY

5.5. CATANOVA

n
umero de seq
uencias em cada grupo. o Indice Total de Simpson (IT S) e
T SI = 1


C 
X
nc 2

(5.7)

NG

c=1

a dispers
ao dentro do g-esimo grupo (i.e., entre {xg1 , xg2 , . . . , xgN }) e
ncg
ng

c=1

!2

CO

C
X

(5.8)

O Indice de Simpson intragrupal (ISW ) e encontrado utilizando 5.8 e


fazendo media de todos os gs:

G
C
X
ncg
1 X
1
ISW =
G g=1
ng
c=1

!2


C 
G X
X
ncg 2

=1G

g=1 c=1

NG

(5.9)

NO
T

O Indice de Simpson entre os grupos (ISB) e


ISB = IT S ISW = G


C 
G X
X
ncg 2

g=1 c=1

NG


C 
X
nc 2

c=1

NG

(5.10)

se tivermos qualquer informac


ao anterior sobre uma matriz de pesos adequada , ent
ao, conforme Nayak (1986a, 1986b), podemos derivar expressoes para a entropia quadr
atica de Rao intra e entre grupos. De fato,
Nayak (1986a, 1986b) desenvolve de forma elegante uma discussao sobre
os componentes dessa medida e ao leitor e recomendada sua leitura. Ele
tambem investigou a distribuic
ao assintotica da estatstica da razao entre as
componentes intra e entre os grupos.

5.5.4

Particionando a medida de diversidade:


m
ultiplos stios

DO

Seguindo-se a notac
ao anterior, referimo-nos `a Tabela 5.4 e assumimos
g
g 0
haver K posic
oes em cada seq
uencia. Temos tambem Xgi = (Xi1
, . . . , XiK
)
e Xg = (Xg1 , . . . , XgN )0 . Para cada k (= 1, . . . , K), definimos IT S, ISB e
ISW da mesma forma que nas secoes anteriores; chamaremos essas medidas
de (IT Sk , ISBk , ISWk )0 . Portanto, consideramos uma matriz 3 K cujas
colunas s
ao os vetores (IT Sk , ISBk , ISWk )0 (k = 1, . . . , K). Lembre-se de


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

156

NO
T

CO

que, para cada seq


uencia, as respostas nessas K posicoes podem nao ser
em geral consideradas estatisticamente independentes e, conseq
uentemente,
esses K vetores n
ao serao tampouco estatisticamente independentes. O problema est
a portanto em combinarem-se essas medidas numa u
nica, que leve
em conta sua interdependencia e que seja u
til para uma analise global.
No modelo cl
assico de MANOVA, com componentes de erro normalmente
distribudos, todo o padrao de dependencia entre as diversas variaveis pode
ser resumido pela matriz de correlacoes. Essa simples propriedade nao e
mais possvel no caso nao-normal, muito menos em modelos para dados
categ
oricos. No contexto atual, os vetores aleatorios Xgik sao variaveis polit
omicas correlacionadas. Portanto, havera interaco!es de diferentes ordens:
K
por exemplo, para o caso especial de C = 2, ha
interacoes de primeira
2
!
K
ordem e, em geral,
interacoes de ordem r 1, para r = 2, . . . , K.
r
Sendo assim, mesmo quando essas interacoes sao convenientemente formuladas (como, por exemplo, em Liang, Zeger e Qaqish (1992)), ha um grande
n
umero de par
ametros de dependencia: 2K K). Quando C 2, esse
n
umero ser
a exponencialmente grande. Para trabalhar com tais modelos,
desta forma, precisamos de um gigantesco N para uma estimacao razoavel
de tal quantidade de parametros ancilares; na pratica, isso pode ser ortogonal `
a capacidade experimental.
Note que, para cada uma das K posicoes e G grupos, temos N respostas,
o que totaliza em n
umero de respostas
N GK =

G
X

ng =

C
X

nc =

c=1

g=1

K
X

nk =

K
G X
C X
X

ncgk .

(5.11)

c=1 g=1 k=1

k=1

Poderamos facilmente variar o n


umero N de grupo para grupo mas isto
apenas resultar
a em uma maior complexidade notacional e nas expressoes
das f
ormulas. Por essa razao, assumimos o mesmo n
umero N para todos os
grupos. A variac
ao dentro do g-esimo grupo na k-esima posicao e
1

C
X

DO

c=1

ncgk
ngk

!2

=1


C 
X
ncgk 2
c=1

visto que ngk = N .


A variac
ao dentro do g-esimo grupo, ignorando-se as K posicoes e
1

C
X
c=1

ncg
ng

!2

=1


C 
X
ncg 2
c=1

NK

(5.12)

157

visto que ng = N K.
Sao, portanto, as medidads de dispersao,
G
C
X
1 X
ncg
ISW =
1
G g=1
NK
c=1

IT S = 1


C 
X
nc 2
c=1

N GK

ISB = IT S ISW = G

2 )

=1G


C 
X
ncg 2

N GK

c=1

(5.13)

(5.14)

CO

PY

5.5. CATANOVA


G X
C 
X
ncg 2
g=1 c=1

N GK


C 
X
nc 2

c=1

N GK

(5.15)

5.5.5

NO
T

Na formulac
ao acima, n
os tratamos as K posicoes como estocasticamente
independentes. Na pr
oxima secao, discute-se esse ponto e descreve-se um
modelo probabilstico adequado.

O modelo probabilstico

Seja ncgk o n
umero de respostas na c-esima categoria, k-esima posicao, gesimo grupo e tome-se pcgk (> 0) como a probabilidade de sorteio da c-esima
categoria, k-esima posic
ao, g-esimo grupo (c = 1, . . . , C; k = 1, . . . , K; g =
1, . . . , G). Assumindo que respostas em diferentes grupos sao independentes,
para o g-esimo grupo e k-esima posicao, as respostas (n1gk , n2gk , . . . , nCgk )
seguem uma distribuic
ao multinomial
Pr{n1gk , n2gk , . . . , nCgk } =

onde

C
X

N
n1gk . . . nCgk

! C
Y

(pcgk )ncgk ,

(5.16)

c=1

pcgk = 1, k = 1, . . . , K e g = 1, . . . , G.

c=1

DO

Note que
E(ncgk ) = N pcgk

Var(ncgk ) = N pcgk (1 pcgk )

Cov(n
( c1 g1 k1 , nc2 g2 k2 ) = N pc1 g1 k1 pc2 g2 k2
1 se g1 = g2 e k1 = k2
onde =
0 c.c.
e

(5.17)

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

158

se assumirmos que as posicoes sao independentes, o modelo e o convencional


modelo produto multinomial , dado por
G Y
K
Y

Pr{(n1gk , n2gk , . . . , nCgk )} =

g=1 k=1

G Y
K
Y
g=1 k=1

N
n1gk . . . nCgk

! C
Y

(pcgk )ncgk

c=1

(5.18)
e um vetor

CO

Ent
ao, Vg (n1g1 . . . nCg1 n1g2 . . . nCg2 . . . n1gK . . . nCgK
CK 1 e V (V1 V2 . . . VG )0 e um vetor GCK 1 com

)0

E(V) N  = N (p111 . . . pC11 . . . p1GK . . . pCGK )0

(5.19)

Denote-se por a operacao de soma-direta. Temos


Cov(V) N 

= N (11 12 1K 21 2K GK )(5.20)
onde gk e uma matriz C C da forma

gk = Dgk gk 0gk

(5.21)

DO

NO
T

com Dgk = Diag(p1gk , . . . , pCgk ) e gk = (p1gk . . . pCgk )0 , para g =


1, . . . , G, k = 1, . . . , K.
Tentemos agora interpretar o modelo produto multinomial acima definido de uma perspectiva um tanto diferente. Lembremos que, em nossa
situac
ao, temos K tipicamente grande, enquanto C varia em algum ponto
entre 4 e 20. A suposicao de independencia dos G grupos parece ser bastante razo
avel em muitos casos, assim como o parece a independencia entre
as N seq
uencias dentro de cada grupo, sempre que um indivduo for representado por uma u
nica seq
uencia. As K posicoes, entretanto, nao devem
ser sempre estatisticamente independentes. Nos permitimos uma heterogeneidade marginal pela utilizacao de pcgk s variando com k. Note ainda que
n.gk = N, g, k. N
os j
a comentaramos que a natureza de dependencia podia
ser considerada de uma forma direta: basicamente, para valores grandes de
K, n
os precisamos permitir uma pequena dependencia estocastica de forma
a ter uma simples solucao estatstica. Como mais um passo nessa direcao,
facamos
cgk = N pcgk , c = 1, . . . , C; g = 1, . . . , G; k = 1, . . . , K

e assumamos que
ncgk , c = 1, . . . , C, g = 1, . . . , G; k = 1, . . . , K sao variaveis de Poisson
independentes com respectivos parametros cgk .

159

PY

5.5. CATANOVA

A lei de distribuic
ao conjunta para os ncgk s e agora dada por
C Y
G Y
K
Y

cgk
cgk

cgk

c=1 g=1 k=1

(ncgk )!

e, para os n.gk s, por

g=1 k=1

.gk

.gk
.gk

CO

G Y
K
Y

(5.22)

(n.gk )!

(5.23)

5.5.6

NO
T

Portanto, a lei condicional para os ncgk s, dado que n.gk = N, g, k,


nada mais e do que uma lei multinomial (5.18). Na pratica, pode ser mais
razoavel assumir independencia dos ncgk s no modelo Poisson acima e, entao,
usar (5.18) em nossas an
alises subseq
uentes. Esse procedimento nao e de
todo incomum em modelagem estatstica para dados de contagem (Bishop
et al., 1975). Basicamente, se n
os considerarmos a resposta K-dimensional
para a i-esima seq
uencia do g-esimo grupo, ha C K possveis realizacoes,
{(c1 , . . . , cK ) : ck = 1, . . . , C, and k = 1, . . . , K}. Assim, se N for grande
enquanto nenhuma das probabilidades das C K celulas o for, o modelo Poisson funciona muito bem. Isto e mais razoavel quando ambos C e K sao
grandes e nenhuma particular combinacao possui alta probabilidade. Pe claro
quena dependencia entre as K posicoes pode levar a tal situacao. E
que n
ao e difcil criar casos patologicos para os quais o modelo produto
multinomial n
ao traria um bom ajuste para a lei de distribuicao conjunta
dos ncgk s. Na pr
oxima sec
ao, discutiremos algumas outras propriedades
baseadas no modelo multinomial em (5.18).

Momentos das medidas de diversidade

Apresentamos aqui alguns c


alculos importantes na formulacao dos testes estatsticos adequados. Denotemos como o produto de Kronecker e
tomemos

DO

T=

1
1
(UKG IC ) =
T
(N GK)2
(N GK)2

(5.24)

onde UKG e uma matriz KG KG de 1s, IC e uma matriz identidade


C C e T e uma matriz CKG CKG (tendo KG KG particoes, sendo
cada uma dessas a matriz identidade C C ). Seja M uma matriz diagonal

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

160

G G com elementos Gn2g (= G(N K)2 ), i.e.,


M = G(N K)2 IG e M1 =

1
IG
G(N K)2

Defina-se

h

M1 UK IC

1
W .
G(N K)2

Ent
ao,

G
[(IG UK ) IC ]
(N GK)2

CO

(5.25)

IT S = 1 V0 TV
ISW
Conseq
uentemente,

(5.26)

= 1 V WV

(5.27)

ISB = IT S ISW = V0 (T + W)V = V0 BV

(5.28)

onde

NO
T

G
1
(UKG IC ) +
[(IG UK ) IC ]
(N GK)2
(N GK)2



G
1
1
IG UK ) UKG IC
B
(5.29)
2
(N GK)
G
G(N K)2

B = T + W =
=

Como E(V0 TV) = tr(T) + 0 T ,


E(IT S) = 1 tr(T) 0 T

K
G X
C
X
X
1
1

p2 N p2c
= 1
+
N GK
N (GK)2 c=1 g=1 k=1 cgk

E(ISW ) = 1 tr(W) 0 W

DO

C X
G
K
X
X
1
1
= 1
+
p2 N p2cg
NK
N GK 2 c=1 g=1 k=1 cgk

e E(ISB) =

G1
1
+
N GK
N (GK)2
1

N GK 2

"

C
G X
K
X
X

p2

cgk

c=1

"K
C X
G
X
X
c=1 g=1 k=1

N p2c

g=1 k=1

p2cgk

N p2cg

161

PY

5.5. CATANOVA

Defina a variac
ao populacional dentro do g-esimo grupo, na k-esima
posicao como
IS (pgk ) = 1

C
X

p2cgk

(5.30)

c=1

CO

A hip
otese nula H0 : pcgk = pck para todo g implica em que
IS (p1k ) = IS (p2k ) = = IS (pGk ) = IS (pk ) ,

i.e., variac
ao intragrupal na k-esima posicao e igual para todos os grupos e
que
|| p1k ||=|| p2k ||= || pGk ||

(5.31)

NO
T

onde pgk = (p1gk p2gk . . . pCgk )0 e um vetor C 1 representando as respectivas probabilidades de pertencer as categorias c = 1, . . . , C no g-esimo
grupo e k-esima posic
ao.
Se estamos interessados na hipotese colocada por (5.31), a hipotese de
homogeneidade entre grupos (pcgk = pck ) nao precisa de ser necessariamente
verdadeira. Aqui, consideramos uma hipotese nula mais restritiva: H0 :
pcgk = pck , c, k. Sob essa hip
otese H0 ,
C
K
X
X
1
1
E0 (IT S) = 1
+
p2 N Gp2c
N GK
N GK 2 c=1 k=1 ck

"

C
K
X
1
1 X
E0 (ISW ) = 1
+
p2 N p2c
NK
N K 2 c=1 k=1 ck

"

K
C X
G1
1 X
p2
E0 (ISB) =
1
N GK
K c=1 k=1 ck

"

(5.32)

(5.33)

(5.34)

Como V segue uma distribuicao multinomial, por (5.19) e (5.20), assintoticamente,

DO

V d
N( N  ,  )
N

(5.35)

onde  = 1 2 G , g = g1 g2 gK , g = 1, . . . , G
e gk e dado por (5.21).
Sob H0 , para qualquer um g = 1, . . . , G,
gk = 0k

g = ?0 = 01 02 0K

(5.36)

onde 0k e a matriz C C
0k = Dk k 0k

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

162

(5.37)

CO

com Dk sendo uma matriz diagonal C C com elementos p1k , . . . , pCk e


k = (p1k . . . pCk )0 .
Portanto, sob H0 ,
= N  = N 0 = N (IG ?0 ) .
Agora,

(5.38)

Cov(ISB, ISW ) = Cov(ISB, IT S) Var(ISB)


Cov(IT S, ISW ) = Var(IT S) Cov(IT S, ISB)

A estatstica de teste

NO
T

5.5.7

Definamos ISB e ISW como em (5.26)-(5.28) e consideremos uma analogia `


a raz
ao de vari
ancia usual. Especificamente, escrevemos essa estatstica
de teste como
F1N = N

ISB
.
ISW

(5.39)

DO

No modelo ANOVA normal, sob uma hipotese nula adequada, F1N tem
a distribuic
ao da raz
ao de variancias, que, para grandes valores do denominador DF, pode ser aproximada por uma 2 , a menos de uma constante. A
situac
ao aqui e bem diferente. Primeiramente, mesmo sob H0 , a distribuicao
exata de F1N e dificilmente escrita numa forma fechada. Em segundo lugar,
reescalonamentos de F1N nao tem, em geral, uma distribuicao assintotica
2 . Para o especfico caso de K = 1, Nayak (1986a, 1986b) derivou essa distribuic
ao assint
otica. Nos apresentamos um resultado similar para K 1.
Precisamos de introduzir alguma notacao e primeiramente considerar alguns
resultados correlatos.
Note que ISB pode ser reescrito como
0

ISB = V BV =

G X
C
X
g=1 c=1

"

#2
ncg
nc N K G

.
(N GK)2
NK G

(5.40)

163

Seja cgk = ncgk N pck = ncgk E0 (ncgk ). Entao,


c =

G X
K
X

cgk = nc N G

g=1 k=1

K
X

pck

k=1

PY

5.5. CATANOVA

ISB =

cg
c

NK G
2
N K G (N GK)

2

= 0 B =

Portanto, sob H0 , assintoticamente


ISB

CGK
X
i=1

CO

Note tambem que, sob H0 , = (111 . . . Cg1 . . . CGK )0 assintoticamente

N (0, 0 )
(5.41)
N
onde 0 segue (5.38). Logo,

i 21

1
0 B .
G(N K)2

(5.42)

onde 21 i s s
ao vari
aveis aleat
orias independentes 2 com 1 grau de liberdade e {i , i = 1, . . . , CGK} e o conjunto de razes caractersticas de

NO
T

1
B 
N GK 2 0


1
1
?
(I

U
)

I
=
G
K
KG
C (IG 0 )
N GK 2
G

N B0 =

por (5.29) e (5.38).


Examinado-se 0k , e f
acil notar que seu posto e de no maximo (C 1),
pela restric
ao de que

C
X

pck = 1. De fato, o posto de cada 0k e (C 1), por

c=1

DO

serem suas (C 1) colunas linearmente independentes. Portanto, o posto


1
de ?0 e K(C 1). Mais ainda,
B 0 e uma matriz particionada
N GK 2
G G cujos elementos s
ao as matrizes 0k s premultiplicadas por algumas
constantes (G 1 ou 1). A fim de obterem-se as razes caractersticas de
1
B 0 , precisamos de resolver a seguinte equacao
N GK 2




1
 


N GK 2 B 0 ICKG = 0

(5.43)

Tanto {pck , c = 1, . . . , C} como {ik , i = 1, . . . , C 1} tem que ser


estimados. A determinac
ao das razes caractersticas de uma matriz de

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

164

covari
ancias multinomiais n`ao e uma tarefa trivial. Roy et al. (1960) estudaram esse problema sem, no entanto, apresentarem uma expressao fechada
para as razes. A equacao caracterstica, para cada k, e dada por
(

C
X

p2ck
pck

c=1

!) C
Y

(pck ) = 0

c=1

(5.44)

CO

f
E
acil ver que = 0 e uma raz, mas a identificacao das outras razes
deve ser feita numericamente.
IT S = 1 V0 TV

Como N T0 n
ao e idempotente, a distribuicao de V0 TV nao e
2(rank(T ),0 T) . Sob H0 , entretanto,
C
C
K
X
X
X
1
1
2
n
=
[
+
N
G
pck ]2
c
(N GK)2 c=1 c
(N GK)2 c=1
k=1

V0 TV =

C
1 X
= T + 2
p2 + A0
K c=1 c
0

NO
T

(5.45)

onde A = (A? A? . . . A? )0 e um vetor CGK 1 e A? e um vetor 1 CK


da forma
2
A? =
(p1 . . . pC p1 . . . pC . . . p1 . . . pC ) .
N GK 2
O seguinte resultado e importante para nossa discussao.
Lema 1
0 T e A0 n
ao s
ao independentes.
Observemos que
0 T

KCG
X

i 21

i=1

V0 TV

KCG
X
i=1

i 21

A0 N(0, N A0 0 A)

+ N(0, N A0 0 A) + 1

DO

onde {i , i = 1, . . . , CGK} e o conjunto de razes caractersticas de N T0 =


1
T 0 e
N (GK)2
1 =

C
1 X
p2 = 0 T sob H0
K 2 c=1 c

(5.46)

165

PY

5.5. CATANOVA
Para ISW = 1 V0 WV temos, sob H0

G X
C
X
1
n2
G(N K)2 g=1 c=1 cg

G X
C
C
G X
C
X
X
1
2
1 X
2

p
+
p2
c c
G(N K)2 g=1 c=1 cg N GK 2 c=1
GK 2 g=1 c=1 c

= 0 W + A0 + 1
Novamente,
V0 WV =

por (5.13)

CO

V0 WV =

por(5.46)

(5.47)

CGK
 
X
1
0


21 + N(0, N A0 0 A) + 1
V
W
V

i
i
G(N K)2
i=1

NO
T

onde {i , i = 1, . . . , CGK} e o conjunto de razes caractersticas de


1
N W0 =
W 0 .
N GK 2
Denotemos
K
C X
G1
1 X
E0 (ISB) =
p2 ,
1
N GK
K c=1 k=1 ck

"

C
K
X
X
1
1
+
p2 N G p2c ,
E0 (IT S) = 1
N GK
N GK 2 c=1 k=1 ck

"

C
K
X
1 X
1
+
p2 N p2c .
E0 (ISW ) = 1
NK
N K 2 c=1 k=1 ck

"

Recordemos um resultado de Searle (1971): quando X e N(, ), o resimo cumulante de X0 AX e


Kr (X0 AX) = 2r1 (r 1)![tr(A)r + r0 A(A)r1 ] .

DO

Como N( N  ,  ) e N(0,  ), obtemos que, asintotiN


N
camente
Var(ISB) = Var( 0 B) = 2 tr(BN  )2
Var(IT S) = 2 tr(TN  )2 + 4N 0 TN  TN 

Var(ISW ) = 2 tr(WN  )2 + 4N 0 WN  WN 

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

166

e, sob H0 , assintoticamente

2
2
1
 
B

=
tr(B 0 )2
Var0 (ISB) = 2 tr
0
2
N GK
(N GK 2 )2
2
4
Var0 (IT S) =
tr(T 0 )2 +
0 T 0 T 
2
4
N (GK)
N (GK)4 
2
4
Var0 (ISW ) =
tr(W 0 )2 +
0 W 0 W 
(N G)2 K 4
N G2 K 4 

Seja
TN,1 ISB 1 ,

TN,2 IT S 2 ,

Note que
(i)

KCG
X

i 2G

i=1


i

CO

= Op (N 1 )

TN,3 ISW 3

NO
T

visto que {i : i = 1, . . . , KC} e o conjunto de razes caractersticas de


1
(UK IC )?0 e ?0 = O(1).
N (GK)2
(ii) A0 = Op (N 1/2 ) como A0 N(0, N A0 0 A) e A = O(N 1 )

(iii) 1 =

C
1 X
p2 = O(1) .
K 2 c=1 c

Ent
ao,

TN,2 = 1 V0 TV 2

DO

C
1 X
1
1/2
p2
1 Op (N ) + Op (N
)+ 2
K c=1 c
C
1 X
1 + O(N 1 ) 2
p2
K c=1 c

Op (N 1/2 )

Similarmente,
TN,3 = 1 V0 WV 3 = Op (N 1/2 )

167

PY

5.5. CATANOVA
e
ISB = V0 BV = 0 B = Op (N 1 )
Portanto,




1

N (ISB) TN,3
= Op (N 1/2 ), N (ISB) = Op (1)
32

ja que TN,3 = Op (N 1/2 ),


e
3 = 1

CO

F1N

ISB
ISB
ISB
TN,3
N
=N
=N
1+
ISW
TN,3 + 3
3
3




ISB
ISB
= N
+ Op (N 1/2 ) = N
+ Op (N 1/2 )
3
3


C
1 X
p2 + O(N 1 ) = 3 + O(N 1 )
K 2 c=1 c

NO
T

Por (5.42), temos o seguinte resultado central


Teorema 1 Assintoticamente, sob H0 ,
F1N = N

 
X
ISB
1 CGK
i 21

i
3
3 i=1

(5.48)

onde {i : 1, . . . , KGC} e o conjunto de razes caractersticas de


1
B 0 .
N GK 2
Sob H0 , assintoticamente, temos
K
C X
N 1
(G 1)
1 X
p2
=
1

3
GK3
K c=1 k=1 ck

"

E0 (F1N ) =

Var0 (F1N ) = N

Var0 (ISB)
2tr(B 0 )2
=
(3 )2
(GK 2 3 )2


DO

Devemos ressaltar que a distribuicao assintotica de F1N depende dos


desconhecidos pck s, atraves das razes caractersticas, i s. Se essas razes
caractersticas s
ao estimadas de forma consistente, entao (5.48) pode ser
usada para similar sua distribuicao, gerando-se normais independentes e
repetindo-se a simulac
ao um grande n
umero de vezes.
Usando-se uma metodologia similar, para K = 1, Light e Margolin
(1971) desenvolveram um teste equivalente para CATANOVA. Estendendo

PY

CAPITULO 5. ANALISE
DE DADOS MOLECULARES

168

esse procedimento CATANOVA para varias posicoes, podemos notar que as


somas dos quadrados sao
G X
C
N GK
1 X
N GK

n2cg =
ISW ,
2
2N K g=1 c=1
2

(5.49)

C
X
N GK
1
N GK

n2 =
IT S ,
2
2N GK c=1 c
2

(5.50)

T SS =

BSS =

CO

W SS =

G X
C
X

C
X

1
N GK
G
n2cg
n2c =
ISB .
2N GK
2
g=1 c=1
c=1

(5.51)

Neste esquema, a estatstica de teste e

BSS/(G 1)
ISB/(G 1)
(N GK G)
=
=
F1N .
W SS/(N GK G)
ISW/(N GK 1)
N (G 1)

NO
T

F1? =

O teste considerado aqui e, desta forma, uma natural extensao do teste


CATANOVA de Light-Margolin para o caso de stios m
ultiplos, assumindo
independencia estoc
astica.

5.5.8

An
alise de dados

Na pr
atica e muito difcil conseguirmos grandes conjuntos de dados e,
quando o conjunto de dados nao e grande o suficiente para que os resultados
assint
oticos sejam v
alidos, necessitamos de alguma tecnica de reamostragem,
tal como o bootstrap. Aqui, temos um resumo do procedimento:
(a) Estimar pck dos dados, i.e., pck =
F1 .

nc1k + nc2k
e calcular a estatstica
2N

DO

(b) Gerar N seq


uencias, com K posicoes, em cada um dos G grupos,
usando pck .
(c) Recalcular a estatstica de teste F1 da amostra bootstrap e chama-lo
de F1 .

(d) Repetir passos 2 e 3 mil vezes.

169

PY

5.5. CATANOVA

#F1 F1 obs
.
1000
Quando seq
uencias dentro de um grupo nao sao independentes, como por
exemplo quando s
ao amostradas de um mesmo indivduo (i.e., cada paciente
define um grupo), a distribuic
ao de referencia precisa de ser alterada para
refletir as relac
oes filogeneticas. Devemos, entao, apelar `a reproducao da
evoluc
ao das seq
uencias e gerar sua distribuicao com base nas seq
uencias
simuladas.
Dos dados de seq
uencias, em cada posicao, estimamos a distribuicao de
freq
uencia dos nucleotdeos/aminoacidos. Tendo em vista a nao ocorrencia
de algumas categorias em posic
oes especficas (pelas restricoes estruturais),
nao e razo
avel extrapolar estimativas de stios diferentes em estimadores
globais. Tomemos as freq
uencias observadas como taxas de substituicao.
Para o HIV, isso e desej
avel, por as freq
uencias observadas refletirem tanto
restric
oes estruturais como press
oes seletivas por imunidade.
O evento de mutac
ao num stio especfico e modelado num processo de
duas etapas. Primeiramente, mudancas numa posicao sao governadas pela
taxa geral do estudo gen
omico em questao. No contexto de seq
uencias de
HIV, essa e a taxa de erro da transcriptase reversa, i.e., 0.0005 por stio
por replicac
ao (Preston et al., 1988). Em seguida, em caso de mutacao, a
substituic
ao especfica segue a matriz de transicao descrita acima.
A simulac
ao comeca com a seq
uencia de consenso como semente que e
sujeita a um processo de mutac
ao um n
umero aleatorio de vezes: colocamonos entre 100 e 2400. Na realidade, para o HIV, mutacoes ocorrem na hora
da replicac
ao. Replicac
oes ocorrem a uma taxa de 240 vezes ao ano e esse
n
umero representa quantas replicacoes sao feitas antes da transmissao. Essa
seq
uencia d
a ent
ao origem a seq
uencias descendentes. Na presente aplicacao,
esse processo de ramificac
ao imita a transmissao de HIV: nenhum descendente, com probabilidade 0,20; de 1 a 5 descendentes, com probabilidades
0,16 cada (Blower e McLean, 1994). A arvore cresce pela repeticao desse
procedimento um n
umero grande de vezes (com as seq
uencias da geracao
anterior como sementes). Obtemos com isso um total de 10,000 a 20,000
seq
uencias. Amostramos sem reposicao o mesmo n
umero de vezes que o
tamanho dos dados originais. Desses, calculamos a estatstica de teste. Essa
amostragem e realizada um grande n
umero de vezes (aqui 1,000) para construir a distribuic
ao de referencia.
Aplicamos esse procedimento para seq
uencias virais de oito indivduos
que foram tratados com uma protease inibidora. Seq
uencias sao amostradas do sangue e do semen em diferentes tempos. Ha 1041 nucleotdeos e
se colocam na regi
ao codificadora da protease e transcriptase reversa. Para

DO

NO
T

CO

O p-valor e ent
ao


CAPITULO 5. ANALISE
DE DADOS MOLECULARES

PY

170

DO

NO
T

CO

cada compartimento, os dados consistem da seq


uencia de consenso em cada
visita (Tabela 5.6). O objetivo do estudo e verificar se a variabilidade e
compar
avel em ambos os compartimentos. Ha portanto dois grupos. Cada
paciente prove um conjunto de seq
uencias em que a hipotese nula de homogeneidade e testada. Para quatro dos oito indivduos, a hipotese nula e
rejeitada.

171

PY

5.5. CATANOVA

Tabela 5.6: Comparac


ao da Variacao entre os Compartimentos. indica os
dados cujas visitas estejam faltando. Estatsticas de teste com ? se encontram acima do percentil 99.5 da distribuicao de referencia e aqueles com ??
se encontram acima do seu m
aximo.

2
3

Sangue

Semen

DO

Estatsticas
15.51

55.90??
13.29

51.78??

NO
T

Semanas
0
12
16
24
0
8
0
4
12
40
56
0
22
26
0
3
4
8
0
8
13
25
29
49
58
0
12
32
0
12
16
24
41
48

CO

Pacientes
1

52.46?

0.01

23.58??

12.06

PY
CO

Bibliografia

[1] Agresti A. 1990. Categorical Data Analysis. John Wiley & Sons.

[2] Allison DB. 1997. Transmission-disequilibrium tests for quantitative


traits. American Journal of Human Genetics 60:676-690.
[3] Almasy L, Blangero J. 1998. Multipoint Quantitative-Trait Linkage
Analysis in General Pedigrees. American Journal of Human Genetics
62:1198-1211.

NO
T

[4] Amos CI. 1994. Robust variance components approach for assessing genetic linkage in pedigrees. American Journal of Human Genetics 34:535-543.
[5] Amos CI, de Andrade M. 2001. Genetic linkage methods for quantitative
traits. Statistical Methods in Medical Research 10:3-25.
[6] Anderson R J, Landis, J R .1980. CATANOVA for Multidimensional
Contingency Tables: Nominal-scale response. Communications in Statistics - Theory and Methods 9:1191-1206.
[7] Anderson R J, Landis, J R. 1982. CATANOVA for Multidimensional
Contingency Tables: Ordinal-scale response. Communications in Statistics - Theory and Methods 11:257-270.
[8] Bahadur R R. 1961. A Representation of the Joint Distribution of Responses to n Dichotomous Items. In Studies in Item Analysis and Prediction, Stanford University Press, pp. 158-176.

DO

[9] Bhattacharyya A. 1946. On a measure of divergence between two multinomial populations. Sankhya 7:401-406.
[10] Bickel P, Cosman P, Olshen R, Spector P, Rodrigo A, Mullins J. 1996.
Covariability of V3 loop amino acids. AIDS Research and Human Retroviruses 12:1401-1411.
171

BIBLIOGRAFIA

PY

172

[11] Boerwinkle E, Chakraborty R, Sing CF. 1986. The use of measured


genotype information in the analysis of quantitative phenotypes in man.
I. Models and analytical methods. Annals of Human Genetics 50:181-194.

CO

[12] Blower SM, McLean AR. 1994. Prophylactic Vaccines, Risk-BehaviorChange and the Probability of Eradicating HIV in San Francisco. Science
265:1451-1454.

[13] Bonney GE. 1984. On the Statistical Determination of Major Gene


Mechanisms in Continuous Human Traits: Regressive Models. American
Journal of Medical Genetics 18:731-749.
[14] Bonney GE. 1986. Regressive Logistic Models for Familial Disease and
other Binary Traits. Biometrics 42:611-625.
[15] Bowman KO, Hutcheson K, Odum EP, Shenton LR. 1971. Comments
on the distribution of indices of diversity. In Statistical Ecology. Patil
GP, Pielou EC, Wlaters WE (Eds.). Vol 3. Pennsylvania State University
Press, University Park, PA, pp. 315-366.

NO
T

[16] Cannings C, Thompson EA. Ascertainment in the sequential sampling


of pedigrees. Clin Genet 12:208-212, 1977.
[17] Cannings C, Thompson EA, Skolnick MH. 1978. Probability functions
on complex pedigrees. Advances in Applied Probability 10:26-61.
[18] Chakraborty R, Fuerst PA. 1979. Some Sampling Properties of Selectively Neutral Alleles - Effects of Variability of Mutation-Rates. Genetical
Research 34:253-267.
[19] Chakraborty R, Griffths RC. 1982. Correlation of Heterozygosity and
the Number of Alleles in Different Frequency Classes. Theoretical Population Biology 21:205-218.
[20] Chakraborty R. 1985. Genetic distance and gene diversity: Some statistical considerations. In Multivariate Analysis - VI, Krishnaiah PR (Ed.).
Elsevier, Amsterdam. pp.77-96.

DO

[21] Chakraborty R, Hanis CL. 1987. Non-random sampling and familial


correlations. II. Implications and model fitting. Statistics in Medicine
6:629-646.
[22] Chakraborty R, Rao CR. 1991. Measurement of Genetic Variation for
Evolutionary Studies. In Handbook of Statistics 8, Rao CR, Chakraborty
R (Eds.). North-Holland. pp. 271-316.

173

PY

BIBLIOGRAFIA

[23] Cockerham CC. 1969. Variance of gene frequencies. Evolution 23: 7284.
[24] Cockerham CC. 1973. Analyses of gene frequencies. Genetics 74:679700.

CO

[25] Cockerham CC. 1984. Drift and Mutation within a finite number of
allelic states. Proceedings of the National Academy of Sciences of the
U.S.A. 81:530-534.
[26] Curtis D. 1997. Use of siblings as controls in case-control association
tests. Annals of Human Genetics 61:319-333.

[27] David WH, Lemeshow S. 1989. Apllied Logistics Regression. John Wiley
& Sons.
[28] Davies AM. 1979. The singles method for segregation analysis under
incomplete ascertainment. Annals of Human Genetics 41:507-512.

NO
T

[29] de Andrade M, Amos CI, Thiel TJ. 1999. Methods to Estimate Genetic Components of Variance for Quantitative Traits in Family Studies.
Genetic Epidemiology 17:64-76.
[30] Donner A, Eliasziw M. 1988. Confidence Interval construction for
parent-offspring correlations. Biometrics 44:727-737.
[31] Elandt-Johnson RC. 1971. Probability Models and Statistical Methods
in Genetics. John Wiley & Sons, New York.
[32] Elston RC, Stewart J. 1971. A General Model for the Genetic Analysis
of Pedigree Data. Human Heredity 21;523-542.
[33] Elston RC, Yelverton KC. 1975. General Models for Segregation Analysis. American Journal of Human Genetics 27:31-45.
[34] Elston RC. 1975. On the correlation between correlations. Biometrika
62:133-140.

DO

[35] Elston RC, Rao DC. 1978. Statistical Modeling and Analysis in Human
Genetics. Annu Rev Biophys Bioeng 7:253-286.
[36] Elston RC. 1980. Segregation Analysis. In Current Developments in
Anthropological Genetics, Edited by JH Mielke and MH Crawford, Vol 1,
pages 327-354.

BIBLIOGRAFIA

PY

174

[37] Ewens WJ, Spieman RS. 1999. Disease associations and the transmission/disequilibrium test (TDT). Current Protocols in Genetics 12, (Supplement 20), 1.12.1-1.12.15.

CO

[38] Excoffier L, Smouse PE, Quattro JM. 1992. Analysis of Molecular Variance Inferred from Metric Distances among DNA Haplotypes: Application
to Human Mitochondrial DNA Restriction Data. Genetics 131:479-491.
[39] Felsenstein J. 1981. Evolutionary trees from DNA sequences: A maximum likelihood approach. Journal of Molecular Evolution 17:368-376.
[40] Fuerst PA, Chakraborty R, Nei M. 1977. Statistical studies on protein polymorphism in natural populations: I.Distribution of single locus
heterozygosity. Genetics 86:455-483.
[41] Gini CW. 1912. Variabilita e Mutabilita. it Studi Economico-Giuridici
della R. Universita di Cagliari 3-159.

NO
T

[42] Gojobori T, Ishii K, Nei M. 1982. Estimation of average number of nucleotide substitutions when the rate of substitution varies with nucleotide.
Journal of Molecular Evolution 18:414-423.
[43] Gojobori T, Moriyana EN, Kimura M. 1990. Statistical Methods for
Estimating Sequence Divergence. Methods in Enzimology 183:531-550.
[44] Gunel E, Wearden S. 1995. Bayesian Estimation and testing of gene
frequencies. Theor Appl Genet 91:534-543.
[45] Hassted S. 1994. Pedigree Analysis Package (PAP), version 4.0. University of Utah.
[46] Hasegawa M, Kishino H, Yano T. 1985. Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. Journal of Molecular
Evolution 22:160-174.

DO

[47] Hill MO. 1973. Diversity and evenness: A unifying notation and its
consequences. Ecology 54:427-431.
[48] Hoeffding W. 1948. A Class of Statistics with Asymptotically Normal
Distribution. Annals of Mathematical Statistics 19:293-325.
[49] Hutcheson K. 1970. A test for comparing diversities based on the Shannon formula. Journal of Theoretical Biology 29:151-154.

175

PY

BIBLIOGRAFIA

[50] Iturria SJ, Blangero J. 2000. An EM algorithm for obtaining maximum


likelihood estimates in the multi-phenotype variance components linkage
model. Annals of Human Genetics 67:349-362.

CO

[51] Jorde L. 1980. The genetic structure of subdivided human populations:


A review. In Current developments in anthropological genetics: Theory
and methods. Mielke JH, Crawford MH (Eds.). Plenum, New York, pp.
135-208.
[52] Jukes TH, Cantor CR. 1969. Evolution of protein molecules. In Mammalian Protein Metabolism III. Munro HN (Eds.). pp. 21-132.

[53] Karnoub M, Seillier-Moiseiwitsch F, Sen PK. 1999. A conditional approach to the detection of correlated mutations. In Statistics in Molecular
Biology. Seillier-Moiseiwitsch F (Eds.). Institute of Mathematical Statistics Lecture Notes Series 33:221-235.

NO
T

[54] Khoury MJ, Beaty TH, Cohen BH. Fundamentals of Genetic Epidemiology. Oxford University Press, New York, 1963.

[55] Kimura M. 1980. A simple method for estimating evolutionary rates of


base substitutions through comparative studies of nucleotide sequences.
Journal of Molecular Evolution 16:111-120.
[56] Kimura M. 1981. Estimation of evolutionary distances between homologous nucleotide sequences. Proceedings of the National Academy of Sciences of the U.S.A. 78: 454-458.
[57] Kimura M, Ohta T. 1972. On a stochastic model for estimation of mutational distance between homologous proteins. Journal of Molecular Evolution 2:87-90.
[58] Kimura M, Crow JF. 1964. The number of alleles that can be maintained in a finite population. Genetics 49:725-738.

DO

[59] Kong A, Cox NJ. 1997. Allele sharing models - LOD scores and accurate
linkage tests. American Journal of Human Genetics 61:1179-88.
[60] Korber BTM, Farber RM, Wolpert DH, Lapedes AS. 1993. Covariation
of mutations in the V 3 loop of HIV -1: an information theoretic analysis.
Proceedings of the National Academy of Sciences of the U.S.A. 90:71767180.

BIBLIOGRAFIA

PY

176

[61] Kruglyak L, Daly MJ, Reeve-Daly MP, Lander ES. 1996. Parametric
and nonparametric linkage analysis: A unified multipoint approach. American Journal of Human Genetics 58:1347-1363.

CO

[62] Lalouel J. 1980. Distance analysis and multidimensional scaling , In


Current developments in anthropological genetics: Theory and methods.
Mielke JH, Crawford MH (Eds.). Vol. 1. Plenum, New York, pp. 209-250.
[63] Lander ES, Green P. 1987. Construction of multilocus genetic maps in
human. Proceedings of National Academy of Sciences USA 84:2363-2367.

[64] Lange K. 1976. Stable gene equilibria for mixtures of random and assortive mating. Mathematical Biosciences 29:49-57.
[65] Lange K, Boehnke M. 1983. Extensions to Pedigree Analysis. IV. Covariance Components Models for Multivariate Traits. American Journal
of Medical Genetics 14:513-524.
[66] Lange, K. 1995. Applications of the Dirichlet distribution to forensic
match probabilities. Genetica 96:107-117.

NO
T

[67] Lewontin RC. 1972. The Apportionment of Human Diversity. Evolutionary Biology 6:381-398.
[68] Li WH. 1997. Molecular Evolution. Sinauer Associates, Sunderland,
Massachusetts.
[69] Li CC, Mantel N. A simple method of estimating the segregation ratio under complete ascertainment. American Journal of Human Genetics
20:61-81, 1963.
[70] Liang K, Zeger SL, Qaqish B. 1992. Multivariate Regression Analyses
for Categorical Data. Journal of the Royal Statistical Society, Series B
54:3-40.
[71] Light RJ, Margolin BH. 1971. An Analysis of Variance for Categorical
Data. Journal of the American Statistical Association 66:534-544.

DO

[72] Light RJ, Margolin BH. 1974. An Analysis of Variance for Categorical
Data II: Small Sample Comparisons with Chi Square and Other Competitors. Journal of the American Statistical Association 69:755-764.
[73] Lockhart PJ, Steel MA, Hendy MD, Penny D. 1994. Recovering evolutionary trees under a more realistic model of sequence evolution. Molecular
Biology and Evolution 11:605-612.

177

PY

BIBLIOGRAFIA

[74] Mahalanobis PC. 1936. On the generalized distance in statistics. Proceedings of the National Institute of Sciences of India 2:49-55.

[75] Manly BFJ. 1985. The Statistics of Natural Selection on Animal Populations. Chapman and Hall, London.

CO

[76] Magurran AE. 1988. Ecological Diversity and Its Measurement. Princeton University Press.

[77] Morton NE. 1955. Sequential tests for the detection of linkage. American Journal of Human Genetics 7:277-318.

[78] Morton NE, MacLean CJ. 1974. Analysis of family resemblance III.
Complex segregation quantitative traits. American Journal of Human Genetics 26:489-503.
[79] Nayak TK. 1986a. An analysis of diversity using using Raos quadratic
entropy. Sankhya: The Indian Journal of Statistics Series B 48:315-330.

NO
T

[80] Nayak TK. 1986b. Sampling distribution in the analysis of diversity.


Sankhya: The Indian Journal of Statistics Series B 48:1-9.
[81] Nayak TK. 1983. Applications of Entropy Functions in Measurement
and A nalysis of Diversity. Ph.D. Thesis. Department of Mathematics and
Statistics, University of Pittsburgh, PA.
[82] Nei M. 1972. Genetic Distance between Populations. American Naturalist 106:283-292.
[83] Nei M, Roychoudhury A. 1974. Sampling variance of heterozygosity and
genetic distance. Genetics 76:379-390.
[84] Nei M. 1975. Molecular Population Genetics and Evolution. NorthHolland, Amsterdam.

DO

[85] Nei M, Fuerst PA, Chakraborty R. 1976. Testing the neutral mutation
hypothesis by distribution of single locus heterozygosity. Nature 262:491493.
[86] Nei M. 1978. Estimation of average heterozygosity and genetic distance
from a small number of individuals. Genetics 89:583-590.
[87] Nei M. 1987. Molecular Evolutionary Genetics. Columbia University
Press, New York.

BIBLIOGRAFIA

PY

178

[88] Ott J. 1999. Analysis of Human Genetic Linkage. 3rd edition. Johns
Hopkins University Press.

[89] Peet RK. 1974. The measurement of Species diversity. Annual Review
of Ecology and Systematics 5:285-307.

CO

[90] Pinheiro HP, Seillier-Moiseiwitsch F, Sen PK, Eron JJr. 2000. Genomic
sequences and quasi-multivariate CATANOVA. In Handbook of Statistics,
Bioenvironmental and Public Health Statistics. Rao CR, Sen PK (Eds.).
Vol. 18. Elsevier, Amsterdam. pp. 713-746.
[91] Pinheiro HP, Seillier-Moiseiwitsch F. 2000. Quantifying heterogeneity
in the HIV genome. Computational and Evolutionary Analysis of HIV
Molecular Sequences. Rodrigo AG, Learn Jr. GH (Eds.). Norwell, Massachusetts, pp. 91-119.
[92] Preston BD, Poiesz BJ, Loeb LA. 1988. Fidelity of HIV -1 Reversetranscriptase. Science 242:1168-1171.

NO
T

[93] Rabinowitz D. 1997. A transmission-disequilibrium test for quantitative


trait loci. Human Heredity 47:342-350.
[94] Rao CR. 1982. Gini-Simpson Index of Diversity: A characterization,
generalization and applications. Utilitas Mathematica 21:273-282.
[95] Rao CR. 1982. Diversity and Dissimilarity Coefficients: A unified approach. Theoretical Population Biology 21:24-43.
[96] Rao CR. 1982. Diversity: Its measurement, decomposition, apportionment and analysis. Sankhya A 44:1-21.
[97] Rao CR. 1984. Use of diversity and distance measures in the analysis
of qualitative data. In Multivariate statistical methods in physical anthropology. Van Vark GN, Howell WH (Eds.). Reidel, Dordrecht. pp. 49-67.

DO

[98] Rao CR, Boudreau R. 1984. Diversity and Cluster Analyses of Blood
Group data on Some Human Populations. In Human Population Genetics:
The Pittsburgh Symposium, Chakravarti A (Ed.). Van Nostrand Reinhold,
New York. pp. 331-362.
[99] Risch N. 1990. Linkage strategies for genetically complex traits. I. Multilocus models. American Journal of Human Genetics, 46:222-228.
[100] Risch N, Zhang H. 1995. Extreme discordant sib pairs for mapping
quantitative trait loci in humnas. Science 268:1584-1589.

179

PY

BIBLIOGRAFIA

[101] Risch N, Zhang H. 1996. Mapping quantitative trait loci with extreme
discordant sib pairs: Sampling considerations. American Journal of Human Genetics 58:836-843.

CO

[102] S.A.G.E. (1994) Statistical Analysis for Genetic Epidemiology, Release 3.1 Computer program package available from the Department of
Biometry and Genetics, LSU Medical Center, New Orleans.

[103] Sanghvi LD. 1953. Comparison of genetical and morphological


methods for a study of biological differences. American of Physical Anthropology 11:385-404.
[104] Searle SR. 1971. Linear Models. John Wiley & Sons, New York.

[105] Searle SR. 1982. Matrix Algebra Useful for Statistics. John Wiley &
Sons, New York.

NO
T

[106] Seillier-Moiseiwitsch F, Margolin BH, Swanstrom R. 1994. Genetic Variability of the Human Immunodeficiency Virus: Statistical and Biological
Issues. Annual Review of Genetics 28:559-596.

[107] Seillier-Moiseiwitsch F, Man ZM, Swanstrom R. 1999. Detecting Linked Genomic Mutations. In Statistics in Genetics, Halloran ME, Geisser S
(Eds.). Springer-Verlag, New York. 112:119-131. IMA Volume in Mathematics and its Applications.
[108] Self S, Liang K-Y. 1987. Asymptotic properties of maximum likelihood
estimators and likelihood ratio tests under non-standard conditions. Journal of American Statistical Association 82:605-610.
[109] Sen PK. 1999. Utility-oriented Simpson-type indexes and inequality
measures. Calcutta Statistical Association Bulletin 49:00-00.
[110] Sham PC, Curtis D. 1995. An extended transmission/disequilibrium
test (TDT) for multi-allelic marker loci. Annals of Human Genetics
59:323-336.

DO

[111] Simpson EH. 1949. The Measurement of Diversity. Nature 163:688.


[112] Smith CAB. 1963. Homogeneity test for linkage data. Proceeding of
the Second International Congress of Human Genetics 1:212-213.
[113] Smith CAB. 1976. The use of matrices in calculating mendelian probabilities. Annals of Human Genetics 40:37-54.

BIBLIOGRAFIA

PY

180

[114] Spielman RS, McGinnis RE, Ewens WJ. 1993. Transmission test for
linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus. American Journal of Human Genetics 52:506-516.

CO

[115] Takahata N, Kimura M. 1981.A model of evolutionary base substitutions and its application with special reference to rapid change of pseudogenes. Genetics 98:641-657.

[116] Tavare S. 1986. Some probabilistic and statistical problems in the


analysis of DNA sequences. In Lectures on Mathematics in the Life Sciences. Miura RM (Ed.). American Mathematical Society, Providence, Rhode
Island. pp. 57-86.
[117] Tavare S, Giddings BW. 1989. Some Statistical Aspects of the Primary
Structure of Nucleotide Sequences. In Mathematical Methods for DNA
Sequences. Waterman MS (Ed.). CRC Press, Boca Baton, pp. 117-132.
[118] Weir BS, Basten CJ. 1990. Sampling Strategies for DNA Sequence
Distances. Biometrics 46:551-582.

NO
T

[119] Weir BS. 1996. Genetic Data Analysis II. Sinauer Associates. Inc. Publishers.

DO

[120] Wright S. 1951. The genetical structure of populations. Annals of Eugenics 15:323-354.