Você está na página 1de 291

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica

Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1

UNIVERSIDADE FEDERAL DE VIOSA
CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia
Bayesiana (MCMC), Regresso Aleatria Multivariada e Estatstica Espacial



Marcos Deon Vilela de Resende
Fabyano Fonseca e Silva
Paulo Svio Lopes
Camila Ferreira Azevedo












Disciplina EST792 - Mtodos Estatsticos na Seleo Genmica Ampla


Citao: Resende, M.D.V.; Silva, F.F.; Lopes, P.S.; Azevedo, C.F. Seleo Genmica Ampla (GWS)
via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria
Multivariada (RRM) e Estatstica Espacial. Viosa: Universidade Federal de Viosa/Departamento
de Estatstica. 2012. 291 p. http://www.det.ufv.br/ppestbio/corpo_docente.php

Viosa MG 2012







Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

2

UNIVERSIDADE FEDERAL DE VIOSA
CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA






Dados Internacionais de Catalogao na Publicao - CIP
Embrapa Florestas
Seleo genmica ampla (GWS) via modelos mistos (REML/BLUP), inferncia Bayesiana (MCMC), regresso
aleatria multivariada (RRM) e estatstica espacial [recurso eletrnico] / Marcos Deon Vilela de Resende ... [et al.].-
Dados eletrnicos.- Viosa, MG : Universidade Federal de Viosa, 2012. 291 p.

Disciplina EST792 Mtodos Estatsticos na Seleo Genmica Ampla.

Sistema requerido: Adobe Acrobat Reader.
Modo de acesso: World Wide Web.
<http://www.det.ufv.br/ppestbio/corpo_docente.php.pdf>
Ttulo da pgina da web (acesso em 12 nov. 2012).

ISBN 978-85-89119-08-5

1. Estatstica biomtrica. 2. Seleo genmica. 3. Gentica quantitativa. 4. Matemtica
computacional. I. Resende, Marcos Deon Vilela de. II. Silva, Fabyano Fonseca e. III. Lopes,
Paulo Svio. IV. Azevedo, Camila Ferreira.
CDD 519.5 (21. ed.)
Marcos Deon Vilela de Resende, Fabyano Fonseca e Silva, Paulo Svio Lopes, Camila Ferreira Azevedo.
























Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

3

UNIVERSIDADE FEDERAL DE VIOSA
CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia
Bayesiana (MCMC), Regresso Aleatria Multivariada e Estatstica Espacial

Marcos Deon Vilela de Resende
1

Fabyano Fonseca e Silva
2

Paulo Svio Lopes
3

Camila Ferreira Azevedo
4




Apresentao

A Seleo Genmica veio unir a Gentica de Populaes Gentica
Quantitativa. Estes dois ramos com forte orientao Biomtrica tradicionalmente
caminharam em separado, seja no Melhoramento Gentico de Plantas e Animais ou
na Gentica Humana. Atualmente, a estimao de componentes da variao gentica
e de valores genticos e a predio de fentipos usa trs conjuntos de dados ou
informaes: fenotpicos, genealgicos e genotpicos em locos marcadores
moleculares em desequilbrio de ligao com os genes de interesse. Ferramentas da
Gentica de Populaes participam plenamente dos mtodos de estimao
atualmente empregados. Dessa forma, Gentica de Populaes, Gentica
Quantitativa, Gentica Molecular e Estatstica so demandados simultaneamente na
anlise gentica dos caracteres de interesse. Esse texto aborda a nova Gentica
Quantitativa do terceiro milnio.


Viosa MG 2012.

Os autores.



1Estatstico, Ps-Doutor em Estatstica Biomtrica e Estatstica Gentica (Inglaterra)
2Zootecnista, Ps-Doutor em Estatstica Biomtrica e Estatstica Gentica (USA)
3Zootecnista, Ps-Doutor em Gentica Quantitativa e Melhoramento Animal (USA)
4Matemtica, Mestre em Estatstica Aplicada e Biometria (UFV)


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

4

UNIVERSIDADE FEDERAL DE VIOSA
CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

Sumrio

1 Fundamentos Estatsticos da Seleo Gentica (7)

1.1 Propriedades dos Estimadores em Inferncia Estatstica (7)
1.2 Evoluo dos Mtodos de Avaliao Gentica (10)
1.3 Modelos Estatsticos Lineares (17)
1.4 Modelos Estatsticos de Seleo (19)
1.5 Mtodos Estatsticos de Estimao (20)
1.6 Derivaes Frequentistas e Bayesianas dos Estimadores de Valores Genticos (22)
1.7 Estimao de Componentes de Varincia (30)
1.8 Estimao Bayesiana de Componentes de Varincia: relao com ML e REML (33)
1.9 Estimao Bayesiana via MCMC (34)
1.10 Mtodos Numricos e Softwares para REML/BLUP e MCMC (41)
1.11 Testes de Hipteses e Parcimnia de Modelos (46)
1.12 Modelos Computacionais BLUP (48)
1.13 Modelos BLUP Univariados Multi-Efeitos (50)
1.14 Modelos BLUP Multivariados (50)
1.15 Modelos BLUP Espaciais e de Competio (Efeitos Associativos) (53)
1.16 Modelos BLUP Longitudinais (Regresso Aleatria e Normas de Reao) (60)
1.17 Casos Especiais: GLMM, GEE, HGLMM, PL, MP, PLS e SALP (67)
1.18 Mtodos Estatsticos para GWS (73)
1.19 Procedimento Estatstico para Comparao de Duas Metodologias (75)
1.20 Procedimento BLUP Melhorado: I-BAYES-BLUP (79)

2 Anlise genmica (82)

2.1 Fundamentos da Anlise de QTLs e da Seleo Genmica (82)
2.2 Anlise de Ligao (LA) e Anlise de Desequilbrio de Ligao (LDA) (85)

3 Anlise de QTL e da expresso gnica (89)

3.1 Mtodos de Anlise de QTL (89)
3.2 Anlise de QTL como Efeito Aleatrio via Modelos Lineares Mistos (93)
3.3 Anlise de QTL em Famlias de Irmos Germanos (94)
3.4 Estimao da Herdabilidade via Parentesco Genmico (97)
3.5 Funes de Mapeamento (99)
3.6 Anlise da Expresso Gnica (101)




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

5

4 Gentica de associao (GWAS) (108)

4.1 Coeficientes e Medidas de Desequilbrio de Ligao (108)
4.2 Mtodos de Anlise de QTL via LDA (109)
4.3 Mapeamento Genmico Amplo via Regresso em Marcas nicas (114)
4.4 Poder Estatstico e Significncia na Associao e Deteco de QTL (116)
4.5 Mapeamento Genmico Amplo via Modelos Mistos com Hapltipos (118)
4.6 Mapeamento Genmico Amplo via Abordagem IBD-LD (119)
4.7 Mapeamento Genmico Amplo via Abordagem LDA-LA (120)
4.8 Mapeamento Genmico Amplo via Abordagem GWS (120)
4.9 Associao Genmica Ampla (GWAS) em Humanos (121)
4.10 Captura da h
2
e Imperfeito LD entre SNPs e Variantes Causais (122)
4.11 GWAS via BayesCpi e BayesDpi (123)

5 Seleo Auxiliada por Marcadores Moleculares (MAS) (126)

5.1 Tipos de Seleo via Marcadores Genticos (126)
5.2 Seleo em Genes de Efeitos Conhecidos ou Marcadores Diretos (GAS) (127)
5.3 MAS via Marcadores em Equilbrio de Ligao (LE-MAS) (127)
5.4 MAS via Marcadores em Desequilbrio de Ligao (LD-MAS) (128)
5.5 LD-MAS via Anlise de Marcas nicas (128)
5.6 LD-MAS via Anlise de Mltiplos Marcadores e Regresso de Cumeeira (129)
5.7 LD-MAS via Anlise de IBD (134)
5.8 Nmero de Locos a ser Usado na LD-MAS (134)

6 Seleo genmica ampla (GWS) (136)

6.1 Fundamentos da Genome Wide Selection (GWS) (136)
6.2 Acurcia da GWS (139)
6.3 Populaes de Estimao, Validao e Seleo (147)
6.4 Populao de Validao e Jacknife (148)
6.5 Correlao e Regresso entre Valores Genticos Preditos e Fentipos (150)
6.6 Mtodos Estatsticos na Seleo Genmica Ampla (151)
6.7 Mtodo RR-BLUP (155)
6.8 Formas de Parametrizao da Matriz de Incidncia Genotpica (160)
6.9 Correo dos Fentipos (162)
6.10 Relao entre Varincia Gentica e Varincia dos Marcadores (165)
6.11 Exemplo via RR-BLUP/GWS (167)
6.12 G-BLUP com Dominncia e Interao GE: Avaliao Simultnea Global (168)
6.13 G-BLUP e Regresso Aleatria Multivariada (MRR) (173)
6.14 Comparao entre Mtodos de Estimao Penalizada (173)
6.15 Mtodos Bayesianos (179)
6.16 Mtodos Lasso (187)
6.17 Distribuies dos Efeitos Genticos nos Mtodos RR-BLUP, Bayes e Lasso (193)
6.18 Regresso Kernel Hilbert Spaces (RKHS) (195)
6.19 Regresso via Quadrados Mnimos Parciais (PLSR) (199)
6.20 Regresso via Componentes Principais (PCR) (200)
6.21 Regresso via Componentes Independentes (ICR) (200)
6.22 Comparao entre 12 Mtodos de Seleo Genmica Ampla (202)
6.23 Pesos das Marcas nos Diferentes Mtodos e Frequncias Allicas (204)
6.24 Imputao de Gentipos Marcadores (205)
6.25 Aumento na Eficincia Seletiva do Melhoramento de Plantas e Animais (207)
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6

6.26 Reduo no Erro da Inferncia sobre os QTL via Uso dos Marcadores (209)
6.27 Gentica de Populaes Genmica Ampla (GWPG) (226)
6.28 Gentica Quantitativa Genmica Ampla (GWQG) (229)
6.29 Software Selegen Genmica para GWS e GWAS (234)
6.30 Software GCTA para G-REML em Gentica Humana e Animal (239)
6.31 Variao Epigentica e Covarincia entre Parentes (243)

7 Scripts em R para Modelos Mistos, Inferncia Bayesiana e Seleo
Genmica (245)

7.1 R para Modelos Mistos (245)
7.2 R para Inferncia Bayesiana (247)
7.3 R para Seleo Genmica (248)
7.3.1 Mtodo BayesA (248)
7.3.2 Mtodo BayesB (249)
7.3.3 Mtodo BayesCPi (250)
7.3.4 Mtodo BLASSO (252)
7.3.5 Mtodo Regresso via Quadrados Mnimos Parciais (PLSR) (253)
7.3.6 Mtodo Regresso via Componentes Principais (PCR) (253)
7.3.7 Mtodo Regresso via Componentes Independentes (ICR) (256)
7.3.8 Mtodo Regresso Ridge-BLUP (RR-BLUP) (257)
7.3.9 Mtodo G-BLUP (259)
7.3.10 Anlise Espacial no Mtodo RR-BLUP (262)
7.3.11 Mtodo Regresso Kernel Hilbert Spaces (RKHS) (263)

8 Referncias (264)

9 Fotos de Pesquisadores com Participao Relevante na Evoluo dos
Mtodos Estatsticos de Avaliao Gentica (288)
























Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

7

UNIVERSIDADE FEDERAL DE VIOSA
CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

1 Fundamentos Estatsticos da Seleo Gentica

O melhoramento gentico de animais e plantas fundamenta-se em duas aes: a
identificao de indivduos superiores; a criao de novas combinaes genotpicas
superiores por meio do cruzamento entre esses indivduos elites. Em ambas as etapas
a seleo tem papel fundamental e realizada com base na avaliao gentica dos
indivduos, a qual tem dois objetivos: (i) inferir sobre os valores genticos dos
indivduos; (ii) ordenar os indivduos com base em seus valores genticos.

1.1 Propriedades dos Estimadores em Inferncia Estatstica

A escolha de um mtodo timo de estimao/predio de valores genticos
deve basear-se no critrio de uma inferncia mais precisa e realista possvel, a qual
deve ser avaliada segundo parmetros estatsticos adequados. Nesse contexto, os
parmetros mais importantes so a acurcia seletiva e o erro quadrtico mdio de
estimao. A acurcia conceituada como a correlao entre o valor gentico
verdadeiro e aquele estimado a partir das informaes genotpicas (marcadores) e/ou
fenotpica dos indivduos. Um estimador acurado apresenta menor diferena
quadrtica entre valores verdadeiros e estimados, ou seja, apresenta mnimo erro
quadrtico mdio (EQM) de estimao. A Tabela 1 ilustra essa questo.

Tabela 1. Ilustrao de clculo da acurcia e do erro de predio de valores
genticos a partir de dados simulados.
Individuo
Valor Gentico Real (
g
)
Valor Gentico
Predito (
g )
Erro de Predio
(%)(
g g )
1 65.929 71.716 0.09
2 76.213 74.242 0.03
3 55.333 62.620 0.13
4 54.678 60.012 0.10
5 74.766 76.409 0.02
6 92.742 75.515 0.19
7 81.241 76.785 0.05
8 62.385 72.929 0.17
9 83.280 81.906 0.02
10 66.279 67.104 0.01
11 59.107 63.747 0.08
12 63.325 64.381 0.02
13 60.807 68.552 0.13
14 66.864 65.872 0.01
15 78.432 67.242 0.14
16 54.042 56.527 0.05
17 75.274 77.499 0.03
18 86.995 76.232 0.12
19 72.250 78.856 0.09
20 80.547 70.806 0.12
Erro Mdio de Predio 0.08
Correlao ou Acurcia 0.78

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

8

No exemplo apresentado, o erro mdio de predio foi de 8 % e a correlao
entre os valores verdadeiros e aqueles preditos foi de 78 %. Esse o valor da acurcia
seletiva (
g g
r

) e seu quadrado (
2
g g
r ) denominado confiabilidade, confiana ou fidcia
seletiva. O valor gentico estimado equivale ao verdadeiro mais o erro de predio,
ou seja, ) ( g g g g + = .

Um mtodo timo de estimao/predio deve apresentar mnimo EQM, o
qual dado por EQM = Vcio
2
+ Preciso = Vcio
2
+ PEV. Assim, um estimador de
mnimo EQM apresenta vcio nulo ou baixo e alta preciso (baixa varincia do erro
de predio PEV ou ) ( g g Var ). Em ausncia de vcio, EQM = PEV. A Figura 1
ilustra os conceitos de vcio, preciso e acurcia (Resende, 2008; Peternelli et al., 2011).
a) b) c) d)
Figura 1: ilustrao dos conceitos de acurcia, preciso e vcio. (a): alto vicio, baixa preciso, baixa acurcia;
(b): baixo vcio, baixa preciso, baixa acurcia; (c): alto vcio, alta preciso, baixa acurcia; (d): baixo vcio,
alta peciso, alta acurcia.

Verifica-se pela Figura 1 que a alta acurcia (capacidade de acertar o alvo da
predio nas vrias tentativas) uma combinao de alta preciso (baixa variao
nas vrias tentativas) e baixo vcio (mdia das vrias tentativas igual ao alvo da
predio). Em outras palavras, pode-se dizer que a acurcia a capacidade de acessar
a verdade, e a preciso a capacidade de acessar sempre a mesma estria mas no
necessariamente a verdade. A acurcia e a preciso guardam entre si as seguintes
relaes:

- Acurcia (
g g
r

)

2 / 1 2
] / 1 [

g
PEV r
g g
o =

- Preciso (PEV)

2 2
) 1 ( ) (

g
g g
r g g Var PEV o = =
A raiz quadrada da PEV equivale ao desvio padro do erro de predio e pode
ser usada para cmputo do intervalo de confiana do efeito gentico (g) predito, por
meio da expresso:
2 / 1
)] ( [ g g Var t g
i
ou
2 / 1 2 2
] ) 1 [(

g i
i
g g
r t g o
, em que t um valor
tabelado (1,96) associado distribuio t de Student a 95 % de confiana na inferncia
e
2
g
o a varincia gentica aditiva da populao.

A estimao da PEV com base na inversa da matriz dos coeficientes das
equaes de modelo misto apresentada a seguir, com base em Resende (2002). A
matriz dos coeficientes das equaes do modelo misto e Zg Xb y + + = equivale a

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

9

(
(

+
=
(

1
22 21
12 11
' '
' '
A Z Z X Z
Z X X X
C C
C C
C e a inversa generalizada de C igual
a
(

22
21
12 11
C C
C C
C , em que y, b e g so vetores de dados, efeitos fixos e genticos
aditivos, respectivamente, os ltimos com matrizes de incidncia X e Z. Tem-se
tambm
2
) (
g
A g Var o = , em que uma matriz de correlao entre os elementos de g.
O estimador da varincia do erro de predio (PEV) dos efeitos genticos dado por
2 22
) (
e
C g g Var PEV o = = .
Assim, a acurcia pode ser estimada por:
2 / 1 2
] / 1 [

g
PEV r
g g
o = .
Especificamente para um indivduo i, tem-se:
2 2 2
) 1 (

g e i i
i
g g
r d PEV o o = =
2 / 1 2 / 1 2 2
) 1 ( ) / 1 (

o o
i g e i
d d r
i
g g
= = , em que:
d
i
: i-simo elemento da diagonal de C
22
.
2
2
2
2
1
h
h
g
e

= =
o
o
.
O desvio padro do erro de predio do valor gentico do indivduo i dado
por:
2 / 1 2 2 2 / 1 2
] ) 1 [( ] [

g e i i
i
g g
r d SEP o o = = .
importante relatar que para o caso em que
2
e
I R o = e as equaes de
modelo misto no so simplificadas em relao ao termo R
-1
, tem-se PEV
i
= C
i
22
.

Em inferncia estatstica, os estimadores devem apresentar as seguintes
propriedades desejveis:
a) No vcio, tal que a esperana matemtica do estimador seja o prprio parmetro.
b) Consistncia, tal que, com o aumento do tamanho da amostra, a esperana do
estimador convirja para o parmetro e a varincia do estimador, para zero
(associado ao conceito de convergncia em probabilidade): refere-se ao aumento
da acurcia de uma estimativa com o aumento do tamanho da amostra.
c) Eficincia, tal que o estimador apresente varincia mnima.
d) Suficincia, tal que o estimador condense o mximo possvel a informao
contida na amostra e no seja funo (dependente) do parmetro.
e) Completitude que est ligada unicidade do estimador.
f) Invarincia translao, tal que a estimao dos componentes de varincia no
seja afetada por mudanas nos efeitos fixos.
g) Admissibilidade, que implica mnimo EQM global.
h) Acurcia, que congrega baixo vcio e baixa PEV (alta preciso).
i) Interpretabilidade: complexidade mnima aps seleo de covariveis.
j) Regularidade: estimao sem consumir graus de liberdade.
k) Estimabilidade: possibilidade de estimao dados o mtodo estatstico de
estimao e o conjunto de dados (o conceito de estimabilidade envolve conceitos de
estimao no tendenciosa e unicidade).
l) Parcimnia: eficcia com o menor nmero possvel de parmetros no modelo.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

10

m) Propriedade Shrinkage: regresso ou penalizao (ditada pelo tamanho da
amostra e das variaes dos efeitos aleatrios e residuais) e economia de graus de
liberdade.
n) Propriedade Orculo ou de retido, que se refere a coeficientes no zero
assintoticamente no viesados, normalidade assinttica e seleo consistente de
covariveis medida que N (nmero de indivduos) e n
m
(nmero de covariveis)
tendem a infinito.
o) Ajuste Vlido, produzindo estimativas no espao paramtrico (varincias
positivas e herdabilidades entre zero e um).
p) Identificabilidade: soluo nica para os parmetros do modelo.

Dessas propriedades, as mais importantes em conexo com a avaliao
gentica so apresentadas na Tabela 2. As demais so tambm importantes e sero
invocadas em outras partes desse texto.

Tabela 2. Propriedades dos estimadores mais importantes em conexo com a
avaliao gentica.
Propriedades Propriedades Componentes Denominao das Propriedades
Admissibilidade Vis
2
baixo + PEV mnima global No vis aproximado + eficincia global
Acurcia U Vis 0 + PEV mnima na classe U No vis + eficincia local
Acurcia Global Vis
2
baixo + PEV mnima global No vis aproximado + eficincia global
Interpretabilidade Complexidade Mnima Parcimnia
Regularidade Estimabilidade + Ajuste vlido Shrinkage, economia de graus de liberdade
U: classe de estimadores no viesados.

O erro quadrtico mdio de predio equivale distncia Euclideana mdia entre os
estimadores e os correspondentes parmetros. Minimizar o erro quadrtico mdio
significa maximizar a acurcia. Assim, o mtodo ideal de estimao ou predio dos
valores genotpicos aquele que minimiza EQM. Verifica-se que tal mtodo pode ser
viciado em pequeno grau, pois o que importa minimizar a soma PEV Vcio +
2
) ( .
Na classe dos estimadores/preditores no viciados, a preciso dada pelo parmetro
varincia do erro de predio (PEV) e a estratgia de minimizar PEV conduz
tambm maximizao da acurcia. Mas, de maneira geral (relaxando a necessidade
de no vcio), o que deve ser minimizado o EQM, buscando a admissibilidade.
Alm da admissibilidade e acurcia, a interpretabilidade e a regularidade so
relevantes, especialmente na seleo genmica.

1.2 Evoluo dos mtodos de avaliao gentica

Em inferncia estatstica frequentista existem basicamente cinco classes de
modelos de seleo. Fisher (1925) criou o mtodo da ANOVA via quadrados
mnimos ordinrios (OLS) para a avaliao de variedades de cereais em
delineamentos balanceados. O modelo genrico bsico dado por e Xb y + = , em que
y o vetor da varivel resposta, b o vetor de efeitos genticos (fixos no caso) e e o
vetor de erros aleatrios com matriz de covarincia
2
e
I R o = , caracterizando a Classe
I de modelos de seleo. Nessa Classe I, os candidatos seleo so de efeitos fixos,
implicando na escolha entre tratamentos, representados por uma amostra aleatria de
observaes tomadas independentemente em cada tratamento.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

11

A abordagem inicial da anlise de dados desbalanceados devida a Fisher e Yates,
ambos trabalhando na Rothamsted Experimental Station na Inglaterra. Para este caso de
representao desbalanceada, Yates (1934) apresentou as solues de quadrados
mnimos ponderados (WLS) para dois diferentes modelos de classificao cruzada.
Nesse caso, matriz de covarincia diagonal dada por
2
ei
I R o = , em que
2
ei
o a
varincia do erro associada observao i. Pela abordagem de Fisher e Yates os
valores genticos eram estimados como efeitos fixos.

Henderson et al. (1959) em um artigo influente apresentou estimadores de
quadrados mnimos generalizados (GLS) de efeitos fixos contemplando a
interferncia de efeitos aleatrios (g) correlacionados na estimao daqueles efeitos.
Nesse caso, o modelo dado por e Zg Xb y + + = , em que X e Z so conhecidas
matrizes de incidncia. A matriz de covarincia de y dada por Var(y) = V = Var
(g) + R =
2
) (
e
I g Var o + em que Var (g) pode ser no diagonal.

Na Classe II de modelos de seleo, a seleo envolve candidatos considerados
como variveis aleatrias no observveis pertencentes a uma determinada
populao. Essa classe sempre foi considerada no melhoramento gentico, associado
aos ndices de seleo envolvendo informaes de parentes, desde o trabalho de Lush
(1931). Sob esse modelo aleatrio os preditores associados pertencem ao mtodo BLP
(melhor predio linear). O modelo (de mdias) dado por e Zg y + = , em que g o
vetor de valores genticos, considerados como aleatrios. O BLP no especifica o que
fazer com a mdia geral (u), o qual na prtica tem sido estimada por OLS (Resende
et al., 1993). Bueno Filho e Vencovsky (2009) relatam a utilidade do BLP no
melhoramento vegetal.

O terceiro tipo de seleo foi negligenciado por estatsticos e melhoristas at o
incio da dcada de 1970. Essa Classe III de modelo de seleo, denominado Modelo
Misto de Seleo (em analogia ao modelo misto de anlise de varincia), foi
apresentada formalmente por Henderson (1973), contemplando o mtodo BLUP
(melhor predio linear no viesada). O modelo dado por e Zg Xb y + + = , em que
b um vetor de efeitos fixos (efeitos ambientais identificveis) e g o vetor de
efeitos genticos, considerados como aleatrios. Neste caso, os candidatos seleo
so variveis aleatrias no observveis pertencentes a mais que uma populao, e o
mrito de cada candidato a soma da mdia da populao mais o valor predito da
varivel aleatria associada ao candidato. Neste caso, a seleo depende, tambm, de
efeitos fixos desconhecidos. O modelo misto de seleo foi apresentado como BLUP
por Henderson (1973), mas, foi concebido por volta de 1949 pelo prprio Henderson.
Naquela poca, Henderson derivou o mtodo BLUP por meio da da maximizao da
funo densidade de probabilidade conjunta de y (valores fenotpicos) e g (valores
genticos) (Henderson, 1973). A funo maximizada no era uma funo de
verossimilhana e sim uma densidade conjunta.

Em termos mais rigorosos, a seleo um problema puramente estatstico,
visto que na prtica seleciona-se uma frao de indivduos segundo seus valores
genticos os quais seguem uma distribuio de probabilidade. Pearson (1903) derivou
as mdias e varincias condicionais para a distribuio normal multivariada. Os
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

12

resultados de Pearson foram apresentados em notao matricial por Aitken (1934) e
empregados por Henderson no contexto dos preditores BLUP, os quais podem ser
vistos como valores genticos condicionais a um conjunto de (N-r) funes lineares
dos dados, linearmente independentes e invariantes `a translao, em que N o
nmero de observaes e r o posto de X, a matriz de incidncia para os efeitos
fixos. Os ndices de seleo podem ser vistos como computaes das mdias
condicionais dos valores genticos dadas as observaes. Lush (1931) foi o primeiro
cientista a utilizar preditores de valores genticos baseados em mdias condicionais e
Cochran (1951) estendeu as propriedades timas dos ndices de seleo para quaisquer
distribuies.

A mdia fenotpica, mdia aritmtica ou mdia estimada pelo mtodo de
quadrados mnimos no um estimador de mnimo EQM quando se tem mais que
dois tratamentos ou materiais genticos em avaliao. O trabalho de Stein (1955), que
constituiu um verdadeiro paradoxo na Estatstica, demonstrou que a mdia
aritmtica estimador no admissvel, isto , que existem estimadores que propiciam
menor erro quadrtico mdio ou menor risco que a mdia aritmtica, quando mais
que duas mdias necessitam ser estimadas. Neste contexto, James e Stein (1961)
apresentaram um estimador melhorado para a mdia populacional, que dado por
... ... ..
*
) ( Y Y Y k M
i
+ = , em que k um fator regressor (ou de shrinkage) da mdia
amostral de determinado tratamento (
. i
Y ) sobre a mdia geral (
...
Y ), em que
F T T k / )] 1 /( ) 3 [( 1 = e T o nmero de gentipos em avaliao.

Os mtodos (viciados ou no) que minimizam o EQM conduzem a
estimadores/preditores do tipo shrinkage. Genericamente, um estimador do tipo
shrinkage tem a forma de um escalar (variando entre zero e um) multiplicado por um
vetor de mdias estimadas por quadrados mnimos ou por mxima verossimilhana.
Ou seja, para o caso balanceado, esse tipo de estimador multiplica as mdias
fenotpicas por um fator que varia entre zero e um, dependendo da confiabilidade
(herdabilidade) que se tem nas mdias fenotpicas estimadas.

Estimadores do tipo shrinkage comearam a ser usados por Lush (1931) no
contexto do melhoramento animal associado ao mtodo da melhor predio linear
(BLP) e, posteriormente, foram tambm usados no mtodo da melhor predio linear
no viciada (BLUP) conforme Henderson (1973; 1975) e Thompson (1976; 1979). Esses
mtodos assumem os efeitos de materiais genticos como aleatrios e o BLUP ,
adicionalmente, um preditor no viciado. Entretanto, conforme Stein (1955), para
mais que dois tratamentos, estimadores do tipo shrinkage so necessrios,
independentemente se os efeitos forem tomados como fixos ou aleatrios. O
estimador melhorado de James e Stein (1961) no necessita de qualquer suposio
referente a efeitos fixos ou aleatrios, ou sobre as distribuies das mdias a serem
estimadas (Efron e Morris 1977) e pertencem Classe IV de modelos de seleo.
Requer apenas o relaxamento da suposio de no vcio. Este estimador viesado,
mas tem menor erro quadrtico mdio que o estimador de quadrados mnimos, em
determinada regio do espao paramtrico.

No contexto da avaliao gentica, importante relatar que o vcio
propiciado pelo estimador de James-Stein pequeno e s pode existir quando o
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

13

nmero de tratamentos baixo (inferior a dez). medida que o nmero de
tratamentos aumenta, o estimador viesado torna-se no viesado e, por isso, o
estimador de James-Stein denominado como aproximadamente no viesado.
Conforme Schaeffer (1999), a princpio, somente estimadores no viesados eram
usados pelos estatsticos. Os desenvolvimentos tericos, porm, evidenciaram que
tais estimadores podem gerar estimativas fora do espao paramtrico admissvel.
Assim, atualmente, procedimentos aproximadamente no viesados, desde que
admissveis (de mnimo erro quadrtico mdio), tm sido considerados como os
ideais.

Os estimadores de James e Stein (1961) propiciam, com o aumento do
nmero de tratamentos em avaliao, uma transio natural de um modelo de efeitos
fixos para um modelo de efeitos aleatrios. E isso s depende do tamanho da
populao (nmero de tratamentos). Com grande nmero de tratamentos, os
estimadores de James-Stein e o mtodo BLUP (cujo regressor k = 1 1/F) se
equivalem (Tabela 3). Nesse caso, a metodologia BLUP a melhor escolha pela
facilidade de implementao e por poder ser estendida para o caso no balanceado.
Quando o nmero de tratamentos superior a cinco, o modelo se aproxima mais de
aleatrio (devendo-se usar o mtodo BLUP) e, quando menor que cinco o modelo se
aproxima mais de fixo (devendo-se usar o mtodo de quadrados mnimos, cujo fator
de regresso igual a 1). Logicamente o estimador de James-Stein o mais eficaz em
qualquer das situaes (Resende e Duarte, 2007).

Tabela 3. Valores dos regressores (de James-Stein) dos desvios das mdias fenotpicas em
relao mdia geral, em experimentos balanceados, para obteno de estimativas precisas de
valores genticos para diferentes nmeros de tratamentos ou genitores na populao.
Nmero de tratamentos Regressor
1
Nmero de tratamentos Regressor
3 1 - 0,33/F* 14 1 - 0,85/F
4 1 - 0,33/F 15 1 - 0,86/F
5 1 - 0,50/F 16 1 - 0,87/F
6 1 - 0,60/F 17 1 - 0,88/F
7 1 - 0,67/F 18 1 - 0,88/F
8 1 - 0,71/F 19 1 - 0,89/F
9 1 - 0,75/F 20 1 - 0,89/F
10 1 - 0,78/F 21 1 - 0,90/F
11 1 - 0,80/F 38 1 0,95/F
12 1 - 0,82/F 135 1 0,99/F
13 1 - 0,83/F 400 1 1/F
1
- F*: F de Snedecor centrado em zero, sendo que esse regressor deve multi plicar diretamente a mdi a fenotpica e no o desvio; F: F de Snedecor centrado na mdia geral

O procedimento de estimao bayesiana pertence Classe V de modelos de seleo
e foi recomendado para avalio gentica por Gianola e Fernando (1986). O teorema de
Bayes foi derivado em 1763 e, portanto, bem mais antigo do que o mtodo de Stein, e
tambm minimiza o erro quadrtico esperado. Por isso, o estimador de James-Stein
muito similar ao estimador de Bayes, tornando-se inclusive idnticos para grande
nmero de tratamentos (Efron e Morris 1977). Por isso, so tambm denominados como
estimadores de Bayes-Stein, Bayes emprico ou regra emprica de Bayes. Em inferncia
bayesiana no existe qualquer distino entre efeitos fixos ou aleatrios, e os parmetros
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

14

a serem estimados so considerados variveis aleatrias que devem ser estimadas
considerando as incertezas a elas associadas.

Na Tabela 4 apresentada a evoluo dos mtodos de avaliao gentica. Em cada
linha da tabela o primeiro autor citado refere-se ao trabalho mais influente e os demais
referem-se a trabalhos bsicos e/ou tericos que j haviam abordado o tema.


Tabela 4. Evoluo dos mtodos de estimao de componentes de mdias (valores genticos).

Observaes em y so Variveis Aleatrias
Mtodo Autores Modelo Estimador Estrutura de
Varincias
OLS Fisher (1925) Fixo e Xb y + =
y X X X b ' ) ' (

1
=
) , 0 ( ~
2
e
I N e o

WLS Yates (1934) Fixo e Xb y + = y R X X R X b
1 1 1
' ) ' (


=
) , 0 ( ~
2
ei
I R N e o =

GLS Henderson et al.
(1959)
Fixo
e Zg Xb y + + =

y V X X V X b
1 1 1
' ) ' (


=
) , ( ~ V Xb N y
2
) (
e
I g Var V o + =

BLP Lush (1931; 1945);
Pearson (1903);
Aitken (1934)
Aleatrio
e Zg y + =

y R Z A Z R Z g
g
1 1 1 2 1
' ] ) ( ' [

+ = o

) , 0 ( ~
2
e
I R N e o =
) , 0 ( ~
2
g
A N g o

BLUP (A-BLUP) Henderson (1973);
Thompson (1976);
Henderson (1949)
Misto
e Zg Xb y + + =
)

( '
] ) ( ' [
1
1 1 2 1
b X Y R Z
A Z R Z g
g

+ =


o

) , 0 ( ~
2
e
I R N e o =
) , 0 ( ~
2
g
A N g o

James-Stein Efron e Morris
(1977); James e
Stein (1962); Stein
(1955)

e Zg Xb y + + =

... ... ..
) ( Y Y Y k g
i
+ =

) / 1 1 ( F k =

) , 0 ( ~
2
ei
I R N e o =
MAP (Bayes) Gianola e Fernando
(1986); Fernando e
Gianola (1986);
Robertson (1955);
Dempfle (1971);
Bayes (1763)
Aleatrio
e Zg Xb y + + =

( )
( )
) (
) (
y P
g P g y P
y g P =
)

( '
] ) ( ' [
1
1 1 2 1
b X Y R Z
A Z R Z g
g

+ =


o

) , 0 ( ~
2
e
I R N e o =

) , 0 ( ~
2
g
A N g o
) , 0 ( ~
2
b
I N b o


2
b
o

MAS (LE e LD) via OLS e
BLUP
Lande e Thompson
(1990, OLS);




Fernando e
Grossman (1989);
Goddard (1991)
Fixo
e q Q Zg u y
s
i
i i
+ + + =

=1

ou
e m W Zg u y
s
i
i i
+ + + =

=1

Misto
e q Q Zg Xb y
i
i i
+ + + =


ou
e m W Zg Xb y
i
i i
+ + + =

=
+ =
s
i
i i
m W Zg g
1

s o nmero de marcas significativas




+ =
i
i i
m W Zg g

) , 0 ( ~
2
e
I N e o






) , 0 ( ~
2
e
I N e o

) , 0 ( ~
2
g
A N g o

GWS (RR-BLUP);
GBLUP; Bayes; RR-
BLUP_B)
Meuwissen et al.
(2001); Whittaker et
al. (2000); Van
Raden (2008);
Nejati-Javaremi et
al. (1997); Resende
et al. (2010);
Resende Jr. et al.
(2012)
Misto
e q Q Xb y
i
i i
+ + =


ou
e m W Xb y
i
i i
+ + =


ou
e m W Z Xb y
i
i i
+ + =


ou
e ZWm Xb y + + =

)

( ' ) ' (
1 1 1
b X y R W I W R W W m W g + = =

em_que
)

( ' ) ' (
1 1 1
b X y R W I W R W m + =

ou
)

( ' ) ' (
1
b X y W I W W m + =

( )] / ( [
1 1 2 2 1 1
b X y R G R g
g e
+ =

o o

em_que
] ) 1 ( 2 /[ ) ' (

= =
n
i
i i
p p WW G A

) , 0 ( ~
2
e
I N e o
) , 0 ( ~
2
g
G N g o
] ) 1 ( 2 /[ ) ' ( =
n
i
i i
p p WW G

Observaes em y so Variveis Mistas (Aleatrias + Determinsticas)
Mtodo Autores Modelo Estimador Estrutura de
Varincias
Modelos Espaciais:
Krigagem e
Autoregressivos
Matheron (1971);
Robinson (1991);
Gilmour et al. (1995)
Misto
e Zg Xb y + + =
)

( '
] ) ( ' [
1
1 1 2 1
b X Y Z
A Z Z g
g
E
+ E =


o ) , 0 ( ~ E N e

) , 0 ( ~
2
g
A N g o


u u = E
r
r
c
c e
)] ( ) ( [
2
o
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

15

(
(
(
(
(

= u

1
1
1
1
) (
1 2 3
1 1 2
2 1 1
3 2 1




c
c
Modelos de Regresso
Aleatria Multivariada:
Polinmios de Legendre,
Splines cbicas e B
Schaeffer e Dekkers
(1994); White et al.
(1999); Meyer (2005)
Misto
e Zg Xb y + + =
)

( '
] ) ( ' [
1
1 1 1
b X Y Z
K A Z Z g
g
E
+ E =



) , 0 ( ~ E N e

) , 0 ( ~
g
K A N g


u u = E
r
r
c
c e
)] ( ) ( [
2
o

Modelos de Competio:
Efeitos Associativos ou
Indiretos
Resende et al. (2005)
Van Vleck e Cassady
(2005); Arango et al.
(2005);
Misto
e Zg Xb y + + =

e NZ Z Xb y + + + = | t
q | t + + + + = NZ Z Xb y

)

( '
] * ' [
1
1 1 1
b X Y Z
G Z Z g
+
+ + =



2 2
)] ( ) ( [
q
o o

+ u u = +
r
r
c
c
I
|
|
.
|

\
|
=
|| t|
t| tt
g g
g g
G*

A: matriz de correlao gentica aditiva construda via pedigree; G: matriz de correlao gentica aditiva construda via marcadores. Notao: Vetores y, b, g, m, q: referentes aos
dados fenotpicos, efeitos fixos, genti cos aditivos poligni cos aleatrios, genticos aditivos al eatrios de marcadores, genticos aditivos aleatrios de QTL, respectivamente,
com varincias 0,
2
g
o
, 2
m
o
e 2
q
o
. Matrizes X, Z, W, Q: incidncia para b, g, m, q, respectivamente.

Na Tabela 5 apresentada a evoluo na forma de considerao do modelo gentico
associado aos caracteres quantitativos nos mtodos de avaliao gentica.

Tabela 5. Evoluo na forma de considerao do modelo gentico associado aos
caracteres quantitativos nos mtodos de avaliao gentica.
Modelo Efeitos Mtodo de
Seleo
Autores
Polignico Infinitesimal Pequenos - Infinitos BLUP Fisher (1918)

Misto de Herana: genes
maiores + polignico
residual

Grandes + Pequenos Infinitos LE - MAS Fernando e Grossman
(1989)
Misto de Herana: genes
maiores + polignico
residual

Grandes + Pequenos Finitos
(segregando dentro de
famlias)
LE - MAS Fernando et al. (1994)

Misto de Herana: genes
maiores + polignico
residual
Grandes + Pequenos Finitos
(segregando na populao:
entre famlias)
LD - MAS e
GWS
Meuwissen et al. (2001)

O modelo linear misto convencional contempla os efeitos fixos (b), genticos
aleatrios (g) e ambientais aleatrios (e) por meio de e Zg Xb y + + = (Modelo
Individual). Incluindo os efeitos (q) dos QTLs de grandes efeitos para os locos i, o
modelo torna-se
e q Q Zg Xb y
i
i i
+ + + =

*
(Modelo de QTL), quando se conhecem os
genes ou e m W Zg Xb y
i
i i
+ + + =

*
quando se conhecem apenas os marcadores, em
que Q
i
uma matriz de incidncia que relaciona os indivduos com os alelos do loco
i, e q
i
e m
i
contm os efeitos allicos para cada loco gnico e marcador,
respectivamente. As matrizes de incidncia Q no so conhecidas e nem as suas
dimenses, dadas pelo nmero de alelos em cada loco. Tambm no conhecido o
nmero de locos que afeta o carter. Isto contrasta com o primeiro modelo, em que as
matrizes de incidncia para b e g (X e Z, respectivamente) so conhecidas. Se Q fosse
conhecida as equaes de modelo misto poderiam ser usadas sem qualquer alterao.
Um outro modelo melhor seria
e q Q Xb y
i
i i
+ + =

ou
e m W Z Xb y
i
i i
+ + =

(Modelo
GWS), no qual todos os locos seriam individualizados e no haveria necessidade de
incluso do resduo gentico polignico ou infinitesimal (
*
g ).

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

16

O que torna a anlise genmica diferenciada o fato da matriz Q ser
desconhecida. No entanto, ela pode ser estimada com base nas informaes dos
marcadores (matriz W). Segundo Perez-Enciso e Misztal (2004), a forma como os
marcadores so usados para estimar Q e a forma de definio de q resulta em
distintos modelos que contemplam os vrios delineamentos para a anlise de QTLs e
formas de seleo genmica.

Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor a
predio simultnea dos efeitos dos marcadores, sem o uso de testes de significncia
para marcas individuais. Isto contrasta com o mtodo da MAS proposto por Lande e
Thompson (1990). Uma comparao entre as trs proposies pode ser vista na
Tabela 6.


Tabela 6. Comparao entre as trs proposies de seleo auxiliada por marcadores.
Autores Mtodo Populao Nmero de Marcadores
(n
m
)
Teste de
Significncia
Extensao para
o Enfoque
Bayesiano
Lande e
Thompson (1990)
MAS Indice
de Seleo
Reg. Mult.
Dentro de
famlia ou
cruzamento
Muito menor que tamanho
do cruzamento (N): n
m
<< N
Sim No
Whittaker et al.
(2000)
MAS Ridge
Regression
Dentro de
famlia ou
cruzamento
Maior ou igual ao tamanho
do cruzamento (N): n
m
>= N
No No
Meuwissen et al.
(2001)
GWS RR-
BLUP
Toda a
Populao
Muito maior que tamanho da
populao de estimao (N):
n
m
>> N
No Sim

Verifica-se pela Tabela 6, que a inovao de Meuwissen et al. (2001) no foi
em termos de metodologia estatstica mas, em termos conceituais enfatizando o uso
do conceito de desequilbrio de ligao em nvel populacional e no apenas dentro de
famlia e o no uso de testes de significncia para marcas. E o maior mrito foi a
demonstrao, via simulao, do fato de que a GWS pode realmente funcionar na
prtica. Por outro lado, a verso G-BLUP da GWS, enfatizando a troca da matriz A
pela G no BLUP tradicional (Van Raden, 2008) j havia sido proposta por Nejati-
Javaremi et al. (1997) e Fernando (1998).

O no uso de significncia estatstica para a seleo de marcas pela GWS a
distingue da GWAS (Genome Wide Association Studies), a qual procura associao
entre locos e carter fenotpico em nvel populacional, por meio de testes de
hipteses visando detectar efeitos com significncia estatstica. A GWAS sofre com
a alta taxa de falsos negativos devido ao uso de pontos de corte muito rigorosos
visando evitar a ocorrncia de falsos positivos. A GWS equivale GWAS aplicada
sobre todos os locos simultaneamente e baseando-se em estimao e predio em vez
de teste de hiptese. Dessa forma consegue explicar parte muito maior da
variabilidade gentica e evitar a chamada herdabilidade faltante ou perdida (missing
heritability), tpica dos estudos de anlise de ligao e de associao.



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

17

1.3 Modelos Estatsticos Lineares

Os modelos estatsticos lineares tem a forma geral y = u + b + g + e, em que u
uma constante ou mdia geral, b um fator de blocagem cujos nveis so efeitos fixos
ou aleatrios, g um fator de tratamentos cujos nveis so efeitos fixos ou aleatrios
e e um erro aleatrio. Esses modelos podem ser classificados em:

Modelo Fixo: todos os fatores possuem nveis com efeitos
fixos, exceto o erro aleatrio (e).
Modelo Aleatrio: todos os fatores possuem nveis com efeitos
aleatrios, exceto a mdia geral (u).
Modelo Misto: possui efeitos fixos, alm da mdia geral, e
efeitos aleatrios alm do erro experimental.

A natureza dos efeitos estatsticos pode ser definida:

Fator de efeitos fixos: os nveis so constantes; so escolhidos;
a inferncia vlida para os nveis em estudo; a informao
entre nveis no afeta a estimao de cada nvel.
Fator de efeitos aleatrios: os nveis so variveis aleatrias
amostradas segundo uma distribuio de probabilidade; os
nveis so amostras aleatrias de uma populao; a inferncia
vlida para toda a populao; a informao entre nveis afeta a
estimao de cada nvel.

No contexto dos modelos mistos, as seguintes regras prticas podem ser
adotadas para a definio de efeitos fixos ou aleatrios, a qual depende de: (i) nmero
de nveis do fator (com 38 nveis o modelo aproxima 95% ao modelo aleatrio,
conforme a Tabela 3); (ii) tamanho de cada nvel do fator (com 5 indivduos de cada
genitor em cada nvel, 15% da variao gentica fica retida entre nveis ou grupos e
para utiliz-la deve-se tomar o fator grupo como de efeitos aleatrios); (iii)
magnitude da variao entre nveis do fator em relao variao residual ( medida
que o coeficiente de determinao c
2
do fator tende a 1, o modelo tende de aleatrio
para fixo); (iv) presena de tratamento preferencial aos melhores indivduos, caso em
que os grupos de indivduos devem ser tratados como de efeitos fixos, explorando a
propriedade do Blup de invarincia translao nos efeitos fixos.

Fora relativa dos efeitos fixos e efeitos aleatrios com matrizes de correlao A e I

Os efeitos fixos dominam efeitos aleatrios com matriz de correlao A e I.
Efeitos aleatrios com matriz de correlao A dominam efeitos aleatrios com
matriz de correlao I. Isto ilustrado a seguir.






Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

18


(A) - Modelo de reprodutor: ajustes no concorrentes
Efeitos fixos
Pop (p)
Touro (t) Indi vduo (g) Peso Modelo Ajustado Ajuste para
Touro
1 1 11 200.10
e Tt u y + + = 1
) , 0 ( ~
2
t
I N t o
Aleatrio em t
Aleatrio em t
Aleatrio em t
Aleatrio em t
Aleatrio em t
1 2 12 160.50
1 2 13 302.45
1 3 14 112.67
1 3 15 145.89

(B) - Modelo de reprodutor: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matriz de correlao I:
1 1
0

> I
Efeitos fixos
Pop (p)
Touro (t) Indi vduo (g) Peso Modelo Ajustado Ajuste para Touro
1 1 11 200.10
e Tt Xp y + + =
) , 0 ( ~
2
t
I N t o
Fixo em p e zero em t
Aleatrio em t
Aleatrio em t
Aleatrio em t
Aleatrio em t
2 2 12 160.50
2 2 13 302.45
2 3 14 112.67
2 3 15 145.89

(C) - Modelo individual ou animal: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matriz de correlao A:
1 1
0

> A . O indivduo 11 ter seu efeito gentico predito em g mas o valor refere-se somente parte dentro de famlia.
Efeitos fixos
Pop (p)
Touro (t) Indi vduo (g) Peso Modelo Ajustado Ajuste para Touro
1 1 11 200.10
e Zg Xp y + + =

) , 0 ( ~
2
g
A N g o
Fixo em p e zero em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
2 2 12 160.50
2 2 13 302.45
2 3 14 112.67
2 3 15 145.89

(D) - Modelo individual ou animal: ajustes concorrentes: efeitos aleatrios com matriz de correlao A dominam efeitos
aleatrios com matriz de correlao I:
1 1
> I A . Nesse caso, o vetor estimado t conter apenas valores zero.
Efeitos fixos
Pop (p)
Touro (t) Indi vduo (g) Peso Modelo Ajustado Ajuste para
Touro
1 1 11 200.10
e Zg Tt u y + + + = 1
) , 0 ( ~
2
g
A N g o
) , 0 ( ~
2
t
I N t o
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
1 2 12 160.50
1 2 13 302.45
1 3 14 112.67
1 3 15 145.89

(E) - Modelo individual ou animal: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matrizes de correlao A e
I simultaneamente:
1 1 1
0

> I e A

Efeitos fixos
Pop (p)
Touro (t) Indi vduo (g) Peso Modelo Ajustado Ajuste para Touro
1 1 11 200.10
e Zg Tt Xp y + + + =
) , 0 ( ~
2
g
A N g o
) , 0 ( ~
2
t
I N t o
Fixo em p e zero em g e t
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
2 2 12 160.50
2 2 13 302.45
2 3 14 112.67
2 3 15 145.89

(F) - Modelo de famlias de irmos completos: ajustes no concorrentes: o vetor f estima os efeitos de famlia contemplando
2
min
2 2
) 4 / 1 ( ) 2 / 1 (
ancia do g f
o o o + =
.
Efeitos fixos
Pop (p)
Famla (f) Indi vduo (g) Peso Modelo Ajustado Ajuste para
Famlia
1 1 11 200.10
e Ff u y + + = 1

) , 0 ( ~
2
f
I N f o
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f
1 2 12 160.50
1 2 13 302.45
1 3 14 112.67
1 3 15 145.89

(G) - Modelo individual ou animal com famlias de irmos completos: ajustes concorrentes: efeitos aleatrios com matriz de
correlao A dominam efeitos aleatrios com matriz de correlao I:
1 1
> I A . O vetor f estima os efeitos da capacidade
especfica de combinao (CEC) associados a cada famlia, contemplando
2
min
2
) 4 / 1 (
ancia do f
o o =
.
Efeitos fixos
Pop (p)
Famla (f) Indi vduo (g) Peso Modelo Ajustado Ajuste para
CEC de Famlia
1 1 11 200.10
e Zg Ff u y + + + = 1
) , 0 ( ~
2
g
A N g o
) , 0 ( ~
2
f
I N f o
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f
1 2 12 160.50
1 2 13 302.45
1 3 14 112.67
1 3 15 145.89
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

19


Assim, os efeitos associados matriz de incidncia X so mais fortes do que
aqueles associados matriz de incidncia Z abrangendo os seguintes casos:

(

+
+

) / ( ' '
' ) / ( 0 '
2 2 1
2 2 1
g e
b e
I Z Z X Z
Z X X X
o o
o o
;
(

+
+

) / ( ' '
' ) / ( 0 '
2 2 1
2 2 1
g e
b e
A Z Z X Z
Z X X X
o o
o o
e
(

+
+

) / ( ' '
' ) / ( '
2 2 1
2 2 1
g e
g e
I Z Z X Z
Z X A X X
o o
o o
, em que A uma matriz no diagonal de
correlao entre valores genticos aditivos, com elementos dados por
XY
a , o
numerador do coeficiente de parentesco de Wright entre os indivduos X e Y dado
pela correlao
2 / 1
) (
YY XX
XY
XY a
a a
a
r =
, em que
F a
XX
+ =1
o parentesco do indivduo com
ele mesmo e F o coeficiente de endogamia. Se F = 0,
XY XY a
a r = .

1.4 Modelos Estatsticos de Seleo

Os modelos estatsticos de seleo tem a forma geral ) ( y f g = , em que t

um
estimador dos efeitos de tratamentos genticos e y = u + b + g + e. Os modelos
estatsticos de seleo podem ser classificados em (Resende, 2008):

A) Estimadores no Viesados

(i) Modelo I (Fixo): tem como alvo a escolha entre
tratamentos independentes e de efeitos fixos; assume
implicitamente que g
2
= Var(g) / Var(y) = 1, ou seja, que
o coeficiente de determinao dos efeitos de tratamento
equivale a 100%; utiliza na seleo os procedimentos de
comparao de mdias fenotpicas estimadas por
quadrados mnimos (OLS).
(ii) Modelo II (Aleatrio): tem como alvo a seleo entre
variveis aleatrias no observveis pertencentes a uma
mesma populao estatstica (ambiente); assume g
2
=
Var(g) / Var(y) = h
2
, em que h
2
a herdabilidade de
cada nvel do fator de tratamentos; utiliza na seleo o
procedimento da melhor predio linear (BLP) ou ndice
de seleo (SI).
(iii) Modelo III (Misto): tem como alvo a seleo entre
variveis aleatrias no observveis pertencentes a
vrias populaes estatsticas (ambientes ou raas, de
efeitos fixos); assume g
2
= Var(g) / Var(y) = h
2
, em que
h
2
a herdabilidade de cada nvel do fator de
tratamentos; estima as mdias das vrias populaes por
quadrados mnimos generalizados (GLS), produzindo
melhores estimativas lineares no viciadas (BLUE)
dessas mdias; utiliza na seleo o procedimento da
melhor predio linear no viciada (BLUP).


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

20

O procedimento BLUP pode ser assim caracterizado:
B: minimiza a varincia do erro de predio (PEV), ou seja, maximiza
a preciso.
L: uma funo linear das observaes.
U: no viciado, propriedade essa que, em conjuno com a
minimizao da PEV, maximiza a acurcia na classe dos preditores
no viesados.
P: preditor de uma varivel aleatria.

As propriedades B e U, simultaneamente, caracterizam um procedimento
acurado, na classe dos preditores no viesados. Assim, o BLUP poderia tambm
ser traduzido como preditor linear acurado (ALP).

B) Estimadores Aproximadamente no Viesados

(iv) Modelo IV: tem como alvo a escolha entre tratamentos
com coeficientes de determinao dados por
F T T g / )] 1 /( ) 3 [( 1
2
= , em que T o numero de nveis
dos efeitos aleatrios g e F a estatstica F de Snedecor,
funo da proporo entre varincia entre tratamentos e
varincia residual. Utiliza na seleo mdias fenotpicas
estimadas por quadrados mnimos (OLS) ponderadas
pelo fator de shrinkage g
2
(Estimadores de James-Stein).

(v) Modelo V: tem como alvo a escolha entre variveis
aleatrias obtidas como mdias a posteriori (MAP) de
uma distribuio condicional dos valores genticos
dados o vetor de dados e os valores atualizados dos
componentes de varincia e efeitos fixos (Estimadores
de Bayes ou MAP).

1.5 Mtodos Estatsticos de Estimao

Os mtodos estatsticos de estimao de componentes de mdia e de
varincia, associados aos cinco tipos de modelos estatsticos de seleo, so
apresentados na Tabela 7.

Tabela 7. Mtodos estatsticos de estimao de componentes de mdia e de
varincia e testes de hipteses .
Modelo Estatstico
Linear e de Seleo
Mtodo de Estimao de
Componentes de Mdias
Mtodo de Estimao de
Componentes de Varincia
Teste da Significncia
dos Efeitos
Modelo I (Fixo) Quadrados Mnimos (LS) Quadrados Mnimos: Anlise
de Varincia (ANOVA)
Teste F de Snedecor;
Teste de Wald
Modelo II (Aleatrio) BLP ou BLUP Mxima Verossimilhana (ML)
ou ML Residual (REML):
Anlise de Deviance
(ANADEV)
Teste LRT via Qui -
Quadrado
Modelo III (Misto) BLUP REML: Anlise de Deviance
(ANADEV)
Teste LRT via Qui-
Quadrado
Modelo IV James-Stein Quadrados Mnimos: (OLS);
Mxima Verossimilhana (ML)
Intervalo de Confiana
Modelo V Bayes (MAP) Moda a Posteriori (MAP) via
MCMC
Intervalo Bayesiano de
Credibilidade
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

21

Verifica-se uma sofisticao dos procedimentos quando se passa do modelo I
para o modelo III e V. Uma ilustrao de clculos associados anlise de deviance
apresentada a seguir.

Na anlise de modelos mistos com dados desbalanceados, os efeitos do
modelo no so testados via testes F tal como se faz no mtodo da anlise de
varincia. Nesse caso, para os efeitos aleatrios, o teste cientificamente
recomendado o teste da razo de verossimilhana (LRT). Para os efeitos fixos,
um teste F aproximado pode ser usado. Um quadro similar ao quadro da anlise de
varincia pode ser elaborado. Tal quadro pode ser denominado de Anlise de
Deviance (ANADEV) e estabelecido segundo os seguintes passos:

a) Obteno do ponto de mximo do logaritmo da funo de
verossimilhana residual (Log L) para modelos com e sem o efeito a ser
testado;
a) Obteno da deviance D = -2 Log L para modelos com e sem o efeito a
ser testado;
b) Fazer a diferena entre as deviances para modelos sem e com o efeito a
ser testado, obtendo a razo de verossimilhana (LR);
c) Testar, via LRT, a significncia dessa diferena usando o teste qui-
quadrado com 1 grau de liberdade.

Considere como exemplo o seguinte experimento, conduzido no
delineamento de blocos ao acaso com vrias plantas por parcela. Tem-se ento o
seguinte modelo, y = u + g + b + gb + e, em que g refere-se ao efeito aleatrio de
gentipos, b refere-se ao efeito fixo de blocos, gb refere-se ao efeito aleatrio de
parcela e e refere-se ao resduo aleatrio dentro de parcela. A seguinte anlise de
deviance (ANADEV) pode ser realizada.

Efeito Deviance LRT(Qui-quadrado
d
) Comp.Var. Coef. Determ.
Gentipos 647.1794
+
6.5546** 0.032924* h
2
g = 0.0456*
Parcela 654.1289
+
13.5041** 0.068492** c
2
parc = 0.0948**
Resduo - - 0.6206 c
2
res=0.8595
Modelo Completo 640.6248 - - c
2
total=1.0000
Bloco - F = 7.0172** - -
Qui-quadrado tabelado: 3,84 e 6,63 para os nveis de significncia de 5 % e 1 %, respectivamente..
+ Deviance do modelo ajustado sem os referidos efeitos
d
Distribuio com 1 grau de liberdade.

Verifica-se que os efeitos de gentipos e de parcelas so significativos.
Conseqentemente, os respectivos componentes de varincia so significativamente
diferentes de zero, assim como os respectivos coeficientes de determinao
(herdabilidade dos efeitos genotpicos h
2
g e coeficiente de determinao dos efeitos
de parcela - c
2
parc). O fator bloco, considerado de efeito fixo, foi testado via F de
Snedecor. A anlise de devincia uma generalizao (para os casos balanceado e
desbalanceado) da clssica anlise de varincia.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

22

1.6 Derivaes Frequentistas e Bayesianas de Estimadores de Valores
Genticos

a. Minimizao da soma de quadrados dos resduos ou erros de estimao sob
modelo de efeitos fixos e restrio U de no vicio (OLS).
b. Minimizao da soma de quadrados ponderada (comtemplando heterocedasticia)
dos resduos sob modelo de efeitos fixos e restrio de no vicio (WLS).
c. Minimizao da soma de quadrados ponderada (comtemplando heterocedasticia
e erros correlacionados) dos resduos sob modelo de efeitos fixos e restrio de
no vicio (GLS).
d. Maximizao da funo de verossimilhana de y (ML; BLP emprico).
e. Minimizao do erro quadrtico mdio de estimao sob modelo aleatrio (BLP
se os componentes de varincia so conhecidos).
f. Maximizao da acurcia: maximizao da distribuio conjunta entre g e y (BLP
se os componentes de varincia so conhecidos).
g. Minimizao do erro quadrtico mdio de estimao na classe U sob modelo
misto (BLUP se os componentes de varincia so conhecidos, Krigagem).
h. Maximizao da acurcia na classe U: maximizao (com respeito a g e b) da
distribuio conjunta entre g e ( b X y

) (BLUP se os componentes de varincia


so conhecidos; BLP de g + GLS de b).
i. Maximizao da funo de verossimilhana restrita de ( b X y

) (REML; BLUP
emprico).
j. Maximizao da distribuio a posteriori de g dado y (MAP ou Bayes ou Mdia
condicional a posteriori).
k. GWS: Maximizao da acurcia na classe U: maximizao da distribuio
conjunta entre g e m (RR-BLUP e G-BLUP); m um vetor dos efeitos de
marcadores genticos de DNA.
l. GWS: Maximizao da distribuio a posteriori de g dado m (MAP ou Bayes ou
Mdia condicional).

Existem duas formas frequentistas de derivao do BLUP: (i) pela
minimizao do erro quadrtico mdio de predio (
(

i
i i
g g E
2
) (
) sob restrio de
no vicio; (ii) pela maximizao da funo densidade de probabilidade conjunta do
vetor de dados e do vetor de parmetros. A forma (ii) apresentada a seguir.
Modelo misto
y = Xb + Zg + e

Funo Densidade de Probabilidade de y

)
`

=

) ( )' (
2
1
exp
2
1
) , (
1
2 / 1
) 2 / 1 (
Xb y V Xb y
V
V Xb y f
N
t





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

23


Funo Densidade de Probabilidade Conjunta de y e g
)
`

)
`

=
=

) ' (
2
1
exp
2
1
.
) ( )' (
2
1
exp
2
1
) ( ). ( ) , (
1
2 / 1
) 2 / 1 (
1
2 / 1
) 2 / 1 (
g G g
G
Zg Xb y R Zg Xb y
R
g f g y f g y f
q
N
t
t

A funo densidade de probabilidade conjunta de y e g dada pelo produto
entre a funo densidade de probabilidade condicional de y dado g e a funo
densidade de probabilidade de g, ou seja, f(y,g) = f(y|g) . f(g). Maximizando essa
funo, por meio da derivao da mesma em relao a b e g, e tomando-se as
derivadas identicamente nulas, obtm-se as equaes de modelo misto. importante
reafirmar que a funo a ser maximizada uma funo densidade de probabilidade
conjunta de y e dos parmetros e no uma funo de verossimilhana ( ) ( g y f ).
Detalhes dessa derivao so apresentados por Lopes et al. (1998) e Martins et al.
(1997;1998).
A predio usando BLUP assume que os componentes de varincia so
conhecidos. Entretanto, na prtica, so necessrias estimativas fidedignas dos
componentes de varincia (parmetros genticos) de forma a se obter o que se
denomina BLUP emprico (Harville e Carriquiry, 1992). O procedimento
recomendado para estimao de componentes de varincia o da mxima
verossimilhana restrita (REML), desenvolvido por Patterson e Thompson (1971).

Teorema de Bayes (em termos de Eventos)

Probabilidade condicional: Se A e B so eventos em um dado espao de
probabilidade, a probabilidade condicional de um evento A dado o evento B, indicado
por P[A,B] definida por:
0, P[B] se
P[B]
B] P[A,
] P[ B A > =
Probabilidade Conjunta: a partir da frmula da probabilidade condicional obtm-se a
frmula da probabilidade conjunta dada por
P[A,B]=P[B] . P[ B A ]=P[A] . P[ A B ].

Teorema de probabilidade total: para um dado espao de probabilidade se B
1
, B
2
, ..., B
n

uma coleo de eventos mutuamente disjuntos satisfazendo:
| | ento n j para B P e B
j
n
j
j
..., , 2 , 1 0
1
= ) = O


| | | | | | | | A P B P B A P A P
j
n
j
j
= =

1
, em que O o espao amostral.

Teorema de Bayes: a partir da frmula da probabilidade conjunta e da probabilidade
total obtm-se:
| |
| |
| |
| | | |
| | | |
.
Pr
Pr ,
1
Total e obabilidad
Conjunta e obabilidad
B P B A P
B P B A P
A P
B A P
A B P
j
n
j
j
k k
k
=

= =


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

24



Funo Densidade de Probabilidade e Expectncia

Uma varivel aleatria contnua no possui uma funo de probabilidade que
associe probabilidades a cada ponto ou valores de seu domnio. Estas probabilidades
so calculadas para intervalos de valores do domnio atravs de uma funo
densidade de probabilidade. A funo f(Y) uma funo densidade de probabilidade
desde que satisfaa s condies:
(i) dy y f b Y a P
b
a
}
= < < ) ( ) ( (ii) 1 ) ( =
}


dy y f
Uma varivel com distribuio Normal ou Gaussiana com parmetros (mdia)
e
2
o (varincia), tem como funo densidade de probabilidade:
0 e , y , ) u y (
2
1
exp
) 2 (
1
) y ( f
2
2 2 / 1 2
> o 9 e 9 e
)
`

to
=


Formalmente, os momentos dos dados equivalem aos valores esperados de uma
funo de uma varivel aleatria. Sendo Y uma varivel aleatria e g() uma funo
com domnio e contradomnio reais, define-se expectncia ou valor esperado g() da
varivel aleatria Y, a funo E [g(Y)] dada por:
(i)
) ( ) ( )] ( [ y P Y g Y g E
Y
Y
=
se Y uma varivel aleatria discreta;
(ii)
dy y f Y g Y g E
Y
) ( ) ( )] ( [
}


=
se Y uma varivel aleatria contnua com
funo densidade de probabilidade ) ( y f
Y
.
Assim, tem-se:
a) Se g (Y) = Y, ento, E[g(Y)] = E(Y) =
Y
: primeiro momento;
b) Se g (Y) = Y
2
, ento, E[g(Y)] = E(Y
2
): segundo momento;
c) Se g (Y) = Y
3
, ento, E[g(Y)] = E(Y
3
): terceiro momento;
d) Se g (Y) = Y
4
, ento, E[g(Y)] = E(Y
4
): quarto momento;
e) Se g (Y) = (Y-0), ento, E[g(Y)] = E(Y) =
Y
: primeiro momento
centrado em zero (mdia);
f) Se g (Y) = (Y-
Y
)
2
, ento, E[g(Y)] = E(Y-
Y
)
2
=Var(Y): segundo
momento centrado na mdia (varincia).

Os momentos de uma varivel aleatria ou de sua correspondente distribuio
so as potncias das esperanas. O r-simo momento de uma varivel aleatria Y
usualmente indicado por M
r
e definido por M
r
= E(Y
r
) se a esperana existe. O r-
simo momento central de uma varivel aleatria Y em torno de a definido como
E[(Y-a)
r
]. Se a =
Y
, tem-se o r-simo momento central de Y em torno da mdia
Y
.
Assim:
M
1
= E[(Y-
Y
)] = 0: primeiro momento central;
M
2
= E[(Y-
Y
)
2
] = Var (Y): segundo momento central.

A varincia de uma varivel aleatria Y com esperana E(Y) =
Y
definida por:
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

25

(i)
) ( ) ( ) (
2 2
y P Y Y Var
Y
Y
Y Y
= = o
se Y discreta;
(ii)
dy y f Y Y Var
Y Y Y
) ( ) ( ) (
2 2
}


= = o
se Y contnua.

Funo Densidade Marginal

Uma funo densidade marginal de uma varivel Y
1
com respeito outra varivel Y
2

refere-se aos valores assumidos por Y
1
independente dos valores assumidos por Y
2
.
Nesse caso, a distribuio marginal Y
1
dada por
2 2 1 1
) , ( ) ( dy y y f y f
}


=
, donde se v que
y
2
integrada (tendo eliminada a sua influncia) na funo. Assim, y
2
considerada
varivel de distrbio.

Funo Densidade Condicional

Uma funo densidade condicional de uma varivel Y
1
com respeito outra varivel
Y
2
refere-se aos valores assumidos por Y
1
quando Y
2
assume um valor constante.
Nesse caso, a distribuio condicional dada por
) ( / ) , ( ) (
2 2 1 2 1
y f y y f y y f =
, onde ) (
2
y f
a densidade marginal da varivel Y
2
, a qual fixada em um determinado valor.

A esperana condicional de Y
1
dado Y
2
uma regresso de Y
1
em Y
2
, dada por
) )( arg / ( ) )( / ( ) ( ) (
2 2 2 2 1 1 2 2
2
2 2 1 1 2 2 1 2 2 1
o o | + = + = + = = y inal m conjunta y y y Y Y E
y y y y y y

Estimao Bayesiana

A estimao Bayesiana difere da estimao por mxima verossimilhana (ML)
devido ao fato de se maximizar a distribuio a posteriori do parmetro em vez da
funo de verossimilhana. Essa distribuio dita condicional do parmetro dadas
as observaes (y) e proporcional ao produto da funo de verossimilhana pela
distribuio a priori do parmetro. De maneira similar ML, possvel tambm
maximizar a funo densidade a posteriori em relao aos parmetros. Se a
informao a priori encontra-se disponvel a estimao Bayesiana deve ser prefervel
ML.

O princpio bayesiano atribudo postumamente (1763) a Thomas Bayes, que
nunca publicou em vida um trabalho matemtico. No entanto, a base desse princpio
foi publicada antes por Saunderson (1683-1739), um cego professor de tica, que
publicou vrios artigos matemticos.

Ao invs de maximizar a distribuio a posteriori, uma alternativa definir uma
funo de perda, como por exemplo as funes de perda linear e quadrtica, as quais
contemplam respectivamente as diferenas simples e quadrticas entre os valores
estimados e os parmtricos. Minimizar a funo de perda linear equivale a
maximizar a densidade a posteriori (obtendo a moda) e minimizar a funo de perda
quadrtica equivale a maximizar a mdia da distribuio a posteriori. Se a distribuio
a priori no informativa (vaga) e/ou a quantidade de dados muito grande (a
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

26

verossimilhana domina a priori), a estimao bayesiana converge para a estimao
ML, ou seja, ambas so equivalentes.

O Teorema de Bayes, definido em termos de densidades de probabilidade,
tem a seguinte formulao para a distribuio de uma varivel aleatria contnua:

( )
( )
( )
.
) (
) (
) (
) , (
}
= =
u u u
u u u
u
d f y f
f y f
y f
y f
y f
R
(1)

u : vetor de parmetros

f(u): funo densidade de probabilidade da distribuio a priori, que tambm a
densidade marginal de u. Esta funo denota o grau de conhecimento acumulado
sobre u, antes da observao de y.

y : vetor de dados ou de informaes obtidas por amostragem.

f(y|u): funo densidade de probabilidade da distribuio condicional de uma
observao (y) dado u (denominada funo de verossimilhana ou
modelo para os dados).

) , ( u y f = f(y|u) f(u) : funo densidade conjunta de y e u.

f(u|y): distribuio condicional de u dado y, ou distribuio a posteriori (que a base
da estimao e predio bayesiana).

A Figura a seguir (em que y foi substitudo por X) ilustra essas distribuies.



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

27

( ) ( ) | | ) ( ) ( ) , ( u u u u u u
u
| = | = =
} }
y f E d f y f d y f y f
R R
- distribuio marginal ou
preditiva de y com respeito a u, onde R a amplitude da distribuio de u. E
u

significa esperana com respeito distribuio de u. (A integrao da distribuio
conjunta, no espao paramtrico de u, produz a marginal de y). A funo ( ) y f
denominada funo de verossimilhana ponderada (por ( ) u f ) sobre a distribuio de
u. A marginal de y independente de u, o qual integrado para fora da funo.

Como f(y) no funo de u (ou seja, f(y) constante para qualquer u), a
forma usual da formulao de Bayes : f(u|y) o f(y|u) f(u), onde o indica
proporcionalidade. Dessa forma, f(u|y) no integra 1.

A expresso (1) advm das expresses f(u,y) = f(y|u) f(u) e f(u,y)=f(u|y)
f(y), as quais so obtidas a partir do teorema da probabilidade condicional.

Em termos de estimao, enquanto para a estatstica freqentista podem
existir vrios estimadores para um determinado parmetro, para a estatstica
bayesiana existe, em princpio, um nico estimador, o qual conduz a estimativas
que maximizam a funo densidade de probabilidade a posteriori. Assim,
inferncias sobre u so realizadas a partir da densidade a posteriori atravs da
expresso geral
( )
}
| = | u u u d y f y p
R
) (
, onde p denota probabilidade (Gianola &
Fernando, 1986).

Ao nvel do i-simo elemento do vetor u, a esperana condicional de u
i

dado y
}
}
|
|
u u u
u u u u
d f y f
d f y f
R
i R
) ( ) (
) ( ) (
, o qual o usual estimador bayesiano de u
i
.
Verifica-se que a predio dos valores genticos ( g = u ), a partir dos dados
fenotpicos (y), baseia-se na mdia condional ou regresso de g em y, dada por:
dg g y f dg g y f g y g E ) , ( / ) , ( ) (
} }
= , em que:
) , ( g y f : funo densidade da distribuio de probabilidade conjunta de y e g.
Com dados desbalanceados, independentemente da distribuio, o
ordenamento dos candidatos com base em E(g,y) e a seleo daqueles com os maiores
valores, maximiza a mdia dos indivduos selecionados, conforme demonstrado por
Fernando & Gianola (1986).

Em inferncia bayesiana no existem parmetros de efeitos fixos, mas apenas
variveis aleatrias. Tais variveis so estimadas, diferentemente da abordagem
frequentista, em que os efeitos aleatrios so preditos e os efeitos fixos e
componentes de varincia so estimados. Na inferncia bayesiana os parmetros tm
uma distribuio de probabilidade enquanto na inferncia frequentista (com fatores
de efeitos fixos) os estimadores dos parmetros que tm uma distribuio de
probabilidade.


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

28

Relao entre Blup e Estimadores Bayesianos

Alm das distribuies (normais) adotadas para os efeitos aleatrios (g) no
modelo linear clssico e para a verossimilhana do vetor de observaes (y), a
abordagem bayesiana requer atribuies para as distribuies a priori dos efeitos
fixos e componentes de varincia. A atribuio de distribuies a priori no
informativas ou uniformes para os efeitos fixos e componentes de varincia uma
forma de caracterizar um conhecimento a priori vago sobre os referidos efeitos e
componentes (Gianola & Fernando, 1986; Silva et al., 2008; 2011).

Quanto estimao dos efeitos fixos (efeitos de blocos completos, por
exemplo) e de efeitos aleatrios (valores genticos), tem-se que as mdias das
distribuies marginais a posteriori dos parmetros de locao (efeitos fixos e
aleatrios), dados os componentes de varincia ou parmetros de disperso
conhecidos, equivalem s solues das equaes do modelo misto do BLUP, desde
que: sejam atribudas prioris no informativas para os efeitos fixos, prioris normais
para os efeitos aleatrios e verossimilhana normal para o vetor de observaes.

Uma vez que a distribuio a posteriori resultante simtrica e unimodal
(normal), a moda, a mediana e a mdia so idnticas e uma grande classe de funes
de perda comum (funo de perda quadrtica, funo de perda absoluta ou funo de
perda uniforme) conduz ao mesmo estimador. Determinando a moda obtm-se o
vetor mdio da distribuio conjunta a posteriori, por maximizao e no integrao.
Obtm-se ento:
(
(

+
+
=
(

+
+




0 ) ( '
'
) (
) (
' '
' '
2 1 1
1
1 1
2 1 1 1
1 1 1
g g
A y R Z
r S y R X
y g E
y b E
A Z R Z X R Z
Z R X S X R X
o o
, em que r
1
= E(b) e 0 = E (g).

Essa derivao da metodologia BLUP, sob o enfoque bayesiano baseia-se na
combinao de dois estimadores (fontes de informao) independentes. Neste caso,
as equaes resultantes so denominadas equaes de modelo misto de Robertson
(Resende e Rosa-Perez, 1999).

Tomando a distribuio a priori sobre os efeitos fixos como no informativa
(expressa como S e ento 0 S
1

), tem-se que esta equao resultante equivale s


equaes do modelo misto do BLUP:
(

=
(



y R Z
y R X
g
b
A Z R Z X R Z
Z R X X R X
g
1
1
2 1 1 1
1 1
'
'

' '
' '
o

Essa equao pode ser derivada tambm pela maximizao de f (y, ) para
variaes em (em que = b;g), sendo o estimador, neste caso, denominado mximo
a posteriori (MAP). Sendo P(g|y) = probabilidade de g dado y, o mximo a posteriori
(MAP) de g dado pela maximizao de P(g|y). Quando g e y seguem uma
distribuio normal multivariada, o MAP de g equivalente ao BLUP de g. A prova
disso apresentada a seguir.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

29

Se Y ~N (, V), ou seja, P (Y) =
) ( )' (
2
1
2 /
2 /
1
) 2 (
1
t


y V y
n
n
e
V
em que n =
ordem de y, tem-se usando o teorema de Bayes:
( )
( )
( ) ( ) ( ) ( ) y P g P g y P y g P
y P
g P g y P
y g P
+ =
=
log log log
) (
) (

+ =

g A g
n
G Zg X y R Zg X y R
n
1 1
'
2
log
2
1
) ( )' (
2
1
log
2
| |
constante
y R Z g G Z R Z X R Z g G g Z X y R Z
g
y R X g Z R X X R X g Z X y R X
B
1 1 1 1 1 1
1 1 1 1
' ) ' (

' 0 )

( '
' '

' 0 )

( '


= + + =
c
c
= + =
c
c
| |
| |

Esta ltima expresso equivalente ao BLUP de g.

Relao entre Estimadores de Mxima Verossimilhana (ML) e Bayesianos

O objetivo do mtodo ML encontrar um conjunto de parmetros que maximizam
a verossimilhana de um modelo, dado uma coleo de observaes. A
verossimilhana para um determinado modelo pode ser escrito como uma funo.
Segundo os fundamentos de clculo matemtico, para encontrar o mximo dessa
funo, deve-se tomar a primeira derivada ou diferencial dessa funo e igualar o
resultado a zero. Isto propicia o conjunto de parmetros que conduzem a funo a um
ponto crtico mximo, desde que no se tenha atingido um ponto de mnimo. Isto pode
ser verificado usando o sinal da derivada segunda. Sinal positivo da derivada segunda
indica concavidade para cima, ou seja, ponto de mnimo. Sinal negativo da derivada
segunda indica concavidade para baixo, ou seja, ponto de mximo.

Considerando como uniforme a distribuio a priori dos parmetros em b a
serem estimados e maximizando (obtendo a moda) a distribuio a posteriori, o
estimador resultante equivalente ao de mxima verossimilhana ML (Henderson,
1984; Gianola & Fernando, 1986). De fato, maximizando f (g,b) (mas considerando
uma priori no informativa para b) com respeito a g e b obtm-se um estimador
denominado de mxima verossimilhana, por Henderson et al. (1959), embora f(g,b)
no seja uma funo de verossimilhana e sim uma densidade a posteriori. Mesmo
assim, pode ser obtido a partir das equaes do modelo misto que
b y V X X V X y b E

' ) ' ( ) (
1 1 1
= = ,

e
g Xb y V GZ y g E ] [ ' ) (
1
= =

em que b

um estimador
GLS e tambm ML de b e g um estimador ML de E(g|b, y), equivalendo mdia
da distribuio condicional na qual b fixado.





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

30


Implementao Prtica da Anlise Bayesiana
Os resultados de interesse gerados pela anlise Bayesiana so, em geral, as
distribuies marginais a posteriori dos parmetros de interesse. Posteriormente,
inferncias baseadas na mdia, mediana, moda e desvios padres destas
distribuies so realizadas na prtica.
O problema bsico da implementao da anlise Bayesiana refere-se
integrao numrica. A integrao (no espao do parmetro) da funo densidade
de probabilidade a posteriori, por exemplo:
u u u u
u
d y p g y g E
R
) ( ) ( ] ) ( [
}
=
, onde:
u u = ) ( g , para obteno da mdia a posteriori e
) ( , ) ( ) (
2
y E g u u u = = , para obteno da varincia a posteriori ou risco de
Bayes, pode ser realizada atravs dos mtodos (Gamerman, 1996): (i) analtico
para aproximao de integral; (ii) automticos ou de quadratura; (iii) simulao
estocstica para obteno de distribuies a posteriori, a qual descrita em tpico
seguinte.

1.7 Estimao de Componentes de Varincia

Embora o problema central da avaliao gentica seja a estimao de
componentes de mdias (valores genticos), os quais so obtidos via integrao
(clculo de esperana matemtica) de funes, os componentes de varincia so um
problema tangencial avaliao gentica e so tambm essenciais em outras etapas
do melhoramento gentico. Os componentes de varincia podem ser obtidos via
integrao ou derivao (maximizao) de funes. Na Tabela 8 so apresentados os
principais mtodos de estimao de componentes de varincia. Em cada linha da
tabela o primeiro autor citado refere-se ao trabalho mais influente e os demais referem-se
a trabalhos bsicos e/ou tericos que complementam o tema.

Tabela 8. Evoluo dos mtodos de estimao de componentes de mdias (valores genticos).
Mtodo Autores Modelo Estrutura de
Varincias
Distribuio das
Varincias
ANOVA Henderson (1953);
Fisher (1925)
Fixo, funo para y ) , 0 ( ~
2
e
I N e o -
ML Hartley e Rao (1967);
Fisher (1922)
Aleatrio, funo para y ) , 0 ( ~
2
e
I R N e o =
) , 0 ( ~
2
g
A N g o

-
REML Patterson e Thompson
(1971); Thompson
(1969; 1973)
Misto, funo para (y-Xb) ) , 0 ( ~
2
e
I R N e o =
) , 0 ( ~
2
g
A N g o

-
BAYES- MCMC Geman e Geman
(1984); Gelfand e Smith
(1990)
Aleatrio, distribuio a
posteriori
) , 0 ( ~
2
e
I N e o

) , 0 ( ~
2
a
A N a o

) , ( ~
2 2 2
e e e
S v _ o

) , ( ~
2 2 2
a a a
S v _ o


Uniforme se
0 ; 2
2
= =
i i
S v

G-REML ou
REML/G-BLUP
Van Raden (2008);
Misztal et al. (2010)
Misto, funo para (y-Xb)
com regresso em
covariveis (marcas)
aleatrias ou G como
matriz de parentesco
genmico
) , 0 ( ~
2
e
I R N e o =
) , 0 ( ~
2
g
G N g o

-

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

31

A variao fenotpica devida a efeitos genticos e ambientais. Os efeitos
genticos podem ser decompostos em efeitos de um conjunto de genes de efeitos
menores (poligenes) e efeitos atribudos a genes maiores ou regies genmicas
especficas. A distino entre esses trs tipos de efeitos, bem como a decomposio da
variao fenotpica total de um carter em funo desses trs componentes, tem se
tornado essencial aos programas de melhoramento gentico de plantas e animais. Os
efeitos ambientais podem ser desmembrados em independentes e correlacionados.

Os mtodos padres para estimao desses componentes de varincia tm sido o
da mxima verossimilhana residual (REML) e o da estimao Bayesiana (MCMC).
Aplicados sobre dados fenotpicos combinados com informaes de marcadores
genticos e de genealogia, esses mtodos permitem a separao da varincia gentica
associada a todo genoma daquela associada a regies cromossmicas especficas,
conduzindo deteco de genes individuais. Quando aplicado usando apenas a
informao de ligao gnica em anlise dentro de famlia, geralmente no conduz a
mapeamento suficientemente preciso para permitir resoluo ao nvel molecular.
Entretanto, a inferncia sobre o parentesco gentico entre indivduos usando as
informaes sobre desequilbrio de ligao marcadores-QTL em toda a populao,
contribui para a melhoria da resoluo.

Mxima Verossimilhana (ML)

O mtodo da mxima verossimilhana baseia-se na obteno do ponto de
mximo de uma funo de verossimilhana (que a funo densidade de
probabilidade conjunta dos pontos amostrais). E este mximo obtido por derivao
da funo de verossimilhana (L) em relao ao parmetro de interesse. Assim, o
estimador ML maximiza a verossimilhana do parmetro dado a funo densidade
de probabilidade e o conjunto de dados. O ponto de mximo da funo de
verossimilhana mais facilmente encontrado quando se toma o logaritmo natural
dessa funo. Isto porque, com essa transformao, o produtrio em L= (u;y)
transforma-se em somatrio, fato que torna os clculos mais tratveis. No presente
texto, as denominaes Log e Log
e
denotam a mesma coisa, ou seja, o logaritmo
natural ou na base e.

O mtodo ML foi desenvolvido por Fisher (1922), mas somente aps cerca de
45 anos, Hartley e Rao (1967) apresentaram a especificao matricial de um modelo
misto e a derivao de equaes ML para vrias classes de modelos. Os trabalhos de
Henderson (1953) usando quadrados mnimos tiveram grande impacto no
desenvolvimento dos mtodos de estimao de componentes de varincia a partir de
dados desbalanceados, estimulando principalmente os trabalhos de Hartley e Rao.
Embora viciado, o procedimento ML computacionalmente mais simples que o
mtodo REML (descrito a seguir) e, em determinadas situaes, apresenta eficincia
satisfatria. O vcio pode ser considervel se o nmero de equaes independentes
(posto de X, em que X a matriz de incidncia dos efeitos fixos), para os efeitos
fixos, for relativamente grande em relao ao nmero (N) de observaes. Quando o
posto de X pequeno em relao a N, os mtodos ML e REML conduzem a
resultados similares, conforme verificado por Resende et al. (1996) e Duarte e
Vencovsky (2001).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

32

Mxima Verossimilhana Restrita (REML)

O mtodo REML foi desenvolvido e melhorado pelo pesquisador Robin
Thompson e co-autores na Inglaterra. Tal mtodo (Patterson & Thompson, 1971)
surgiu a partir de esforos na obteno de melhores estimadores de componentes de
varincia para dados no ortogonais e desbalanceados (Thompson, 1969).
Posteriormente, foi estendido para modelos multivariados (Thompson,1973) e
melhorado em termos do algoritmo de estimao via informao mdia (AI-REML)
(Johnson & Thompson, 1995), visando a incorporao em softwares de excelncia
como o GENSTAT e o ASREML (Gilmour, Thompson e Cullis, 1995).

O mtodo REML propicia uma correo ao ML, eliminando o seu vcio. No
mtodo REML, somente a poro da verossimilhana que invariante aos efeitos
fixos (especificados no vetor |) maximizada. Assim, o REML mantm as demais
propriedades do ML, no viciado e permite tambm a imposio de restries de
no negatividade. Dessa forma, o REML o procedimento ideal de estimao de
componentes de varincia em modelos mistos. No mtodo REML, os componentes
de varincia so estimados sem serem afetados pelos efeitos fixos do modelo e os
graus de liberdade referentes estimao dos efeitos fixos so considerados,
produzindo estimativas no viciadas (Resende, 2007).

O mtodo REML divide os dados em duas partes: contrastes dos efeitos
fixos; e contrastes dos erros (isto , todos os contrastes com esperana zero) os quais
contm informaes somente sobre os componentes de varincia. Apenas os
contrastes dos erros so ento usados para estimar os componentes de varincia, uma
vez que eles contm todas as informaes disponveis sobre os parmetros de
varincia. Isto feito pela projeo dos dados no espao residual ou espao vetorial
dos contrastes dos erros. Os dados projetados tm Log L dado por
)

( )

( log log log 2 log )] ( [ 2


1 1
b X y V b X y V X XV X X X r N RL + + + =

t , em que N
o nmero de dados e r(X) o posto da matriz de incidncia dos efeitos fixos. Os
componentes de varincia so ento estimados pela maximizao do logaritmo da
funo RL dos dados projetados.

O Log L dos dados originais dado por
) ( ) ( log 2 log 2
1
Xb y V Xb y V N L + + =

t
.
A funo RL tem termos adicionais em relao a L. O nico termo adicional
relevante para a estimao de componentes de varincia X XV
1
log

, o qual
efetivamente remove os graus de liberdade usados na estimao dos efeitos fixos.
Essa diferena entre RL e L reflete exatamente a diferena entre REML e ML
(Resende, 2007). Quando o modelo inclui tambm outros efeitos fixos, alm da
mdia geral, o mtodo REML deve ser usado em vez do ML.

Sob o enfoque frequentista o REML derivado por meio da marginalizao da
verossimilhana atravs dos efeitos fixos. Pelo enfoque Bayesiano o REML obtido
por meio da integrao atravs dos efeitos fixos e outros efeitos aleatrios.



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

33

1.8 Estimao Bayesiana de Componentes de Varincia e relao com
ML e REML

No contexto dos modelos lineares mistos, os valores genticos (u
1
=g) so
preditos simultaneamente estimao dos efeitos fixos (u
2
=b) e dos componentes de
varincia (u
3
=
2
i
o ). Na abordagem bayesiana, a avaliao gentica pode ser obtida, de
maneira geral, pela construo da densidade a posteriori f (u
1
, u
2
, u
3
,y) e, se
necessrio, pela integrao de f (u
1
, u
2
, u
3
,y) em relao a u
2
e u
3
.

Estes (u
2
e u
3
)

so
denominados parmetros de nuisance e, por isso, devem ser integrados fora, exceto u
2

em alguns casos, onde o mesmo constitui-se em uma parte integrante da funo de
mrito total (neste caso, a funo de mrito depende da combinao linear de u
1
e u
2
).
A obteno de u
1
requer a integrao ou o conhecimento de u
2
e u
3
. Henderson
(1973) props o mtodo BLUP para situaes em que u
3
conhecido e u
2
no o . Para
situaes em que u
3
no conhecido, este autor sugeriu que o procedimento de
mxima verossimilhana (ML) propiciaria estimativas razoveis. Conforme Gianola
& Fernando (1986), argumentos bayesianos, que no requerem normalidade e
linearidade, permitem validar a intuio de Henderson.
A distribuio de u
1
, u
2
, e u
3
, dado y proporcional a f (u
1
, u
2
, u
3
,y) o f (y,u
1
, u
2
,
u
3
) . f (u
1
, u
2
, u
3
). Concentrando o interesse em u
1
(o vetor de valores genticos), deve-
se integrar u
2
e u
3
por meio de
3 2 3 2 3 2 1 R R 1
d d ) y , ( f ) y , , ( f ) y ( f
3 2
u u u u u u u = , u
} } u u
.
Tomando a distribuio conjunta a posteriori de forma que a maioria da densidade
esteja na moda )

(
3 2
u u , tem-se: ) y ,

( f ) y ( f
3 3 2
2
1 1
u = u u = u u = , u .
Usando prioris no informativas para u
2
e u
3
, tem-se que
3 2

u u so
precisamente estimadores ML de u
2
e u
3
, pois neste caso f(u
2
, u
3
,y) o f(y,u
2
, u
3
), ou
seja a densidade de u
2
e u
3
dado y proporcional funo de verossimilhana, de
forma que a moda da posteriori conjunta corresponde ao mximo da funo de
verossimilhana, produzindo estimadores ML (Resende, 2000).
Uma abordagem alternativa para inferncia sobre u
1
consiste em obter
3 3 3 2 1 2 1

onde ), y ,

, ( f ) y , ( f u u = u , u u = , u u
refere-se moda da densidade marginal de u
3
,
dado y. Para obteno de
3

u deve-se integrar u
2
em ) , y ( f ) y , ( f
3 2 3 2
u u , o , u u e ento
maximizar f(u
3
,y). Usando-se uma priori no informativa para u
3
, sob
normalidade
3

u um estimador de mxima verossimilhana restrita (REML) para


u
3
(Harville, 1977). Assim, se o interesse reside na inferncia conjunta para u
1
e u
2

basta usar
) y ,

, ( f ) y , ( f
3 3 2 1 2 1
u = u , u u = , u u
, que sob normalidade equivalente soluo
das equaes de modelo misto com u
3
substitudo pelas estimativas REML de u
3

(desde que se tenha usado prioris no informativas para u
2
e u
3
) (Resende, 1999).
Utilizando-se distribuies a priori no informativas para os efeitos fixos e
componentes de varincia, as modas das distribuies marginais a posteriori dos
componentes de varincia correspondem s estimativas obtidas por REML.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

34

Inferncias sobre componentes de varincia devem ser baseadas em f(u
3
,y) o
f(y,u
3
) . f(u
3
), em que u
3
contm varincias e, portanto, f(u
3
,y) definida na
amplitude (0, ) para cada um dos elementos de u
3
, de forma que nunca surgem
problemas de estimativas negativas de componentes de varincia (Box & Tiao, 1973).
f(u
3
,y) obtida integrando-se u
1
em f(u
1
, u
2
, u
3
,y) produzindo f(u
2
, u
3
,y) e integrando-
se u
2
nesta ltima. Neste caso, f(u
2
, u
3
,y) conduz aos estimadores ML de u
2
e u
3
e
f(u
3
,y) conduz a um estimador REML de u
3
. Segundo Gianola & Fernando (1986),
isto (eliminao das influncias de u
2
ou dos efeitos fixos) mostra precisamente
porque REML deve ser preferido em relao a ML, ou seja, estes argumentos so
mais fortes do que os apresentados por Patterson & Thompson (1971), que
enfatizaram a propriedade de vcio do ML.
Alm da possibilidade do uso de informao a priori, eliminao de parmetros
de nuisance ou de distoro, a abordagem Bayesiana permite a integrada estimao
predio deciso e a anlise exata de amostras de tamanho finito (Resende, 1997).
Assim, uma maneira inteligente (clever) de fazer inferncia. Outros procedimentos
tradicionais de inferncia so considerados ingnuos (naive) por alguns autores.

1.9 Estimao Bayesiana via MCMC

Dentre as classes de algoritmos para aproximar as integrais, a simulao
estocstica baseada nos mtodos de Monte Carlo largamente indicada e utilizada
para integrao multivariada. Os mtodos de Monte Carlo referem-se a processos de
aproximao de valores esperados (integrais com respeito a uma distribuio de
probabilidade) por meio de amostras, podendo ser referidos tambm como um caso
especial de simulao de um processo estocstico.

Em gentica quantitativa, para implementao prtica da anlise Bayesiana,
uma das maiores dificuldades tcnicas a marginalizao. A obteno de
distribuies marginais por processos analticos praticamente impossvel (Sorensen
e Gianola, 2002). Assim, a obteno da distribuio marginal a posteriori
(marginalizao da distribuio conjunta a posteriori) tem sido obtida pelo mtodo
da amostragem de Gibbs (GS) atravs da amostragem e atualizao das distribuies
condicionais.

O mtodo da amostragem de Gibbs pertence classe de mtodos, denominada
Monte Carlo Cadeias de Markov, a qual sustentada em propriedades das Cadeias
de Markov. O nome Gibbs advm da distribuio de Gibbs, que muito utilizada na
rea de Fsica Estatstica ou Mecnica Estatstica. O amostrador de Gibbs explorando
as distribuies condicionais completas atravs de algoritmo iterativo foi proposto
inicialmente por Geman & Geman (1984) para aplicaes na rea de processamento
de imagens. Entretanto, somente em 1990, este trabalho foi divulgado para toda a
comunidade da rea de estatstica por Gelfand & Smith (1990) que publicaram em
peridico da rea de estatstica, trabalho comparando o amostrador de Gibbs com
outros processos de simulao estocstica.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

35

De maneira genrica, na anlise bayesiana os seguintes passos devem ser
adotados: (i) especificao das distribuies a priori para os efeitos e componentes de
varincia; (ii) especificao da funo de verossimilhana para o vetor de observaes
(distribuio condicional dos dados): (iii) obteno da distribuio conjunta a
posteriori para os efeitos e componentes de varincia; (iv) obteno das distribuies
condicionais completas a posteriori para os efeitos e componentes de varincia; (v)
marginalizao das distribuies condicionais a posteriori para os efeitos e
componentes de varincia. A marginalizao analtica praticamente impossvel,
portanto, mtodos MCMC, como o amostrador de Gibbs, tm sido utilizados para
obter amostras das distribuies marginais a posteriori por meio das distribuies
condicionais completas a posteriori j citadas.

Geralmente so usadas distribuies a priori conjugadas pois, nesse caso, as
distribuies a posteriori resultantes pertencem as mesmas famlias de distribuies
das prioris. Assim, se a priori assume-se que os valores genticos g apresentam
distribuio normal, se ter na posteriori amostras de g tambm provenientes de uma
distribuio normal.

Para ilustrar a aplicao da tcnica da amostragem de Gibbs na avaliao
gentica ser considerado o modelo individual univariado, conforme Resende e Rosa-
Perez (1999) e Resende (2000).

Modelo

y = Xb + Zg + e, onde:
y : vetor de dados, de ordem n.
b : vetor de efeitos fixos, de ordem p.
g : vetor de valores genticos aditivos, de ordem q.
e : vetor de erros, de ordem n.
X, Z : matrizes de incidncia que associam b e g aos dados (y).

Na inferncia bayesiana a formulao do modelo denominada hierrquica
ou em nveis. O primeiro nvel refere-se especificao da distribuio condicional
dos dados em relao aos parmetros, a denominada funo de verossimilhana. O
segundo nvel da hierarquia refere-se especificao das distribuies a priori dos
parmetros da distribuio condicional dos dados.


Definio da distribuio para a verossimilhana

Considera-se, inicialmente, que a distribuio condicional dos dados, dados b, g
e
2
e
o normal multivariada: ) , ( ~ , ,
2 2
e e
I Zg Xb N g y o o | + , onde I a matriz
identidade e
2
e
o a varincia residual. Essa igualdade advem do fato de que
) , 0 ( ~
2
e
I N e o e, fazendo-se Zg Xb y e = , esse novo residuo tem distribuio
) , ( ~
2 2
e e
I Zg Xb N o o + , decorrente da mudana na mdia de 0 para ) ( Zg Xb + .

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

36

Distribuies a priori

Considerando o modelo quantitativo infinitesimal, tem-se que a distribuio de
g tambm normal multivariada:
) , ( ~ ,
2 2
g g
A O N A g o o
, onde A a matriz de
parentesco gentico aditivo e
2
g
o a varincia gentica aditiva na populao base.

Os parmetros de interesse para inferncias so:
2 2
, ,
e g
e g b o o . Para conduzir a
anlise Bayesiana torna-se necessrio especificar as distribuies a priori para
2 2
,
e g
e b o o (a distribuio de g j foi especificada).

Como priori para b pode-se assumir p(b) o constante, que especifica
aproximadamente a noo de conhecimento a priori vago para b. Esta distribuio a
priori imprpria, mas pode-se tornar prpria, desde que se especifique os limites
superior e inferior para p(b).

As distribuies a priori dos componentes de varincia (
2 2
g e
e o o ) poderiam ser
uniforme da forma o o ) ( p
2
i
constante,
) , ( 0
2
max
2
g e i
i
i
= < s o o
, onde, de acordo com
o conhecimento acumulado sobre o carter,
2
max i
o
seria o valor mximo que
2
i
o poderia assumir, a priori. Alternativamente, poderia ser especificada uma priori
mais informativa para os componentes de varincia, considerando uma distribuio
qui-quadrado escalada invertida, da
forma:
) , (
2
exp ) ( ) , (
2
2
) 1 ) 2 / (( 2 2 2
g e i
S
S p
i
i i
i i i i
i
=
(

+
o
u
o o u o
u
, onde u so os graus de
liberdade da distribuio qui-quadrado e
2
i
S , o valor inicial da varincia. Esta
distribuio reduz-se a uma distribuio uniforme imprpria se 0 S e 2
2
i i
= = u .

Uma distribuio a priori f(u) imprpria quando a integral sobre todos os
possveis valores de u no converge:
. d ) ( f u u
}
Entretanto, o interesse principal
reside na distribuio a posteriori e como esta , em geral, prpria mesmo quando a
priori no o , a eventual impropriedade das distribuies a priori no importante.

Distribuio conjunta a posteriori

Definidas estas distribuies, pode-se agora escrever a distribuio conjunta a
posteriori dos parmetros do modelo.
) , , , ( ) , , , ( ) , , , (
2 2 2 2 2 2
e g e g e g
g b y p g b p y g b p o o o o o o o
) , , , ( ) ( ) ( ) ( ) (
2 2 2 2 2
e g e g g
g b y p p p g p b p o o o o o =
, em que se omitiu
o condicionamento nos hiperparmetros (parmetros que auxiliam na especificao
da priori) e na conhecida matriz de parentesco A.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

37

Considerando a distribuio a priori dos componentes de varincia como uma
qui-quadrado escalada invertida, tem-se que a distribuio conjunta a posteriori pode
ser rescrita:
(
(

|
.
|

\
|
+
+

|
.
|

\
|
+
+

2
2 1
1
2
2
2
2
1
2
2 2 2
2
' (
exp
2
) ( )' (
exp ) , , , (
g
g g
q
g
e
e e
n
e e g
S g A g
S Zg Xb y Zg Xb y
y g b p
a
e
o
u
o
o
u
o o o o
u
u

Desejando atribuir distribuio a priori uniforme para ,
2 2
e g
e o o basta fazer
) , ( 0 2
2
e g i S e
i i
= = = u na expresso acima.

Distribuies condicionais a posteriori

Para implementao do GS, deve-se derivar todas as distribuies condicionais
a posteriori a partir da distribuio conjunta a posteriori apresentada acima.
Denominando-se ] ' ' [ ' ] [ , g b e Z X W onde W Zg Xb = = = + u u , tem-se que a matriz
dos coeficientes das equaes de modelo misto dada por C = W W + E, onde
(

=
2 2 1
/ 0
0 0
g e
A o o
. A distribuio condicional a posteriori de u :
y W C por dado que em C N y
e e g
'

), ,

( ~ , ,
2 1 2 2
=

u u o u o o u
, ou seja, pelas equaes
de modelo misto.
Como exemplo, a derivao da distribuio condicional a posteriori para b
i
( o
i-simo elemento do vetor b) conduz a

) ( ' ) ' (

:
), ) ' ( ,

( ~ , , , ,
1
2 1 2 2
Zg b X y X X X b que em
X X b N y g b b
i i i i i
e i i e g i i
=

o o o


i
X

e
i
b

referem-se a X e b excluindo-se o elemento i.



E a distribuio condicional a posteriori de g
i
:
) ) ' ( , ( ~ , , , ,
2 1 1
,
2 2
e i i i i i e g i i
A z z g N y g b g o o o o

+ e pode ser escrita tambm como


) , ( ~ , , , ,
2 2
i i e g i i
PEV g N y g b g o o

.

Marginalizao das distribuies condicionais por amostragem dos parmetros de
locao

Consiste em amostrar das condicionais a posteriori acima, para cada elemento de b e
g.

Marginalizao das distribuies condicionais por amostragem dos parmetros de
disperso

Tendo amostrado todos os parmetros de locao do modelo, deve-se computar:
) ( )' (
) 1 ( ) 1 ( ) 1 ( ) 1 ( ) 1 (
Zg Xb y Zg Xb y SS
e
=
) 1 ( 1 ) 1 ( ) 1 (
)' ( g A g SS
g

=
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

38

A primeira iterao do amostrador completada, retirando-se os componentes
de varincia, usando :
) 1 ( ) 1 (
e g
SS e SS
2
2
) 1 ( 2 2
~ , , ,

q g e g
SS y g b _ o o

2
2
) 1 ( 2 2
~ , , ,

n e g e
SS y g b _ o o
A segunda iterao inicia-se atravs de atualizaes das equaes de modelo
misto com
2 2
/
g e
o o o = , onde
2 2
g e
e o o so os valores amostrados acima.

As bases para essas expresses vm da distribuio qui-quadrado dada por uma
razo entre varincias:
2
0
2
0
2
2
0
o o
_
S SS

= =
, em que
0
um hiperparmetro referente ao grau de confiana no
componente de varincia a priori
2
0
S
. Dessa expresso tem-se que
0
2
0
S SS = e que
2
0
2
0 2
0

S
_
o =
, que a distribuio (qui-quadrado invertida escalada) ou densidade a priori
para o componente de varincia
2
o
. Assim,
2 2
0
~

SS _ o
, conforme usado acima e
derivado de
2
~
2 2 2
~
~
~ , , ,

e
e e g e
S y g b
u
_ u o o e
2
~
2 2 2
~
~
~ , , ,
g
g g e g
S y g b
u
_ u o o .
Associado a uma varivel qui-quadrado invertida escalada tem-se as seguintes mdia
e varincia:
2
0
0
2
0
0
2
0
2

S
= ) S E(
e
) 4 ( 2) (
) ( 2
0
2
0
2
0
2
0
0
2
0
2

S
= ) S E(
.
Algoritmo GS

Em termos mais simples, o algoritmo GS pode ser apresentado de forma
resumida:

1. Fornecer os valores iniciais dos parmetros de locao e disperso do
modelo. Estes valores iniciais podem ser calculados atravs de
procedimentos padres tais como a estimao de componentes de varincia
por REML ou quadrados mnimos. Considerando a mdia geral y como
nico efeito fixo, pode-se calcular y como a mdia aritmtica das
observaes e ( ) y y h g
i i
=
2
. Devem ser fornecidos os valores iniciais para
2 2 2 2
/ , , ,
g e g e i i
e g y o o o o o = .
2. Gerar valores para os efeitos fixos. Sendo o nico efeito fixo, a mdia geral,
tem-se:
2 / 1
) /(

n rnd y y
e
o + =
3. Gerar valores para os efeitos aleatrios:
2 / 1 2 2

] ) 1 [(
g g g i
r rnd g g o + = , onde
g g
r


a acurcia dada por
2 / 1 2 2

) / 1 (
g i g g
PEV r o = , onde PEV
i
o isimo elemento da
inversa da matriz dos coeficientes das EMM multiplicado por
2
e
o .
4. Calcular a soma de quadrados do resduo (SSE) e a varincia residual
2
e
o .
Considerando que a distribuio a priori para a varincia residual a inversa de
uma qui-quadrado, tem-se:
2
)

(
i i
g y y SSE =
2
2
n
e
X
SSE
= o

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

39

5. Gerar um valor para a varincia dos efeitos aleatrios de valores genticos.
2
1
2
'
q
g
X
g A g

= o

6. Calcular o novo valor do parmetro
2
2

g
e
o
o
o =
7. Repetir os passos de (2) a (6) at que se obtenha a convergncia da cadeia.

Diagnstico de Convergncia

Para a inferncia bayesiana sobre os parmetros de interesse pode empregar-se
a tcnica da amostragem de Gibbs. O principal aspecto deste procedimento refere-se
ao fato de as inferncias basearem-se na distribuio marginal a posteriori dos
parmetros, sendo que a marginalizao da distribuio conjunta a posteriori obtida
via o amostrador de Gibbs atravs de amostragens e atualizaes das distribuies
condicionais. A abordagem bayesiana baseia-se ento na construo da distribuio
marginal a posteriori de um parmetro de interesse tratando-o como uma varivel
aleatria e aplicando clculo de probabilidades. Este procedimento implica problemas
multidimensionais, uma vez que todos os outros parmetros do modelo devem ser
integrados (eliminados), fato que raramente possvel usando os mtodos numricos
padres.

O procedimento iterativo da amostragem de Gibbs refere-se a uma tcnica de
integrao estocstica que cria uma cadeia de Markov, que uma distribuio
(conjunta a posteriori) estacionria associada distribuio a posteriori de interesse.
Tomando-se amostras, iterativamente, das distribuies condicionais a posteriori,
com contnua atualizao, obtm-se a distribuio conjunta a posteriori em equilbrio
e, aps um nmero de iteraes suficientemente grande, a ltima amostra desta
seqncia e qualquer amostra subseqente uma amostra da distribuio marginal
requerida. Este resultado implica que cada coordenada do vetor de amostras retiradas,
] [
) ( 2 ) ( 2 n
e
n
g
n n n
g b o o u =
, uma amostra da distribuio marginal a posteriori
apropriada. Em resumo, antes do equilbrio amostra-se da distribuio condicional
completa e aps o equilbrio amostra-se da distribuio marginal f(u
i
,y).

As cadeias de Markov esto inseridas no contexto da teoria dos processos
estocsticos, teoria esta, definida como a parte dinmica da teoria de probabilidades,
onde se estuda uma coleo de variveis aleatrias, com respeito a sua
interdependncia e comportamento limite. Para a inferncia bayesiana, de maior
relevncia o estudo do comportamento assinttico da cadeia, quando o nmero de
iteraes tende a , uma vez que a inferncia deve ser baseada na distribuio (a
posteriori) estacionria, ou seja, em equilbrio.

medida em que o nmero de iteraes aumenta, a cadeia se aproxima da
condio de equilbrio. Dessa forma, necessrio considerar a convergncia em uma
determinada iterao cuja distribuio esteja prxima da distribuio em equilbrio
(atingido teoricamente quando n ), ou seja, aps um nmero suficientemente
grande de iteraes.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

40

A forma bsica de obter uma amostra de tamanho m da posteriori produzir m
cadeias independentes (geradas a partir de m valores iniciais diferentes) e, aps a
convergncia, retirar os valores da ltima iterao de cada cadeia. Outra opo
consiste em retirar m amostras da mesma cadeia aps a convergncia, visto que se
estar amostrando da distribuio a posteriori em equilbrio. Neste ltimo caso,
importante relatar que as amostras sucessivas no so independentes, de forma que
se torna necessrio descartar vrias iteraes entre cada duas amostras a serem
salvas. Como o processo markoviano, a dependncia diminui com o aumento da
distncia entre iteraes, obtendo-se, assim, independncia entre as amostras salvas.

Considerando a segunda opo, no contexto do diagnstico da convergncia,
tornam-se relevantes as quantidades: M = nmero de iteraes pr-convergncia ou
perodo de descarte ou perodo de aquecimento da cadeia (burn in); N = nmero de
iteraes aps a convergncia; K = nmero de iteraes entre amostras sucessivas ou
intervalo entre amostras (thin). O tamanho total da cadeia dado por T = M + N.

O valor de K pode ser determinado calculando as autocorrelaes na srie de
valores gerados e verificando a partir de qual ponto pode-se considerar as
autocorrelaes como nulas. Uma vez que o valor de K muito menor que o de M, os
mtodos baseados em uma nica cadeia (mais longa) so preferidos
computacionalmente.

Outra forma de anlise de convergncia refere-se estimao do erro de Monte
Carlo, que uma estatstica associada ao erro de estimao de determinado
parmetro devido ao nmero de amostras utilizadas na cadeia de Gibbs, sendo que
este erro inversamente proporcional ao tamanho da cadeia. Este erro pode ser
calculado pela varincia dos parmetros amostrados sucessivamente a cada intervalo
dividida pelo nmero de amostras salvas, sendo que a raiz quadrada deste erro
fornece uma aproximao para o desvio padro do erro associado ao comprimento da
cadeia.

Devido ao fato de que valores aleatrios so utilizados inicialmente como
realizao do conjunto de parmetros, necessrio um perodo de descarte de
amostras at que as amostras de GS possam ser consideradas como provenientes da
distribuio conjunta a posteriori, ou seja, da distribuio em equilbrio estacionrio.
Em geral, tem sido utilizado o esquema tradicional de cadeia longa (nica) de Gibbs,
onde o processo de reamostragem contnuo. Assim, de maneira geral, um grande
(da ordem de 10.000 a 1.000.000) nmero de ciclos tem sido utilizado, sendo
descartadas as primeiras amostras (da ordem de poucos milhares) e amostras de cada
parmetro so salvas a cada pequeno (da ordem de 50 a 100) nmero de iteraes. O
intervalo entre amostras salvas necessrio como forma de obteno de amostras
independentes, visto que amostras sucessivas apresentam correlao serial. O
nmero total de amostras salvas utilizado para cmputo das estimativas pontuais e
intervalares de interesse.




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

41

1.10 Mtodos numricos e softwares para REML/BLUP e MCMC

A implementao computacional da metodologia de modelos mistos baseia-se
fortemente em mtodos numricos, notadamente, em lgebra linear numrica,
visando obteno iterativa das solues das equaes de modelo misto (obteno do
BLUP) e, clculo numrico para a maximizao/ minimizao de funes de vrias
variveis, visando obteno das estimativas REML.

Vrios algoritmos computacionais para a obteno de componentes de
varincia por ML e REML tm sido desenvolvidos tais como o MS (Method of
Scoring de Fisher), o EM (Expectation-Maximization, de Dempster et al., 1977), o
DF-REML (Derivative-free Restricted Maximum Likelihood, de Graser et al., 1987 e
o AI-REML (Average Information-REML de Johnson & Thompson, 1995). Dentre
estes, os mais usados so o EM e o AI-REML. O algoritmo EM muito estvel,
numericamente, apresentando convergncia mesmo que os valores iniciais no
tenham sido totalmente adequados. Entretanto, uma inconvenincia do algoritmo
EM a lentido para as estimativas prximas ao limite do espao paramtrico (por
exemplo, quando uma varincia tende a zero). Se valores iniciais positivos forem
utilizados, a convergncia para valores no negativos garantida.

O algoritmo EM atua por meio da obteno da esperana (por integrao) e
maximizao (derivao) da funo de verossimilhana dos dados, sucessivamente.
Nos modelos ao nvel de indivduos, em que, freqentemente, a ordem das equaes
de modelo misto excedem o nmero de observaes, a obteno de estimativas por
meio de primeira derivada pelo mtodo EM requer a inverso da matriz dos
coeficientes das equaes de modelo misto, aumentando muito o esforo
computacional. Os mtodos de Newton-Raphson e de Fisher apresentam
convergncia quadrtica, ao passo que o algoritmo EM apresenta convergncia linear,
sendo, portanto, mais lento.

Os algoritmos para obteno de estimativas REML podem ser agrupados de
acordo com a ordem das derivadas usadas. Assim, tm-se: (i) no derivativo (DF-
REML); (ii) baseado em derivadas parciais de primeira ordem (EM-REML); (iii)
baseado em derivadas parciais de primeira e segunda ordens (AI-REML). O
algoritmo AI um procedimento derivativo melhorado, o qual fundamenta-se no uso
dos mtodos de Newton, que usam as derivadas primeira e segunda da funo de
verossimilhana. Tal algoritmo baseia-se na utilizao da informao advinda da
mdia das derivadas segundas observadas e esperadas da funo de verossimilhana,
de forma que o termo que contm os traos dos produtos da matriz inversa
cancelado, restando uma expresso mais simples para computao. Tcnicas de
matrizes esparsas so empregadas no clculo dos elementos da inversa da matriz dos
coeficientes, os quais so necessrios para as derivadas primeiras da funo de
verossimilhana. Este algoritmo tambm denominado Quasi-Newton (Gilmour et
al., 1995), o qual aproxima a matriz hessiano (matriz de derivadas segundas) pela
mdia das informaes observadas e esperadas. A informao observada uma
medida da curvatura da funo (ou do seu log) de verossimilhana e a informao
esperada a prpria informao de Fisher.



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

42

Johnson e Thompson (1995) e Gilmour, Thompson e Cullis (1995)
apresentaram o algoritmo de Informao Mdia (AI), o qual baseia-se no uso de uma
matriz de informao alternativa. Visto que as matrizes de IO e IE so difcil
computao (pois envolvem a segunda derivada), tais autores propuseram o uso da
matriz de informao mdia, a qual contempla uma mdia das matrizes IO e IE. O
clculo da matriz AI muito mais simples do que o clculo de qualquer uma das duas
(IO e IE) isoladamente. Isto porque, quando feita a mdia das derivadas segunda
observadas e esperadas, o termo envolvendo traos de produtos da matriz inversa,
so cancelados, permanecendo uma expresso de simples computao.

O mtodo esperana - maximizao com parmetros estendidos (PX-EM)
mais recente (Foulley e Van Dyk, 2000) e tambm o mais eficiente juntamente com
o AI. Esse mtodo baseia-se na normalizao dos efeitos aleatrios e aumenta muito
a velocidade de convergncia quando comparado ao EM tradicional. Atualmente
utilizado na implementao dos softwares Wombat (antigo Dfreml), ASREML e
Selegen-REML/BLUP. No ASREML e Wombat usado em associao com o AI.

Os mtodos baseados em cadeias de Markov/mtodo Monte Carlo (MCMC),
muito usados em inferncia bayesiana, podem tambm ser usados no contexto da
inferncia verossimilhana. O mtodo estatstico REML e os mtodos numricos
(NR, FS, EM, DF, AI e PX-EM) at aqui apresentados so denominados mtodos
exatos. Esses mtodos so exatos no sentido de que no so baseados em amostragens
de distribuies de probabilidade. Os mtodos estatsticos bayesianos baseiam-se em
amostragem e, nesse sentido, no so denominados mtodos exatos. Os mtodos
numricos empregados na abordagem bayesiana como a amostragem de Gibbs
pertencem a uma classe de mtodos denominada cadeias de Markov e Monte Carlo
(MCMC). No entanto, para usar os mtodos MCMC, no h necessidade de se
empregar os fundamentos bayesianos. O fundamento dos mtodos MCMC de que,
devido s dificuldades para se calcular as PEV associadas aos efeitos dos fatores
aleatrios, essas so substitudas por amostragens. Assim, podem ser usados tambm
associados ao algoritmo EM. Segundo Thompson (2002), nem sempre claro qual
abordagem computacional mais eficiente: exata, amostragem de Gibbs bayesiana
ou algo intermedirio. A dependncia da PEV na estimao de componentes de
varincia ilustrada a seguir.

Henderson (1986) apresentou equaes para a estimao de componentes de
varincia por EM. Essas equaes envolvem a computao de formas quadrticas para
os fatores aleatrios e sub-equaes para as varincias dos erros de predio (PEV) dos
efeitos de todos os fatores aleatrios. Tomando os traos dos produtos das formas
quadrticas pelas PEV obtm-se p+1 equaes para p parmetros ou componentes de
varincia. Somando-se as duas equaes referentes ao fator aleatrio dos efeitos
genticos aditivos, o sistema de equaes pode ser resolvido para os p componentes de
varincia associados aos p fatores aleatrios. A seguir maiores detalhes so
apresentados.




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

43

Para a estimao dos componentes de varincia so necessrias duas formas
quadrticas para o vetor de erros preditos ( e ) e uma forma quadrtica para o vetor de
valores genticos preditos ( g ). A forma quadrtica para g dada por g Q g , sendo a
matriz associada igual a
4 1

g
A Q o . As duas formas quadrticas para e so dadas
por e P e
g
e e P e
e
. As duas matrizes associadas so iguais a
1 1
= DR R P
g
e
1 1
= R R R P
e e
. A matriz R pode ser rescrita como
2 2
e e g
R D R o o + = em que
I R
e
= .

Essas formas quadrticas devem ser igualadas s suas esperanas
matemticas para que se obtenha equaes resultantes para
2

g
o e
2

e
o . Para encontrar
essas esperanas deve-se observar que:
)] var( [ ) ( g Q tr g Q g E = ,
)] var( [ ) ( e P tr e P e E
g g
= e
)] var( [ ) ( e P tr e P e E
e e
= .

Verifica-se assim que, para encontrar os valores esperados necessitam-se das
PEV dos efeitos aleatrios, aqui denominadas Var( g ) e Var( e ) e essas so funes
lineares de
2

g
o e
2

e
o .

Segundo Schaeffer (1999), a amostragem de Gibbs muito similar ao mtodo
iterativo de Gauss-Seidel, exceto que quando cada soluo para os efeitos so obtidas,
adiciona-se uma quantidade aleatria baseada na distribuio condicional a posteriori de
sua varincia. Para usar a amostragem de Gibbs, h necessidade apenas de um
programa de resoluo das equaes de modelo misto, um bom gerador de nmeros
aleatrios e tempo computacional para processar um imenso nmero de amostras.
Thompson (2002) relata um procedimento de aumento de dados para reduzir o esforo
computacional na estimao de componentes de varincia, porm sem adicionar tanto
noise em a. O procedimento envolve o ajuste de dois modelos e Xb g Z y + =
~
e
e Zg b X y + =
~
. No primeiro modelo ajusta-se b

e se obtm amostragem b b + =

~
.
No segundo modelo, ajusta-se y para b
~
, estima-se
2
g
o e
2
e
o , ajusta-se g e obtm-se
amostragem g g + =
~
. Ento ajusta-se y para g Z
~
e o procedimento repetido. Aps
um perodo de aquecimento, as mdias
2
g
o e
2
e
o fornecem estimativas para
2
g
o e
2
e
o ,
assim como no procedimento de amostragem de Gibbs. Isto evita adicionar tanto noise
em g
~
quando
2
g
o e
2
e
o so estimados. A amostragem de Gibbs uma forma de
tornar o REML computacionalmente possvel para grande conjuntos de dados e
modelos complexos.







Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

44

O mtodo numrico de Gauss-Seidel para a resoluo iterativa de sistemas de
equaes lineares descrito a seguir empregando um pequeno exemplo.

Seja o sistema de equaes lineares:
4X
1
+ X
2
+ X
3
= 5
-2X
1
+ 5X
2
+ X
3
= 0
3X
1
+ X
2
+ 6X
3
= -6,5

As solues para as trs incgnitas X
1
, X
2
e X
3
so dadas por:
6
) 3 5 , 6 (
;
5
) 2 0 (
;
4
) 5 (
2 1
3
1
3 1
2
1
3
1
2
1
k k
k
k k
k
k k
k
X X
X
X X
X
X X
X

=
+
=

=

,
em que k, refere-se k-sima iterao.
Partindo-se de um vetor inicial X
0
= (0, 0, 0), tem-se a 1
a
iterao:
7967 , 1
6
) 2 / 1 4 / 5 3 5 , 6 (
;
2
1
5
) 0 4 / 5 2 0 (
;
4
5
4
) 0 0 5 (
1
3
1
2
1
1
=

= =
+
= =

= X X X .
Na 2
a
iterao, tem-se:
03 , 2
6
) 992 , 0 58 , 1 3 5 , 6 (
; 992 , 0
5
)) 7967 , 1 ( 58 , 1 2 0 (
; 58 , 1
4
) 7967 , 1 2 / 1 5 (
2
3
2
2
2
1
=

= =
+
= =
+
= X X X

O procedimento prossegue at que o menor valor de c s
1 k k
X X , em que c
o erro desejado (geralmente
5
10

s ).

O algoritmo esperana maximizao com aproximao estocstica
(SAEM) foi apresentado por Jaffrezic et al. (2007) como uma forma eficiente de
computao e inferncia em modelos no lineares mistos. Nessa situao complexa,
geralmente so usados procedimentos aproximados de mxima verossimilhana e
tambm mtodos bayesianos. O mtodo SAEM surge como uma opo de rpida
convergncia em relao aos algoritmos EM Monte Carlo e bayesiano. Outra
vantagem que o mesmo no requer a especificao de distribuies a priori e
bastante robusto escolha dos valores iniciais no processo iterativo. A idia reciclar
os valores simulados de uma iterao, na prxima iterao do algoritmo EM, fato que
acelera consideravelmente a convergncia.

A escolha dos algoritmos matriciais quanto a esparsidade das matrizes
depende da situao, e os principais mtodos para clculo da inversa de matrizes
esparsas foram descritos por Takahashi et al. (1973), Zollenkof (1971). Esses mtodos
calculam somente os elementos da inversa que pertencem ao padro de esparsidade
da matriz original. Mesmo assim, o custo computacional para o clculo da inversa
esparsa de duas a trs vezes maior do que para clculo de determinantes. O clculo
de uma inversa esparsa aumenta os requerimentos computacionais para avaliao de
verossimilhanas. Thompson et al. (1994) apresentaram mtodos para encontrar os
elementos da matriz esparsa, os quais reduzem esses requerimentos. Um resumo dos
Mtodos Numricos para REML apresentado na Tabela 9.






Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

45

Tabela 9. Mtodos numricos para REML.
Mtodo Numrico para REML Autores Ordem da Derivao
Newton-Raphson (NR)

Newton Derivadas parciais de primeira e segunda ordens
Escores de Fisher (FS) Fisher

Derivadas parciais de primeira ordem

Esperana - Maximizao (EM) Dempster et al.
(1977)
Derivadas parciais de primeira ordem

Livre de Derivadas (DF) Graser et al. (1987) No derivativo
Informao Mdia (AI)

Gilmour, Cullis e
Thompson (1995)
Derivadas parciais de primeira e segunda ordens
Esperana - Maximizao com
Parmetros Estendidos (PX-EM)

Foulley e Van Dyk
(2000)
Derivadas parciais de primeira ordem

Cadeias de Markov e Monte Carlo
(MCMC)

Gelfand e Smith
(1990)
-
Esperana - Maximizao Estocstico
(SAEM)

Jaffrezic et al.
(2007)
-

Os softwares para REML/BLUP fenotpico e genmico mais utilizados no
Brasil so apresentados na Tabela 10. Cdigos para ajustes de alguns modelos lineares
generalizados mistos para variveis normais e binomiais pelo ASREML so
apresentados por Resende (2000).

Tabela 10. Softwares para REML/BLUP e MCMC.
Software Autores Mtodo Numrico
para REML
Inverso
Esparsa
Procedi-
mentos
ASREML e GENSTAT Gilmour, Cullis e
Thompson (1995)

Informao Mdia (AI) AS REML e BLUP
DFREML/WOMBAT Meyer (1991) Esperana
Maximizao (EM) e AI

- REML e BLUP
REMLF90 e BLUPF90 Misztal (1995) EM Acelerado Takahashi REML e BLUP
Blup Genmico

SELEGEN-REML/BLUP Resende (1994) EM Acelerado Zollenkopf REML e BLUP

SAS Littell et al. (1996) - - REML e BLUP

SELEGEN GENMICA Resende (2007) - Zollenkopf Blup Genmico

QxPack Perez-Enciso e
Misztal (2004)
- - Anlise de QTL
REML e BLUP
Blup Genmico

ASREML Blup Genmico

GS3 Legarra et al. (2011) - - Blup Genmico
IBLASSO
Bayes Cpi
MCMC

GENOME WIDE PREDICTION Meuwissen (2009) - - Blup Genmico
BayesA
BayesB

BLR Perez et al. (2010) - - Blasso

rr-BLUP Endelman (2011) - - REML e BLUP
Blup Genmico

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

46

1.11 Testes de Hipteses e Parcimnia de Modelos

Os testes de hipteses referentes aos efeitos fixos e aleatrios no contexto dos
modelos mistos bem como os critrios para a comparao de modelos so apresentados
na Tabela 11.

Tabela 11. Testes de hipteses referentes aos efeitos fixos e aleatrios e critrios para a
comparao de modelos.
Testes de Hipteses Efeitos Distribuio
Assinttica
Calculo
t Fixos t
) / /( ) (
2 / 1
n Y Y t
j i
o =


F Fixos e Aleatrios F F =[ Var(trat) + Var(Residual)]
/ Var(Residual)

LRT Aleatrios Qui-
quadrado
LRT = (-2Log L)
p+1
- (-2Log L)
p


t
2
= F Fixos F F = [Var(trat) + Var(Residual)]
/ Var(Residual)

WALD n pequeno = F Fixos F W =
2
/ Var()

WALD n grande = LRT Aleatrios Qui-
quadrado
W =
2
/ Var()

AIC Aleatrios - AIC = -2 log L + 2 p

BIC Aleatrios - BIC = -2 log L + p log v
v = N r(x)

AICc Aleatrios AIC = -2 log L + 2 p + [2p(p+1)/(n-p-1)]


A significncia da diferena no ajuste de diferentes modelos aos dados pode
ser testada usando o Teste da Razo de Verossimilhana de Wilks (LRT), definido
por: ] [ 2
1 p e p e
L Log L Log =
+
. Assim, basta comparar [2 vezes a diferena (modelo
com maior nmero de parmetros modelo com menor nmero p de parmetros) de
Log
e
L associados a dois modelos ajustados] com o valor da funo densidade de
probabilidade (Tabela de _
2
) para determinado nmero de graus de liberdade e
probabilidade de erro. O nmero de graus de liberdade definido pela diferena no
nmero de parmetros ou componentes de varincia entre modelos.

Tal teste envolve duas vezes a reduo no Log L resultante da retirada de t
termos aleatrios, quantidade esta distribuda como uma
2
t
_ . Assim, para a
verificao da significncia de um efeito aleatrio, tem-se que LRT ~
2
1
_ . Entretanto,
Stram e Lee (1994) sugerem uma correo por meio da multiplicao do P valor
associado a
2
1
_ por 0,5, ou seja, sugerem o uso de uma distribuio
2
5 , 0
_ . Esta correo
, sobretudo, indicada para teste no limite do espao paramtrico, quando o P valor
aproximado para a estatstica de teste d (duas vezes a reduo no Log L)
)) ( 1 ( 5 , 0
2
1
d P s _ , em que P denota probabilidade. Nesse caso (mistura de
distribuies com 1 e 0 graus de liberdade), o valor tabelado de qui-quadrado para o
nvel de significncia de 5 % 2.79.


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

47

Quando dois modelos aninhados so ajustados, aquele com mais parmetros
apresenta maior log L. Entretanto, esse no necessariamente o melhor modelo. Isto
significa que no se pode comparar diretamente os Log L quando o nmero de
parmetros varia entre modelos. Alm do LRT, outro critrio para a seleo de
modelos o Critrio de Informao de Akaike (AIC), o qual penaliza a
verossimilhana pelo nmero de parmetros independentes ajustados. Por esse critrio,
qualquer parmetro extra deve aumentar a verossimilhana por ao menos uma unidade
para que o mesmo entre no modelo. O AIC dado por AIC = -2 log L + 2 p, em que p
o nmero de parmetros estimados. Menores valores de AIC refletem um melhor
ajuste global (Akaike, 1974). Assim, os valores de AIC so calculados para cada modelo
e aquele com menor valor de AIC escolhido como melhor modelo. H uma
equivalncia assinttica entre a escolha de modelos pelo critrios AIC e validao
cruzada (Stone, 1977; Fang, 2011).

A comparao de modelos hierrquicos, mas com mesma estrutura de efeitos
fixos, realizada pelo LRT ou (anlise de deviance), AIC, BIC e AICc. A comparao
de modelos no hierrquicos, mas com mesma estrutura de efeitos fixos, deve ser
feita por meio dos procedimentos AIC e BIC. O AIC est relacionado aos conceitos
de informao de Kullback-Leibler e mxima verossimilhana. Informao de
Kullback-Leibler um conceito da fsica para medir a diferena entre o modelo
(aproximao da realidade) e a realidade. Akaike (1974) percebeu que o log da
verossimilhana de um modelo um estimador da informao de Kullback-Leibler,
porm viesado. E esse vis igual ao nmero de parmetros do modelo. Ento,
definiu o AIC como a deviance mais duas vezes o nmero de parmetros do modelo.
Como o objetivo minimizar a perda de informao, o modelo com o menor AIC
tem o maior suporte nos dados.

O primeiro termo do AIC pode ser interpretado como uma medida de ajuste
do modelo e o segundo termo como uma penalizao. Desse modo, no caso em que se
compara modelos com o mesmo nmero de parmetros, necessita-se comparar
apenas o Log L. A vantagem do AIC que as comparaes no se limitam a modelos
com estrutura hierrquica de fatores, fato que faz do AIC uma ferramenta genrica
para a seleo de modelos. Pode ser usado, por exemplo, para a comparao entre
modelos com erros apresentando diferentes distribuies. O AICc uma
modificao que penaliza mais a adio de parmetros quando o tamanho n da
amostra pequeno.

Outra abordagem o Critrio de Informao Bayesiano (BIC) de Schwarz
(1978), o qual dado por BIC = -2 log L + p log v, em que v = N r(x) o nmero de
graus de liberdade do resduo. O BIC calculado para cada modelo e aquele com
menor valor escolhido como melhor modelo. Pode ser usado quando os modelos
no possuem estrutura hierrquica. No entanto, os modelos devem ter a mesma
estrutura de efeitos fixos. Logicamente, tanto o LRT, o AIC e o BIC dependem da
mesma quantidade bsica -2 log L.

A diferena entre as deviances de dois modelos com efeitos fixos diferentes
no propicia um teste estatstico adequado. Isto deve-se ao fato de que a
verossimilhana residual (funo de y Xb) que maximizada e no a
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

48

verossimilhana dos dados originais (funo de y). A verossimilhana residual
refere-se verossimilhana dos dados aps projeo no espao residual e, portanto,
dois diferentes modelos quanto aos efeitos fixos referem-se a duas diferentes
projees e, conseqentemente, correspondem a diferentes conjuntos de dados nos
quais os mesmos fatores aleatrios so estimados.

No contexto da estimao por mxima verossimilhana existem trs testes
assintoticamente equivalentes, dado a estimao do modelo, restrito ou reduzido (u
~
)
e sem restrio ou sem reduo (u

):

Teste de Wald: procura medir a distncia entre u
~
e u

.
Teste LRT: ocupa-se da distncia entre )
~
( log u L e )

( log u L .
Teste do Multiplicador de Lagrange (LM) ou Escore Eficiente: compara as tangentes
nos pontos u
~
e u

. O Multiplicador de Lagrange visa solucionar um problema de


maximizao (otimizao) condicionada.

)
~
(u L e )

(u L so valores da funo de verossimilhana no ponto de mximo


com e sem restrio. Se a restrio for verdadeira os valores da funo de
verossimilhana avaliada em u
~
e u

so prximos, revelando que os dados do


suporte restrio ou reduo.

1.12 Modelos Computacionais BLUP

Considerando um vetor y de observaes individuais, os seguintes modelos
estatsticos equivalentes podem ser especificados:

(1) y = Xb + e
1
: modelo com interesse apenas nos efeitos fixos (MEF).

Xb y e = : resduos cheios = genticos + ambientais aleatrios; equivalem aos
valores genticos desregressados.

(2) y = Xb + Z(g
p
/2 + g
m
/2 + g
d
) + e
2
: modelo reduzido de valores genticos aditivos
ou modelo individual reduzido (MIR).

) 5 , 0 5 , 0

(
m p
g g b X y e = : muita utilidade na seleo genmica ampla (GWS) =
resduo do MIR: corrigido para os genitores e desregressado.

(3) y = Xb + Zg + e
2
: modelo de valores genticos aditivos individuais ou modelo
individual (MI).

g : pouca utilidade direta na GWS.
) 5 , 0 5 , 0 (
m p d
g g g g = : muita utilidade na GWS = valor gentico corrigido
para os genitores.
2
/
d d
h g : valor gentico desregressado e corrigido para os genitores, em que
)) 1 ( 2 / 1 /( ) 2 / 1 (
2 2 2 2
h h h h
d
+ = a herdabilidade da segregao mendeliana e h
2
a
herdabilidade individual.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

49


(4) y = Xb + Z
m
(g
m
/2) + e
4
= Xb + Z
m
f + e
4
: modelo de genitores femininos ou modelo
gamtico (MG).

) 5 , 0

(
p
g b X y e = : resduo do MG: corrigido para um genitor e desregressado.

(5) y = Xb + X
m
(g
m
/2) + X
p
(g
p
/2) + Zg + e
5
: modelo ajustando genitores como de
efeitos fixos. (Igual ao (3) se 1
2


g g
r ).
d
g g =

2
/
d
h g : valor gentico desregressado e corrigido para os genitores.

No modelo (1), o interesse reside apenas sobre os efeitos fixos (b) e todos os
efeitos aleatrios (gentico aditivo, gentico de dominncia, episttico e ambientais)
so agrupados no resduo aleatrio e
1
. O modelo (3) o prprio modelo de valores
genticos aditivos individuais (g) e, o resduo e
2
contempla os efeitos aleatrios de
dominncia allica, epistasia e ambientais. No modelo (2), o valor gentico aditivo
individual (a) dividido em 3 partes: (i) metade do valor gentico aditivo da me =
g
m
/2; (ii) metade do valor gentico aditivo do pai = g
p
/2; (iii) segregao mendeliana
ou desvio gentico em relao mdia dos valores genticos aditivos dos genitores =
g
d
. O modelo (4) expresso em termos da metade do valor gentico aditivo dos
genitores femininos ou do efeito de famlias f, sendo que e
4
compreende o somatrio
de g
p
/2, g
d
e e
2
. Nestes modelos, X, Z e Z
m
so matrizes de incidncia para b, a e g
m
/2,
respectivamente.

O modelo de interesse prtico ao melhoramento refere-se ao (3) ou modelo
individual (MI). Entretanto, tal modelo o mais complexo computacionalmente,
com nmero de equaes para g igual ao nmero de descendentes mais o nmero de
genitores em avaliao. O modelo individual reduzido - MIR- produz resultados
idnticos ao MI, porm com um menor esforo computacional, podendo-se trabalhar
com um nmero de equaes igual ao nmero de genitores, obtendo-se as predies
para g
p
e g
m
e, posteriormente, as predies para g
d
e, conseqentemente, para g. Um
resumo dos modelos computacionais BLUP apresentado na Tabela 12.

Tabela 12. Modelos Computacionais BLUP.
Nome Modelo
Modelo Individual (Animal) y = Xb + Zg + e
2

Modelo de Genitor (Reprodutor) y = Xb + Z
m
(g
m
/2) + e
4

Modelo Individual (Animal) Reduzido y = Xb + Z(g
p
/2 + g
m
/2 + g
d
) + e
2

Modelo Individual (Animal) com Grupos Genticos (r) y = Xb + Pr + Zg + e
2











Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

50

1.13 Modelos BLUP Univariados Multi-Efeitos

O BLUP univariado pode ser ajustado incluindo diferentes fatores de efeitos.
Um resumo dos modelos computacionais univariados multi-efeitos para o BLUP
apresentado na Tabela 13.

Tabela 13. Modelos BLUP univariados multi-efeitos.
Nome Modelo
Modelo de Repetibilidade com Ambiente Permanente (p) e Tp Zg Xb y + + + =
Modelo com Efeito de Ambiente Comum (c) e Tc Zg Xb y + + + =
Modelo com Interao Gentipos x Ambientes(ge) e Tge Zg Xb y + + + =
Modelo com Efeito Materno (m) e Tp Zm Zg Xb y + + + + =

Modelo com Efeito de Dominncia (d) e Td Zg Xb y + + + =
Modelo com Efeito de Heterose (h) e Th Zg Xb y + + + =
Modelo com Efeitos Epistticos (gg) e Zgg Zg Xb y + + + =
* X, Z e T so matrizes de incidncia.

1.14 Modelos BLUP Multivariados

O BLUP multivariado pode ser ajustado usando diferentes parametrizaes e
tcnicas. Um resumo dos modelos multivariados para o BLUP apresentado na
Tabela 14.

Tabela 14. Modelos BLUP multivariados.
Modelo Objetivo
Modelo Multivariado Anlise Simultnea de Variveis, posto completo.

Componentes Principais sob Modelos Mistos (PCAM) Anlise Simultnea de Variveis, posto reduzido.

Modelos Fator Analticos Mistos (FAMM) Anlise Simultnea de Variveis, posto reduzido.
Interao Gentipos x Ambientes

Modelos de Normas de Reao via Regresso Aleatria Interao Gentipos x Ambientes

A anlise multivariada apresenta grande utilidade na formulao de ndices
de seleo (Resende et al., 1990; Lopes, 2005). A associao das tcnicas de anlise
multivariada e de modelos mistos importante para a anlise de mltiplos caracteres,
mltiplos experimentos e, em alguns casos, medidas repetidas. Para o caso de
mltiplos caracteres, o uso da PCAM mais adequado. Para mltiplos experimentos,
a tcnica FAMM mais indicada. Isto porque a anlise de componentes principais
enfatiza a identificao de variveis que explicam o mximo da variao total
multivariada, fato que relevante para o caso de mltiplos caracteres. Por outro lado,
a anlise de fatores enfatiza a atribuio da covarincia entre variveis a fatores
comuns. Isto relevante quando as variveis referem-se a ambientes ou
experimentos e todos os ambientes so alvo da anlise e no apenas aqueles que mais
contribuem para a variao total. Tambm, a covarincia ou correlao entre
ambientes atribudas a fatores comuns automaticamente considera a similaridade e
dissimilaridade entre ambientes, o que uma propriedade interessante nesse
contexto. Uma descrio detalhada e exemplo de aplicao da tcnica FAMM na
anlise de mltiplos experimentos com interao g x e apresentada por Resende e
Thompson (2004).



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

51

Componentes principais sob modelos mistos (PCAM)

O mtodo PCAM reuni as tcnicas de anlise multivariada e de modelos
mistos e produz uma anlise direta e em um s passo, no nvel gentico. Esta anlise
simultnea tem grande aplicao na anlise de mltiplos caracteres e de medidas
repetidas. A metodologia de modelos mistos padro pode ser usada para estimar
autovalores e autovetores diretamente sem a necessidade de se estimar a matriz de
covarincia (E) completa. A principal diferena para o modelo multivariado misto
tradicional refere-se ao fato de que os parmetros a serem estimados fazem parte da
matriz de incidncia dos efeitos genticos aleatrios, conduzindo estimao sob
posto reduzido.

Outra vantagem dessa abordagem refere-se ao fato de que a estimao direta
da estrutura de covarincia garante que a matriz de covarincia ser positiva
definida, fato que no garantido por outros mtodos de estimao de . Assim, a
incluso de caracteres adicionais na anlise contribui para aumentar a preciso na
estimao ao invs de desestabilizar as estimativas. Tambm PCAs podem ser
estimados tanto no nvel gentico quanto ambiental, desdobrando a tradicional PCA
fenotpica. A seguir, apresentada uma extenso dos modelos mistos para incorporar
a anlise de componentes principais.

Modelo Misto Tradicional
y = Xb + Zg + e

PCA sob Modelo Misto (PCAM)
c c + + = + + =

* * ) )( (
1
g Z Xb g I Q I Q Z Xb y
g g
, em que:
p
V Q = e
j j
g Q g '
*
= .

Os valores genticos do indivduo j para os caracteres originais dado por
*

j j
g Q g = .
g
I a matriz identidade com ordem igual ao nmero g de gentipos. Sob esse
modelo, a matriz de covarincia gentica dada por A A =

, em que A A= VD
o

V , D
o
a matriz diagonal dos p autovalores e V a matriz dos autovetores.
Escolhendo-se V e D
o
referentes apenas dimenso p, esse modelo misto reduzido
e ajusta somente os primeiros componentes principais. Assim, na tcnica PCAM, a
estrutura de covarincia simplificada para '
*
p p p p p
V D V
o
= A A =

em que p indica
uma das dimenses dessas matrizes (nmero de colunas).

Anlise de fatores sob modelos multiplicativos mistos (FAMM)

A estrutura da matriz de covarincia ou correlao envolvendo v caracteres est
associada a v(v+1)/2 elementos. Visando simplificar a estrutura dessa matriz,
sumarizar a informao multivariada e reduzir a dimensionalidade do problema,
decomposies dessas matrizes, baseadas em seus autovalores e autovetores, so
usadas com base em diferentes parametrizaes produzindo as tcnicas de
componentes principais e da anlise de fatores.


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

52

Entretanto, tais procedimentos so baseados na estimao completa da matriz de
covarincia ou de correlao com todos os seus v(v+1)/2 elementos. Um
procedimento estatstico mais atrativo refere-se a estimar os componentes principais
e os fatores diretamente, restringindo a estimao apenas queles mais importantes.
Esse procedimento no requer a estimao prvia da matriz de covarincia e de
correlao e sobretudo relevante no contexto dos modelos mistos e de dados
desbalanceados. Nesse caso, torna-se necessria uma reparametrizao dos modelos
mistos tradicionais (Resende e Thompson, 2004). A seguir apresentada uma
extenso dos modelos mistos para incorporar a anlise de fatores.

Modelo misto tradicional
y = Xb + Zg + e

Modelo misto fator analtico (FAMM)
e f I Z Xb y
g
+ + A + = ] ) [( o , em que: ] ) [( o + A = f I a
g


Sob esse modelo, a matriz de covarincia gentica dada por + A A =

,
em que A A= VD
o
V , D
o
a matriz diagonal dos m autovalores e V a matriz dos
autovetores. Escolhendo-se V e D
o
referentes apenas dimenso p, esse modelo
misto reduzido e ajusta somente os p fatores. Na tcnica FAMM, a estrutura de
covarincia simplificada para + + A A =
p p
. Definem-se as seguintes quantidades:
f o vetor de escores fatoriais para os indivduos nos fatores; o o vetor de erros
representando a falta de ajuste do modelo fatorial; A a matriz dos carregamentos
dos fatores nas variveis; + a matriz diagonal de varincias especficas ) (
i
Var o
(Resende e Thompson, 2004).

A metodologia de modelos mistos padro pode ser usada para estimar
autovalores e autovetores diretamente sem a necessidade de se estimar E completa. A
principal diferena para o modelo multivariado misto tradicional refere-se ao fato de
que os parmetros a serem estimados fazem parte da matriz de incidncia dos efeitos
genticos aleatrios. Como a distribuio de f I
g
) [( A singular, isto conduz
estimao sob posto reduzido, restries devem ser impostas aos parmetros do
modelo fator analtico (Thompson et al., 2003).













Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

53

1.15 Modelos BLUP Espaciais e de Competio (Efeitos Associativos) (SCM)

O BLUP sob modelos espaciais e de competio (SCM) pode ser ajustado usando
diferentes parametrizaes. Um resumo desses modelos apresentado na Tabela 15.

Tabela 15. Modelos espaciais e de competio para o BLUP.
Nome Modelo Estrutura de Varincias
Modelo Geoestatstico (Exponencial)
e Zg Xb y + + =

) , 0 ( ~ E N e

) , 0 ( ~
2
g
A N g o



u u = E
r
r
c
c e
)] ( ) ( [
2
o
(
(
(
(
(

= u

1
1
1
1
) (
1 2 3
1 1 2
2 1 1
3 2 1




c
c
Modelos Autoregressivos Idem acima Idem acima
Modelos Ante-Dependncia Ver texto Ver texto
Modelos ARIMA Ver texto Ver texto
Modelos Associativos de Competio
e NZ Z Xb y + + + = | t
|
|
.
|

\
|
=
|| t|
t| tt
g g
g g
G*

Modelos Associativos e Espaciais de
Competio
q | t + + + + = NZ Z Xb y
|
|
.
|

\
|
=
|| t|
t| tt
g g
g g
G*
2 2
)] ( ) ( [
q
o o

+ u u = +
r
r
c
c
I

Modelos Espaciais

As variveis com comportamento espacial so denominadas variveis
regionalizadas e mostram caractersticas intermedirias entre as variveis
verdadeiramente casuais ou aleatrias e aquelas completamente determinsticas,
exatas ou matemticas. A estatstica clssica trata de variveis aleatrias ao passo que
a estatstica espacial aborda estas variveis mistas.

Tais variveis regionalizadas apresentam uma aparente continuidade no espao. A
continuidade geogrfica se manifesta pela tendncia de a varivel apresentar valores
muito prximos (dependentes) em dois pontos vizinhos e muito diferentes em
pontos distantes. Assim, no so realizaes de uma varivel aleatria, pois so
correlacionadas. Grficos contemplando a variabilidade espacial dos experimentos,
denominados variogramas, ilustram o padro de dependncia espacial.

Algumas estatsticas permitem sumarizar as informaes contidas nos diagramas
e descrever a continuidade espacial. Estas estatsticas so: (i) o coeficiente de
correlao entre valores separados por uma dada distncia, ou seja, o coeficiente de
autocorrelao, tambm denominado autocorrelao serial ou autocorrelao espacial;
(ii) a covarincia entre valores separados por uma distncia (autocovarincia); (iii)
momento de inrcia ou semivarincia. Variogramas, correlogramas e covariograma
para a descrio da continuidade espacial podem ser obtidos a partir da
semivarincia, autocorrelao e autocovarincia, respectivamente, associados a
diferentes distncias em uma determinada direo.

A variabilidade espacial pode ser estudada basicamente por meio de duas classes
de mtodos: os mtodos de anlise de sries temporais e os mtodos geoestatsticos.
Por meio dos mtodos de anlise de sries temporais, tem sido usado de um modelo
auto-regressivo de primeira ordem (AR1) para modelar os resduos em uma
dimenso do espao e o uso do mtodo REML para estimar os parmetros do modelo.
Em um modelo AR1, a autocorrelao [(Y
i
, Y
j
)] entre as observaes Y
i
e Y
j
uma
funo potncia da distncia entre as observaes, de forma que (Y
i
, Y
j
) =
|i-j|
,
em que i e j referem-se s coordenadas espaciais e o coeficiente de autocorrelao.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

54

Um modelo auto-regressivo de primeira ordem indica que somente a correlao entre
observaes imediatamente vizinhas so diretamente especificadas. Correlaes
entre vizinhos mais distantes surgem somente como consequncias dessas
correlaes de primeira ordem. Modelos de ordem mais elevada (por exemplo um
AR2) podem ser especificados, nos quais observaes no adjascentes podem
apresentar dependncia direta, alm daquela indireta contemplada pelo modelo AR1
(Resende e Sturion, 2001).

O modelo AR1 pode ser estendido para considerar a variabilidade em duas
dimenses do espao considerando processos (AR1AR1) separveis em duas
direes: linhas e colunas. Neste modelo, a autocorrelao dada por:
( )
] [ ] [
, ,
,


=
j
col
k i
lin k j i
Y Y para observaes com coordenadas , , k e j i referentes a
linhas e colunas, respectivamente (Cullis e Gleeson, 1991; Cullis et al., 1998).

Estes ltimos modelos consideram os erros por meio de um processo auto-
regressivo integrado de mdias mveis (ARIMA (p, q, d)) que pode ser aplicado a
duas dimenses: linhas e colunas. Tal modelo estendido da forma ARIMA (p
1
, d
1
,
q
1
) x ARIMA (p
2
, d
2
, q
2
). Estes modelos so denominados modelos com erros nas
variveis e consideram um efeito de tendncia () mais um erro q independente ou
efeito pepita. Assim, o vetor de erros particionado em e = + q. Os modelos de
anlise tradicionais no incluem o componente .

O modelo da forma q + + + = Zg Xb y , em que o vetor aleatrio de
erros correlacionados e q o vetor aleatrio de erros no correlacionados. A
varincia dos resduos dada por Var(e) = Var ( + q)= +, em que
2 2
)] ( ) ( [
q
o o

+ u u = +
r
r
c
c
I , sendo
2

o a varincia devida a tendncia e


2
q
o a
varincia dos resduos no correlacionados (Resende e Sturion, 2003). As matrizes

u u
r
r
c
c
e ) ( ) (
referem-se a matrizes de correlao auto-regressivas de primeira
ordem com parmetros de autocorrelao
c
u e
r
u e ordem igual ao nmero de
colunas e nmero de linhas, respectivamente. Assim, modelado como um
processo auto-regressivo separvel de primeira ordem (AR1 x AR1) com matriz de
covarincia

u u = E =
r
r
c
c
Var )] ( ) ( [ ) (
2

o
. As matrizes de correlao auto-regressivas
so da forma:

(
(
(
(
(

= u

1
1
1
1
) (
1 2 3
1 1 2
2 1 1
3 2 1




c
c
.







Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

55

Em um modelo com efeito de ambiente comum, as equaes de modelo
misto para o BLUP so dadas por:
(
(
(
(

=
(
(
(
(
(

(
(
(
(

+
+
+

y I
y W
y Z
y X
c
g
b
H I I W I Z I X I
I W I W W Z W X W
I Z W Z A Z Z X Z
I X W X Z X X X
'
'
'
'
~
~
~

' ' ' '


' ' ' '
' ' ' '
' ' ' '
3
1 *
2
*
1
1

, em que:
2
2
3 2
2
2 2
2
1
;

q q q
o
o

o
o

o
o
= = =
c g
.
A e H so as matrizes de correlao para os efeitos g e , respectivamente.
A inverso de H dada por

u u =

r
r
c
c
H )] ( ) ( [
1 1 1 . A estimao da varincia do
erro correlacionado via REML pode ser dada por
N C H tr H / )] (
~
'
~
[
44 1 2 1 2
+ =
q
o o
,
em que C
44
advm da inversa da matriz dos coeficientes e N o nmero total de
dados.
Comparando-se as magnitudes de e q pode-se inferir se a varivel
predominantemente determinstica (
~
>q
~
) ou aleatria (q
~
>
~
). Para o LRT, a
comparao entre um modelo espacial e um no espacial deve considerar 3 graus
de liberdade, referentes s estimativas dos parmetros de varincia e
parmetros de autocorrelao
c
u e
r
u (
c
e
r
).
A geoestatstica consiste basicamente de variografia e krigagem. A variografia
usa variogramas para caracterizar e modelar a variao espacial. A krigagem usa a
variao modelada para predizer valores, tais quais os BLUPs de erros ou pontos
correlacionados. O variograma usa semivarincias e pode ser usado em ambos os
mtodos de anlise espacial: geoestatstica e modelos de sries temporais. Pela
geoestatstica, o modelo padro para ajuste de uma funo ao variograma
experimental em ensaios de campo o exponencial.

Os procedimentos geoestatsticos consideram a heterogeneidade espacial de forma
direta por meio da incluso dos efeitos de tendncia e correlao residual na
modelagem da matriz de covarincia residual. Como o modelo associado ao
variograma exponencial, os resduos podem ser interpretados como uma realizao
de um processo auto-regressivo de primeira ordem (AR1). Isto faz sentido uma vez
que o modelo AR1 projeta a auto-correlao para lags distantes, como uma funo
potncia da distncia entre plantas. O modelo exponencial faz o mesmo. Entretanto,
os modelos geoestatsticos muitas vezes assumem isotropia (mesmo padro de
variao nas duas dimenses), o que pode ser inadequado para modelar a estrutura de
varincias nos experimentos de campo. H equivalncia entre a modelagem
geoestatstica exponencial e o modelo separvel AR1 x AR1 para experimentos de
campo. Em funo desta equivalncia e da facilidade em ajustar modelos
anisotrpicos (variao diferenciada em duas dimenses) pela modelagem ARIMA,
esta tem sido preferida. Adicionalmente, a separabilidade resulta em maior eficincia
computacional em termos de tempo.



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

56

Modelos Espaciais na Anlise de SNPs

Com a disponibilidade de marcadores SNPs a predio de valores genticos por
meio da seleo genmica ampla (GWS) consiste na substituio da matriz de
correlao gentica A entre indivduos, obtida via pedigree pela matriz de correlao
gentica G entre indivduos, obtida via marcadores. No caso, a matriz W de
incidncia dos marcadores nos indivduos tem elementos dados por 2p
i
, (1 - 2p
i
) e (2 -
2p
i
) ou -1, 0 e 1, para os gentipos marcadores mm, Mm e MM, respectivamente, em que
p
i
a frequncia de um dos alelos do loco marcador i. A seguir demonstrada a
equivalncia entre os modelos A-BLUP e G-BLUP.

Modelo A-BLUP
c + + = Zg Xb y
;
2
) (
g
A g Var o =


Modelo Equivalente G-BLUP
Wm g =
c + + = ZWm Xb y
;
2 2
' ' ) (
m m
WW W WI Wm Var o o = =
, em que m o vetor de efeitos genticos (substituio allica) dos marcadores.

Assim, ) ( ) ( Wm Var g Var = e, portanto,
2 2
'
m g
WW A o o = . Desenvolvendo tem-
se:

] ) 1 ( 2 /[ ' ] ) 1 ( 2 /[ ' / '
2 2 2 2

= = =
n
i
i i m
n
i
i i m g m
p p WW p p WW WW A o o o o
e
] ) 1 ( 2 /[ '

=
n
i
i i
p p WW A
, pois
2 2
] ) 1 ( 2 [
m
n
i
i i g
p p o o

= (Falconer, 1989).
Uma prova da validade da expresso
] ) 1 ( 2 /[ '

= =
n
i
i i
p p WW A G
apresentada a seguir:
Cdigos na matriz W
Cdigos Cdigos Centrados Cdigos Centrados
com p
i
= 0.5
Numerador do coeficiente de
parentesco de Wright entre Irmos
Completos
0 0 2p
i
-1 0.0
1 1 2p
i
0 0.5
2 2 2p
i
1 1.0

Clculo da matriz G = A
Matriz W Matriz WW Matriz G
Individuo Marca 1 Marca 2 Marca 3 Marca 4
2 ) 1 ( 2 =

n
i
i i
p p

Individuo 1 -1 0 0 1 2 2 1 1
Individuo 2 -1 0 0 1 2 2 1 1
Numerador do coeficiente de parentesco de Wright entre clones = 1

Verifica-se que os dois indivduos so idnticos (clones) considerando os 4 locos
marcadores, apresentando correlao gentica igual a 1 na matriz G. Com infinitos locos
marcadores, G tende a A. G tambm contempla o parentesco mdio nos vrios locos
mas, sob GWS com seleo de marcadores, so considerados especificamente os locos
que controlam o carter em questo. E se o numero de locos que controlam o carter
finito, G muito diferente de A.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

57

Com heterogeneidade de varincia entre SNPs e sendo D uma matriz diagonal
(
i
D diag t = ) ( , sendo
i
t o componente de varincia associado ao loco marcador i)
contemplando essa heterogeneidade, a modelagem da estrutura de varincia torna-se (se
) , 0 ( ~
2
m
D m o ):
2 2
' ' ) ( ) (
m m
WDW W WD Wm Var g Var o o = = =
,
em que
' WDW
uma matriz de incidncia ponderada quadrtica.


E a igualdade entre as matrizes de correlao gentica entre indivduos torna-se
2 2
'
m g
WDW A o o =
2 2
/ '
g m
WDW A o o =
] ) 1 ( 2 /[ '

= =
n
i
i i
p p WDW G A
.
Se m for parametrizado como ) , 0 ( ~ D m , tem-se
} ] ) 1 ( 2 /{[ ' / '
2 2
m
n
i
i i g
p p WDW WDW G o o

= =
. Em ambos os casos, a matriz G substitui a
matriz A nas equaes de modelo misto.

Com ) , 0 ( ~ D m e quando
p
W contm elementos centrados e padronizados
dados por
2 / 1
] 1 [2p
2p
) p (
) (w
w
i i
i ij
ij
p

=
, tem-se ) /( ' / '
2 2
m g
n WDW WDW G o o = = .

Essa modelagem gera um mtodo G-BLUP com heterogeneidade de varincia e
produz resultados similares aos obtidos pelo mtodo BayesA (ver tpico 1.18 e
captulo 6).

Com heterogeneidade de frequncias allicas entre SNPs (contemplada em uma
matriz diagonal D
p
), a parametrizao torna-se ' *W WD G = , em que
P
DD D = * , sendo
)] 1 ( 2 /[ 1 ) (
i i P
p p n D diag = .

Considerando a correlao entre efeitos de SNPs dentro de cromossomos
devido ao desequilbrio de ligao entre eles, modelos espaciais podem ser adotados.
Nesse caso, a matriz D deve ser substituda por uma matriz de correlao
autoregressiva (AR1) contemplando essa covarincia espacial.

Assim,

2 2
' ' ) ( ) (
m m
WDW W WD Wm Var g Var o o = = = deve ser rescrita como
2 2
' ' ) ( ) (
mc mc mc mc
W W W W Wm Var g Var o o E = E = =

em que
2
mc
o a varincia correlacionada
de marcadores e
mc
E uma matriz de correlao autoregressiva de primeira ordem
com parmetro de autocorrelao . Para o caso de 4 marcas,
mc
E dada por
(
(
(
(
(

= E
1
1
1
1
1 2 3
1 1 2
2 1 1
3 2 1




mc
.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

58

Um modelo autorregressivo com varincias heterogneas (ARH) tambm
pode ser ajustado. Nesse caso, tem-se ' ) ( ) ( W W Wm Var g Var
mch
E = =

e para 3 marcas a
estrutura de covarincia :
(
(
(

=
2
1
3 2
2
2
3 1
1
2 1
2
3
2
1
.
m
m m m
m m m m m
mch
Sim
o
o o o
o o o o o
.

Se parte da varincia entre SNPs correlacionada e parte independente ou
no correlacionada, tem-se a estrutura Var(m) = Var (m
c
+ m
nc
)= +, em que
2 2
mnc mc mc
Io o + E = + , em que
2
mnc
o a varincia de marcadores no correlacionada. No
caso, tem-se ' ) ( ) ( W W Wm Var g Var + = = . Para o caso de 4 marcas, + dada por
(
(
(
(
(

+
+
+
+
= +
) (
) (
) (
) (
2 2 2 1 2 2 2 3
2 1 2 2 2 1 2 2
2 2 2 1 2 2 2 1
2 3 2 2 2 1 2 2
mnc mc mc mc mc
mc mnc mc mc mc
mc mc mnc mc mc
mc mc mc mnc mc
o o o o o
o o o o o
o o o o o
o o o o o
.


Outra estrutura de correlao que pode ser usada associada a modelos ante-
dependncia estruturados (SAD), em que a estrutura da matriz de covarincia :
(
(
(

=
2
2 3 2
2
2 1 3 1 1 2 1
2
3
2
1
.
m
m m m
m m m m m
mSAD
Sim
o
o o o
o o o o o

Modelos SAD nos mtodos BayesA e BayesB foram aplicados por Yang e
Tempelman (2012). Maiores detalhes sobre modelos espaciais na anlise genmica
so apresentados no tpico 6.26.

Modelos de Competio (Associativos ou de Interao Social)

Em um modelo de interferncia ou de interao social, a parcela ou individuo
i tem um efeito direto
i
t nele e um efeito indireto
i
| no individuo vizinho. A
competio genotpica pode ser considerada sob a tica desse modelo. Esse modelo
da forma: e NZ Z Xb e Zg Xb y + + + = + + = | t
,
em que:
| t NZ Z Zg + =
.
t : vetor dos efeitos genticos diretos dos indivduos (gentipos).
| : vetor dos efeitos centrados de tratamentos (gentipos) sobre os vizinhos
(efeitos indiretos ou associativos), os quais so genticos e no
fenotpicos. So tambm denominados efeitos genticos sociais.
N: matriz de incidncia de vizinhana, de dimenso n x n, composta por 0 e 1.

Pode ser visto explicitamente no modelo gentico social que os efeitos de
competio referem-se a efeitos genticos (dependem da matriz Z) e no a efeitos
residuais. Devido a essa razo, o uso somente da abordagem auto-regressiva para os
resduos pode ser inapropriada para contemplar a competio entre indivduos ou
entre parcelas.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

59

O componente
i
| pode ser positivo ou negativo, dependendo da
agressividade do gentipo. Se negativo (para gentipos agressivos), o valor absoluto
de
i
| deve ser subtrado de
i
t por meio de
i i i
v| t t =
*
, propiciando os efeitos de
gentipos para uso em plantios ou planteis puros, em que v o nmero de vizinhos
considerados. Se positivo (gentipos sensveis),
i
|

ser somado na expresso
i i i
v| t t + =
*
.
A competio e a tendncia espacial podem ser includas em um modelo
espacial. O modelo da forma: q | t + + + + = NZ Z Xb y . A competio modelada
como parte da estrutura de tratamentos e a tendncia em uma ou duas dimenses
modelada como parte da estrutura dos erros.

Resende e Thompson (2003) e Resende et al. (2005) usaram esse mesmo
modelo e assumiram
i
t

e
i
|

como efeitos aleatrios. Nesse caso, existe uma
covarincia entre
i
t e
i
| . A matriz de covarincia entre eles equivale a:
|
|
.
|

\
|
=
|| t|
t| tt
g g
g g
G
, em que
tt
g o componente de varincia para os efeitos genotpicos
diretos,
||
g o componente de varincia associado aos efeitos genotpicos indiretos
sobre os vizinhos (numerador da herdabilidade dos efeitos de competio) e
t|
g a
covarincia entre os efeitos diretos no prprio indivduo e indiretos sobre os vizinhos
e tambm o numerador da correlao gentica entre a produtividade e a
agressividade das indivduos, dada por
2 / 1
) /(
|| tt t| t|
g g g r = .

Esta correlao , em geral, negativa, evidenciando que os melhores
indivduos so beneficiados nos experimentos e criaes comunitrias. A seleo
deve ento ser baseada em | t

+ , em que |

negativo nas indivduos mais


agressivos. A seleo pode basear-se tambm em |

visando a identificao de
gentipos adequados a plantios adensados como, por exemplo, no melhoramento do
cafeeiro e do dendezeiro.

Modelo idntico ao apresentado passou a ser usado tambm no
melhoramento animal (Van Vleck e Cassady, 2005; Arango et al., 2005; Muir, 2005).
Atualmente, esses mesmos modelos vem sendo enfatizados novamente no
melhoramento florestal (Brotherstone et al., 2011; Bijima, 2011; Costa e Silva et al.,
2012).











Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

60

1.16 Modelos BLUP Longitudinais (Regresso Aleatria Multivariada e Normas
de Reao)

Dados longitudinais ou medidas repetidas ao longo do tempo so a regra no
melhoramento de animais e plantas perenes. O BLUP sob modelos com medidas
repetidas pode ser ajustado usando diferentes parametrizaes da estrutura de
correlao dos fentipos ao longo do tempo. Esse assunto tratado por Meyer (2005)
e Mrode (2005), dentre outros. Um resumo desses modelos apresentado na Tabela
16.

Tabela 16. Modelos BLUP Longitudinais.
Modelo Objetivo Modelos
Modelos de Regresso Aleatria via Polinmios
Ortogonais de Legendre
Modelagem de medidas repetidas no tempo Ver texto
Modelos de Regresso Aleatria via Splines Modelagem de medidas repetidas no tempo Ver texto
Modelos Processo Carter e Autoregressivos Modelagem de medidas repetidas no tempo Ver texto
Modelos Ante-Dependncia Estruturados (SAD) Modelagem de medidas repetidas no tempo Ver texto
Modelos de Simetria Composta Modelagem de medidas repetidas no tempo Ver texto

Regresso Aleatria Multivariada

Para caracteres associados a curvas de crescimento em funo do tempo ou da
idade de avaliao, os modelos de regresso aleatria multivariados (RRM) devem
ser adotados considerando dois conjuntos de regresso dos fentipos do carter em
funo das idades mensuradas. O primeiro conjunto diz respeito regresso fixa para
os indivduos pertencentes mesma classe de efeitos fixos e o segundo contempla
efeitos aleatrios que descrevem os desvios de cada indivduo em relao regresso
fixa. As regresses fixas e aleatrias so representadas por funes contnuas.

Um modelo de regresso aleatria multivariado pode ser ajustado para os
efeitos aleatrios gentico aditivo e ambiente permanente cujas covariveis
relacionadas aos tempos ou idades podem ser descritas por polinmios de Legendre.
Esse modelo dado por y = Xb + Zg + Tp + e, em que p o vetor dos efeitos de
ambiente permanente com matriz de incidncia T. Expresso de outra forma, o
modelo dado por e p g Xb y
p g
+ u + u + = , em que
g
u e
p
u so matrizes de
incidncia (de covariveis) para os coeficientes polinomiais dos efeitos gentico
aditivo e de ambiente permanente, respectivamente.

As distribuies dos coeficientes de regresso aleatria so dadas por:
) , 0 ( ~
g
K A N g , sendo A a matriz de parentesco entre os indivduos e
g
K uma matriz
de dimenso (k
g
+1) x (k
g
+1) de covarincias entre coeficientes de regresso aleatria
para os efeitos genticos aditivos;
n P
p ~ N(0,I K ) , sendo
n
I uma matriz identidade
de ordem n e
P
K

uma matriz de dimenso (k
p
+1) x (k
p
+1) de covarincias entre
coeficientes de regresso aleatria para os efeitos de ambiente permanente. Com
seleo genmica, os modelos de regresso aleatria multivariados devem usar, em
lugar de A, a matriz de parentesco genmico, dada por
] ) p ( p [ ) (WW' = k ) (WW' = G
n
i
i i
1 2 / /
.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

61

O modelo de regresso aleatria pode ser dado por:

em que:
varivel observada no j
sima
idade do i
simo
indivduo;
F
ij
conjunto de efeitos fixos;
: m
simo
coeficiente de regresso de efeito fixo da curva mdia da varivel na
populao;
e : m
simos
coeficientes de regresso aleatria referentes aos efeitos gentico
aditivo e de ambiente permanente, respectivamente, para o i
simo
indivduo;
e : ordens das funes de covarincias utilizadas para descrever,
respectivamente, os efeitos gentico aditivo e de ambiente permanente;
: idade j do indivduo i;
: polinmios de Legendre avaliados para , referentes a regresso de efeito
fixo e aos efeitos aleatrios gentico e de ambiente permanente, considerando as
ordens das funes de covarincias e , respectivamente;
: efeito aleatrio residual.

O modelo matricial equivalente e p g Xb y
p g
+ u + u + = caracterizado a
seguir:
, em que g e p so os vetores dos coeficientes de regresso
aleatria referentes aos efeitos gentico aditivo e de ambiente permanente,
respectivamente.

A matriz para o indivduo j contm os elementos ou polinmios de
Legendre avaliados para (idade padronizada i para o individuo j) e dada por
= M. A matriz apresenta dimenso k
g
x k
g
, em que k
g
refere-se ordem da
funo de covarincia utilizada. A matriz M (de dimenso t x k
g
, em que t o
nmero de idades avaliadas no indivduo j) contm os valores de idade padronizados.

Os polinmios de Legendre so denotados por ( ) x P
n
. Definindo ( ) 1
0
= x P , o
polinmio n+1 descrito pela frmula de recorrncia:

.

Assim,
,

( ) x x
x x
x P
2
3
2
5
3
2
3
5
3
3
3
=

=

( ) ( ) 3 30 35
8
1
2 4
4
+ = x x x P

e assim sucessivamente.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

62

Na forma normalizada tem-se: e ento tem-se a srie
de polinmios ortogonais:

e assim por diante.

Em resumo podem ser apresentados da seguinte maneira:

















Empregando polinmios na forma normalizada, tem-se que os elementos de
A so dados por ( ) ( ) x P
n
x
n n
5 , 0
2
1 2
|
.
|

\
|
+
= | . Considerando k
g
= 6 a ordem da funo de
covarincia utilizada, a matriz (de dimenso k
g
x k
g
) dos coeficientes dos
polinmios de Legendre definida da seguinte forma:

(
(
(
(
(
(
(
(

= A
4685 , 18 0 0 0 0 0
0 2808 , 9 0 0 0 0
5206 , 20 0 6771 , 4 0 0 0
0 9550 , 7 0 3717 , 2 0 0
3973 , 4 0 8062 , 2 0 2247 , 1 0
0 7955 , 0 0 7906 , 0 0 7071 , 0

A matriz M, considerando a avaliao de 6 idades no indivduo j dada por

(
(
(
(
(
(
(
(

=
5
6
4
6
3
6
2
6 6
5
5
4
5
3
5
2
5 5
5
4
4
4
3
4
2
4 4
5
3
4
3
3
3
2
3 3
5
2
4
2
3
2
2
2 2
5
1
4
1
3
1
2
1 1
1
1
1
1
1
1
a a a a a
a a a a a
a a a a a
a a a a a
a a a a a
a a a a a
M
.
n

0

1

2

3

4

5

6

7

8

9

10

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

63


A quantidade a
t
refere-se idade padronizada para o intervalo -1 ; 1 e dada
por
) /( ) ( 2 1
min max min
a a a a a
t t
+ =
.

Para o caso das idades 60, 150, 300, 420, 500 e 620 dias, o vetor a das idades
padronizadas dado por a=
[-1.0000 -0.6786 -0.1429 0.2857 0.5714 1.0000].

A matriz M equivale ento a M =

1 -1 1 -1 1 -1
1 -0.6786 0.4605 -0.3125 0.2120 -0.1439
1 -0.1429 0.0204 -0.0029 0.0004 -0.0001
1 0.2857 0.0816 0.0233 0.0067 0.0019
1 0.5714 0.3265 0.1866 0.1066 0.0609
1 1 1 1 1 1

Finalmente a matriz = para o indivduo j dada por = M.

=

0.7071 -1.2247 1.5811 -1.8709 2.1213 -2.3452
0.7071 -0.8311 0.3016 0.4427 -0.9002 0.7711
0.7071 -0.1750 -0.7422 0.3874 0.6369 -0.5707
0.7071 0.3499 -0.5971 -0.6928 0.2086 0.8133
0.7071 0.6998 -0.0162 -0.7307 -0.8125 -0.1918
0.7071 1.2247 1.5811 1.8709 2.1213 2.3452

Com t = k tem-se o caso de ajuste completo (full fit) e o modelo de regresso
aleatria reproduz exatamente o modelo multicaracterstico. Assim, a matriz de
covarincia gentica (
g
E ) do modelo multicaracterstico exatamente reconstituda
por
'
g g g g
K u u = E
. Em um modelo multivariado tem-se
c + + = Zg Xb y ,
com
R Z Z y Var
g
+ E = ' ) (
, em que
0
g g
A E = E
e
0
R I R =
, sendo '
0
g g g g
K u u = E ,
) ( ) ( g Var Zg Var
g
u =
. E sendo
2
0
'
e p p p
I K R o + u u = , tem-se que
) ( ) ( e p Var Var
p
+ u = c
.

Na prtica, usa-se um modelo com ajuste reduzido, ou seja, tem-se k < t e
v + u u = E
g g
K , em que v um desvio em relao ao modelo multivariado total com
as t idades. Bons ajustes conduzem a v desprezveis.

As equaes de modelo misto so dadas por
(
(
(

u
u
=
(
(

(
(
(

+ u u u u u
u u + u u u
u u




y R
y R
y R X
p
g
b
K I R R X R
R K A R X R
R X R X X R X
p
g
p p p g p p
p g g g g g
p g
1
1
1
1 1 1 1 1
1 1 1 1 1
1 1 1
'

'

' '
'
' ' '

A matriz de covarincia (
g
K ) entre os efeitos genticos aleatrios,
desconsiderando as relaes de parentesco e para o caso de um ajuste linear equivale
a:
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

64

|
|
.
|

\
|
=
|
|
.
|

\
|
=
(

=
1 1 1 0
1 0 0 0
) ( ) , (
) , ( ) (
1 1 0
1 0 0
1
0
o o o o
o o o o
o o o
o o o
o
o
g g
g g
Var Cov
Cov Var
Var K
g
, em que para o
individuo j o vetor g dado por
]' [
1 0 j j j
g o o =
e

j 0
o e
j 1
o so o intercepto e a
inclinao do individuo em funo da idade. E o vetor no tempo t dado por
(

=
t
i
1
|
.
Voltando ao modelo inicial tem-se:
t t t t
e p g Xb y + + + =
t t p t g t
e p g Xb y + u + u + = ) ( ) (

t t p t g g t
e p Xb y + u + u + = ) ( ) ( o


Para o caso de um ajuste linear, o efeito aleatrio do valor gentico no tempo t dado
por:
t g
t 1 0
o o + = .
Matricialmente, tem-se:

| |
(

=
(

=
1
0
1
0
1
o
o
o
o
| t g
i t
.
De acordo com a ordem k do ajuste os efeitos genticos aditivos so dados por:

Ordem k do Ajuste
t
g
1
0
o
2
t
1 0
o o + ;

3
2
2 1 0
t t o o o + +


Com k = 3,
2
2 1 0
t t o o o + +
e

(
(
(

= u
2
1
t
t
i
.
As varincias gentica e fenotpica so dependentes da idade, ou seja, podem
aumentar ou diminuir com a idade. Tem-se que:
1 1 1 0 0 0
2 ' 2
) (
2

o o o o o o
| | o g t g t g K
i i i g i i g
+ + = = : varincia gentica na idade i.
2 2
) (
2
) (

e i g i y
o o o + = : varincia fenotpica na idade i.
1 1 1 0 0 0
) (

'
) ( o o o o o o
| | o g t t g t t g K
j i j i j g i ij g
+ + + = = : covarincia gentica entre as idades i
e j.
) ( ) (
) (
) (

j g i g
ij g
ij g
r
o o
o
=
: a correlao gentica entre as idades i e j.
Para o caso de um ajuste linear, um modelo sem efeito de ambiente permanente pode
ser escrito como (Resende e Rosa-Perez, 1999; Resende et al, 2001):
y = Xb + Z
0
0
o +Z
1
1
o

+ e, em que:
Z
0
: matriz de incidncia para
0
o , contendo 0 e 1s.
Z
1
: matriz associando
1
o a y, contendo zero e valores de idade.

As equaes de modelo misto podem ser formuladas:

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

65

|
|
|
.
|

\
|
'
'
'
=
|
|
|
|
.
|

\
|
(
(
(

+ ' + ' '


+ ' + '
' ' '


y Z
y Z
y X b
A Z Z A Z Z X Z
A Z Z A Z Z X Z
Z X Z X X X
1
0
1
0
11
1
1 1 01
1
0 1 1
01
1
1 0 00
1
0 0
'
0
1 0

o
o


, em que:
|
|
.
|

\
|
=

11 01
01 00 2 1


o
e g
K , sendo
|
|
.
|

\
|
=
1 1 1 0
1 0 0 0
o o o o
o o o o
g g
g g
K
g
.

Modelos de Normas de Reao

O modelo de normas de reao refere-se ao estudo da interao gentipos x
ambientes em termos de resposta fenotpica variao em um gradiente ambiental
representado por diferentes locais. Tm-se os seguintes modelos equivalentes:
e g g Z Xb y + A + + I + =
0

e Z Z Xb y + + + I + = | o
1 0


em que e g so os efeitos de ambientes ou locais e da interao gentipos x locais,
com matrizes de incidncia I e A, respectivamente.

No segundo modelo os efeitos de gentipos e da interao gentipos x locais
so expressos como combinao gentipos-locais ( | o
1 0 0
Z Z g g Z + = A + ), permitindo
inferir sobre o desempenho de cada gentipo em cada local. Para isso define-se o e |
como vetores dos coeficientes de regresso aleatria referentes aos efeitos genticos
de intercepto para cada gentipo e da inclinao para cada gentipo em funo da
ambiente. Define-se ainda:

Z
0
: matriz de incidncia para o , contendo 0 e 1s.
Z
1
: matriz associando | a y, contendo zero e valores de mdias por local.

As equaes de modelo misto so:

|
|
|
.
|

\
|
'
'
'
=
|
|
|
|
.
|

\
|
(
(
(

+ ' + ' '


+ ' + '
' ' '


y Z
y Z
y X b
A Z Z A Z Z X Z
A Z Z A Z Z X Z
Z X Z X X X
1
0
11
1
1 1 01
1
0 1 1
01
1
1 0 00
1
0 0
'
0
1 0

|
o


, em que:
|
|
.
|

\
|
=

11 01
01 00 2 1


o
e r
N
, sendo
|
|
.
|

\
|
=
(

=
2
2
| o|
o| o
o o
o o
|
o
Var N
r
.

Os efeitos aleatrios, o e | , correspondentes a cada gentipo so
assumidos com distribuio normal de mdia nula e matriz de covarincia dada por:
|
|
.
|

\
|
=
(

=
2
2
| o|
o| o
o o
o o
|
o
Var N
r
, em que
2
o
o ,
2
|
o e
o|
o so a varincia gentica do
intercepto, componente de varincia da inclinao da norma de reao e covarincia
entre efeitos genticos de intercepto e de inclinao, respectivamente.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

66

A herdabilidade em funo do gradiente ambiental estimada por:
2
,
2 2 2
2
2 2
2
2
2
|
|
|
|
e
g
e g
g
g
h
o o o o
o
o o
o
| o | o
+ + +
=
+
=

, pois
| o | o
o o o | o o
,
2 2 2 2
2 ) ( | + + = + =Var
g
.
No ambiente mdio ( 0 = ):
2 2
2
2
e
g
h
o o
o
o
o
+
=
o coeficiente de herdabilidade e
2
e
o a
varincia residual.
A correlao entre intercepto e inclinao das normas de reao so dadas
por:
2 2
,
,
| o
| o
| o
o o
o
= r
. Essa correlao, quando tende a 1, indica que os indivduos de
maior valor gentico so tambm mais responsivos (com grande adaptabilidade)
melhoria do ambiente. Essa uma situao favorvel.

O valor gentico dos gentipos no ambiente dado pela soma do
intercepto o com o produto do coeficiente de inclinao | pelo valor do nvel
ambiental , da seguinte maneira:


i i i
g | o + = |
. De maneira genrica, para todo o
vetor g, tem-se
| o
1 0
| Z Z g
i
+ =
.

As correlaes entre valores genticos em dois ambientes i e k so dadas
por:

2
|
2
|
| , |
| , |
k i
k
g
i
g
k i
g g
g g
r



o o
o
= , em que ) (
,
2 2
| , |
k i k i
k
g
i
g


+ + + =
| o | o
o o o o e
i i i i g
Var
| o | o
o o o | o o
,
2 2 2 2
2 ) ( | + + = + = .

Os modelos de normas de reao podem ser ajustados via modelos de regresso
aleatria por REML ou por via Bayesiana usando MCMC. Inclusive, modelos de
regresso quadrtica, cbica e de maiores graus podem tambm ser avaliados. E pela
abordagem Bayesiana, comparaes entre modelos podem ser realizadas via AIC ou
BIC usando uma deviance a posteriori. O mtodo BIC usa o nmero efetivo de
parmetros, o qual menor do que o numero bruto, devido ao parentesco.
















Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

67

1.17 Casos Especiais: GLMM, GEE, HGLMM, PL, PLS e SALP

A seguir so descritos casos especiais de modelos mistos envolvendo: analise de
dados categricos (GLMM), dados categricos multivariados (GEE), modelos lineares
mistos generalizados hierrquicos (HGLMM), perfil de verossimilhana (PL) e
anlise de sobrevivncia para longevidade e precocidade (SALP). Um resumo sobre
GLMM e GEE apresentado na Tabela 17.

Tabela 17. Caracterizao de modelos lineares generalizados mistos (GLMM) e
equaes de estimao generalizada (GEE) .
Classe de Modelos Dimenso do
Modelo
Funo Associada
Varivel
Aleatria Discreta
Classificao do
Modelo quanto
aos Efeitos
Mtodo de
Estimao
Algoritmo
Numrico
Modelos Lineares
Generalizados (GLM)
Univariada Verossimilhana Fixo Mxima
Verossimilhana
(ML)
Quadrados
Mnimos
Ponderados
Iterativos
(IWLS)
Modelos Lineares
Generalizados (GLM)
Multivariada Quase-
Verossimilhana
Fixo Equaes de
Estimao
Generalizada (GEE)
Quadrados
Mnimos
Ponderados
Iterativos
(IWLS)
Modelos Lineares
Generalizados Mistos
(GLMM)
Univariada Verossimilhana
Residual
Misto Mxima
Verossimilhana
Residual (REML)
Vrios
Modelos Lineares
Generalizados Mistos
(GLMM)
Multivariada Quase-
Verossimilhana
Misto Pseudo Mxima
Verossimilhana ou
REML Condicional
Vrios

Modelos Lineares Generalizados Mistos (GLMM)

Variveis no normais e no contnuas, como aquelas com distribuio binomial e
outras variveis categricas, no so bem descritas por modelos estatsticos lineares.
Para estas variveis discretas, os modelos no lineares podem ser mais apropriados.
A classe de modelos lineares generalizados permite a generalizao ou flexibilizao
dos modelos lineares clssicos de variveis contnuas, de forma que toda a estrutura
para a estimao e predio em modelos lineares normais pode ser estendida para os
modelos no lineares. Os modelos lineares clssicos so casos especiais de modelos
lineares generalizados.

Estes modelos generalizados foram desenvolvidos para anlise de dados
associados a distribuies pertencentes famlia exponencial com um parmetro. A
idia de modelos lineares generalizados permitir maior flexibilidade de anlise. Tal
idia relaxa a suposio de que Y segue distribuio normal e permite que esta siga
qualquer distribuio que pertena famlia exponencial na forma cannica. As
generalizaes ocorrem em duas direes: (i) permitem que a esperana , de Y seja
uma funo monotonicamente diferenvel do preditor linear q = x
i
|
i
de forma que
= f(q) = f (x
i
|
i
); (ii) ou, por inverso, g() = q, em que g a funo de ligao, a
qual liga a mdia ao preditor linear. A incorporao da funo de ligao nas
equaes de modelos lineares mistos para e estimao de componentes de varincia e
de efeitos fixos e predio de variveis aleatrias gera a denominao de modelo no
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

68

linear devido relao no linear que existe entre a escala latente e a probabilidade de
um indivduo pertencer a uma determinada categoria da varivel discreta.

Para dados binomiais, 0 s s 1, funes de ligao tal qual a logito so utilizadas
para satisfazer esta restrio natural. As transformaes so importantes para: (i)
estender a amplitude da varivel analisada de (0,1) para a reta real; (ii) fazer a
varincia constante atravs da amplitude dos efeitos fixos (na escala da varivel
latente contnua). A funo de ligao descreve, ento, a relao existente entre o
preditor linear (q) e o valor esperado de Y . No modelo linear clssico, tem-se q =
que chamada de ligao identidade, e esta ligao adequada no sentido em que
ambos q e podem assumir valores na reta real.

As distribuies a serem assumidas para a escala da varivel latente e
correspondentes funes de ligao devem ser capazes de transformar o intervalo
(0,1) em (- , ). Neste sentido, as distribuies logstica, normal padro e Gumbel
(ou distribuio de valor extremo) para a varivel latente e suas correspondentes
funes de ligao denominadas logito, probito e complemento log-log so
apropriadas para o modelo binomial. Maiores detalhes sobre a estimao e predio
em modelos lineares generalizados mistos via REML/BLUP so apresentados por
Resende e Biele (2002).

Equaes de Estimao Generalizada (GEE)

Anlises estatsticas univariadas de variveis discretas so realizadas
eficientemente via a classe de modelos lineares generalizados. Nesse caso, uma funo
de verossimilhana maximizada iterativamente analisando uma varivel linearizada
(transformao de y para a escala linear), usando modelos lineares normais ponderados.
Modelos mistos normais ponderados podem ser ajustados via REML.

Para o caso multivariado, a estatstica clssica tem se limitado a tcnicas
descritivas no paramtricas tal qual a anlise de componentes principais ou a modelos
paramtricos baseados em normalidade. Em muitas aplicaes, principalmente na rea
de estatstica mdica, muitos problemas de estimao associados a variveis discretas
no podem ser abordados usando a estatstica multivariada tradicional. Para o caso de
variveis no normais, uma forma geral para a distribuio multivariada no existe.
Isto conduz ao fato de que uma verdadeira funo de verossimilhana, que baseia-se
em normalidade, no est disponvel. Uma funo alternativa a quase-
verossimilhana, a qual tem propriedades similares s da verossimilhana verdadeira.
Essa funo de quase-verossimilhana pode ser maximizada usando a tcnica das
equaes de estimao generalizada (GEE) criada por Zeger et al. (1988). Por essa
tcnica, a estimao pode ser realizada por meio do mtodo numrico ou algoritmo de
quadrados mnimos ponderados iterativos (IWLS). Ento, a tcnica GEE encontra seu
principal uso na anlise multivariada de variveis discretas. ento um
desdobramento da classe de modelos lineares generalizados (GLM) em que se
incorporam as correlaes entre variveis ou entre medidas repetidas. Pode ser aplicada
a modelos de efeitos fixos e a modelos de efeitos mistos.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

69

Uma diferena fundamental entre uma verossimilhana verdadeira e uma
quase-verossimilhana abordada via equaes de estimao referente aos modelos
de trabalho. Esses, no primeiro caso, tratam a verossimilhana como uma funo
objetivo para estimao e comparao de modelos. E no caso da quase-
verossimilhana somente uma equao escore especificada e resolvida para
produzir uma estimativa. Essa abordagem da equao de estimao (EE) focaliza
apenas o parmetro de interesse e no toda a estrutura de probabilidade das
observaes. Uma vantagem da verossimilhana verdadeira refere-se possibilidade
de comparao de modelos via deviance e AIC. Uma abordagem alternativa de
estimao associada quase verossimilhana refere-se ao procedimento da pseudo-
verossimilhana, o qual permite a comparao de modelos via LRT e AIC.

A anlise de modelos lineares generalizados pode ser gerada via equaes de
estimao, via pseudo verossimilhana ou via REML ou IWLS (abordagem de
verossimilhana verdadeira), mas as filosofias subjacentes so diferentes. Uma
distino essencial que o teste da razo de verossimilhana no est disponvel na
abordagem EE (Resende, 2007).

A funo objetivo denominada quase-verossimilhana apresenta duas
caractersticas marcantes:
(i) Em contraste com a verossimilhana completa ou verdadeira, nenhuma
estrutura de probabilidade especificada, mas somente as funes da
mdia e varincia. Assim, essa abordagem pode ser denominada semi-
paramtrica, em que os demais parmetros, exceto aqueles de interesse,
so deixados livres. Especificando apenas a mdia e a varincia, a forma
da distribuio permanece totalmente livre.
(ii) Com essa modelagem limitada, a amplitude de inferncias possveis
tambm limitada. Basicamente, apenas uma estimativa pontual do
parmetro obtida. A construo de intervalos de confiana e a
realizao de testes de hipteses assumem normalidade assinttica das
estimativas, produzindo uma inferncia do tipo Wald. Tambm, a
comparao de modelos limitada.

Modelos Lineares Mistos Generalizados Hierrquicos (HGLMM)

Nos modelos lineares mistos generalizados tradicionais assume-se que os
resduos podem no apresentar distribuio normal, mas, os demais efeitos aleatrios
do modelo seguem a distribuio normal. Entretanto, essa suposio nem sempre
adequada. Um exemplo a situao em que os dados seguem distribuio de Poisson
e a funo de ligao especificada para os resduos a logartmica. Nesse caso, uma
suposio mais apropriada para os demais fatores aleatrios uma distribuio gama
com funo de ligao logartmica. Modelos em que uma distribuio de
probabilidade e uma funo de ligao podem ser especificados para cada fator
aleatrio so denominados modelos lineares mistos generalizados hierrquicos
(HGLMM). Como os fatores aleatrios nem sempre so de classificao hierrquica,
uma denominao alternativa modelos lineares mistos generalizados estratificados.
HGLMMs so bem descritos por Lee et al. (2007). Um preditor BLUP para
HGLMMs foi apresentado por Lee e Ha (2010). Para HGLMMs no normais o
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

70

BLUP linear pode no ser eficiente. Os autores apresentaram uma combinao do
BLUP com modelos Tweedie de disperso baseados em distribuio exponencial.

Verossimilhana Perfilada (PL)

A definio de verossimilhana contempla modelos multi-paramtricos.
Entretanto, muitas vezes o interesse reside em apenas um subconjunto de
parmetros, sendo os demais denominados parmetros de perturbao (nuisance) e
participam do modelo apenas para ajudar a descrever melhor a variabilidade. Um
caso tpico quando o interesse reside nos componentes de varincia e os efeitos
fixos so considerados nuisance. Nesse caso, necessrio um mtodo para concentrar
a verossimilhana em um s parmetro ou grupo de parmetros por meio da
eliminao do parmetro de nuisance.

A abordagem de verossimilhana para eliminar parmetros de nuisance
refere-se a substituir tais parmetros por suas estimativas de mxima
verossimilhana para cada valor fixo do parmetro de interesse. A verossimilhana
resultante ento denominada verossimilhana perfilada ou concentrada. A abordagem
bayesiana elimina todos os parmetros no interessantes, integrando-os fora da
distribuio. Entretanto, a funo de verossimilhana no uma funo densidade de
probabilidade (ou seja, no integra 1) e no obedece leis de probabilidade. Assim,
integrar um parmetro em uma funo de verossimilhana no tem sentido. No
entanto, existe uma analogia entre integrao na abordagem bayesiana e o conceito
de perfil de verossimilhana modificado relatado na seqncia.

Existe um mtodo genrico de transformao de dados y para (v, w) de
forma que a distribuio marginal de v e a distribuio condicional de v dado w
depende apenas do parmetro de interesse. Isso caracteriza o que denominado
verossimilhana marginal e verossimilhana condicional, respectivamente. No entanto,
verossimilhanas marginais e condicionais exatas nem sempre esto disponveis ou
so difceis de derivar. Uma aproximao para essas pode ser obtida modificando-se
o perfil de verossimilhana tradicional para se obter o perfil de verossimilhana
modificado.

No possvel usar o mtodo REML ordinrio para o modelo de competio
por exemplo, uma vez que o coeficiente de competio aparece em ambos, na mdia e
varincia de y (pois ambos, tanto a varivel quanto a covarivel so o mesmo
carter). Entretanto, uma generalizao do REML pode ser aplicada para estimao
dos parmetros do modelo. Essa generalizao envolve o ajustamento da
verossimilhana perfilada (por meio do escore perfilado ajustado) para o parmetro
de interesse em uma classe geral de modelos. Tal ajustamento pode ser feito pelo
mtodo de McCullagh e Tibshirani (1990), o qual remove o vcio das estimativas de
mxima verossimilhana, conforme realizado por Resende e Thompson (2003).

A inferncia na presena de parmetros de nuisance um problema difcil em
estatstica. Sob a perspectiva da verossimilhana, a abordagem mais simples refere-se
eliminao (via maximizao) dos referidos parmetros para valores fixos dos
parmetros de interesse e ento construir o que denominado verossimilhana
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

71

perfilada. Em outras palavras, tal soluo refere-se substituio dos parmetros de
nuisance na funo de verossimilhana por suas estimativas de mxima
verossimilhana obtidas sob valores fixados dos parmetros de interesse. Isto produz
a verossimilhana perfilada. Essa ento tratada como uma funo de
verossimilhana ordinria para estimao e inferncia sobre os parmetros de
interesse. Infelizmente, com grande nmero de parmetros de nuisance, esse
procedimento pode produzir estimativas ineficientes e inconsistentes. Os problemas
inerentes ao uso de verossimilhanas perfiladas so a gerao de estimativas viciadas
dos parmetros e otimistas dos desvios padres.

Modificaes na verossimilhana perfilada com o objetivo de aliviar esses
problemas foram propostas. A verossimilhana perfilada modificada intimamente
relacionada verossimilhana perfilada condicional na qual sugerido um teste de
razo de verossimilhana construdo a partir da distribuio condicional das
observaes dadas as estimativas de mxima verossimilhana dos parmetros de
nuisance.

Mxima Parcimnia (MP)

Parcimnia um princpio filosfico proposto pelo ingls William Ockam no
sculo XIV e pode ser enunciado como: se existe mais de uma explicao para uma
dado fenmeno, deve-se adotar aquela mais simples. O mtodo de mxima
parcimnia muito empregado em anlises de seqncias moleculares com o
propsito de reconstruo de rvores filogenticas como uma alternativa ao mtodo
de mxima verossimilhana.

O princpio da MP que a hiptese mais simples deve ser a escolhida dentre
todas as hipteses possveis de reconstruo filogentica. Em outras palavras, a
rvore que apresentar o menor nmero de passos (mudanas de estado de carter ou
mutao) ser a rvore mais parcimoniosa e deve ser escolhida para inferncia.

Em termos estatsticos, esse princpio da simplificao de modelos indica que:
modelos devem ter o mnimo possvel de parmetros; modelos lineares devem ser
preferidos em relao aos no lineares; modelos baseados em poucas suposies
devem ser preferidos em relao aos baseados em muitas suposies; modelos de
simples explicao devem ser preferidos em relao aos de explicao complexa.

Einstein modificou ligeiramente o princpio de Occam e afirmou: um modelo
deve ser to simples quanto possvel, mas no o mais simples. Tambm Oscar Wilde
(escritor e poeta Irlands) disse: a verdade raramente pura, e nunca simples.

Quadrados Mnimos Parciais (PLS)

A regresso via quadrados mnimos parciais (PLSR) um mtodo de reduo
dimensional que pode ser aplicado seleo de marcadores com efeitos significativos
em um carter. um mtodo muito usado em quimiometria na situao em que se
tem um grande nmero de variveis com relaes desconhecidas e o objetivo a
construo de um bom modelo preditivo para a varivel resposta. No PLS variveis
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

72

latentes so extradas como combinaes lineares das variveis originais e so usadas
para a predio da varivel resposta, conforme descrito a seguir.

As variveis latentes so componentes ortogonais, o que elimina o problema
de multicolinearidade e a PLSR similar regresso via componentes principais
(PCR). Ambos os mtodos constroem a matriz T de componentes latentes, como
transformao linear da matriz X das variveis originais por meio de T = XW, em
que W uma matriz de pesos. A diferena que a PCR extrai componentes que
explicam a varincia de X e a PLSR extrai componentes que tm maior covarincia
com y. Na PLSR as colunas de pesos na matriz W so definidas de forma que o
quadrado da matriz de covarincia amostral entre y e os componentes latentes
maximizado sob a restrio de que os componentes latentes sejam no
correlacionados.

Existem diferentes tcnicas para extrao dos componentes latentes. A
complexidade tima do modelo, ou seja, o nmero de componentes latentes, pode ser
determinada por validao cruzada.

Anlise de Sobrevivncia para Longevidade e Precocidade (SALP)

Na prtica do melhoramento gentico muitas vezes o carter de interesse
refere-se ao tempo ou nmero de dias ou meses para que determinado indivduo
atinja a produtidade ou peso desejvel. Nesse caso, a seleo objetiva precocidade
(menor tempo para atingir o valor desejvel) ou longevidade (maior tempo ou vida
produtiva). A seleo para longevidade e precocidade de interesse em animais e
fruteiras e para precocidade interessante para espcies florestais.

Modelos de anlise de sobrevivncia para longevidade e precocidade (SALP)
tm sido aplicados nessas espcies. Como o tempo uma varivel discreta e alguns
indivduos no atingem a produtividade desejada no perodo avaliado ou so
descartados antes, os modelos usados em anlise de sobrevivncia para dados
censurados tm sido empregados. O modelo em que os tempos t so independentes e
seguem a distribuio de Weibull tem sido utilizados. Esse modelo da forma

t x b g g x t P
i j j i
] ' [ exp{ ) , ( + = em que: ) , (
j i
g x t P a probabilidade de um
individuo j com vetor de efeitos fixos especificados por uma matriz de incidncia X
atingir a produtividade desejada aps o o tempo t; u uma constante; b o vetor de
coeficientes desconhecidos associados aos efeitos fixos x; g
j
o efeito gentico
aleatrio associado ao genitor j; o parmetro de forma da distribuio Weibull.

Em termos de risco ( ) o modelo dado por
1
] ' exp[ ) , (

+ =

t x b g g x t
i j j i
. Risco no caso refere-se propenso em atingir a
produtividade desejada. Uma funo de risco ) , (
j i
g x t que cresce rapidamente e
funo de sobrevivncia ) , (
j i
g x t P que decresce rapidamente (menor tempo) atravs
do tempo identifica um individuo precoce e interessante ao melhoramento.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

73

Usando a denominao da rea de anlise de sobrevivncia g
j
um efeito
aleatrio denominado fragilidade. Sob um modelo de sobrevivncia Weibull com
fragilidade gama tem-se que g
j
segue uma distribuio gama com parmetros (1 /
Var(g), 1 / Var(g)), donde E(g)=1 e
2
) (
g
I g Var o = . O modelo pode ser implementado
via MCMC em que uma cadeia estocstica de valores dos parmetros assumida
como contenedora de amostras da especfica distribuio de probabilidade j em
equilbrio aps perodos de descarte de amostras.

Outra abordagem aplicvel nessa rea so os modelos semiparamtricos como
o modelo de riscos proporcionais de Cox.

1.18 Mtodos Estatsticos para GWS

Os Mtodos Estatsticos para GWS so apresentados na Tabela 18.

Tabela 18. Classificao dos Mtodos para GWS
Classe Famlia Mtodo Atributos
Regresso explcita Mtodos de estimao
penalizada (Regresso
linear)
RR-BLUP/GWS Regularizao
Arquitetura gentica homognea
Seleo indireta de covariveis
LASSO Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
EN Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
RR-BLUP-Het/GWS Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
Mtodos de estimao
bayesiana (Regresso no
linear)
BayesA Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
BayesB Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
Fast BayesB Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
BayesCt Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
BayesDt Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
BLASSO Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
IBLASSO Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
Regresso implcita Regresso Kernel
RKHS
Redes neurais
Regresso com
reduo dimensional
Quadrados mnimos parciais
Componentes principais
Componentes Independentes



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

74

Detalhes desses mtodos so apresentados por Resende et al. (2011) e tambm no
tpico 6.22. A seguir ilustra-se a questo dos mtodos de regresso linear e no linear
usando para isso o mtodo BayesA.
O mtodo BayesA proposto por Meuwissen et. al. (2001) produz resultados
similares ao mtodo BLUP com varincias heterogneas, pois as varincias dos
segmentos cromossmicos diferem para cada segmento e so estimadas sob esse
modelo, considerando a informao combinada dos dados (funo de
verossimilhana) e da distribuio a priori para estas varincias. Neste caso, o modelo
ajustado por meio de uma abordagem Bayesiana com estrutura hierrquica em dois
nveis. Os efeitos dos marcadores so assumidos como amostras de uma distribuio
normal com mdia zero e varincia de cada marcador dada por uma distribuio qui-
quadrada inversa e escalonada conforme a seguir:
) , 0 ( ~
2 2
i i i
N
| |
o o |
) , ( ~
2 2 2
| | |
v _ o S
i


em que
|
v o nmero de graus de liberdades e
2
|
S o parmetro de escala da
distribuio. Assim, tem-se que a distribuio marginal a priori dos efeitos genticos
dos marcadores,
2
,
| |
v | S
i
, tem distribuio t de Student univariada, ou seja,
) , , 0 ( ~ ,
2 2
| | | |
v v | S t S
i
. Assim, esta formulao resulta na modelagem dos efeitos dos
marcadores como amostras de uma distribuio t de student.

Assumido
) , 0 ( ~
2
i
N
i |
o |
, em que
2
i
|
o
tomado de uma distribuio qui-
quadrado invertida, segundo o enfoque Bayesiano, isso implica que grande nmero
de marcadores apresenta efeitos pequenos e poucos marcadores apresentam efeitos
grandes.
O uso de uma mistura de distribuies normal e qui-quadrado invertida
conduz a uma distribuio t para |, e portanto, com uma cauda mais longa que a
distribuio normal. Este mtodo pode ser implementado via amostragem de Gibbs,
para obteno dessa informao combinada ou da distribuio a posteriori das
varincias.
Os mtodos associados a modelos hierrquicos bayesianos (BayesA e B) por
meio de suas formulaes em termos dos hiperparmetros propiciam varincias
especficas para cada marcador. O mtodo RR-BLUP so funes lineares dos dados
e regressam as estimativas com o mesmo erro padro (mesmas freqncias allicas e
tamanho amostral) pela mesma quantidade. Prioris Gaussianas conduzem a
shrinkage homogneo atravs dos marcadores. Os mtodos Bayesianos so funes
no lineares dos dados e regressam efeitos menores mais do que os maiores, ou seja,
admitem maiores herdabilidades para os maiores efeitos.
O shrinkage homogneo no desejvel, pois alguns marcadores esto ligados a
QTLs e outros no esto. Mas assumindo distribuio a priori t escalada ou dupla
exponencial para os efeitos de marcadores tem-se os mtodos BayesA e BLASSO,
respectivamente, os quais produzem shrinkage especficos de acordo com o tamanho
do efeito e da varincia do marcador.
Em resumo, no modelo linear os efeitos de marcas so assumidos com distribuio
normal e regressam as marcas de mesmas freqncias allicas pela mesma
quantidade. O modelo Bayesiano no linear e os efeitos menores so regressados
mais do que os maiores efeitos usando para isso informao a priori sobre a esperada
distribuio dos efeitos de QTL (distribuio t no caso do BayesA).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

75

1.19 Procedimento Estatstico para Comparao de Duas Metodologias

Conforme visto no tpico 1.1, um mtodo timo de estimao/predio deve
apresentar mnimo erro quadrtico mdio (EQM), o qual dado por EQM = Vcio
2
+
Preciso = Vcio
2
+ PEV. Assim, um estimador de mnimo EQM apresenta vcio
nulo ou baixo e alta preciso (baixa varincia do erro de predio PEV ou
) ( g g Var ). Em ausncia de vcio, EQM = PEV (Resende, 2008).

Algebricamente tem-se:

| | | | | |
2 2 2
2 ) ( g g g E g E g g E EQM + = = , em que g tratada como uma
constante determinstica;
| | | |
2 2
g E g E PEV = ;
| | | | | |
2 2 2 2 2
2 ) ( g g g E g E PEV EQM g g E b Vcio + = = = = ;
| | ) ( g g E b Vcio = = ;

=
= =
n
j
i ij i i
g g
n
b Vcio
1
) (
1
se pelo menos n = 2 repeties forem
empregadas para a obteno de
i
g .

O erro quadrtico mdio de estimao ou predio equivale distncia
Euclideana mdia entre os estimadores e os correspondentes parmetros. Minimizar
o erro quadrtico mdio significa maximizar a acurcia. Um estimador acurado
apresenta menor diferena quadrtica entre valores verdadeiros ( g ) e estimados ( g ).
A acurcia (
g g
r

) definida como correlao entre g e g e seu quadrado (


2
g g
r ) um
coeficiente de determinao denominado confiabilidade. O valor estimado equivale
ao verdadeiro mais o erro de predio ) ( g g , ou seja, ) ( g g g g + = .

A acurcia e a preciso guardam entre si as seguintes relaes, na classe de
estimadores no viesados:

- Acurcia (
g g
r

)

2 / 1 2
] / 1 [

g
PEV r
g g
o =

- Preciso (PEV)

2 2
) 1 ( ) (

g
g g
r g g Var PEV o = = , em que
2
g
o a varincia de g.

Assim, o mtodo ideal de estimao pode ser viciado em pequeno grau, pois o que
importa minimizar a soma PEV Vcio +
2
) ( . Na classe dos estimadores/preditores
no viciados, a preciso dada pelo parmetro varincia do erro de predio (PEV) e
a estratgia de minimizar PEV conduz tambm maximizao da acurcia. Mas, de
maneira geral (relaxando a necessidade de no vcio), o que deve ser minimizado o
EQM, buscando a admissibilidade.

A comparao entre duas metodologias estatsticas ou dois vetores contendo
variveis quantitativas pode ser realizada por meio da comparao de seus EQMs e a
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

76

identidade entre as duas pode ser inferida com base na identidade de seus EQMs.
Geralmente um modelo ( g ) comparado com a distribuio paramtrica ( g ). Mas,
em muitas situaes prticas, uma metodologia alternativa ( g ) comparada com
uma metodologia padro ou de referncia ( g ) por meio de seu erro em relao essa
referncia. Sendo PEV Vcio EQM + =
2
) ( , seus componentes devem ser testados
estatisticamente visando inferir sobre a identidade entre duas metodologias. Uma
abordagem para isso foi apresentada por Leite e Oliveira (2002). Esses autores
propem os seguintes testes para os trs componentes:

(i) teste t para o erro mdio

=
|
|
.
|

\
|
=
n
i i
i i
n
g
g g
e
1
/
) (
contra zero:
Estatstica de teste:
|
|
.
|

\
|
=
e
e
s
e
t
) 0 (
, em que n s s
e e
/ = e
e
s a estimativa do desvio
padro do erro, ou seja,
|
|
.
|

\
|
i
i i
g
g g
s
) (
;
Hiptese H
0
sob normalidade: 0 :
0
= e H .
Regra de Deciso: se ) 1 ( > n t t
e o
, rejeita-se H
0
, em que (n-1) so o nmero de graus
de liberdade.

(ii) teste simultneo de 0
0
= | e 1
1
= | para avaliar a significncia do vcio:

Segundo o modelo e g g + + =
1 0
| | , tem-se:
Estatstica de teste:
siduo QM
g g
F
Re 2
) *)( *' )( ( u | u |
= , em que
(
(

=
1
0

|
|
| ;
(

=
1
0
u ;
(
(
(
(
(
(
(

=
n
g
g
g
g
1
. .
. .
. .
1
1
*
2
1
e
(
(

=


2
*) *' (
i i
i
g g
g n
g g .
Hiptese H
0
sob normalidade: ] 1 0 [ :
0
= | H .
Regra de Deciso: se ) 2 , 2 ( ) (
0
> n F H F
o
, rejeita-se H
0
, em que (n-2) so o nmero
de graus de liberdade.


(iii) teste se a correlao difere de 1:

Sob 0 :
0
= e H verdadeira, se ) 1 (

e r
g g
> , a correlao entre as duas metodologias no
difere de um. A correlao pode tambm ser testada pelo teste t diretamente contra 1. Mas
isso envolveria a necessidade de um teste de hiptese a mais.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

77

Um erro mdio

=
|
|
.
|

\
|
=
n
i i
i i
n
g
g g
e
1
/
) (
pode no ser significativamente diferente de
zero mas, o estimador pode ser viesado. Em estudos de simulao, o vis pode ser calculado
pela expresso PEV EQM Vcio =
2
) ( . Na prtica, os valores paramtricos so
desconhecidos mas, a significncia do vis pode ser avaliada pelo teste simultneo de 0
0
= |
e 1
1
= | na expresso e g g + + =
1 0
| | . Mesmo com alta correlao ou determinao
(baixa PEV devida ao alto
2
g g
r ) possvel obter 0
0
= | e 1
1
= | . 0
0
= | indica
diferena sistemtica ou vcio envolvendo dois vetores a serem comparados. 1
1
= |
indica erro ou diferena proporcional entre os dois vetores, conforme pode ser visto
na expresso
) (
) (
) (
) , (
1
g Var
g Var
r
g Var
g g Cov
g g
= = |
, a qual revela que o coeficiente de regresso
funo da correlao e tambm da diferena proporcional entre as varincias
associadas aos dois mtodos.

Coeficientes de regresso abaixo de 1 indicam que os valores preditos so
subestimados e apresentam variabilidade aqum da esperada e, acima de 1, indicam
que os valores preditos apresentam variabilidade alm da esperada. Coeficientes de
regresso prximos de 1 indicam que as predies so no viesadas e so efetivas em
predizer as reais magnitudes das diferenas entre os indivduos em avaliao.

No vcio importante quando se testa identidade entre modelos. Na classe
dos estimadores/preditores no viciados no h necessidade de se testar 0
0
= | e
1
1
= | . As regras de deciso so apresentadas no Quadro a seguir, conforme Leite e
Oliveira (2002).

Regras de deciso na Comparao entre Duas Metodologias.
Situao F(H0): vis
e
t : erro mdio
g g
r

: componente da PEV
Deciso
1 no significativo no significativo ) 1 (

e r
g g
> g g =
2 no significativo no significativo ) 1 (

e r
g g
s g g =
3 no significativo significativo ) 1 (

e r
g g
> g g =
4 no significativo significativo ) 1 (

e r
g g
s g g =
5 significativo no significativo ) 1 (

e r
g g
> g g =
6 significativo no significativo ) 1 (

e r
g g
s g g =
7 significativo significativo ) 1 (

e r
g g
> g g =
8 significativo significativo ) 1 (

e r
g g
s g g =
Fonte: Leite e Oliveira (2002).





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

78

Acurcia Seletiva via Inferncia Bayesiana

No enfoque frequentista a acurcia dada por
2 / 1 2
] / 1 [

g
PEV r
g g
o = em que
PEV relacionado varincia do estimador g . Em inferncia bayesiana computa-se
a varincia do prprio parmetro que assumido como uma varivel aleatria.
Assim, essa frmula no vlida no contexto bayesiano. Prope-se aqui usar a
seguinte expresso para o cmputo da acurcia via estimao bayesiana:
]
~
/ )
~
( 1 [
~

g g s r
g g
= , em que )
~
(g s o desvio padro do valor gentico estimado ( g
~
).
Nota-se uma similaridade entre
g g
r

e
g g
r

~
, sendo que
g g
r

envolve componentes
quadrticos (
2
/
g
PEV o , por isso existe a raiz quadrada na frmula) e
g g
r

~
envolve
componentes lineares ( g g s
~
/ )
~
( , por isso no existe a raiz quadrada na frmula).

Em
g g
r

computada a reduo proporcional na correlao perfeita (igual a 1)


dada pela razo entre a variao dos valores estimados em torno do valor verdadeiro
(PEV) e a prpria variao entre os valores verdadeiros (
2
g
o ). Em
g g
r

~
a reduo
proporcional na correlao perfeita (igual a 1) dada pela razo entre o erro padro do
valor verdadeiro realizado ( )
~
(g s ) e o prprio valor verdadeiro realizado ( g
~
). Se
)
~
(g s como proporo de g
~
tende a zero, a acurcia tende a 1. Se essa proporo
afasta-se de zero, a acurcia afasta-se de 1. Por g
~
tratar-se do prprio parmetro,
deveria apresentar )
~
(g s igual a zero. A medida que este afasta-se de zero penaliza-se
g g
r

~
.
As duas abordagens podem ser comparadas por meio de
g g
r

e
g g
r

~
. Se
g g
r

~
>
g g
r

,
isso indica que provavelmente as distribuies dos parmetros atribudas pela
abordagem Bayesiana foram mais adequadas do que aquelas associadas ao modelo
tradicional.

















Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

79

1.20 Procedimento BLUP Melhorado: I-BAYES-BLUP

O BLUP tradicional adequado quando: no existem genes maiores
segregando na populao; uma populao base ideal foi formada (em equilbrio, com
endogamia F = 0 e sem indivduos aparentados); toda a genealogia e conjunto
completo de dados so usados, desde a populao base; no existem erros no pedigree.
Se a populao base ideal no foi formada e/ou o pedigree no est completo e livre
de erros e/ou nem todo o conjunto de dados usado, surgem problemas tais quais: a
variao em F entre genitores (os quais diferem em heterozigose) e desequilbrio de
ligao em fase gamtica dentro de famlia no so levados em considerao; as
predies de valores genticos obtidas so viesadas pelos efeitos da seleo; os
componentes de varincia da populao base so pobremente estimadas; o parentesco
entre os indivduos no estimado corretamente. Segundo Endelman e Jannink
(2012), as suposies sobre a populao base ideal raramente se verificam na prtica.

Um mtodo para a estimao de componentes de varincia e valores genticos
delineado para aumentar a eficincia do REML/BLUP fenotpico foi introduzido por
Resende, Silva e Viana (2012). O mtodo denominado I-BAYES-BLUP (Improved
Bayesian BLUP) ou BBM (BLUP Bayesiano Melhorado) e visa capturar os
diferentes graus de variao dentro de famlias da gerao atual e a correlao
gentica entre famlias, devidos esses fatores.

Tais fatores produzem diferentes nveis de variao nas relaes de
parentesco entre pares de indivduos dentro de diferentes famlias e ento diferentes
parentescos mdios dentro de cada famlia. A captura dessa variabilidade possibilita a
estimao da variao gentica contribuda especificamente por cada famlia da
gerao atual e propicia uma melhor partio da variabilidade gentica entre e dentro
de famlias, permitindo estimar uma variao gentica especfica para cada famlia.
Como consequncia, uma melhor estimativa do componente do valor gentico,
denominado efeito da segregao mendeliana, obtida.

O procedimento geral e equivale ao prprio BLUP tradicional quando no
existe heterogeneidade de varincia genetica dentro de famlias. Ento,
recomendado para uso amplo, quando os tamanhos de famlia so grandes o
suficiente (no mnimo 10 indivduos por famlia) para obteno de estimativas
precisas. O mtodo superior quando ocorre pelo menos um dos seguintes fatos: o
modelo infinitesimal (genes de iguais efeitos) no se aplica; o pedigree incompleto
e/ou com presena de erros; uma populao base ideal no foi formada; o conjunto de
dados incompleto (no contempla todas as medies desde a populao base); existe
grau diferencial de varincia genetica dentro de famlia.

O mtodo proposto ameniza o caso do uso do BLUP considerando apenas
dados da gerao atual e genealogia contemplando apenas as duas ltimas geraes,
por meio do uso da identidade em estado (IBS) e no por descendncia (IBD). O
procedimento considera tambm (pelo menos em parte) a variao no sistema
reprodutivo entre genitores (sistema misto de reproduo, envolvendo
simultaneamente autogamia e alogamia).

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

80

O procedimento envolve os seguintes passos: (1) ajuste apenas dos efeitos de
genitores (aqueles indivduos com prognie) como covariveis aleatrias, de maneira
similar ao modelo animal reduzido, entretanto, usando uma abordagem Bayesiana
que admite variancias genticas aditivas especficas (
2
gi
o ) para cada famlia i; (2)
clculo das variancias genticas aditivas dentro de famlia (
2 2
) 1 (
gi gi i w g
o o = ),
especficas para cada famlia i; (3) clculo das variancias fenotpicas dentro de famlia
(
2 2 2

e i w g i w y
o o o + = ), especficas para cada famlia i; (4) clculo das herdabilidades
individuais dentro de famlia (
2
2
2

i w y
i w g
wi
h
o
o
= ), especficas para cada famlia i; (5)
estimao do efeito da segregao mendeliana usando uma formula especfica para
cada famlia i (
2
) 5 . 0

(
i w pi ij ij wij
h g b X y g = ), em que b um vetor de efeitos fixos;
(6) soma dos efeitos dos genitores (
pi
g ) com os efeitos da segregao mendeliana de
cada individuo por meio de
2
) 5 . 0

( 5 . 0 5 . 0
i w pi ij ij pi wij pi ij
h g b X y g g g g + = + = .

O mtodo um modelo animal reduzido, melhorado por meio de uma
combinao ou mistura das abordagens Bayesiana e BLUP tradicional. Pelo BLUP
tem-se a estrutura de covarincia para os efeitos genticos g:
) , 0 ( ~ E N g = ) , 0 ( ~
2
g
A N g o . Pela abordagem Bayesiana tem-se ) , 0 ( ~
BAYES
G N g , em que
BAYES
G = E estimada diretamente como uma matriz de covarincia no estruturada,
contempland0 a heterogeneidade de varincia gentica dentro de famlia (e diferentes
endogamias F dos genitores) em sua diagonal e o parentesco entre os genitores fora
da diagonal. Alternativamente,
BAYES
G pode ser ajustada como uma matriz diagonal
Diag BAYES BAYES
G G

= , usando a matriz de parentesco entre os genitores (A)
simultaneamente via modelagem de g como ) , 0 ( ~
BAYES
G A N g . As varincias e
covarincias genticas componentes de
BAYES
G so assumidas como provenientes de
uma distribuio Whishart e estimadas por meio do pacote bayesm do R via funo
rhierLinearModel (Rossi et al., 2005; 2012).

O I-BAYES-BLUP modela uma estrutura de varincia similar a
2
gi
Ao = E ,
porm, usa a identidade em estado (IBS), de forma que semelhante a
2
gi
Go = E , em
que G a matriz de parentesco genmico baseada em IBS e no em IBD como a A.
Assim,
BAYES
G se aproxima de
2
gi BAYES
G G o = , tendendo a captar intrinsecamente IBS,
via uma regresso implcita, porm paramtrica. Essa equivalncia razovel uma
vez que a matriz de parentesco IBS usa a populao corrente como populao base,
ou seja, est associada estimao da variao gentica na populao corrente
(Endelman e Jannink, 2012).

Conforme Powell et al. (2010) e Endelman e Jannink (2012), a meta do
geneticista no estimar probabilidades IBD e sim estimar covarincia gentica
entre indivduos, a qual fundamentalmente uma propriedade de estado (IBS) e no
IBD. Assim, E depende de probabilidades IBS, as quais no invocam uma populao
base ideal. Dessa forma, o mtodo I-BAYES-BLUP uma boa alternativa para fazer
uso desse novo conceito, usando apenas dados fenotpicos.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

81









































Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

82

2 Anlise Genmica

Esforos na rea de pesquisa com marcadores genticos em prol do
melhoramento tm se dividido em duas linhas: a deteco de marcadores associados a
QTL e mapeamento desses; uso dos marcadores nos programas de seleo gentica
via seleo auxiliada por marcadores (MAS) e seleo genmica ampla (GWS),
tambm denominada seleo genmica (GS). Esse captulo aborda ambas as linhas,
enfatizando a seleo gentica via uso das informaes genmicas. Contempla o
estudo de QTLs baseado em anlise de anlise de ligao e de desequilbrio de ligao
(gentica de associao - GWAS) e a seleo genmica ampla (GWS). A abordagem
apresentada nesse documento baseia-se no livro publicado por Resende (2008).

2.1 Fundamentos da Anlise de QTLs e da Seleo Genmica

O uso de marcadores genticos moleculares para fins de seleo e
melhoramento gentico fundamenta-se na ligao gnica entre tais marcadores e os
locos que governam as caractersticas quantitativas (QTLs) de interesse do
melhoramento. Assim, os estudos de ligao entre marcador e QTL e tambm entre
os prprios marcadores so essenciais no contexto da seleo gentica empregando-se
informaes genmicas. importante relatar que a definio de QTL refere-se
apenas a uma associao estatstica entre uma regio do genoma e um carter.

No contexto da gentica clssica, a ligao entre fatores genticos ou genes
tem sido relatada desde 1906, e denota que genes ligados proximamente no
cromossomo so herdados em conjunto. Em outras palavras, tais genes, em conjunto,
no segregam de forma independente, no obedecendo a Segunda Lei de Mendel ou
Lei da Segregao Independente. Quando os genes esto prximos no cromossomo
ou grupo de ligao, essa completa. Quando esto no mesmo grupo de ligao,
porm com grande distncia entre eles, a ligao parcial.

A distncia calculada entre dois genes funo da freqncia de
recombinao entre eles e fundamental na construo de mapas de ligao. Para que
a ligao entre locos seja detectada e usada na seleo, necessrio que haja
desequilbrio de ligao na populao ou famlia estudada. O desequilbrio de ligao
ou desequilbrio de fase gamtica uma medida da dependncia ou no entre alelos
de dois ou mais locos. Em um grupo de indivduos, se dois alelos de locos diferentes
so encontrados juntos com freqncia maior do que aquela esperada com base no
produto de suas freqncias, infere-se que tais alelos esto em desequilbrio de
ligao. Valores de desequilbrio de ligao prximos de zero indicam equilbrio ou
independncia (freqncia de recombinao igual a 0,5, ou seja, com valor mximo)
entre os alelos de diferentes genes, e valores prximos de um, indicam desequilbrio
ou ligao entre alelos de diferentes genes.

O desequilbrio de ligao (LD) entre marcadores e QTLs crucial para a
deteco de QTL, para a seleo auxiliada por marcadores e para a seleo genmica
ampla. Especialmente relevante a extenso desse desequilbrio no cromossomo em
uma populao de seleo. Se um marcador e um QTL esto em equilbrio na
populao, o conhecimento do gentipo do marcador em um indivduo no apresenta
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

83

qualquer valor para a seleo. A permanncia do desequilbrio de ligao na
populao depende da distncia entre os locos, ou seja, depende da taxa de
recombinao entre os dois locos. Para locos intimamente ligados, qualquer LD que
tenha sido criado permanecer por muitas geraes. Mas, para locos fracamente
(freqncia de recombinao maior que 0,1) ligados, o LD decrescer rapidamente.
Embora um marcador (loco m) e QTL (loco q) ligado a ele possam estar em
equilbrio de ligao na populao, sempre existir o desequilbrio de ligao dentro
de uma famlia ou cruzamento, mesmo para locos fracamente ligados. E esse
desequilbrio de ligao poder se estender a uma grande distncia, pois, para a
produo da descendncia de um indivduo F1 heterozigoto, ter ocorrido apenas uma
gerao de recombinao.

Considere dois locos m e q ligados e quatro indivduos heterozigotos para o
marcador e com gentipos MQ/mq, Mq/mQ, MQ/mQ e Mq/mq. As famlias
originrias dos dois primeiros indivduos estaro em LD (pois, para locos ligados,
gametas parentais so mais freqentes que gametas recombinantes), porm em
direes opostas, pois, a fase de ligao marcador-QTL difere entre os dois genitores.
As famlias originrias dos dois ltimos indivduos no estaro em LD pois o QTL
no est segregando nessas famlias. Quando ponderados entre famlias, os quatro
tipos de desequilbrio cancelaro, produzindo equilbrio de ligao na populao.
Assim, o LD dentro de famlias til na anlise de QTL desde que as diferentes
fases de ligao sejam levadas em considerao.

De maneira genrica, em Gentica de Populaes, desequilbrio refere-se
discrepncia da freqncia conjunta de alelos em relao ao produto de suas
freqncias individuais. O termo usualmente refere-se a alelos de diferentes locos em
um mesmo gameta, mas pode referir-se tambm a pares de alelos do mesmo loco,
caracterizando a falta de equilbrio de Hardy-Weinberg.

O mapeamento de QTLs, a seleo auxiliada por marcadores (MAS) proposta
por Lande & Thompson (1990) e a seleo genmica ampla (GWS) proposta por
Meuwissen et al. (2001), so fundamentadas na ocorrncia de desequilbrio de ligao
na populao (ou cruzamento) estudada. Nesse caso, os alelos dos marcadores
informam sobre a presena e efeitos dos locos que governam os caracteres
quantitativos, fornecendo meios para estimao dos efeitos dos locos dos QTLs e
para o seu eficiente uso na seleo gentica. As causas do desequilbrio de ligao nas
populaes so: mutao, migrao, seleo e tamanho efetivo populacional reduzido
(deriva gentica devida amostragem). Ou seja, todos os fatores que afetam o
equilbrio de Hardy-Weinberg nas populaes afetam tambm o equilbrio de
ligao.

Atualmente, marcadores genticos moleculares do tipo SNP (polimorfismo
de um nico nucleotdeo), os quais baseiam-se na deteco de polimorfismos
resultantes da alterao de uma nica base no genoma, tm sido usados. E para que
uma variao seja considerada SNP, essa deve ocorrer em pelo menos 1 % da
populao. Os SNPs so a forma mais abundante de variao do DNA em genomas,
e so preferidos em relao a outros marcadores genticos devido sua baixa taxa de
mutao e facilidade de genotipagem, aliados ao baixo custo. Milhares de SNPs
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

84

podem ser usados para cobrir o genoma de um organismo com marcadores que no
esto a mais de 1 cM (1 milho de bases) um do outro no genoma inteiro. Os
marcadores moleculares do tipo microssatlites tambm so usados. Tais marcadores
so eficientes por serem co-dominantes, multi-allicos, abundantes e apresentarem
alta transferibilidade entre indivduos e espcies.

Os marcadores SNPs apresentam natureza biallica, conforme ilustrado a
seguir:

Indivduo 1: TCACCGCG

Indivduo 2: TCATCGCG

Verifica-se polimorfismo de SNPs entre os dois indivduos. Na seqncia
especificada na fita simples de DNA ocorre troca de uma nica base, caracterizando
o referido polimorfismo. Mais de 1,5 milho de SNPs foram identificados no genoma
humano. Suas posies esto localizadas em um espaamento mdio de 2 x 10
-3
cM
(Hartl e Jones, 2002).

Marcadores DArT (Diversity Array Technology) so tambm bi-allicos e
adequados GWS pois so abundantes tais quais os SNPs, e podem ser obtidos com
alta velocidade e rendimento. No entanto, tais marcadores so dominantes e essa
pode ser uma desvantagem em relao aos SNPs, que so codominantes. Entretanto,
podem comportar-se de duas maneiras: dominante (presena vs ausncia) ou
codominante (2 doses vs 1 dose vs ausncia).

A seleo genmica ampla (GWS) ou seleo genmica (GS) foi proposta por
Meuwissen et al. (2001) como uma forma de aumentar a eficincia e acelerar o
melhoramento gentico. A GWS enfatiza a predio simultnea (sem o uso de testes
de significncia para marcas individuais) dos efeitos genticos de milhares de
marcadores genticos de DNA (SNP, DArT, Microssatlites) dispersos em todo o
genoma de um organismo, de forma a capturar os efeitos de todos os locos (tanto de
pequenos quanto de grandes efeitos) e explicar toda a variao gentica de um carter
quantitativo. A condio fundamental para isso que haja desequilbrio de ligao,
em nvel populacional, entre alelos dos marcadores e alelos dos genes que controlam
o carter. A predio dos efeitos genticos realizada com base em dados genotpicos
e fenotpicos de indivduos pertencentes a uma amostra da populao de seleo.

Esses efeitos genticos dos marcadores sobre fentipos de caracteres
quantitativos so somados e usados na predio de valores genticos de indivduos
apenas genotipados, candidatos seleo em programas de melhoramento gentico.
A predio e a seleo podem ser realizadas em fases muito juvenis de plantas e
animais, acelerando assim o processo de melhoramento gentico. Adicionalmente, a
prpria predio tende a ser mais acurada por considerar o real parentesco gentico
dos indivduos em avaliao, em detrimento do parentesco mdio esperado
matematicamente (Resende, 2007). A GWS propicia uma forma de seleo precoce
direta (SPD), pois, atua precocemente sobre genes expressos na idade adulta. Ao
contrrio a seleo precoce tradicional indireta, pois, atua (via avaliao fenotpica)
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

85

sobre genes ativados na idade precoce, esperando que esses informem parcialmente
sobre genes expressos na idade adulta. Assim, a SPD propiciada pela GWS
especialmente importante para o melhoramento de organismos perenes como
animais, espcies florestais, fruteiras (e outras frutferas), forrageiras, cana-de-
acar, caf, dentre outras.

Em resumo, a superioridade da GWS sobre a seleo baseada em fentipos
pode ser atribuda a quatro fatores: uso da matriz de parentesco real e prpria de cada
carter, fato que aumenta a acurcia seletiva; (ii) viabilizao da SPD, que aumenta o
ganho gentico por unidade de tempo; (iii) permisso da avaliao repetida de cada
alelo (propicia repetio experimental) sem o uso de testes clonais e de prognies,
fato que aumenta a acurcia seletiva; (iv) uso de maior nmero de informaes,
combinando trs tipos de informao (fenotpica, genotpica e genealgica) para
corrigir e desregressar os dados e fazer a anlise genmica, fato que aumenta a
acurcia.

A MAS surgiu basicamente na dcada de 1990. Os primeiros trabalhos relativos
a organismos perenes foram os de Fernando e Grossman (1989), Lande e Thompson
(1990), Goddard (1991) e Kennedy et al. (1992). A GWS um produto do terceiro
milnio. Aps a proposio da GWS em 2001 o procedimento permaneceu discreto
at 2007, quando vrios trabalhos abordaram o mtodo e sua acurcia no
melhoramento animal e vegetal (Fernando et al., 2007; Goddard e Hayes, 2007;
Meuwissen, 2007; Bernardo e Yu, 2007; Resende 2007). Outros trabalhos relatam que
a GWS o novo paradigma em gentica quantitativa (Resende, 2008; Gianola et al.,
2009), melhoramento de gado de leite (Hayes et al., 2009; Van Raden, 2008;
VanRaden et al., 2009), de corte (Ferraz e Rezende, 2011), de aves (Gonzales-Recio et
al., 2009), de plantas anuais (Heffner et al., 2009) e de espcies florestais (Resende et
al. 2008; Grattapaglia e Resende, 2011).

Atualmente resultados prticos j existem para eucalipto (Resende et al., 2012),
pinus (Resende Jnior et al., 2012), sunos (Rocha et al., 2012; Azevedo et al., 2012),
milho (Fritsche Neto et al., 2012) e caju (Cavalcanti et al., 2012). Acredita-se que a
GWS propiciar um impacto positivo nos mtodos de seleo e nas estratgias de
melhoramento de plantas e animais. No entanto, preciso adquirir experincia
prtica com a GWS, visando inferir sobre sua efetividade.

2.2 Anlise de Ligao (LA) e Anlise de Desequilbrio de Ligao (LDA)

A quantidade de material gentico herdvel de um indivduo finita e refere-
se ao tamanho do genoma. Em humanos, o genoma composto de cerca de 35 mil
genes (Ewing e Green, 2000). Assim, um nmero finito de genes deve controlar cada
um dos caracteres quantitativos e isso torna possvel a avaliao de todos os locos
associados ao controle gentico de um carter.

Existem basicamente trs abordagens para a descoberta de um QTL: (i)
abordagem de genes candidatos; (ii) abordagem de mapeamento via anlise de
ligao ou linkage analysis (LA); (iii) abordagem de mapeamento via anlise de
desequilbrio de ligao ou linkage disequilibrium analysis (LDA). A estratgia de genes
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

86

candidatos considera que um gene envolvido na fisiologia do carter abriga uma
mutao causadora de variao no carter. Esse gene ento seqenciado em
diferentes indivduos e as variaes encontradas nas seqncias de DNA so
avaliadas em termos de associao com variaes encontradas nos fentipos do
carter (Anderson e Georges, 2004). Essa abordagem apresenta problemas tais quais
o grande nmero possvel de genes candidatos e a possibilidade de que a mutao
causadora da variao esteja em um gene no tomado a priori como candidato.

As abordagens de mapeamento visam identificar regies cromossmicas
associadas a variaes fenotpicas nos caracteres de interesse, e assumem que os
genes no so conhecidos mas apenas marcados por genes de efeitos nulos. Baseiam-
se ento em associaes entre alelos dos genes marcadores e variaes nos caracteres
quantitativos. Um marcador molecular de DNA uma regio fsica identificvel no
cromossomo cuja herana pode ser monitorada e que geralmente no apresenta
funo codificadora.
Um marcador considerado informativo quando se pode determinar sem erro,
qual alelo parental foi transmitido para a prognie. Assim, se um genitor genotipado
homozigoto para o marcador, este no ser informativo em qualquer dos indivduos
da prognie, pois no ser possvel determinar qual alelo parental foi transmitido.
Mesmo se ambos, genitor e prognie, so heterozigotos, o marcador pode ainda ser
no informativo. Se somente um genitor genotipado, e a prognie tem o mesmo
gentipo que seu genitor, a prognie pode ter recebido determinado alelo do pai ou da
me. A freqncia esperada de indivduos para os quais a origem do alelo pode ser
determinada ser 1 (p + q)/2, em que p e q so as freqncias dos dois alelos
marcadores parentais. Assim, se somente dois alelos marcadores esto presentes na
populao, metade dos filhos tero o mesmo gentipo que o genitor. Para locos
multi-allicos como os microssatlites, (p + q) pode ser muito menor do que 1
(Weller, 2001).

A estratgia da anlise de ligao (LA) considera apenas o desequilbrio de
ligao que existe dentro de famlias ou cruzamentos, que estende-se por dezenas de
cM e quebrado por recombinao aps algumas poucas geraes. Essa abordagem
usa um limitado nmero de marcadores por cromossomo e, ento, devido
recombinao entre distantes marcador e QTL, a associao entre marcadores e
QTLs permanecer apenas dentro de famlias e por um limitado nmero de geraes.
Essa estratgia conduz ao mapeamento de QTL em um grande intervalo de
confiana no cromossomo, exceto se um enorme nmero de indivduos por famlia
for usado. A frmula de Darvasi e Soller (1997) pode ilustrar isso. No caso de um
mapa gentico de alta densidade, o intervalo de confiana (IC) dado por IC =
3000/(kns
2
), em que k o nmero de genitores informativos por indivduo (1 para
famlias de meios irmos e 2 para famlias de irmos germanos e populaes F2), n o
nmero de indivduos genotipados, s o efeito de substituio allica associado ao
alelo favorvel do QTL e 3.000 cM o tamanho do genoma de gado bovino (nessa
espcie cada cM contempla aproximadamente 8 genes).

Com base nessa expresso e considerando um QTL segregante com s igual a 0,5
desvios padres residuais, em uma famlia de meios irmos de 1,000 indivduos, tem-
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

87

se que o IC a 95 % de probabilidade ser de 12 cM. Os reflexos desse grande IC so:
(i) se o objetivo for a adoo da abordagem de genes candidatos dentro desse
intervalo, um grande nmero de genes deve ser seqenciado e estudado (80 genes
considerando um total de 20 mil genes em um genoma de 3.000 cM); (ii) se o objetivo
for a MAS, a ligao entre marcador e QTL no suficientemente prxima para
garantir que a associao marcador-QTL persista atravs de toda uma populao e,
nesse caso, a fase de ligao marcador-QTL dentro de cada famlia deve ser
estabelecida para aplicao da MAS (Hayes, 2008). Por exemplo, um indivduo da
populao poder apresentar o alelo M do marcador associado ao alelo favorvel do
QTL e outro indivduo, da mesma populao, mas de famlia diferente, poder
apresentar o alelo m do marcador associado a esse mesmo alelo favorvel do QTL.

A abordagem LA baseia-se na associao entre alelos do marcador e classes
fenotpicas do QTL e foi muito usada at recentemente devido ao fato de que o
nmero de marcadores identificados nas vrias espcies era baixo e o custo de
genotipagem muito alto. Com o recente advento dos marcadores SNPs, os quais so
em grande nmero e baratos, uma alta densidade de marcadores no genoma tornou-
se possvel e a marcao prxima dos prprios QTLs tambm. Nesse caso, a adoo
da abordagem LDA tornou-se possvel e vantajosa sobre a LA.

A estratgia LDA baseia-se no desequilbrio de ligao entre marcador e QTL
na populao inteira e no apenas dentro de famlia como na LA. Para que isso
ocorra, marcador e QTL devem estar em ligao muito prxima. E, nesse caso, a
associao entre eles uma propriedade da populao inteira e persistir por um
grande nmero de geraes.

Meuwissen e Goddard (2000) revelaram que o intervalo de confiana poderia
ser reduzido para 1 cM pela aplicao do mapeamento via LDA. Se o polimorfismo
de um QTL devido a uma mutao recente ou devido a uma recente introduo de
uma outra populao, ento torna-se possvel detectar LD em nvel populacional
entre QTL e genes marcadores proximamente ligados. Quanto mais perto o
marcador do QTL, maior ser o desequilbrio de ligao. O intervalo de confiana
pode ser reduzido ainda mais pela combinao das estratgias de anlise LA e LDA e
por uma anlise multi-caracterstica (Meuwissen e Goddard, 2004).

A anlise de associao usada no mapeamento fino e fundamenta-se no
desequilbrio de ligao em nvel populacional. A associao pode ocorrer em duas
situaes: (i) devida ao efeito direto do gene em uma caracterstica; (ii) devida ao
desequilbrio de ligao entre o marcador e o gene que controla a caracterstica. No
primeiro caso, o efeito do gene medido diretamente e o marcador funcional. No
segundo caso, o teste de associao requer o desequilbrio de ligaco entre o marcador
e o QTL. Quando uma mutao ocorre no cromossomo, forma-se uma combinao
haplotpica com os locos adjascentes no cromossomo. Na gerao seguinte existe a
tendncia de que essa mutao ocorra no mesmo hapltipo original, a menos que
ocorra recombinao. Isso caracteriza o desequilbrio de ligao usado no
mapeamento de associao.


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

88

















































Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

89

3 Anlise de QTL e da Expresso Gnica

3.1 Mtodos de Anlise de QTL

QTL (quantitative trait loci) so locos ou segmentos cromossmicos que
governam as caractersticas quantitativas, mas essa definio refere-se apenas a uma
associao estatstica entre uma regio do genoma e um carter fenotpico.
Marcadores genticos em ligao prxima com QTL so usados para mapea-los e
tambm para a seleo auxiliada por marcadores (MAS) em conjunto com
informaes fenotpicas. A disponibilidade de marcadores moleculares foi
aumentada recentemente com o advento dos microssatlites, dos SNPs e dos DArTs
e os genes a eles ligados podem ser mapeados em grupos de ligao.

Os procedimentos de mapeamento so baseados no desequilbrio de ligao
entre alelos de diferentes genes. Mapas de ligao entre marcadores polimrficos
cobrindo todo o genoma so necessrios no mapeamento de QTLs. Tais mapas esto
agora disponveis para um grande nmero de organismos e informaes desses
mapas juntamente com medidas fenotpicas obtidas de acordo com algum
delineamento de cruzamento e experimental so usados para mapear e estimar
efeitos de QTLs. O mapeamento de QTLs envolve a deteco, localizao
(determinao da posio) e estimao dos efeitos de QTLs.

Diferentes abordagens estatsticas so usadas no mapeamento de QTLs,
dependendo da estrutura da populao de mapeamento e do nmero (densidade) e
tipo de marcadores usados. Com limitado nmero de marcadores por cromossomo e
desequilbrio de ligao apenas dentro de famlias ou cruzamentos, a estratgia da
anlise de ligao (LA) deve ser usada. Com grande nmero e alta densidade de
marcadores no genoma torna-se possvel a marcao mais prxima dos QTLs e a
abordagem LDA (anlise de desequilbrio de ligao) deve ser usada. Nesse caso, a
LDA tornou-se possvel e vantajosa sobre a LA.

Para a LA, em plantas anuais, cruzamentos entre linhagens endogmicas so
geralmente realizados e anlises so conduzidas nas populaes das geraes F2, F3,
retrocruzamentos e de haplides duplicados. Em plantas perenes tais quais espcies
florestais, fruteiras, forrageiras e cana-de-acar, famlias de irmos completos ou
grandes famlias de meios irmos, obtidas do cruzamento entre indivduos
heterozigotos, so usadas. Em humanos e em animais domsticos, alm das referidas
famlias, populaes associadas a pedigrees complexos e multi-geraes so tambm
usados nos estudos de QTLs. Em cada caso, as referidas populaes so fenotipadas e
pelo menos as populaes e os genitores so genotipados, ou seja, a genotipagem
envolve pelo menos duas geraes.

O mapeamento de QTL envolve quatro etapas: escolha da populao de
mapeamento; obteno dos dados de marcadores em cada individuo; obteno dos
dados fenotpicos em cada individuo; aplicao de mtodos estatsticos na analise
simultnea dos dados fenotpicos e de marcadores. Indivduos pertencentes a essas
populaes de mapeamento so genotipados para um nmero de marcadores
moleculares distribudos a intervalos regulares no genoma e avaliados para os
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

90

caracteres quantitativos de interesse. Se existirem diferenas significativas nas
mdias fenotpicas entre classes genotpicas de um marcador, pode-se inferir que
existe um QTL ligado quele marcador. A associao entre QTL e marcador pode ser
avaliada usando um, dois ou vrios marcadores simultaneamente.

Dentre os mtodos gerais de anlise e mapeamento de QTLs destacam-se: (i)
a anlise de marcas nicas (um marcador de cada vez), que til quando o objetivo
somente a deteco de QTL ligado ao marcador, mas no a estimao da posio e
dos efeitos do QTL; (ii) o mapeamento por intervalo simples, proposto por Lander e
Botstein (1989), que considera marcadores adjacentes e ento propicia um aumento
no poder de deteco e estimativas mais precisas da posio e efeitos dos QTLs; (iii)
o mapeamento por intervalo composto apresentado por Zeng (1994), que considera
vrios marcadores simultaneamente e uma abordagem ainda melhor quando
mltiplos QTLs esto ligados no intervalo ou marcadores considerados; (iv)
mapeamento por intervalos mltiplos, que considera vrios QTLs simultaneamente
e permite incluir os efeitos epistticos no modelo.

Os mtodos baseados em intervalo so superiores pois a anlise de marcas
simples apresenta duas grandes limitaes: (i) o confundimento dos efeitos de um
QTL com os de outros QTLs que influenciam o mesmo carter; (ii) a no distino
entre um QTL de grande efeito mas em ligao distante com o marcador, de um
QTL de pequeno efeito mas em ligao prxima com o marcador. Por essa
abordagem, a localizao do QTL em relao ao marcador no pode ser determinada
pois a frequncia de recombinao confundida com o efeito gentico. Os mtodos
de mapeamento por intervalo demandam mapas de ligao entre marcadores
polimrficos cobrindo todo o genoma e permitem a verificao da presena de QTL
em cada intervalo, determinado por dois marcadores flanqueadores. Para que um
QTL se separe de dois marcadores flanqueadores so necessrios dois eventos de
recombinao, fato que mais raro. Assim, o uso do intervalo conduz a melhores
resultados.

Quanto aos mtodos de estimao, a anlise de marcas nicas pode ser feita
usando mtodos estatsticos comuns tais quais a estatstica t de Student, regresso
linear simples, anlise de varincia e mxima verossimilhana (LOD escore). Para a
anlise de QTL baseada em dois marcadores flanqueadores (mapeamento por
intervalo), os principais mtodos usados so o mtodo de regresso proposto por
Haley e Knott (1992) e o mtodo de mxima verossimilhana proposto por Lander e
Botstein (1989).

Se um marcador apresenta um efeito significativo sobre um QTL, a diferena
entre as mdias das classes dos gentipos marcadores para o referido carter um
estimador viciado do efeito do QTL, devido possvel recombinao entre o
marcador e o QTL. Weller (1986) mostrou que o mtodo de mxima verossimilhana
poderia ser usado para obter estimativas da posio e efeito do QTL no viciadas pela
recombinao.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

91

O mapeamento por intervalo composto usa vrios marcadores
simultaneamente e tambm ambos os mtodos, mxima verossimilhana e regresso.
A seleo de marcadores a serem includos na regresso baseada nos procedimentos
stepwise. Outro mtodo a mxima verossimilhana residual (REML) baseada em
um modelo linear misto incorporando efeitos allicos do QTL com distribuio
normal e com uma matriz de covarincia condicional aos dados observados dos
marcadores. Mtodos bayesianos so tambm usados.

As abordagens estatsticas para anlise de QTL diferem em relao s
suposies de efeitos fixos ou aleatrios de QTL. Alguns mtodos assumem o QTL
como efeito fixo e com nmero finito de alelos (geralmente 2). Outros o assumem
como efeito aleatrio com um infinito nmero de alelos. Os mtodos estatsticos que
tratam o QTL com nmero finito de alelos variam desde modelos simples de
regresso (Knott et al., 1996) a abordagens Bayesianas. Os modelos estatsticos de
efeitos fixos so misturas de distribuies, em que o nmero de densidades
componentes determinado pelo nmero de gentipos do QTL. As suposies
relativas ao nmero de alelos segregantes tem um grande efeito na formulao do
modelo estatstico (George et al., 2000). Modelos de efeitos aleatrios, baseados na
simples premissa de que indivduos com fentipos parecidos provavelmente
compartilham alelos idnticos por descendncia, oferecem uma abordagem menos
parametrizada para o mapeamento.

Weller (2001) relata a simulao de um genoma com 100 locos e o uso dos 20
com maiores efeitos em um programa de seleo assistida por marcadores. O ganho
com seleo mostrou-se o dobro quando os efeitos de QTL foram tratados como
aleatrios, em relao situao em que foram tratados como fixos. Embora os
modelos aleatrios assumam um nmero infinito de possveis alelos do QTL, as
estimativas das varincias dos QTLs so robustas desvios dessa suposio e
estimativas fidedignas podem ser obtidas mesmo quando apenas dois alelos por QTL
so simulados.

Antes da anlise de QTL propriamente dita, uma anlise criteriosa dos
marcadores deve ser realizada. Assim, deve ser realizada uma anlise de segregao
de marcas, verificando se a proporo de segregao esperada (3:1 em F2 e 1:1 em
retrocruzamentos, por exemplo) se concretiza. Nesse caso, verifica-se se existe
distoro de segregao e, em caso positivo, esses marcadores devem ser descartados
da subseqente anlise de QTL. Tambm, os dados fenotpicos devem ser analisados
previamente quanto normalidade. Assim, os seguintes passos devem ser adotados
em um estudo de QTL: avaliao de uma populao segregante para o carter; anlise
de DNA por uma tcnica de marcadores (microssatlites ou SNPs); anlise de
segregao de marcas; anlise de QTL ou de co-segregao entre marcador e QTL. A
anlise de co-segregao permite o estabelecimento de grupos de ligao de acordo
com a porcentagem de recombinao entre os vrios locos.

Em um procedimento de mapeamento de QTL, inicialmente, anlises de
marcadores nicos so realizadas por meio de mtodos estatsticos simples como a
ANOVA, a ANOVA no paramtrica de Kruskal-Wallis, a estatstica t de Student,
a regresso linear simples, a mxima verossimilhana (LOD score). Estes
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

92

procedimentos permitem a deteco de associao entre os marcadores e o carter de
interesse, sem usar informao de mapa gentico. Isto feito para cada marcador,
contrastando as observaes fenotpicas entre as classes de cada marcador. Tais
classes so tomadas como se fossem tratamentos a serem comparados.
Posteriormente, o mapeamento por intervalo (Lander e Botstein, 1989), considerando
dois marcadores, pode ser feito visando seleo de marcadores a serem usados como
potenciais cofatores em uma anlise de regresso mltipla do tipo stepwise. Tambm,
o mapeamento por intervalo composto pode ser efetuado quando mltiplos QTLs
esto ligados ao intervalo ou marcador considerados.

Em geral, os procedimentos de mapeamento tm usado diretamente os dados
de campo para anlise. Tais dados, em conjunto com a informao molecular so
usados nos softwares padres para mapeamento de QTL tais quais o MapMaker-QTL
(Lander e Botstein, 1989). Ou seja, no so rotineiramente usados valores genticos
preditos aps a eliminao dos efeitos ambientais. Entretanto, recomendvel que o
mapeamento seja baseado em valores genticos preditos sob um modelo que
contemple tambm os efeitos ambientais de escala global (locais, blocos), os efeitos
ambientais de escala localizada (resduo correlacionado ou espacial) e os efeitos de
competio (se houverem). Tambm, em caso de experimentos envolvendo
mltiplos locais, os efeitos da interao gentipo x ambiente devem tambm ser
includos no modelo.
No entanto, o procedimento ideal refere-se incluso simultnea dos efeitos
dos marcadores no modelo de predio dos valores genticos, de forma que o
mapeamento seja realizado simultaneamente predio. A superioridade dessa
abordagem foi comprovada por Moreau et al. (1999) no contexto da anlise espacial
de experimentos. Este procedimento superior devido ao fato de que os valores ou
efeitos genticos so preditos com diferentes precises e tambm podem ser
correlacionados devido predio. Essas diferentes precises e a correlao no so
levadas em considerao quando no se adota a anlise simultnea.
O ajuste dos dados fenotpicos antes da anlise de QTL, visando eliminar
efeitos ambientais desejvel. No entanto, no devem ser usados valores genticos
preditos sob o modelo gentico polignico infinitesimal. Podem ser usados valores
genotpicos totais preditos. O uso do modelo infinitesimal supe a ausncia de QTL
de grande efeito, que exatamente o que se procura com a anlise de QTL. E a
consequncia principal do uso do modelo infinitesimal o incorreto uso da
informao referente segregao mendeliana, por ocasio da composio da matriz
de parentesco. Maiores detalhes so apresentados no captulo sobre GWS.

Mas relevante enfatizar a necessidade de correo para os efeitos
ambientais antes ou durante a anlise de QTL. Com a correo h uma reduo na
amplitude de variao da populao de mapeamento e torna-se mais difcil a deteco
de QTL. Mas os resultados so mais realistas. Sem a correo para os efeitos
ambientais, muitas vezes esses so mapeados como se fossem QTLs.




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

93

3.2 Anlise de QTL como Efeito Aleatrio via Modelos Lineares Mistos

O tradicional mapeamento de QTL baseia-se em anlise de ligao, sendo que
existem duas estratgias principais de modelagem: (i) tratamento dos efeitos de QTL
como fixos e designao das origens dos alelos a cada fundador; (ii) tratamento dos
efeitos de QTL como aleatrios e cmputo das matrizes de covarincia IBD,
condicionais informao de marcadores. Perez-Enciso e Varona (2000)
demonstraram que ambas abordagens so os extremos de uma modelagem genrica
de modelos mistos. A opo de QTL como efeito fixo apropriada quando a origem
dos alelos pode ser identificada e o seu nmero pequeno, como no cruzamento entre
linhagens endogmicas. A abordagem de QTL como efeito aleatrio mais flexvel e
encaixa na metodologia de modelos mistos, a qual apresenta inmeras vantagens.

Assumindo QTLs como efeitos aleatrios, a significncia dos efeitos dos
locos marcados pode ser testada por meio do REMLRT no contexto dos modelos
lineares mistos. Um modelo incluindo o efeito do suposto QTL, os efeitos
polignicos residuais (g*), os efeitos ambientais identificveis (b) e os efeitos
ambientais residuais da forma e Zg Qq Xb y + + + =
*
, em que q um vetor de efeitos
genticos associados ao QTL marcado, com distribuio ) , 0 ( ~
2
q q
G N q o , em que
2
q
o

a varincia gentica do QTL marcado e G
q
a matriz de covarincia para q,
condicional informao do marcador. Todos os efeitos aleatrios so assumidos
como no correlacionados e com distribuio normal multivariada, conforme a
seguir: ) , 0 ( ~
2
g
A N g o , ) , 0 ( ~
2
q q
G N q o e
) , 0 ( ~
2
e
R N e o
, em que
2
g
o
a varincia gentica
aditiva polignica,
2
e
o a varincia residual, R uma matriz diagonal conhecida e A
a matriz dos numeradores do coeficiente de parentesco gentico aditivo de Wright.
X e Z so as matrizes de incidncia para os respectivos efeitos especificados. Para
indivduos no endgamos, G representa a proporo de alelos idnticos por
descendncia no QTL marcado.

Quando se assume que nenhum QTL marcado est segregando na populao, o
modelo misto da forma e Zg Xb y + + = , o qual hierrquico ao anterior. Assim, a
presena de um QTL em uma particular posio no cromossomo pode ser testada
pelo REMLRT envolvendo estes dois modelos. Estes modelos podem ser estendidos
pela incorporao de efeitos espaciais, competio e interao gentipo x ambiente.
Esses modelos podem ser ajustados no software ASREML desde que a matriz G seja
informada pelo usurio.

Outro eficiente mtodo de anlise de QTL foi apresentado por Gilmour
(2007). denominado mapeamento via regresso sob modelos mistos (MMRM) e
adequado para populaes de retrocruzamento e F2. Relaciona-se ao mapeamento por
intervalo e por intervalo composto, mas difere no sentido em que se testa a presena
de QTLs em cada grupo de ligao, antes de fazer a regresso. Para isso, o mtodo
MMRM inicialmente ajusta todos os marcadores como efeitos aleatrios com
varincia comum dentro de cada grupo de ligao. A significncia dos efeitos dos
marcadores avaliada via REMLRT e, se existir um componente de varincia
significativo associado com um grupo de ligao, a anlise de QTL via regresso
prossegue.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

94


3.3 Anlise de QTL em Famlias de Irmos Germanos

O mapeamento de QTL em famlias de irmos germanos comum em plantas
perenes, animais e humanos. Um mtodo que tem sido aplicado nessas espcies a
anlise por intervalo simples por meio da regresso de pares de irmos. Esse mtodo
foi apresentado por Fulker e Cardon (1994) e deriva do mtodo de Haseman e Elston
(1972). O mtodo de Haseman e Elston fundamentado na regresso linear dos
quadrados das diferenas fenotpicas entre dois irmos dentro de uma famlia, em
funo da proporo de genes idnticos por descendncia (IBD) compartilhados
entre eles, ou seja, entre pares de indivduos que possuem o mesmo QTL marcado.
Esse mtodo tem a limitao de confundir o efeito gentico do QTL com a taxa de
recombinao entre o QTL e o marcador. O mtodo de Fulker e Cardon foi
desenvolvido visando isolar a varincia do QTL da taxa de recombinao, bem como
localizar o QTL no cromossomo. uma extenso do mtodo de Haseman e Elston e
trata-se de procedimento de mapeamento por intervalo, apresentando maior poder.
Tal procedimento utiliza dois marcadores flanqueando o QTL para estimar
separadamente a posio e o efeito do QTL sobre o carter.

O mtodo da regresso de pares de irmos baseia-se na similaridade entre
indivduos aparentados. O seguinte modelo pode ser especificado:
e q Zg Xb y + + + = , em que y o vetor de dados fenotpicos, b o vetor de efeitos
ambientais identificveis (efeitos fixos), g o vetor dos efeitos genticos devidos aos
poligenes, q o efeito gentico devido ao QTL e e o efeito ambiental residual. X e Z
so matrizes de incidncia que associam b e g aos dados fenotpicos. Os efeitos g so
considerados aleatrios e o efeito do QTL pode ser considerado como fixo ou
aleatrio.

O componente polignico g dependente do parentesco gentico entre os
indivduos em avaliao e o componente do QTL depende da proporo de alelos
idnticos por descendncia (IBD) entre pares de indivduos que possuem o mesmo
QTL. O componente polignico est associado a muitos genes de pequenos efeitos, e
assumido que a mdia (sobre os vrios poligenes) da proporo de alelos IBD entre
dois indivduos equivalente ao parentesco gentico mdio entre dois irmos. No
caso do QTL, a proporo IBD varia entre pares de irmos e estimada atravs dos
gentipos observados nos locos dos marcadores. Logicamente, a proporo de alelos
IBD do QTL no observada diretamente. Os IBDs do QTL so avaliados em cada
segregao em nvel individual e no em nvel mdio, permitindo conhecer
exatamente cada segregao.

A proporo
m
t de alelos IBD entre irmos em um loco marcador informativo
pode ser 0; 0,5 ou 1, quando os indivduos tem 0; 1 ou 2 alelos parentais em comum,
respectivamente. De acordo com Haseman e Elston (1972), o cmputo de
m
t pode
ser dado por
1 2
) 2 / 1 ( f f
m
+ = t
, em que f
i
a probabilidade de que dois indivduos
possuam i (= 0, 1 ou 2) alelos IBD, ou seja, alelos que so cpia de um mesmo alelo
ancestral. Essas probabilidades so dadas pela anlise dos gentipos marcadores
observados nos irmos e em seus pais. Um par de irmos completos pode possuir
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

95

zero, um ou dois alelos IBD com probabilidades (1/4), (1/2) e (1/4), respectivamente.
Assim, nesse caso,
2 / 1 ) 2 / 1 )( 2 / 1 ( ) 4 / 1 ( ) 2 / 1 (
1 2
= + = + = f f
m
t
.

Fulker e Cardon (1994) apresentaram uma expresso para o cmputo da mdia
condicional da proporo de alelos IBD do QTL como funo linear dos
m
t nos dois
marcadores de um intervalo. Essa expresso dada por
2 2 1 1 2 1
] [
m m m m q q
E t | t | o t t t t + + = =
, em que
1 m
t e
2 m
t so as propores IBD para os
dois marcadores. Os valores de so dados pelo sistema de
equaes:
(

=
(

2
1
2 2 1
2 1 1
2
1
) ( ) , (
) , ( ) (
) , (
) , (
|
|
t t t
t t t
t t
t t
m m m
m m m
q m
q m
Var Cov
Cov Var
Cov
Cov
.

Define-se
12
r ,
q
r
1
e
2 q
r como as taxas de recombinao entre os dois
marcadores, entre marcador 1 e QTL e entre marcador 2 e QTL, respectivamente.
Para irmos germanos, tm-se as equivalncias 8 / 1 ) ( =
mi
Var t ,
8 / ) 2 1 ( ) , (
2
ij j i
r Cov = t t e ) 2 / 1 ( =
m
t . Resolvendo-se o sistema matricial, obtm-se
os estimadores de para famlias de irmos completos:
4
12
2
12
2
2
2
1 1
) 2 1 ( 1 /[ ] ) 2 1 ( ) 2 1 ( ) 2 1 [(

r r r r
q q
= |
4
12
2
12
2
1
2
2 2
) 2 1 ( 1 /[ ] ) 2 1 ( ) 2 1 ( ) 2 1 [(

r r r r
q q
= | .

O componente dado por 2 / )

1 (
2 1
| | o = . De posse das estimativas de e
, obtm-se a proporo IBD (
m
t ) para o QTL. Essa proporo depende
essencialmente da frao de recombinao entre os locos. As freqncias de
recombinao podem ser computadas a partir da freqncia gamtica de cada genitor
ou a partir da freqncia genotpica da prognie. Informaes multilocos entre pares
de marcas adjacentes so usadas na estimao.

O algoritmo proposto por Fulker e Cardon (1994) atua da seguinte forma: (i) para
qualquer intervalo entre dois marcadores flanqueadores, divida o intervalo
12
em N
intervalos de
1
e
2
tal que
2 1 12
+ = ; (ii) converta os valores de em
ij
r , usando
para isso uma funo de mapeamento como a de Haldane; (iii) estime
q
t usando as
expresses para e ; (iv) regresse os quadrados das diferenas fenotpicas entre dois
irmos dentro de uma famlia nas N estimativas
q
t ; (v) selecione o coeficiente de
regresso
q
t
|

que corresponde mnima soma de quadrados dos resduos e calcule


2
q
o (via
q
t
|

, conforme relao apresentada abaixo), a estatstica t para


q
t
|

e
obtenha a localizao do QTL. Cruz et al. (2009) apresentam detalhes desse mtodo.
Segundo o modelo e q Zg Xb y + + + = , tem-se que
2 2 2
) (
e q g
y Var o o o + + = e a
covarincia entre pares de irmos dada por
2 2

) 2 / 1 ( ) , (
q q g ij ij
Y Y Cov o t o + = , onde
q
t
substitudo por
q
t . No caso, a varincia aditiva contribuda por todos os locos
equivale a
2 2 2
q g a
o o o + = .
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

96

A anlise de famlias de irmos germanos pode basear-se tambm em ANOVA
(Lynch e Walsh, 1998), por meio do quadrado mdio entre classes de gentipos dos
marcadores e cmputo de uma estatstica F (razo entre o referido quadrado mdio e
a varincia residual) para cada loco marcador por vez. Dessa forma, possvel
estimar o efeito de substituio allica para cada genitor, ou seja, para o feminino e
masculino, que representam duas populaes distintas quando o cruzamento
completamente informativo (do tipo M
i
M
j
x M
k
M
l
, conforme Tabela 19). Pode-se
tambm estimar a varincia gentica total associada com o marcador. A ANOVA
ter duas fontes de informao: (i) entre gentipos marcadores (M
i
M
k
, M
i
M
l
, M
j
M
k

e M
j
M
l
, com 3 graus de liberdade para o caso de cruzamento completamente
informativo); (ii) resduo.
Tabela 19. Constituio genotpica dos genitores e nvel de informatividade
Tipo de Cruzamento Constituio
Genotpica
Grau de Informao Proporo de
Segregao
Cruzamento
entre F1
Divergentes
M
i
M
j
x M
k
M
l
Toda a prognie
informativa para ambos
os genitores
1:1:1:1


Retrocruzamento M
i
M
j
x M
k
M
k
A prognie informativa
somente para o genitor
heterozigoto
1:1


Cruzamento
entre F1 Idnticos
(Gerao de F2)
M
i
M
j
x M
i
M
j
Somente indivduos
homozigotos da prognie
so informativos
1:2:1
Quando vrias famlias existem, pode-se tambm realizar uma ANOVA com
efeito de marcador hierrquico dentro de cada famlia. A ANOVA ter trs fontes de
informao: (i) entre famlias (com f-1 graus de liberdade); (ii) entre gentipos
marcadores (com 3f graus de liberdade para o caso de cruzamento completamente
informativo); (iii) resduo.
Contrastes de mdias para os efeitos allicos dentro de cada genitor da famlia
de irmos completos podem ser realizados. Para o genitor M
i
M
j
a diferena entre a
mdia fenotpica dos indivduos com o alelo M
i
no loco marcador e a mdia
fenotpica dos indivduos com o alelo M
j
fornece a seguinte quantidade M
if
M
jf
=
(1-2r) (a
i
a
j
), em ausncia de dominncia. As quantidades r, a
i
e a
j
referem-se taxa
de recombinao, efeito mdio do alelo i e efeito mdio do alelo j, respectivamente.
Com ligao completa entre o loco do QTL (Q) e o loco do marcador (M) tem-se r =
0 e a quantidade a
ij
= (a
i
a
j
) fornece o efeito mdio de substituio gnica. Esse
efeito refere-se conseqncia mdia de se substituir o alelo Q
j
por Q
i
no
heterozigoto Q
i
Q
j
(tornando-o Q
i
Q
i
) e no homozigoto Q
j
Q
j
(tornando-o Q
i
Q
j
). De
maneira similar, pode-se obter a quantidade a
kl
= (a
k
a
l
), que fornece o efeito mdio
de substituio gnica de Q
l
por Q
k
. Comparando-se a
ij
com a
kl
, pode-se inferir qual
dos quatro alelos mais favorvel. A Tabela 20 ilustra essa questo. Verifica-se que o
alelo mais favorvel M
i
, seguido por M
l
.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

97

Tabela 20. Efeitos allicos comparativos no cruzamento M
i
M
j
x M
k
M
l
, dados as mdias
fenotpicas.
Diferena Allica
Mdia Fenotpica
dos Alelos M
i
e M
k

Mdia Fenotpica
dos Alelos M
j
e M
l

Efeito do Alelo no
Genitor
M
i
-M
j
17.7 (M
i
) 12.03 (M
j
) 5.67
M
k
-M
l
14.5 (M
k
) 15.64 (M
l
) -1.14
M
i
: mdia de (M
i
M
k
+ M
i
M
l
);

M
j
: mdia de (M
j
M
k
+ M
j
M
l
); M
k
: mdia de (M
i
M
k
+ M
j
M
k
) ; M
l
: mdia de (M
i
M
l
+ M
j
M
l
).

3.4 Estimao da Herdabilidade via Parentesco Genmico

Conforme Lynch e Walsh (1998), o modelo para o valor fenotpico de um (j) dos
membros do par i de irmos completos dado por
ij ij ij
e q u Y + + = , em que q o
efeito aditivo do QTL e e o efeito residual, o qual inclui efeito ambiental e
polignico residual. A diferena entre efeitos residuais dos dois indivduos do par,
2 1 i i i
e e e = , assumida com mdia zero e varincia
2
e
o , e no correlacionada com
2 1 i i i
q q q = . Constata-se que a diferena entre os valores fenotpicos dos irmos
desejvel pois, cancelam os efeitos de ambiente comum que afetam os membros da
famlia.

O quadrado da diferena entre os valores fenotpicos dos irmos tem valor
esperado dado por
2
2 1
2
2 2
2 1
2
2 1 2 1
)] , ( [ 2
] ) [(
] ) [( ) (
e i i q
e i i
i i i i j
q q
q q E
e e q q E Y E
o o o
o
+ =
+ =
+ =


A expresso para a covarincia equivale a
q q i i
q q t o o
2
2 1
)] , ( = . A esperana de Y
condicional proporo de alelos IBD no QTL dada por
q q e q q q i
Y E t o o o |t o t ) 2 ( ) 2 ( ) (
2 2 2
+ = + = em que a inclinao () da regresso tem
sinal negativo. Genericamente (r diferente de zero), considerando a frao de
recombinao entre marcador e QTL tem-se, conforme Haseman e Elston (1972):
2 2
] ) 1 ( 2 1 [ 2
e q
r r o o o + = e
2 2
) 2 1 ( 2
q
r o | = . Uma inclinao significativa propicia
evidncia de um QTL ligado ao marcador. E o poder do teste estatstico dependente
das magnitudes de r e de
2
q
o . Em ausncia de dominncia, porm com ligao
incompleta,
2 2
) 2 1 ( 2 ) (
q
r E o | = .

Pelo mtodo de Fulker e Cardon, o coeficiente de regresso
q
t
|

relacionado
herdabilidade do loco e permite estim-la. A regresso dos quadrados das diferenas
fenotpicas entre dois irmos dentro de uma famlia na estimativa da proporo IBD
q
t obedece a seguinte equao:
q q i i
Y Y t | o t ) (
2
2 1
+ = , em que
1 i
Y e
2 i
Y referem-se
aos fentipos dos indivduos 1 e 2 da famlia i. O coeficiente de regresso |
proporcional varincia gentica aditiva contribuda pelo loco (
2
q
o ) e quando os
genitores so no endgamos e a ligao completa, em ausncia de dominncia,
equivale a
2
2
q
o | = , ou seja 2 /
2
| o =
q
.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

98

Assim, a herdabilidade aditiva do loco dada por ) 2 /(

2 2
y aq
h o | = , em que
2
y
o
a varincia fenotpica individual da populao (no apenas dentro da famlia de
irmos completos). Quando apenas a varincia fenotpica individual dentro de
famlia de irmos completos (
2
ydfic
o ) computada, a herdabilidade do QTL dentro de
famlia deve ser calculada como ) 4 /( / ] ) 2 / 1 [(

2 2 2 2
ydfic ydfic q aqd
h o | o o = = e a
herdabilidade do QTL na populao deve ser calculada como
) 4 / /( ) 2 / ( ] ) 2 / 1 ( /[

2 2 2 2 2
| o | o o o = + =
ydfic q ydfic q aq
h . Se a varincia fenotpica
individual da populao for computada, a herdabilidade do QTL dentro de famlia
deve ser calculada por ) 4 / /( ) 4 / ( ] ) 2 / 1 ( /[ ] ) 2 / 1 [(

2 2 2 2 2
| o | o o o + = =
y q ydfic q aqd
h .

A herdabilidade de todo o carter (sobre todos os locos) pode ser calculada por
meio da regresso (
*
| ) dos quadrados das diferenas fenotpicas entre dois irmos
dentro de uma famlia na estimativa da proporo IBD ampla em todo o genoma.
Nesse caso,
2 *
2
g
o | = e ) 2 /(

2 * 2
y
h o | = . Maiores detalhes so apresentados por
Visscher et al. (2006) e Odegard e Meuwissen (2012).

Para a estimao de parmetros genticos tais como a herdabilidade, so
necessrias informaes fenotpicas e de parentesco entre os indivduos avaliados. As
anlises genticas de dados moleculares fornecem informaes sobre o parentesco
entre os indivduos. Resende (2008) apresenta estimadores para a herdabilidade
nestas condies.
Definindo
) (
) ( ) (
y Var
y y y y
Z
j i
ij

=
, como a similaridade fenotpica entre dois
indivduos na populao, em que y
i
e y
j
referem-se a observaes fenotpicas nos
indivduos i e j, y e Var (y) so relativos mdia e varincia do carter y na
populao, tem-se:
2
2
2
2
2
2
y
ij
ij
y
ij g ij
i
e
h r
e r
Z
o o
o
+ =
+
=
, em que: r
ij
: coeficiente de parentesco de
Malecot entre os indivduos i e j;
2
2
2
y
g
h
o
o
=
: herdabilidade individual no sentido
restrito;
2
'
y
ij
ij
e
e
o
=
: resduo devido aos efeitos ambientais;
2
g
o : varincia gentica
aditiva; ) (
2
y Var
y
= o . O estimador da herdabilidade dado por
)] ( 2 /[ ) , ( cov

2
ij ij ij
r Var r Z h = , pois
2
2 2
2
) ( 2
) ( 2
) ( 2
] ), ' 2 [( cov
) ( 2
) , ( cov
h
r Var
h r Var
r Var
r e h r
r Var
r Z
h
ij
ij
ij
ij ij ij
ij
ij ij
= =
+
= =
.








Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

99

3.5 Funes de Mapeamento

Para a construo de um mapa de ligao preciso que os marcadores ou
genes sejam de herana simples. Os seguintes passos so adotados (Schuster e Cruz,
2004): (i) estimao da frequncia de recombinao (distncia) entre pares de
marcadores; (ii) agrupamento dos marcadores em diferentes grupos de ligao; (iii)
definio da ordem dos marcadores em cada grupo de ligao; (iv) estimao da
frequncia de recombinao multiponto entre marcadores adjacentes.
Genericamente, a frequncia de recombinao entre dois locos pode ser estimada
como a razo entre o nmero de indivduos com gametas recombinantes e o nmero
total de indivduos analisados. A frequncia de recombinao expressa tambm a
distncia entre os locos. A partir da verificao da existncia de ligao entre genes e
do clculo da distncia entre eles, os mesmos podem ser ordenados e classificados em
grupos de ligao.

A base do mapeamento decorrente do fato de que a probabilidade de
recombinao maior para locos mais distantes do que para locos prximos. Por
meio do conhecimento das frequncias de recombinao entre diversos locos de um
grupo de ligao, torna-se possvel a estimao da ordem desses locos no grupo de
ligao. Grupo de ligao definido como um conjunto de marcadores genticos que
possuem menos de 50% de recombinao entre marcadores consecutivos (Schuster e
Cruz, 2004). Alm dos mapas genticos, mapas fsicos podem ser construdos por
meio de tcnicas citogenticas, fragmentos de restrio e tambm pelo
sequenciamento do genoma. As informaes desses dois tipos de mapa so
fundamentais para a clonagem de genes. Nesse caso, o mapeamento fino
necessrio, visando a obteno de mapas genticos bastante saturados.

Para estimar a localizao de um novo loco no genoma, necessrio assumir
uma relao funcional entre frao de recombinao e distncia gentica entre pares
de locos. Essa distncia equivale ao nmero esperado de permutas que ocorre entre
esses dois locos por ocasio da meiose. Uma vez que essas esperanas matemticas
so aditivas, essa definio propicia uma medida estatstica aditiva de localizao. A
unidade de distncia gentica o Morgan, que refere-se distncia em que se espera
que ocorra uma permuta. A unidade de mapa de 1 cM equivale freqncia de
recombinao de 1%.

Quando dois locos so muito prximos, no mximo uma permuta pode
ocorrer entre eles e ento a distncia gentica equivale frao de recombinao.
Quando no mximo uma permuta pode ocorrer entre dois locos, tem-se o que
denominado interferncia completa ou positiva. A interferncia significa que uma
permuta interfere na formao de qualquer permuta adicional. Por outro lado, se as
permutas formam um processo Poisson ao longo do cromossomo, no h
interferncia, ou seja, a presena de uma permuta em um ponto qualquer no afeta a
presenca de uma permuta em qualquer outro ponto do cromossomo. Nesse caso, tem-
se permutas independentes e interferncia nula.

Uma funo que relaciona a distncia gentica no mapa com a frequnciia de
recombinao denominada funo de mapa ou de mapeamento. As seguintes
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

100

funes de mapeamento foram propostas: (i) Haldane (1919) a qual assume
interferncia nula e amplamente usada porque a independncia condicional que ela
assume conduz a maior simplicidade computacional (mas no realstica); (ii)
Morgan (1928), que assume interferncia completa e uma aproximao realista para
o caso de pequenas fraes de recombinao; (iii) Kosambi (1944), que considera o
nvel de interferncia.

As funes de mapeamento convertem frequncias de recombinao dadas
em unidades de mapa (cM) em distncias entre genes. Visam tornar aditivas as
distncias entre pares de marcas. Sendo r a frequncia de recombinao e D a
distncia entre locos tem-se os seguintes estimadores ou funes de mapeamento:

(a) Haldane
D
H
= - 0,5 ln (1 2r): distncia de Haldane entre locos.
)/2 e - (1 r
H
-2D
= : frequncia de recombinao dada a distncia de Haldane.

(b) Kosambi
D
K
= - 0,25 ln [(1 + 2r)/(1 - 2r)]: distncia de Kosambi entre locos.
1)] e 1)/( - e 0,5[( r
K K
4D 4D
+ = : frequncia de recombinao dada a distncia de
Kosambi.

As funes de mapeamento de Kosambi e de Haldane so similares quando r
apresenta valor prximo a zero. Elas diferem a medida em que r aumenta. Por
exemplo, r = 0,30 corresponde s distncias de mapa de 46 cM e 35 cM pelos mtodos
de Haldane e de Kosambi, respectivamente (Bernardo, 2002).

Para a formao dos grupos de ligao necessrio definir um limite
mximo para a frequncia de recombinao entre dois marcadores e tambm um
limite mnimo para o LOD escore (logaritmo da razo de riscos), visando inferir que
os dois marcadores esto ligados. Geralmente, esses limites tem sido adotados como r
= 0,3 (ou 30 cM) e LOD = 3. Um LOD escore acima de 3 geralmente usado como
valor crtico, significando que a hiptese alternativa 1000 vezes mais provvel do
que a hiptese nula (hiptese de independncia entre locos). Esse critrio parece
muito severo. Entretanto, ele leva em considerao a probabilidade a priori de
ligao. Conforme Norton (1955), existe uma probabilidade razovel (5% em seres
humanos, em 23 pares de cromossomos) de que dois locos sejam ligados, devido ao
nmero finito de cromossomos. O LOD escore para um valor particular u de
recombinao pode ser escrito como LOD-escore(u) = (N Nrec) log (1-u) + Nrec
log(u) N log(0.5), onde N o nmero de indivduos na prognie e Nrec o nmero
de recombinantes.








Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

101


3.6 Anlise da Expresso Gnica

Os estudos genmicos iniciaram-se com o mapeamento de QTLs por meio de
varredura genmica de baixa densidade. Posteriormente, a seleo assistida por
marcadores (MAS) foi proposta e implementada por meio de um modelo de herana
mista combinando o componente polignico com um componente devido a QTL de
grande efeito (Fernando e Grossman, 1989; Lande e Thompson, 1990). Com a
chegada dos marcadores SNP, tornou-se comum o mapeamento de associao,
implementado via varredura genmica de alta densidade, possibilitando o
mapeamento fino. Tambm, tornou-se possvel a seleo genmica (GS) ou seleo
genmica ampla (GWS), que superior MAS. A transcriptmica (ou
transcrissmica, referente expresso gnica) e a protemica surgiram tambm
como novas fontes de informao que podem ser usadas nos procedimentos de
avaliao gentica.

O termo Gentica Genmica foi criado por Jansen e Nap (2001) para designar o
estudo conjunto da variabilidade do transcriptoma e do polimorfismo de seqncias
de DNA. Nessa linha, dois enfoques so empregados: (i) determinao da
arquitetura gentica do transcriptoma, em forma de anlise de milhares de QTLs de
expresso (eQTL), onde os fentipos so nveis de cDNA (DNA complementar)
associados a cada gene; (ii) uso de dados de expresso gnica para a localizao de
genes candidatos. Para que essa ltima abordagem tenha sucesso, necessrio que os
nveis de expresso gnica estejam sob algum controle gentico e que alguns dos
nveis de expresso herdveis estejam correlacionados com o carter de interesse.
Perez-Enciso et al. (2003) relatam a combinao das informaes dos marcadores
moleculares e das expresses gnicas para o mapeamento de caractersticas
quantitativas.

Os dados de expresso referem-se transcrio (nveis de RNA mensageiro). A
tecnologia baseada em microarranjos usada para determinar a expresso diferencial
de genes, de todo o genoma, em amostras biolgicas de tecidos especficos.
Recentemente (Resende Jr., 2012), a tecnologia de sequenciamento em larga escala
tem sido utilizada como uma alternativa ao uso de microarranjos. Esta tcnica
conhecida como RNA-seq e baseia-se no sequenciamento de uma amostra de todos
os transcritos de um individuo em determinada condio e em determinado tecido. A
profundidade de leitura (depth) associada a cada transcrito correlacionada com o
nvel de expresso do gene em questo. Maiores detalhes sobre estas abordagens so
dados adiantes.

Os nveis de expresso gnica ou quantidades de RNAm detectados so ento
submetidos a anlise de correlao com caracteres quantitativos em indivduos de
uma populao segregante, visando deteco de QTL. Como exemplo, diferenas
na quantidade de RNAm produzida por plantas resistentes e suscetveis a uma
doena podem indicar que determinado RNAm est associado a um gene de
resistncia. O uso da quantidade de expresso gnica para a deteco de QTL mais
adequada para caracteres de resistncia a estresses causados por fatores abiticos
como seca e salinidade e, tambm, caracteres de resistncia doenas e pragas.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

102

Na Gentica Genmica, a associao entre nvel de RNA mensageiro e
polimorfismo de DNA, ao invs da associao entre fentipo e polimorfismo de
DNA, se justifica pela maior proximidade entre RNA e DNA do que entre fentipo
e DNA. Mas uma questo fundamental como fazer a ligao entre a expresso de
um QTL com o carter fenotpico de interesse. Mtodos diretos de anlise da funo
e expresso gnica so tambm essenciais para determinar se dois marcadores muito
prximos esto detectando o mesmo QTL ou dois QTLs muito prximos.

A combinao de dados genticos e de expresso gnica sobre todo o genoma tem
permitido entender a base gentica da expresso gnica. Nesse caso, os nveis de
RNAm so os dados fenotpicos, sujeitos a variaes devidas causas genticas e
ambientais. Neste caso, so identificados regies do genoma que controlam o nvel
de expresso dos genes estudados. Basicamente, a regulao do nvel de expresso e
dividida em duas classes, cis e trans. Caso o polimorfismo associado ao nvel de
expresso diferencial esteja muito prximo ao gene do qual o mRNA foi transcrito, a
regulao do tipo cis. Do contrrio, caso o marcador (e consequentemente o eQTL)
esteja mapeado em uma posio diferente da posio do transcrito, o gene regulado
em trans. Este ltimo tipo de regulao est normalmente associada a um fator de
transcrio que altera (ou ativa/desativa) o nvel de expresso do mRNA em questo
(Resende Jr., 2012). Estudos tm demonstrado grande variao gentica entre
gentipos quanto expresso gnica e estimativas significativas de herdabilidade
tm sido obtidas. Em humanos, a herdabilidade dos nveis de expresso gnica em
mdia igual a 30 %. Isto importante porque o poder estatstico para detectar
variantes genticos que afetam a expresso gnica depende da herdabilidade. Os
genes so expressos em funo de um estmulo ambiental.

Os dados de microarranjos (tambm referidos como slides ou lminas) de DNA
envolvem simultaneamente a expresso de milhares de genes em determinada idade
do indivduo e sob certas condies ambientais. Os procedimentos laboratoriais para
a produo desse tipo de dados envolvem a extrao de RNA mensageiro (mRNA),
transcrio reversa para a obteno do DNA complementar (cDNA), marcao
fluorescente e hibridizao do cDNA com sondas comerciais de DNA. A tcnica de
microarranjos propicia uma inferncia sobre o nvel de expresso gnica, via a
abundncia dos RNAs transcritos. Possibilita tambm, em alguns casos, a integrao
entre gentica e fisiologia, via determinao de redes (networks) entre conjuntos de
genes associados a caractersticas fisiolgicas. Uma desvantagem do uso de
microarranjos a necessidade de conhecimento prvio das sequencias de DNA para
desenvolvimento das sondas usadas na hibridizao. Assim, caso um transcrito no
seja previamente conhecido, no possvel construir uma sonda e assim a expresso
desse gene no ser detectada. No caso de RNA-seq, uma amostra de todos os
transcritos sequenciada, independente do conhecimento prvio da sequencia de
cada gene(Resende Jr., 2012).

A anlise de expresso gnica permite inferir sobre a funo dos genes e
possibilita a compreenso da expresso gnica diferencial entre tecidos, fases do
desenvolvimento, em respostas a estresses ambientais, e entre gentipos distintos. A
anlise desse tipo de dados tratada com detalhes na literatura (Kerr et al., 2000;
Wolfinger et al.; 2001; Tempelman, 2005; Rosa et al., 2007; Ayroles e Gibson, 2006).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

103

No caso de microarranjos, dois tipos de plataforma de arranjos podem ser usadas: (i)
baseada em um sistema de duas cores, gerando duas amostras por arranjo (do tipo
spotted cDNA); (ii) baseada em um sistema de cor (dye) nica ou arranjo de canal
nico, gerando uma amostra por arranjo (do tipo Affymetrix). O sistema (i)
demanda delineamentos (em loop ou circulares, parcelas subdividas) e anlises mais
complexos, alm de um alto nvel de repeties tcnicas. Por outro lado, o sistema
(ii) permite mltiplas sondas por gene e apresenta uma tendncia de se usar menor
nmero de repeties. Tambm o delineamento mais simples e no existe amostra
de referncia.

Duas abordagens principais tm sido empregadas na experimentao com
arranjos de duas cores: (i) uma cor (verde = Cyanine 3 ou Cy3) reservada para a
amostra de referncia ou controle e outra cor (vermelha = Cyanine 5 ou Cy5) usada
para avaliar os tratamentos; (ii) as duas cores so usadas para avaliar tratamentos de
interesse. Na abordagem (i) a proporo Cy3/Cy5 entre as intensidades de
fluorescncia propicia uma medida de intensidade de expresso gnica. Essa
abordagem intuitiva e adequada em situaes em que existe um grande nmero de
tratamentos do mesmo fator com baixo nmero de repeties. A abordagem (ii)
requer delineamentos mais refinados para evitar o confundimento entre fatores
(lminas e amostras de cido nuclico). Os efeitos de corantes ou dye so
pronunciados e torna-se essencial que cada amostra seja representada por repeties
tcnicas de ambos dyes em iguais propores.

O delineamento em loop deve ser empregado quando o interesse contrastar as
contribuies de cada fator. O delineamento em parcela subdividida deve ser usado
quando o interesse reside no efeito de um fator atravs de amostras que incluem
efeitos de um outro fator de menor interesse. Para qualquer das duas abordagens (i e
ii) o efeito de arranjo deve ser ajustado como aleatrio, visando considerar o fato de
que as duas medidas em um mesmo arranjo so correlacionadas. Isso ajusta para o
efeito do ambiente comum de arranjo. O delineamento experimental guia a
formulao do modelo linear apropriado para a anlise. Cada lmina ou arranjo
anlogo a um bloco incompleto pois, contempla apenas dois dos vrios tratamentos.
Adicionalmente, cada lmina contm os efeitos de dois corantes e o delineamento
torna-se ento do tipo linha e coluna com dimenso 2 x s, em que s o nmero de
slides ou arranjos.

No caso de arranjos de canal nico o delineamento experimental simplificado e
no h necessidade de considerar os efeitos de arranjo e de dye, pois no h
confundimento uma vez que cada amostra hibridizada sobre um arranjo diferente e
medida independentemente. A amostra de referncia ou controle usada
exatamente para corrigir os dados para os efeitos de lmina. Nesse caso, o
delineamento do tipo blocos incompletos com tratamentos comuns. A comparao
entre tratamentos realizada de forma indireta, por meio da diferena entre
contrastes de cada tratamento e a referncia ou controle em cada lmina. Por outro
lado, nos delineamentos circulares, os efeitos comparativos de tratamentos so
estimados por meio de combinaes entre comparaes diretas (entre tratamentos
dentro de blocos ou lminas) e de comparaes indiretas (entre tratamentos entre
blocos ou lminas).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

104


No caso do sequenciamento de cDNA (RNA-seq), os delineamentos
experimentais tendem a ser mais simples. Em geral, fatores ajustados no modelo so
os efeitos de diferentes canais (lanes), efeitos de diferentes corridas (flow-cell) e estes
so ajustados em um delineamento em blocos ao acaso (Auer e Doerge, 2010). A
expresso gnica quantificada normalmente pela normalizao da cobertura de
leitura e do tamanho da sequencia. O mtodo mais comum a normalizao em
nmero de leitura por quilobase (Kb) por milho de sequencias mapeadas
referencia (RPKM, do ingles Reads Per Kilobase of exon model per Million mapped
reads Mortazavi et al. 2008) (Resende Jr., 2012).

Em transcriptmica feita distino entre repetio tcnica e repetio biolgica.
Repetio tcnica refere-se a repetir hibridizao das mesmas amostras de RNA
originadas de uma mesma fonte biolgica comum. Assim, essas repeties no so
totalmente independentes uma da outra e so usadas para validar a acurcia das
medidas do nvel de transcritos e para modelar efeitos residuais como a variao
devida ao sequenciamento da mesma amostra em diferentes canais. Assim, no
propiciam informao sobre o nvel de variao na populao. De maneira similar,
sondas repetidas dentro de um arranjo so usadas para reduzir a necessidade de
repeties tcnicas por meio do aumento da confiana de medidas de abundncia de
transcritos para determinado gene alvo. Com os arranjos comerciais de alta
qualidade, os erros tcnicos so muito menores do que a varincia biolgica, de forma
que geralmente no h motivos para usar mais que duas repeties por amostra.

Repetio biolgica refere-se a repetir hibridizao de amostras de RNA
originadas de fontes biolgicas independentes sob as mesmas condies ou
tratamentos, tais quais amostras extradas de diferentes indivduos que receberam a
mesma dose de um tratamento ou mesmo duas rplicas de um mesmo gentipo de
uma planta. Essas rplicas objetivam propiciar informao sobre a variao biolgica
entre indivduos (Ayroles e Gibson, 2006). Quanto ao nmero de repeties a se
utilizar, Wolfinger et al. (2001) e Tempelman (2005) recomendam o uso de ao menos
quatro repeties tcnicas para cada repetio biolgica visando detectar 80% dos
genes expressos diferencialmente entre os grupos experimentais.

Os dados de intensidade de expresso em cada dye so inicialmente convertidos
para escala logartmica na base 2. A transformao log tem a vantagem de tornar os
dados mais prximos a uma distribuio normal e mais simtricos. Com dados
transformados na escala logartmica, componentes de mdia associados a modelos
lineares podem ser usados como procedimentos estatsticos adequados. Ou seja, no
h necessidade de se usar outras estatsticas, como a mediana. Sem a aplicao da
transformao logartmica o uso da estatstica mediana recomendado, pois essa
robusta a dados discrepantes (outliers). Aps limpeza (remoo de genes no
expressos, arranjos com baixa intensidade, etc) dos dados, os mesmos necessitam ser
normalizados visando remover efeitos globais de arranjos e corantes, os quais no
refletem variao gentica verdadeira dentro ou entre arranjos. Esses vieses resultam
de fatores tal qual a variao da quantidade de DNA colocada entre arranjos.
Mtodos de normalizao tal qual o LOWESS (regresso no-paramtrica robusta)
podem ser usados. Esse mtodo usa regresses locais para remover correlaes gerais
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

105

entre intensidade e proporo de intensidade. Outro procedimento a normalizao
de quantis ou quantlica, a qual realiza uma transformao no linear que produz
cada arranjo com iguais mdias, medianas e varincias, por meio da obteno da
intensidade mdia de cada quantil atravs dos arranjos.

No entanto, tal normalizao global pode remover artificialmente verdadeiras
diferenas biolgicas. Assim, modelos alternativos podem ser usados para remover os
efeitos de lminas e de corantes. Em outras palavras, a prpria modelagem desses
efeitos na anlise estatstica permite ajustar os dados para os mesmos. Wolfinger et
al. (2001) propuseram uma modelagem em duas etapas: (i) o primeiro modelo ajusta
os dados (transformados por log) para os efeitos globais (todos os genes
simultaneamente) de lmina ou arranjo (A), corantes ou dye (D) e sua interao
(AD) por meio do modelo Log
2
(y) = u + A + D + AD + Resduo(1); (ii) o segundo usa
o Resduo estimado pela modelagem anterior em um novo modelo de anlise
designado para genes especficos ou individuais. O primeiro modelo, designado para
uma normalizao global, expressa a intensidade de fluorescncia como desvios da
mdia geral e a segunda modelagem permite inferir se esses desvios diferem entre
fatores (tratamentos, etc) do modelo e para genes individuais.

O modelo gene-especfico de Wolfinger et al. (2001) dado por Residuo(1) = u +
A + D + AD + T + erro, em que T o fator de tratamentos e erro um vetor de erros
especfico para cada gene. Esse modelo ajustado separadamente para cada gene no
arranjo e, portanto, considera componentes de varincia especficos para cada gene.
Os efeitos A e AD devem ser ajustados como aleatrios e os efeitos do fator D como
efeitos fixos. Os efeitos do fator T devem ser tomados como fixos quando se
referirem a comparao de diferentes nveis de estresse aos quais determinado
gentipo submetido e tomados como aleatrios quando se referirem a mais de cinco
gentipos tomados de uma populao. Testes de significncia podem ser aplicados
aos fatores de efeitos fixos (F, Wald) e aleatrios (LRT ou anlise de deviance).

Uma alternativa a realizao da normalizao simultaneamente ao ajuste de
todos os demais fatores do modelo e tambm da avaliao de todos os efeitos de
genes individuais, conforme Kerr et al. (2000), por meio do modelo:
ijkm km k jm im m ij j i ijkm
e TG T DG AG G AD D A u y + + + + + + + + + = , em que y
ijkm
a
varivel abundncia de transcrio na escala log
2
e e
ijkm
um resduo comum a todos
os genes. Os efeitos de genes (G) e suas interaes devem ser considerados como
aleatrios. A interao de maior interesse TG
km
que retrata o efeito do tratamento
k sobre o nvel de expresso do gene m. Modelos mais complexos, contemplando
nveis de variao biolgica (diferentes gentipos) podem tambm serem usados e
permitem a estimao de componentes de varincia e herdabilidade dos padres de
expresso gnica. Esse modelo relevante porque considera todos os efeitos
simultaneamente em uma nica anlise. No entanto, apresenta a desvantagem de
considerar uma varincia residual comum a todos os genes.

O uso do mtodo de quadrados mnimos na anlise de dados de microarranjos
com todos os genes simultaneamente apresenta restries, devido ao elevado nmero
de genes em relao ao nmero de lminas, ou seja, maior nmero de efeitos a
estimar do que nmero de dados. Isso conduz a problemas de estimao para modelar
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

106

covarincias entre nveis de expresso de vrios genes, devido ao reduzido nmero de
graus de liberdade. A alternativa a ser adotada refere-se ao uso dos estimadores do
tipo shrinkage para os componentes de varincia (Cui et al., 2005).

Alguns experimentos podem fazer uso de vrias sondas dentro de um arranjo e
um modelo ao nvel de observaes em cada sonda (S) pode ser ajustado para cada
gene. Tal modelo pode ser da forma
ijkm km k m ij j i ijkm
e TS T S AD D A u y + + + + + + + = , em que o efeito de sonda aleatrio
assim como o termo da interao (TS
km
).

Modelos desse tipo foram empregados por Drost et al. (2008) em eucalipto.
Nesse gnero, marcadores genticos tm sido gerados a partir de dados de expresso
gnica. Assim, intensidade de expresso e deteco de polimorfismos de seqncia
so obtidos simultaneamente. Duas classes de polimorfismo so obtidas: (i)
polimorfismo em seqncias complementares a oligonucleotdeos de genes expressos
(SFP-single feature polymorphisms); e (ii) marcadores de expresso gnica, GEM
(gene expression markers). A distino entre SFPs e GMEs a partir da anlise de
dados de microarranjos permite a rpida obteno de marcadores SFPs para uso em
estudos de associao e implementao da seleo genmica.

Nos testes de significncia dos efeitos do modelo os p-valores necessitam ser
ajustados quando mltiplos testes so realizados em um experimento, como no caso
de milhares de genes testados simultaneamente. Nesse caso, por meio da correo de
Bonferroni especifica-se o nvel geral de significncia desejado e o divide pelo
nmero n de testes a serem realizados. Tem-se ento o nvel de significncia
corrigido * = /n que utilizado como limite de significncia para cada um dos
testes. Essa abordagem conservativa e diminui o poder dos testes. Um critrio mais
apropriado para esse caso a taxa de falsos positivos (FDR) definida como a
proporo esperada de falsos positivos dentre todos os testes significativos (Rosa et
al., 2007).

Os estudos de expresso gnica e a estimao dos efeitos dos marcadores SNPs
ou DArTs (no contexto da seleo genmica ampla) possibilitam a caracterizao ou
determinao das assinaturas moleculares ou genticas dos caracteres. Isso refere-se
determinao de todo o conjunto de genes que afeta determinada caracterstica
fenotpica.














Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

107



























































Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

108

4 Gentica de associao (GWAS)

A gentica de associao visa determinar os efeitos dos genes (QTL) sobre os
valores genticos dos indivduos em uma populao. Para esse fim, usa como meio as
associaes entre marcas moleculares e fentipos. As seguintes associaes poderiam
ser estudadas:
QTLs e Valores Genticos: so desconhecidos e so o alvo da GWAS;
Marcas e Fentipos: so conhecidos e so os meios da GWAS;
Marcas e Valores Genticos: GWS.
QTLs e Fentipos: MAS
Marcas e QTLs: mapeamento.
Fentipos e Valores Genticos: BLUP tradicional.

As importncias das associaes so apresentadas abaixo:

Gentipos Valor Fenotpico Valor Gentico
Marcas
+ ++
QTL
++ +++

As associaes assinaladas com + e ++ podem incorrer no erro de mapear
marca como gene e/ou efeito ambiental como efeito gentico. Para atingir a
associao assinalada como +++ devem ser realizadas as seguintes anlises de
transformao de marca em QTL e de valor fenotpico em valor gentico:


QTL Valor Gentico
Marcas
p-valor muito baixo (10
-5
): LDA -
Valor Fenotpico
- Segreg Mendeliana Desregressada:
Anlise de Pedigree

4.1 Coeficientes e Medidas de Desequilbrio de Ligao

A definio de desequilbrio de ligao refere-se associao no aleatria de
alelos de diferentes locos. Considere um loco com alelos A e a e outro loco com alelos
B e b. O desequilbrio gamtico dado por D = prob(AB) prob(ab) prob(Ab)
prob(aB), em que prob denota probabilidade ou freqncia dos respectivos
hapltipos. Assim, o desequilbrio existe (D diferente de zero) quando os gametas
em associao e repulso diferem em freqncia. Valores de D positivos revelam que
os gametas em associao esto em excesso. Valores de D negativos revelam que os
gametas em repulso esto em excesso. Aps t geraes de cruzamentos ao acaso, D
t

= D
0
(1 r)
t
e, portanto, t = (log D
t
) / [log D
0
(1 - r)] fornece o nmero de geraes
para se atingir o equilbrio, em que D
0
o desequilbrio inicial e r a taxa de
recombinao.

Considere as seguintes freqncias allicas: p (A) = p
1
; p (a) = p
2
; p (B) = q
1
; p
(b) = q
2
. Tem-se ento as seguintes igualdades D = prob(AB) prob (ab) prob (Ab)
prob (aB) = P
11
P
22
P
12
P
21
= p
1
q
1
p
2
q
2
p
1
q
2
p
2
q
1
= P
11
p
1
q
1
= P
22
p
2
q
2
= p
1
q
2
P
12
=
p
2
q
1
P
21
. Assim, os valores mximos e mnimos de desequilbrio so dados por
Dmax = min (Ab, aB) = min (p
1
q
2
, p
2
q
1
) e Dmin = max (AB, ab) = max (-p
1
q
1
, -p
2
q
2
).

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

109

Como exerccio, considere o seguinte: Dois locos com dois alelos esto
segregando na populao e so fornecidas as seguintes informaes: prob (AB) = 0,35;
p (A) = 0,7 e p (b) = 0,4. Essa populao encontra-se em equilbrio gamtico? Com
base nas informaes tem-se: p (B) = 1 0,4 = 0,6 e a probabilidade esperada de AB
P (AB) = p (A) p(B) = 0,7 x 0,6 = 0,42. Assim D = prob (AB) - p (A) p (B) = P
11
p
1
q
1

= 0,35 0,42 = -0,07. Assim, a populao encontra-se em desequilbrio de ligao e
existe um excesso de gametas em repulso. Supondo locos ligados com taxa de
permuta de 2 %, o nmero de geraes para que o desequilbrio caia metade (D
t
/D
0
= 0,5) ser dado por D
t
/D
0
= (1 r)
t
= 0,5. Assim, 0,5 = (1 r)
t
e 0,5 = (1 0,02)
t
e,
portanto, resolvendo para t obtm-se t = 34,31 geraes.

A estatstica de desequilbrio de ligao apresentada por Hill (1981) e usada
acima, D = prob(AB) prob (ab) prob (Ab) prob (aB), muito dependente das
freqncias de alelos individuais e portanto no til para comparao do LD entre
mltiplos pares de locos envolvendo diferentes pontos ao longo do genoma. A
estatstica r
2
desenvolvida por Hill e Robertson (1968) mais adequada, pois menos
dependente das freqncias allicas. Tal estatstica dada por r
2
= D
2
/ [prob(A)
prob (a) prob (B) prob (b)]. Os valores de r
2
variam de zero (pares de locos com
nenhum desequilbrio entre eles) a 1 (pares de locos com completo LD).
Considerando o exemplo acima, tm-se as seguintes freqncias observadas dos
hapltipos: P (AB) = 0,35; P (ab) = 0,05; P (aB) = 0,25; p(Ab) = 0,35. Assim, D = P
(AB) P(ab) P (Ab) P(aB) = -0,07 e D
2
= 0,0049. O valor de r
2
ento dado por r
2
=
D
2
/ [prob(A) prob (a) prob (B) prob (b)] = 0,0049 / [0,7 0,3 0,6 0,4] = 0,0972. Esse
nvel de desequilbrio considerado baixo. Valores moderados de r
2
so da ordem de
0,2 ou mais (Hayes et al., 2006).

Outra medida de LD a estatstica D`= mdulo (D) / Dmax, proposta por
Lewontin (1964), a qual refere-se ao prprio D padronizado pelo D mximo. O
Dmx dado por Dmax = min (p
1
q
2
, p
2
q
1
) se D > 0 e Dmax = min (p
1
q
1
, p
2
q
2
) se D <
0. Essa medida de LD no muito precisa pois pode ser inflacionada quando
estimada a partir de amostras pequenas ou em situao de baixas freqncias allicas
(McRae et al., 2002). Outra caracterstica de D refere-se sua incapacidade de
predio da densidade de marcadores necessria para uma completa varredura do
genoma usando LD.

A estatstica r
2
ento preferida. O significado gentico de r
2
entre um
marcador e um QTL no observado que ele mede a proporo da variao causada
por alelos do QTL que explicada pelos marcadores. Assim, o decrscimo de r
2
com
o aumento da distncia indica quantos marcadores e fentipos so necessrios para a
acurada predio no contexto da seleo genmica ampla e da deteco de QTL
usando LD em nvel populacional. Os tamanhos amostrais devem aumentar em uma
proporo dada por 1/r
2
para detectar um QTL no observado, em comparao com a
amostragem necessria para avaliar o prprio QTL (Pritchard e Przeworski, 2001).

As medidas de desequilbrio apresentadas referem-se a locos com dois alelos, ou
seja, marcadores bi-allicos. Isto adequado para marcadores do tipo SNPs, embora
possam ser estendidos tambm para marcadores multi-allicos como os
microssatlites. No entanto, um estimador de desequilbrio de ligao multi-alllico
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

110

foi proposto por Zhao et al. (2005), por meio da estatstica x
2*
dada por

= =
=
n
j
j i ij
k
i
b p a p D m
1
2
1
* 2
)]} ( ) ( /[ { )] 1 /( 1 [ _
, em que
) ( ) ( ) (
2
j i j i ij
b p a p b a p D =
e
) (
i
a p
e
) (
j
b p
so as frequncias dos alelos i e j dos marcadores a e b, respectivamente. Por sua
vez,
) (
j i
b a p
refere-se frequncia do hapltipo
) (
j i
b a
. A quantidade m refere-se ao
mnimo do nmero de alelos nos marcadores a e b. A estatstica x
2*
uma
generalizao de r
2
e para marcadores bi-allicos x
2*
= r
2
. As simulaes realizadas por
Zhao et al. (2005) mostraram que x
2*
o melhor preditor da proporo da variao
causada por alelos do QTL que explicada pelos marcadores.

A estatstica r
2
desenvolvida por Hill e Robertson (1968), dada por
r
2
= D
2
/ [prob(A) prob(a) prob(B) prob(b)], tem como esperana ou valor esperado
a expresso de Sved (1971), dada por E(r
2
) = 1/(4 Ne r + 1). Essa expresso dada em
funo da taxa de recombinao r em Morgans. Assim, com base no tamanho efetivo
populacional (Ne) e na taxa de recombinao, pode-se inferir sobre o r
2
. Inferncias
sobre o r
2
so importantes no cmputo da acurcia da MAS e da GWS.

Em espcies exogmicas domesticadas (animais e plantas perenes
preferencialmente algamas) o reduzido tamanho efetivo populacional a principal
causa de desequilbrio de ligao. Nesse caso, o valor esperado desse desequilbrio em
um dado segmento cromossmico de tamanho S (em Morgans) pode ser calculado
pela seguinte expresso E(r
2
) = 1/(4 Ne S + 1). Pela equao de Sved, verifica-se que o
desequilbrio de ligao reduz-se rapidamente com o aumento da distncia entre os
genes, ou seja, com o aumento do tamanho do segmento considerado. Essa reduo
tanto maior quanto maior for o tamanho efetivo populacional (Tabela 21).

Tabela 21. Valores esperados (E(r
2
)) do desequilbrio de ligao entre dois locos, em funo do
tamanho efetivo populacional (Ne) e do comprimento (L) do segmento cromossmico entre os
dois locos.
Ne S (Morgan) S (CentiMorgan) E(r
2
) Ne S (Morgan) S (CentiMorgan) E(r
2
)
10 0.005 0.5 0.83 100 0.005 0.5 0.33
10 0.01 1 0.71 100 0.01 1 0.20
10 0.02 2 0.56 100 0.02 2 0.11
10 0.03 3 0.45 100 0.03 3 0.08
10 0.04 4 0.38 100 0.04 4 0.06
10 0.05 5 0.33 100 0.05 5 0.05
20 0.005 0.5 0.71 200 0.005 0.5 0.20
20 0.01 1 0.56 200 0.01 1 0.11
20 0.02 2 0.38 200 0.02 2 0.06
20 0.03 3 0.29 200 0.03 3 0.04
20 0.04 4 0.24 200 0.04 4 0.03
20 0.05 5 0.20 200 0.05 5 0.02
30 0.005 0.5 0.63 500 0.005 0.5 0.09
30 0.01 1 0.45 500 0.01 1 0.05
30 0.02 2 0.29 500 0.02 2 0.02
30 0.03 3 0.22 500 0.03 3 0.02
30 0.04 4 0.17 500 0.04 4 0.01
30 0.05 5 0.14 500 0.05 5 0.01
50 0.005 0.5 0.50 1000 0.005 0.5 0.05
50 0.01 1 0.33 1000 0.01 1 0.02
50 0.02 2 0.20 1000 0.02 2 0.01
50 0.03 3 0.14 1000 0.03 3 0.01
50 0.04 4 0.11 1000 0.04 4 0.01
50 0.05 5 0.09 1000 0.05 5 0.00


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

111

Verifica-se pela Tabela 21, para os tamanhos efetivos praticados no
melhoramento de plantas perenes (30 a 100), que os desequilbrios de ligao
adequados (maiores ou iguais a 0,2) para a seleo de QTLs so obtidos com
marcadores espaados de 1 a 3 cM. O
2
mq
r ou E(r
2
) uma mdia ponderada do r
2
de
cada par marcador-QTL. O r
2
o quadrado da correlao (r) entre alelos ou gentipos
presentes no loco marcador e no loco do QTL (Tabela 22).

Tabela 22. Clculo do desequilbrio de ligao entre marcador e QTL.

Indivduo N. Alelos
Loco Marcador
(W
a
)
N. Alelos
Loco QTL
(W
b
)
1 0 0
2 2 1
3 1 1
4 1 0
5 2 1
Correlao r r = 0.76 r
2
= 0.58

O r
2
tem ento trs interpretaes: (i) desvio da frequncia observada de
hapltipos em relao esperada segundo segregao independente
( ) ( Pr ) ( Pr ) ( Pr b ob a ob ab ob D = ); (ii) quadrado da correlao (r) entre alelos
(Tabela 22); (ii) proporo da variao no QTL explicada pelo marcador. As provas
dessas trs interpretaes e equivalncias so apresentadas a seguir.
O coeficiente de correlao entre duas variveis ou alelos nos locos a e b
dado por:
2 / 1 2 / 1 2 / 1 2 / 1 2 / 1 2 / 1
] [ ] [ ] [
) ( Pr ) ( Pr ) ( Pr
)] ( [ )] ( [ )] ( ) ( [
) , (
rs pq
D
rs pq
b ob a ob ab ob
b Var a Var
b a ab
b Var a Var
b a Cov
r =

= =

. O quadrado
dessa quantidade equivale a
rs] [pq
D
= r
2
2 , que a medida padro de desequilbrio de
ligao. Usando as matrizes de incidncia W dos marcadores o valor de r pode ser
dado por
2 / 1 2 / 1 ) , (
)] ( [ )] ( [
) , (
ib ia
ib ia
b a
W Var W Var
W W Cov
r =
. Definem-se as quantidades
ob(b) ob(a) ob(ab) = D Pr Pr Pr , em que Prob (a) a frequncia do alelo a e Prob (ab) a
frequncia do gentipo ab. Genericamente, p a frequncia do alelo A, q a
frequncia do alelo a, r a frequncia do alelo B e s a frequncia do alelo b. A
igualdade pq = Var(a) assume distribuio Bernoulli para a presena do alelo.

A relao entre efeitos genticos do marcador e do QTL pode ser melhor
entendida segundo os modelos a seguir: modelo para fentipo via efeito gentico do
QTL (g
QTL
): e g u y
QTL
+ + = ; modelo para fentipo via efeito gentico do marcador
(g
m
): e Wg u e g u y
m QTL
+ + = + + = . A quantidade g
m
um coeficiente de regresso
dado por
2 / 1 2 / 1
)]} 1 ( 2 /[ ) ( { )] ( / ) ( [
) ( / ) , ( ) ( / ) , (
p p g Var r W Var g Var r
W Var W g Cov W Var W y Cov g
QTL QTL
QTL m
= =
= =
.

A quantidade da variao no QTL explicada pelo marcador dada por
) ( ) ( )] ( / ) ( [ ) ( ) (
2 2 2
QTL QTL m m
g Var r W Var W Var g Var r W Var g Wg Var = = =
. Assim, surge o
conceito de
2
r como a proporo da variao do QTL explicada pelo marcador.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

112


A extenso do desequilbrio de ligao depende de recombinaes recentes e
tambm antigas bem como do Ne atual e passado. Populaes domesticadas de
plantas e animais apresentam menor Ne atual do que Ne passado. Em humanos
ocorre o contrrio, devido ao grande aumento populacional na era atual. Hayes et al.
(2003) relatam que o desequilbrio de ligao em segmentos cromossmicos curtos
(em distncias pequenas) depende do tamanho efetivo antigo da populao, muitas
geraes atrs. Por outro lado, o desequilbrio a longa distncia depende da recente
histria da populao. Considerando que mudanas lineares nos tamanhos das
populaes so realizadas, tem-se que a medida de desequilbrio r
2
reflexo do Ne a
1/(2S) geraes atrs. Dessa forma, o valor esperado de r
2
quando o Ne alterado
atravs das geraes dado por E(r
2
) = 1/(4 Ne
t
S + 1), em que t = 1/(2S). Em
humanos, o Ne equivale a aproximadamente 10.000 (Kruglyak, 1999). Em animais
domsticos e plantas perenes, o Ne pode ser baixo, da ordem de 100. Assim, o
desequilbrio de ligao (LD) deveria ser menor nos humanos. No entanto, no
passado, o Ne da populao humana foi baixo. Assim, a longas distncias entre
marcadores, os valores de r
2
em humanos so menores do que nas espcies
domsticas de plantas e animais. E a curtas distncias entre marcadores os valores de
r
2
so mais similares em humanos e em espcies animais domesticadas. Moderado
LD (r
2
maior ou igual a 0,2) em humanos estende a menos que 5 kb ou 0,005 cM. Em
gado bovino, moderado LD estende-se at 100 kb. Entretanto, valores muito altos (r
2

maior ou igual a 0,8) de LD estendem-se apenas a distncias muito curtas tanto em
humanos quanto em gado bovino (Tenesa et al., 2007).

Em gado bovino leiteiro, populaes holandesas e australianas apresentam
declnio em LD similar, pois so populaes relacionadas por origem e apresentam
histria e Ne semelhantes. Por outro lado, a populao bovina norueguesa vermelha
(Ne igual a 400) apresenta mais rpido declnio em LD do que o gado bovino leiteiro
holands (Ne global igual a 150). Os diferentes Ne justificam esse comportamento
diferenciado do LD nas duas populaes (Zenger et al., 2007). Consideraes
importantes sobre clculos de tamanho efetivo populacional so apresentadas por
Vencovsky e Crossa (1999).

4.2 Mtodos de Anlise de QTL via LDA

Durante muito tempo, os estudos de mapeamento basearam-se na anlise de
ligao associada aos dados de pedigree. Recentemente, mtodos baseados em
desequilbrio de ligao associados a indivduos no aparentados tm sido
recomendados como ferramentas poderosas para produzir estimativas refinadas da
localizao de genes. Tais mtodos so baseados nas seguintes premissas. Quando
um novo alelo introduzido na populao, seja por mutao ou migrao, este passa
a existir na populao conjuntamente com um grupo de alelos marcadores. O
comprimento desse hapltipo reduzido ao longo das geraes devido a eventos de
recombinao e, depois de muitas geraes, somente os marcadores na vizinhana
imediata do loco do novo alelo provavelmente permanecero no mesmo segmento
cromossmico. Se esse alelo influencia determinado carter, uma correlao de alta
magnitude entre o carter e o alelo marcador dever indicar que o loco que codifica o
carter situa-se muito prximo ao marcador.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

113


O mapeamento via LDA visa aumentar a preciso da estimativa da posio do
QTL, pois, em algumas situaes, o nmero de meioses associadas ao pedigree
genotipado no suficiente para que a LA seja precisa. Os mtodos LDA propiciam
um mapeamento fino, o qual fundamenta-se na quantificao do desequilbrio de
ligao em fase gamtica presente atravs das famlias em uma populao algama.
Nesse caso, a fase de ligao no varia entre famlias e nem entre geraes. A base do
mtodo refere-se ao fato de que quando uma populao pequena, os fundadores
tero um pequeno nmero de diferentes hapltipos e, com locos intimamente
ligados, no haver tempo suficiente para a recombinao quebrar a associao entre
marcadores e a mutao que afeta o QTL (Perez-Enciso et al., 2003). A mutao
funcional referida como nucleotdeo de caracterstica quantitativa (QTN).

Tal mapeamento tambm denominado mapeamento de associao, o qual
tornou possvel com o advento dos marcadores SNPs e DArTs, que permitem uma
alta densidade de marcadores no genoma. Os marcadores SNP so codominantes e
biallicos, embora raramente (menos que 1%) sejam encontrados SNPs triallicos ou
tetrallicos, pois, a plausibilidade de ocorrncia de uma segunda mutao na mesma
posio do nucleotdeo muito pequena. Os marcadores DArT podem ser
dominantes ou codominantes. A estratgia de associao carter-marcador em nvel
populacional baseia-se em pequenos blocos gnicos em desequilbrio de ligao e,
portanto, a resoluo muito grande (menores distncias entre genes). Embora a
resoluo seja maior, a deteco de QTLs e a preciso do mapeamento demandam
um nmero muito grande de marcadores. O mapeamento de associao opera na
populao em geral e no especificamente em uma populao de mapeamento. A
associao entre marcador e QTL depende da freqncia de recombinao entre eles.
Para encontrar um marcador razoavelmente prximo a um QTL necessrio uma
baixa freqncia de recombinao. Quanto maior o desequilbrio de ligao, mais
prximo o marcador estar do gene e esse LD ou associao sero vlidos mesmo
para indivduos geneticamente mais distantes.

Duas abordagens podem ser usadas na gentica ou mapeamento de associao:
varredura genmica e genes candidatos. Nessa ltima abordagem, marcadores so
usados apenas dentro de genes candidatos individuais. Para a gentica de associao,
a populao de mapeamento deve ser grande e com alto grau de desequilbrio de
ligao. O mapeamento via LDA baseia-se em varredura genmica usando mapa de
marcadores de alta densidade, com um marcador a cada 0,5 cM a 2 cM. O sucesso do
mtodo depende da extenso do desequilbrio de ligao na populao. Uma vez que
os marcadores podem no estar em completo LD com os QTLs, tanto as associaes
entre marcadores e QTLs na populao quanto a co-segregao de marcadores e
QTLs dentro de famlias podem ser usados simultaneamente na deteco de QTL,
via o mtodo LDA-LA, o qual combina as propriedades dos marcadores LD (em
desequilbrio de ligao) e LE (em desequilbrio de ligao), respectivamente.

O mapeamento baseado em LDA conduzido por meio do clculo das
probabilidades de que os hapltipos compartilhados pelos indivduos sejam idnticos
por descendncia de um ancestral comum, condicional aos dados de marcadores. A
correta determinao das fases de ligao e dos gentipos do QTL necessria no
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

114

mapeamento fino. Assim, uma pura anlise LDA pode resultar em um alto nmero
de falsos positivos, ou seja, falsa inferncia de associao em ausncia de ligao. Em
funo disso, mtodos (LA-LDA) que incorporam simultaneamente as informaes
de LD populacional e de ligao dentro de famlias so indicados, visando mitigar os
efeitos da associao espria entre marcadores e QTLs (Meuwissen e Goddard,
2004).

A seleo auxiliada por marcadores moleculares (MAS) e a seleo genmica
ampla (GWS) sero tanto mais efetivas quanto mais prximos estiverem os
marcadores dos QTLs. Dado o pequeno espaamento entre genes no cromossomo, o
mapeamento de QTLs com preciso uma tarefa cruel. Em mdia, um segmento
cromossmico de 10 cM pode conter cerca de 200 genes. Assim, uma alta densidade
de marcadores genotipados aumenta a resoluo do mapeamento de QTLs. Mas se o
objetivo for encontrar o prprio gene que afeta o carter, o intervalo de confiana
para a localizao do QTL ainda ser amplo, mesmo para QTL de grande efeito e
com grande tamanho amostral (Weller, 2001). Estratgias de mapeamento baseadas
em LDA so relatadas a seguir.

4.3 Mapeamento genmico amplo via regresso em marcas nicas

A GWAS (Genome Wide Association Studies) procura associao entre locos e
carter fenotpico em nvel populacional, por meio de testes de hipteses visando
detectar efeitos com significncia estatstica. O seguinte modelo de regresso em
marcas simples pode ser empregado visando associao entre marcador e QTL em
uma populao panmtica (Resende, 2008): y = Ju + Wm
i
+ e, em que y o vetor de
observaes fenotpicas, J um vetor com valores 1, u o escalar referente mdia
geral, m
i
o efeito fixo de um dos alelos do marcador biallico e e refere-se ao vetor
de resduos aleatrios. W a matriz de incidncia para m
i
. Esse modelo assume que o
marcador afetar o carter apenas se ele estiver em LD com o suposto QTL. Outros
efeitos fixos e aleatrios podem ser incorporados nesse modelo. Como exemplo,
considere a avaliao de 12 indivduos para um carter e para um marcador do tipo
SNP. Os dados referentes aos gentipos e fentipos dos indivduos so apresentados
a seguir.

Indivduo Fentipo Primeiro Alelo do SNP1 Segundo Alelo do SNP1
1 9,87 A a
2 14,48 A A
3 8,91 A a
4 14,64 A A
5 9,55 A a
6 7,96 a a
7 16,07 A A
8 14,01 A a
9 7,96 a a
10 21,17 A A
11 10,19 A a
12 9,23 A A

A matriz de incidncia W associa os nmeros de cada alelo do SNP aos
fentipos. suficiente ajustar o efeito de apenas um dos alelos. Assim, a matriz W
ter apenas uma coluna para o efeito de um dos alelos do SNP, por exemplo o A.
Essa coluna contm o nmero de cpias do alelo A que os indivduos possuem.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

115

Portanto, contm os valores 0, 1 ou 2 para um indivduo diplide. O nmero de linhas
dessa matriz igual ao nmero de indivduos.

A matriz J inclui uma coluna para a mdia geral. As matrizes J e W (nmero
de alelos A), apresentadas na forma transposta so dadas por
| | 1 1 1 1 1 1 1 1 1 1 1 1 '
) 1 12 (
=
x
J

e | | 2 1 2 0 1 2 0 1 2 1 2 1 '
) 1 12 (
=
x
W . As equaes de quadrados mnimos para a estimao dos
efeitos da mdia geral e do SNP equivalem a:
(

=
(

y W
y J
m
u
W W J W
W J J J
i
'
'

' '
' '
em que y o vetor de fentipos. Resolvendo-se esse
sistema, obtm-se:
(

=
(

7856 , 3
2713 , 7

i
m
u
.

A hiptese da nulidade, ou seja, de que o marcador no apresenta qualquer
efeito sobre o carter, pode ser avaliada pelo teste F. A hiptese nula rejeitada se F >
F(a,v
1
,v
2
), em que F a estatstica de Snedecor calculada dos dados, a o nvel de
significncia e v
1
e v
2
so os graus de liberdade associado distribuio F tabelada. A
hiptese alternativa de que o marcador afeta o carter, ou seja, devido ao fato de
que marcador e QTL encontram-se em desequilbrio de ligao. O valor da estatstica
F calculado via
) 2 /( ) ' ' (
) ' ( ) / 1 ( '

Re
2
2

+
= =
n y J u y W m y y
y J n y J u y W m gresso QM
F
e
o
.

No presente exemplo, o valor calculado de F foi de 9,74. Tal valor pode ser
comparado com o valor tabelado de F ao nvel de significncia de 5 % e graus de
liberdade 1 e 10, o qual equivale a 4,96. Assim, o efeito do SNP significativo. Isso
era esperado, pois, associados aos maiores valores fenotpicos esto os alelos A do
SNP, conforme se v claramente na tabela dos dados. Na prtica da GWS, o nvel de
significncia a ser adotado deve ser bem menor, da ordem de 10
-5
.

Um modelo mais completo da forma:

e + Zg + Wm Ts + Xb = y
i
+ , que b, s e g so vetores de efeitos fixos de natureza
ambiental, de covarivel de efeitos fixos referente estrutura de populao e de
efeitos aditivos polignicos (aleatrios), respectivamente, com matrizes de incidncia
X, T e Z.

Os valores da covarivel associada a s podem ser tomados como os
autovetores decorrentes da decomposio espectral da matriz de parentesco genmico
G. Maiores detalhes no captulo 6.








Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

116

4.4 Poder estatstico e significncia na associao e deteco de QTL

O poder do teste de associao marcador-QTL depende dos seguintes fatores
(Pritchard e Przeworski, 2001; Meuwissen et al., 2002; Hayes et al., 2006; Fernando et
al., 2004; Macleod et al., 2007):

(i) Do r
2
(medida estatstica do desequilbrio de ligao) entre
marcador e QTL. O significado gentico de r
2
entre um marcador e
um QTL no observado que ele mede a proporo da variao
causada por alelos do QTL que explicada pelos marcadores. Os
tamanhos amostrais devem aumentar em uma proporo dada por
1/r
2
para detectar um QTL no observado, em comparao com a
amostragem necessria para avaliar o prprio QTL.

(ii) Da proporo da variao fenotpica explicada pelo QTL, ou seja,
do coeficiente de determinao do efeito do QTL (
2 2 2
/
total q q
h o o = ).

(iii) Do nmero n de indivduos avaliados.

(iv) Do nvel de significncia especificado.

(v) Da freqncia p do alelo raro do marcador, a qual determina o
nmero mnimo de observaes necessrias para estimar um efeito
allico. Se p menor do que 0,1, o poder torna-se sensvel a essa
freqncia allica.

O poder de um teste refere-se probabilidade de se rejeitar H
o
, quando H
o

falsa, ou seja, capacidade de detectar um QTL na populao, quando ele realmente
existe. O poder de um teste de deteco de QTL em funo de diferentes nveis de r
2

entre o QTL e o marcador pode ser calculado pela frmula de Luo (1998). Para
conseguir um poder maior ou igual a 80 %, visando deteco de um QTL com
2
q
h
igual a 0,05 com base em 1.000 observaes fenotpicas, necessrio um r
2
de pelo
menos 0,2. Esse resultado considerou a frequncia do alelo raro maior do que 0,2.

Macleod et al. (2007) relataram que o poder de deteco de QTL com
2
q
h igual a
5 % e 365 indivduos genotipados foi de 37 % (p<0,001). Verificaram tambm uma
forte correlao entre os valores de F associados a SNPs significativos e seus r
2
com o
QTL. A correlao entre as estatsticas F de Snedecor e D foram praticamente zero.

Ao fazer uma inferncia, o pesquisador incorre no erro tipo I, quando rejeita
uma hiptese H
o
que verdadeira e incorre no erro tipo II, quando aceita uma
hiptese H
o
que falsa. A probabilidade de cometer um erro tipo I designada por o
e o maior valor de o para H
o
verdadeira denominado nvel de significncia de um
teste estatstico, ou seja, a significncia de um teste a probabilidade mxima que se
admite correr o risco de cometer um erro tipo I.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

117

O nvel de significncia a ser adotado em estudos de associao genmica
ampla demanda srias consideraes. Isto porque milhares de marcadores estaro
sendo testados e, portanto, existe o problema de mltiplos testes. Nesse caso, o nvel
nominal de significncia adotado para cada teste no corresponde quele realizado
em todo o experimento. Com um nvel de significncia de 5 %, espera-se 5 % dos
resultados como falsos positivos. Com 20 mil marcadores, o nmero de falsos
positivos esperados de 1.000. A correo de Bonferroni poderia aliviar isso.
Entretanto, ela no leva em considerao que os testes no mesmo cromossomo no
so independentes, pois os marcadores podem estar em desequilbrio de ligao entre
eles e tambm com o QTL.

A tcnica do teste de permutao foi proposta por Churchill e Doerge (1994)
para contornar a questo de mltiplos testes nos experimentos de mapeamento de
QTL. Essa tcnica apropriada para estabelecer os adequados nveis de significncia.
Hoggart et al. (2008) derivaram uma aproximao explcita para o erro tipo I a qual
evita a necessidade de procedimentos de permutao. Outra alternativa para evitar
falsos positivos monitorar esse nmero em relao ao nmero de resultados
positivos, conforme Fernando et al. (2004). O pesquisador pode estabelecer um nvel
de significncia associado a uma proporo aceitvel de falsos positivos.

A taxa de descobertas falsas (FDR) definida como a proporo esperada de
QTLs detectados que so falsos positivos. A FDR pode ser calculada como FDR = m
Pmax/n, em que Pmax o maior Pvalor de QTL que excede o nvel de significncia,
n o nmero de QTLs que excedem o nvel de significncia e m o nmero de
marcadores testados (Weller, 2001). Com 10 mil SNPs testados, nvel de significncia
(Pvalor) de 0,001 e 80 SNPs declarados como significativos, a FDR = 10.000 x
0,001/80 = 0,125. Essa magnitude (12,5 %) de taxa de falsa descoberta pode ser
considerada aceitvel.

Uma alternativa para diminuir a taxa de falsos positivos a adoo de modelo
com incluso do vetor de efeitos polignicos, o qual contempla a matriz de
parentesco e permite correo para estrutura de populao. Macleod et al. (2007)
relatam um aumento no nmero de falsos positivos (erros tipo 1) quando os efeitos
polignicos no so includos no modelo. Nesse caso, o uso dos prprios marcadores
indicado para inferir sobre a matriz de parentesco, conforme Hayes et al. (2007).
Para um dado loco marcador, a similaridade gentica Sxy entre dois indivduos x e y,
calculada da seguinte forma:
(a) Sxy = 1, quando o gentipo x = ii (ambos alelos no loco so idnticos)
e o gentipo y = ii, ou quando x = ij e y = ij;
(b) Sxy = 0,5, quando o gentipo x = ii e o gentipo y = ij, ou vice-versa;
(c) Sxy = 0,25, quando o gentipo x = ij e o gentipo y = ik;
(d) Sxy = 0, quando os dois indivduos no tm alelos comuns no loco.

A similaridade resultante do acaso dada por

=
=
g
i
i
p Sa
1
2 , em que p a freqncia
do alelo na populao e g o nmero de alelos no loco. O parentesco entre os
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

118

indivduos x e y no loco ento calculado como r = (Sxy Sa)/(1 Sa). O
parentesco mdio entre os indivduos ento computado como a mdia de r sobre
todos os locos. Com grande nmero de marcadores, a matriz de parentesco derivada
de marcadores pode capturar os efeitos da segregao mendeliana.
Para a estimao de intervalos de confiana em estudo de associao genmica
ampla, mtodos baseados em validao cruzada podem ser usados. Nesse caso, o
conjunto de dados dividido em duas partes e o estudo de associao realizado trs
vezes, uma vez em cada metade dos dados e uma vez no conjunto total de dados. O
intervalo a 95 % de confiana associado posio do QTL dado pela posio do
SNP mais significativo na anlise com os dados completos 1,96 s, em que s o erro
padro do QTL e dado por

=
=
n
i
i
x x
n
s
1
2 / 1
21 1
)
4
1
(
para n pares de SNPs com efeitos
significativos. Os componentes
21 1
x e x
i
so as posies do SNP mais significativo em
cada uma das metades do dado completo, para a i-sima posio mais significativa do
QTL no conjunto total de dados. Isto vlido quando a anlise de cada metade dos
dados confirma um SNP declarado como significativo na anlise com os dados
completos.

4.5 Mapeamento genmico amplo via modelos mistos com hapltipos
Hapltipos so determinadas combinaes de mltiplos marcadores ligados e
podem ser considerados como alelos de um supraloco. Podem ser usados em lugar
de marcas simples nos estudos de associao genmica ampla. Apresentam a
vantagem de poder estar em maior desequilbrio de ligao com os QTLs. Quando
isso acontece, o r
2
maior e, portanto, o poder do experimento aumentado. A
proporo da varincia do QTL explicada pelos marcadores pode ser calculada da
seguinte forma (Hayes et al., 2006): Sendo q
1
e q
2
as freqncias dos dois alelos do
QTL, os marcadores podem ser classificados em n hapltipos, com freqncia p
i
para
o i-simo hapltipo. Isto pode ser representado em uma tabela de contingncia:


Hapltipos
1 i n
Totais
Alelo 1 do QTL
p
1
q
1
D
1
p
i
q
1
D
i
p
n
q
1
D
n
Q
1

Alelo 2 do QTL
p
1
q
2
+ D
1
p
i
q
2
+ D
i
P
n
q
2
+ D
n
Q
2

Totais
p
1
p
i
p
n
1

Para um hapltipo i representado nos dados, o desequilbrio de ligao
calculado por D
i
= p
i
(q
1
) p
i
q
1
, em que p
i
(q
1
) a proporo de hapltipos i no
conjunto de dados, que carregam o alelo 1 do QTL (observado dos dados), p
i
a
proporo de hapltipos i e q
1
a freqncia do alelo 1 do QTL. A proporo da
varincia do QTL explicada pelos hapltipos e corrigida para os efeitos de
amostragem pode ser calculada por

=
=
n
i
i i
p D
q q
q h r
1
2
2 1
2
/
1
) , (
. Assim, r
2
depende do LD, da
freqncia do hapltipo e das freqncias dos alelos do QTL. Valores de r
2
podem ser
obtidos via simulao de diferentes freqncias q
1
e q
2
e tamanhos de genoma e
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

119

hapltipos. Quanto maior o tamanho efetivo populacional, menor proporo da
variao gentica ser explicada pelos hapltipos.

O seguinte modelo linear misto geral usado para estimar os efeitos de
hapltipos:y = Ju + Wh + Zg* + e, em que y o vetor de observaes fenotpicas, u
o escalar da media (de efeito fixo), J um vetor de uns, h o vetor dos efeitos
aleatrios de hapltipos (intervalos), g* o vetor de efeitos polignicos (aleatrio) e e
refere-se ao vetor de resduos aleatrios. W e Z so as matrizes de incidncia para h e
g*. Os efeitos de hapltipos devem ser tratados preferencialmente como aleatrios
porque eles so em grande nmero e alguns deles ocorrem em um nmero limitado
de vezes (nesse caso, esses hapltipos com pequeno nmero de observaes devem
ser penalizados pelo efeito de shrinkage).

A dimenso de h igual ao nmero de intervalos multiplicado por 4 (nmero
de hapltipos possveis para cada intervalo entre duas marcas). A matriz de
incidncia W contm os valores 0, 1 e 2 para o nmero de alelos (do suposto QTL) ou
hapltipos do tipo h
i
em um indivduo diplide. Detalhes algbricos desse modelo
so apresentados por Resende (2008). A variao gentica aditiva
2
* g
o e a dos
hapltipos
2
h
o podem ser estimadas por REML sobre os dados fenotpicos e pela
prpria variao entre os hapltipos ou varincia dos segmentos cromossmicos. A
significncia dos efeitos de hapltipos avaliada via teste da razo de
verossimilhana. Para o mapeamento, o ajuste do modelo descrito enfatiza a
estimao do componente de varincia
2
h
o e o teste de sua significncia via LRT.
No h interesse especificamente nos efeitos BLUP de h, os quais so enfatizados e
utilizados na MAS.

4.6 Mapeamento genmico amplo via abordagem IBD-LD

No mapeamento via IBD-LD, o efeito do suposto QTL includo no modelo
e no o efeito do marcador ou do hapltipo. A informao dos hapltipos usada
para inferir sobre a probabilidade de que dois indivduos possuem o mesmo alelo do
QTL em uma suposta posio. A ocorrncia de LD revela que existem pequenos
segmentos de cromossomo na populao os quais descendem de um mesmo ancestral
comum. Esses cromossomos so ento idnticos por descendncia (IBD) e carregam
idnticos hapltipos marcadores e tambm alelos do QTL. Indivduos com esses
segmentos cromossmicos IBD tero seus fentipos correlacionados.

Nesse caso, o modelo a ser ajustado o seguinte:
e Zg q Q Xb y
j
j j
+ + + =

*
, em que:
q
j
: vetor que contm duas incgnitas para cada indivduo em cada loco (um efeito do
QTL no cromossomo maternal e outro no paternal); g*: vetor aleatrio de efeitos
polignicos, excluindo q; Q
j
: matriz de incidncia para os alelos do QTL no
segmento cromossmico j; Z : matriz de incidncia para g*; b e e
i
: vetor de efeitos
fixos e erro aleatrio, respectivamente; X : matriz de incidncia para b. Esse modelo,
que inclui ambos, os efeitos do QTL e polignico infinitesimal, denominado
modelo misto de herana (Fernando et al., 1994). Detalhes algbricos desse modelo
so apresentados por Resende (2008). O mapeamento dos QTLs realizado com base
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

120

na estimao das varincias
2
* g
o e
2
q
o . Essas so estimadas por REML. O
mapeamento prossegue ento propondo uma suposta posio para o QTL em
intervalos ao longo do cromossomo. Em cada ponto, a varincia do QTL estimada e
a verossimilhana dos dados, dada a posio do QTL e a varincia polignica,
calculada e verificada quanto ao seu mximo. Assim, a presena de um QTL em uma
particular posio no cromossomo pode ser testada pelo LRT, comparando a
verossimilhana de dois modelos, um com a incluso e outro sem a incluso do QTL.


4.7 Mapeamento genmico amplo via abordagem LDA-LA

O modelo a ser ajustado nesse caso difere do modelo apresentado no tpico
anterior apenas na forma de construo da matriz IBD. A combinao das
informaes de ligao e de LD interessante, visando minimizar os efeitos de
associao espria. Isso produz o mtodo LDA-LA de mapeamento, o qual
poderoso para filtrar picos esprios de verossimilhana obtidos nas anlises isoladas
LDA e LA. Nesse mtodo, a matriz IBD composta de duas partes: uma submatriz
(bloco [a]) que descreve os coeficientes IBD entre hapltipos dos indivduos
fundadores e fornece informao sobre LD; uma submatriz (bloco [b]) que descreve
a transmisso dos alelos do QTL dos indivduos fundadores para as geraes atuais
dos indivduos genotipados e fornece informao sobre a ligao (LA). Meuwissen et
al. (2002) descrevem a obteno da matriz IBD para o mtodo LDA-LA associado a
um delineamento de prognies de meios irmos. De posse da matriz IBD, um
modelo de componente de varincia similar ao descrito no tpico anterior pode ser
ajustado.

4.8 Mapeamento genmico amplo via abordagem GWS

Embora a GWS atue sobre todos os genes de um carter quantitativo, os
marcadores com os efeitos estimados maiores podem ser considerados como
supostamente ligados a QTLs. Assim, apesar da GWS no ser um processo de
descoberta de genes, a mesma pode ser usada para o mapeamento de QTL.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

121

4.9 Associao genmica ampla (GWAS) em humanos

Os primeiros estudos em gentica quantitativa humana visando ao
entendimento do controle gentico dos caracteres basearam-se na estimao da
herdabilidade (h
2
) via anlise de pares de gmeos, usando o conceito de semelhana
entre parentes baseada em pedigree (alelos idnticos por descendncia, IBD). Essa
abordagem considera todos os locos, variantes comuns e raros (genes de baixa
frequncia), ou seja, todos genes que controlam o carter ou h
2
total. O papel de
genes individuais no controle gentico dos caracteres passou a ser estudado pela
metodologia de Fulker e Cardon (1994), por meio da estimao da h
2
de um loco
marcado no contexto do mapeamento de QTL, conforme descrito por Resende (2008)
e Cruz et al. (2009). A aplicao do mtodo fundamenta-se na anlise de ligao
dentro de famlia de irmos completos, usando marcas moleculares duas a duas.
Visscher et al. (2006) apresentaram uma abordagem para a estimao da h
2

usando simultaneamente todos os locos marcados e tambm usando anlise de
segregao dentro de famlia de irmos completos. Essa abordagem genmica ampla
baseia-se tambm em IBD e capitaliza o parentesco exato ou realizado. A h
2
estimada
foi de 0,80 para altura em humanos. O mtodo considera variantes comuns e raros,
ou seja, todos os genes ou h
2
total, pois usa tambm o pedigree via genotipagem dos
genitores, estimando alelos IBD em todos os locos. Outro mtodo de estudo do
controle dos caracteres em nvel populacional e no apenas dentro de famlias a
GWAS. Essa baseia-se em anlise de desequilbrio de ligao em nvel populacional,
porm usando apenas um loco marcador de cada vez, via anlise de regresso fixa
sobre indivduos no aparentados. A h
2
capturada pelos marcadores significativos foi
de apenas 0,10 para altura em humanos.
A GWAS entre membros de uma famlia (de irmos completos) pode ser
descrita como uma anlise de ligao. Em tal anlise, marcadores a alguma distncia
de um QTL exibir uma associao com o carter porque houve apenas uma gerao
de recombinao entre os genitores e os filhos irmos completos. Consequentemente,
um alelo marcador e um alelo do QTL no mesmo cromossomo tendero a ser
herdados juntos. Um procedimento (GWAS SE) mais eficaz para capturar a
maioria da herdabilidade de um carter a anlise de desequilbrio de ligao em
nvel populacional usando todos os locos marcadores simultaneamente (SE) de
maneira similar ao mtodo da GWS. baseado em regresso aleatria para a
predio de efeitos latentes de QTL. Utiliza indivduos no aparentados, embora
todos os indivduos de uma espcie sejam aparentados em algum grau porque
compartilham ancestrais comuns e, portanto, compartilham alelos idnticos em
estado (IBS), nem sempre declarados como IBD, dada a genealogia usada.
Os marcadores SNPS captam esses parentescos ancestrais e, portanto,
estimam relaes genticas entre indivduos baseadas em IBS (Powell et al., 2010;
Visscher et al., 2010). O uso simultneo da gentica de populaes (anlise de ligao,
desequilbrio de ligao e mapeamento gentico) e da gentica quantitativa
(estimao da herdabilidade), tradicionalmente foram usados separadamente na
gentica humana. A GWS combinando essa duas reas permitiu capturar uma h
2
de
0,45 para altura em humanos. O restante (0,80 0,45 = 0,35) no capturado devido a
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

122

muitos variantes de baixa frequncia (incluindo locos de grande efeito). A variao
gentica no loco i dada por
2 2
1 2p
i i i gi
)m p ( = , ignorando a dominncia. Assim, um
alelo raro no pode explicar grande parte da variao gentica, mesmo se for de
grande efeito. Para que esses locos sejam capturados pelos marcadores e detectados
necessrio um grande tamanho amostral. Pelo mtodo GWS a variao gentica
aditiva total estimada por


i
i i i g
)m p ( =
2 2
1 2p
.
Aulchenko et al. (2007) propuseram o mtodo GRAMMAR para a GWAS
em mltiplos estgios, conforme descrito a seguir. Aps o ajuste do
modelo e Zg Xb y + + = obtm-se g Z b X y e

= , em que g um vetor de efeitos


polignicos. Ajusta-se ento o modelo e Wm u e
i
+ + =1 , identificando-se os
marcadores significativos. Apenas com os SNPs significativos, ajusta-se o modelo
e Zg Wm Xb y
i
+ + + = . Isso reduz o tempo de computao. Os efeitos m so ajustados
como efeitos fixos (pois assim os SNPs no modelam estrutura familiar em g, isto ,
no
explicam correlao entre indivduos aparentados, com alelos IBD).
Fundamenta-se no fato de que os efeitos de genes maiores integram o vetor de
resduos condicionais
( g Z b X y e

= )
, aps o ajuste para g sob modelo polignico
infinitesimal (ajuste ou eliminao dos efeitos de famlia ou variao entre pedigrees
ou estrutura de populao). Na anlise final, volta-se com o modelo completo. Nesse
caso, o efeito polignico includo visando corrigir os dados para a estrutura de
famlias por meio da matriz de parentesco, visto que
) A N( g
2
g
0, ~
.
4.10 Captura da h
2
em humanos e imperfeito LD entre SNPs e
variantes causais

Visscher et al. (2010) abordam os resultados da GWAS referente ao carter
altura em humanos. A h
2
capturada pela GWAS nos estudos tradicionais foi da
ordem de 0,10. Esse baixo valor ocorreu devido ao fato de variantes de baixa
frequncia (MAF < 0.10) no estarem em perfeito LD com marcadores comuns
(MAF > 0.10), ou seja, o r
2
baixo e tambm variantes de pequenos efeitos no so
detectados significativamente pela GWAS tradicional, mesmo se em LD com
marcadores comuns. No estudo de Yang et al. (2010), a h
2
capturada foi de 0,45. Isso
ocorreu porque variantes de pequenos efeitos no so detectados significativamente,
mas em LD com marcadores comuns, so capturados pela GWS a qual no faz uso
de significncia para efeitos de marcas. O valor mximo que r
2
pode atingir
fortemente determinado pelas frequncias allicas nos dois locos (Wray, 2005).
Quanto mais diferentes as frequncias allicas, menor o valor de r
2
. Assim, como a
maioria dos SNP genotipados so comuns, se os variantes so raros, r
2
ser baixo e,
ento a variao
2
mi
o associada aos SNP substancialmente menor que a variao
2
gi
o no QTL (Visscher et al., 2010). As expresses
2 2
/
gi
2
mi
= r e
2 2
gi
2
mi
r =
ilustram essa questo.

Na prtica, pode-se estimar o LD apenas entre os SNP. Essa estimativa pode
ser til apenas quando SNP e gene apresentam frequncias allicas similares. Um
gene pode estar em LD com mltiplos SNPs, ento esses coletivamente podem
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

123

capturar o variante causal mesmo que nenhum SNP esteja em perfeito LD com ele
(Visscher et al., 2010). Assim, um SNP pode no ser detectado como significativo,
mas, em conjunto com outros, ser importante para explicar a variao gentica e
maximizar a acurcia seletiva. Dessa forma, recomenda-se no aplicar teste de
significncia antes da GWS. Mesmo com o uso de dezenas de milhares de
marcadores, se os variantes so raros, e sendo comuns os marcadores, ainda assim, os
marcadores no capturaro toda a variao gentica. Assim, a eficincia da GWS
depende da arquitetura gentica do carter na populao. Se o mesmo for governado
por um grande nmero de variantes raros que explicam grande parte da variao
gentica, a GWS ter menor sucesso. Nesse caso, recomendvel ajustar no modelo,
o efeito polignico residual, como forma de capturar esses variantes raros.

Em resumo, as causas da herdabilidade perdida so: (i) variantes de baixa
frequncia (MAF < 0,10) no esto em alto LD com marcadores comuns (MAF >
0,10), causando baixo r
2
; (ii) pequeno nmero de marcas, causando baixo r
2
; (iii) uso
apenas dos SNPs significativos na GWAS. A estimao simultnea necessria
porque os SNPs esto em LD, ou seja, so dependentes e correlacionados. A
regresso simultnea (via RR-BLUP) equivalente a regressar o fentipo em todos
os componentes principais derivados dos marcadores, sendo que o grau de shrinkage
experimentado por cada efeito estimado proporcional ao seu associado valor
singular quadrtico (Campos et al., 2010). Isso d suporte ao mtodo da GWAS com
estimao simultnea (GWAS-SE), conforme Yang et al. (2011). Baseados nesse
princpio h tambm os mtodos regresso via quadrados mnimos parciais (PLSR) e
regresso via componentes principais (PCR) (Solberg et al., 2009) e tambm o
mtodo regresso via componentes independentes (ICR) (Azevedo et al., 2012).

4.11 GWAS via BayesCpi e BayesDpi

Os mtodos BayesC e BayesD (descritos por Habier et al., 2011; Resende et al.,
2011) apresentam a vantagem de propiciar informao sobre a arquitetura gentica do
carter quantitativo e identificar as posies de QTL por modelagem da frequncia
de single nucleotide polymorphism( SNP) no nulos. So vantajosos em relao anlise
de regresso marcas nicas devido ao fato de considerar simultaneamente todas as
marcas.

No mtodo BayesC uma varincia comum especificada para todos os locos. O
mtodo BayesD mantm varincias especficas para cada loco. Adicionalmente,
tratada como uma incgnita com distribuio a priori uniforme (0,1) produzindo o
mtodos BayesC e BayesD. A modelagem de muito interessante para a anlise
de associao. A maioria das marcas no est em desequilbrio de ligao com os
genes. Assim, necessria a seleo de um grupo de marcas que est em associao
com o carter. O mtodo BayesB determina subjetivamente. Usando a varivel
indicadora
i
o os mtodos BayesC e BayesD modelam os efeitos genticos aditivos
como

n
= i
i ij i j
w m = g
1
, em que ) ( =
i
0,1 . A distribuio de ) ( =
n
...
1
binomial
com probabilidade . Esse modelo de mistura mais parcimonioso do que o mtodo
BayesB. Seguindo a hierarquia do modelo, uma distribuio deve ser postulada para
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

124

e deve ser uma Beta, que devidamente especificada transforma-se em uma
Uniforme (0,1) (Legarra et al., 2011).

As quantidades ij
w
so elementos do vetor de gentipos marcadores
codominantes geralmente codificados como 0, 1 ou 2, de acordo com o nmero de
cpias de um dos alelos do loco marcador i, e m
i
definido como elementos do vetor
de coeficientes de regresso que contemplam os efeitos dos marcadores no carter
fenotpico y, via desequilbrio de ligao com os genes que o controlam.








































Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

125

















































Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

126

5 Seleo Auxiliada por Marcadores Moleculares (MAS)

5.1 Tipos de seleo via marcadores genticos

Existem quatro tipos de seleo que empregam marcadores moleculares:
(i) seleo auxiliada por genes conhecidos (GAS), baseada em mutao funcional e
genes com efeitos conhecidos, ou seja, os marcadores so os prprios genes; (ii)
seleo auxiliada por marcadores em equilbrio de ligao com QTLs na populao
(LE-MAS), mas em desequilbrio de ligao dentro de famlias e cruzamentos; (iii)
seleo auxiliada por marcadores em desequilbrio de ligao com QTLs em nvel
populacional (LD-MAS); (iv) seleo genmica (GS) ou seleo genmica ampla
(GWS), baseada em milhares de marcadores em desequilbrio de ligao
populacional com todos os QTLs de um carter polignico. Na GWS, no h
necessidade de uso das informaes fenotpicas na populao de seleo e nem do
conhecimento e deteco de QTLs individuais baseados em significncia estatstica
com arbitrrios nveis de significncia. So usados fentipos apenas na populao de
descoberta ou de estimao dos efeitos dos vrios locos, via marcadores. A GWS
mais um tipo de seleo auxiliada pelo fentipo (PAS) do que um tipo de MAS, pois
os fentipos so mais usados como auxlio em uma seleo baseada essencialmente
em gentipos marcadores, cujos efeitos foram estimados previamente em uma
amostra da populao de seleo.

Os tipos LD-MAS e GWS tendem a ser mais eficientes. A LE-MAS,
aplicada em nvel populacional, requer uma genotipagem muito intensa e
procedimentos estatsticos complexos, conforme proposto por Wang, Fernando e
Grossman (1998). Em populaes com equilbrio de ligao entre marcadores e QTL,
a informao usada na seleo advm da co-segregao entre marcadores e QTL
dentro de cada famlia na populao de seleo. Assim, a co-ancestria condicional
informao de marcadores precisa ser computada dentro de cada famlia para um
dado segmento no genoma. Nesse caso, a acurcia da seleo usando marcadores
depende principalmente da proporo da variao dentro de famlia que devida ao
QTL.

A LE-MAS requer grande quantidade de genotipagem e tambm avaliaes
fenotpicas em todos os candidatos seleo, pois nem todos os locos que controlam
o carter so amostrados pela genotipagem. Devem, ento, ser amostrados pela
fenotipagem. Requer tambm que a fase de ligao entre marcadores e QTL seja re-
estimada em cada gerao. Isto torna a LE-MAS mais onerosa do que a seleo
tradicional baseada em fentipos. O presente captulo aborda os vrios tipos de
seleo via marcadores baseando-se nos textos publicados por Resende (2007; 2008) e
Resende et al. (2008; 2010; 2011).






Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

127

5.2 Seleo em genes de efeitos conhecidos ou marcadores diretos
(GAS)

No contexto dos modelos mistos, a incluso de genes de efeitos conhecidos na
avaliao gentica pode ser feita segundo o seguinte modelo, conforme Kennedy et
al. (1992): e Qq Zg Xb y + + + = * , em que: b : vetor de efeitos fixos; g*: vetor aleatrio de
efeitos polignicos, excluindo q, ou seja, corrigidos para q; q : vetor de efeitos
genotpicos (fixos) dos genes conhecidos; referem-se aos efeitos dos gentipos
observveis em um nico loco; e : vetor erros aleatrios;X : matriz de incidncia para
b; Z : matriz de incidncia para g*; Q : matriz de incidncia para os efeitos do gene
conhecido.

Esse modelo tem a seguinte estrutura de mdias e varincias:
) ( ) ( Qq E Xb y E + = ; ) ( ' *) ( ) ( ) ( e Var Z g ZVar Qq Var y Var + + = . Assumindo os gentipos do
QTL como de efeitos fixos, tem-se Qq Qq E = ) ( e
0 ) ( = Qq Var
. Assim,
) ( ' *) ( ) ( e Var Z g ZVar y Var + = .
Assim, as equaes de modelo misto so dadas por:
(
(
(

=
(
(
(

(
(
(

+

y Q
y Z
y X
q
g
b
Q Q Z Q X Q
Q Z A Z Z X Z
Q X Z X X X
'
'
'

' ' '


' ' '
' ' '
1
1

, em que:
2
*
2
1
g
e
o
o
=
; A : matriz de parentesco
gentico aditivo;
2
* g
o : varincia aditiva polignica, ajustada para os efeitos dos genes
conhecidos;
2
e
o : varincia residual. A seleo dos indivduos baseada em
q g g * + = .

O presente modelo considera que o marcador o prprio gene que afeta o
carter. Se o marcador no o prprio gene, mas encontra-se ligado a ele, a
recombinao entre eles pode conduzir ao fato de que um mesmo alelo do marcador
carregue diferentes alelos do QTL. Nesse caso, o efeito do gene ou QTL pode ser
considerado como aleatrio e a probabilidade de identidade por descendncia dos
alelos do QTL pode ser calculada a partir dos gentipos marcadores, desde que a
freqncia de recombinao entre marcador e QTL seja conhecida. Isto produz o
modelo de Fernando e Grossman (1989), abordado no tpico seguinte.

5.3 MAS via marcadores em equilbrio de ligao (LE-MAS)

A MAS surgiu basicamente na dcada de 1990. Os primeiros trabalhos foram o
de Fernando e Grossman (1989), Lande e Thompson (1990), Goddard (1992). Com
marcadores LE, as probabilidades de identidade por descendncia associadas ao QTL,
derivadas com base nos gentipos marcadores, sero afetadas pela taxa de
recombinao entre marcador e QTL e pela extenso do desequilbrio de ligao
entre eles. Como o LD existe apenas dentro de famlia, os efeitos de marcadores e a
fase de ligao marcador-QTL deve ser determinada separadamente para cada
famlia.

Para a seleo em populaes em equilbrio, Fernando e Grossman (1989)
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

128

desenvolveram um procedimento BLUP para a seleo auxiliada por marcadores, o
qual se baseia no desequilbrio de ligao dentro de famlias. O mtodo pode ser
usado para a predio dos valores genticos de todos os indivduos da populao,
incluindo os efeitos de QTL via ligao com marcadores genticos, desde que todos
os indivduos sejam genotipados e a herdabilidade e a freqncia de recombinao
entre o QTL e marcador sejam conhecidas. adequado para qualquer estrutura de
populao. Goddard (1992) ampliou este modelo para considerar mltiplos QTLs e
mltiplos marcadores. Enfatizou o caso em que existe no mximo um QTL
segregante, localizado entre dois marcadores (mapeamento por intervalo), obtendo
um procedimento que utiliza tambm a matriz de parentesco do QTL associado aos
marcadores. O mapeamento por intervalo permite que a informao dos valores dos
segmentos cromossmicos no se perca to rapidamente de uma gerao para outra e,
em teoria, esta abordagem maximiza o ganho com a MAS em qualquer programa de
melhoramento. Esse modelo descrito por Resende (2002; 2008).

Nos vrios estudos realizados em espcies florestais, exceto em poucos casos,
os QTLs individuais para crescimento, qualidade da madeira, adaptao e reproduo
no explicaram mais que 5% a 10% da variao fenotpica. Esses resultados sugerem
que os caracteres de importncia comercial so de herana polignica e, ento, QTLs
de grande efeito provavelmente no sero detectados. Assim, o uso da LE-MAS
tender a ser pouco efetiva nessas espcies.

5.4 MAS via marcadores em desequilbrio de ligao (LD-MAS)

A maioria dos projetos de pesquisa com QTL mudaram o seu curso para o
mapeamento fino baseado em marcadores LD ou diretamente nas mutaes
causadoras da variao nos QTLs. No caso dos marcadores LD, os mesmos
propiciam informaes sobre os QTLs em toda a populao (atravs de todas as
famlias) e ento, a abordagem no difere muito em eficincia, do uso de marcadores
diretos (mutao). Pela abordagem LD, a incluso de informaes dos marcadores ou
dos hapltipos nos esquemas de avaliao gentica pode ser realizada por meio do
modelo de QTL aleatrio de Fernando e Grosmann (1989). Nesse caso, as
covarincias baseadas em probabilidades de identidade por descendncia (IBD)
podem ser obtidas alm do pedigree, via LD e similaridade entre hapltipos ou
marcadores. Meuwissen e Goddard (2001) propuseram o uso das informaes via
LDA e LA para calcular a matriz de covarincia via IBD. Lee e van der Werf (2005)
mostraram que com alta densidade de marcadores, o valor do uso da informao de
ligao e do pedigree reduzido e pouco acrescenta em relao ao uso apenas da
informao de LD.

5.5 LD-MAS via Anlise de Marcas nicas

Um modelo misto para a estimao dos efeitos de marcadores individuais dado
por y = Ju + Wm + e, em que y o vetor de observaes fenotpicas, J um vetor com
valores 1, u o escalar referente mdia geral, m o efeito fixo do marcador e e
refere-se ao vetor de resduos aleatrios. W a matriz de incidncia para m. Para
marcadores bi-allicos e modelo de ao gnica aditiva, m um escalar m
i
.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

129


A seleo gentica via o marcador realizada por meio do valor gentico
predito, dado por m W v = . W, no caso, uma matriz que associa os gentipos
marcadores aos efeitos dos alelos marcadores. Os elementos de W so iguais a zero
se o gentipo aa, 1 se o gentipo Aa e 2 se o gentipo AA. A acurcia desse
mtodo de seleo baixa pois, um s marcador explica uma pequena proporo da
variao gentica do carter. Essa acurcia pode ser aumentada por meio da incluso
de outros efeitos fixos e aleatrios no modelo, especialmente os efeitos polignicos
no contemplados pelo marcador. Outra forma de aumentar a acurcia por meio do
uso de mltiplos marcadores.

Com a incluso dos efeitos polignicos, o seguinte modelo linear misto geral
usado y = Ju + Wm + Zg* + e, em que y o vetor de observaes fenotpicas, u o
escalar da mdia (de efeito fixo), m o vetor dos efeitos de alelos do marcador, a* o
vetor de efeitos polignicos (aleatrio) e e refere-se ao vetor de resduos aleatrios. W
e Z so as matrizes de incidncia para m e g*. Sob esse modelo, a seleo praticada
com base no ordenamento por
*
g m W v + = .
Como exemplo, considere a avaliao de 12 indivduos para um carter e para
um marcador do tipo SNP. Os dados referentes aos gentipos e fentipos dos
indivduos so apresentados na Tabela a seguir, que apresenta tambm o pedigree de
mais trs indivduos que no foram avaliados fenotipicamente mas, apenas por seus
gentipos.

Indivduo Pai Me Fentipo Primeiro Alelo do SNP1 Segundo Alelo do SNP1
1 - - 9,87 A A
2 - - 14,48 A A
3 - - 8,91 A a
4 - - 14,64 A A
5 - - 9,55 A a
6 - - 7,96 a a
7 - - 16,07 A A
8 - - 14,01 A a
9 - - 7,96 a a
10 - - 21,17 A A
11 - - 10,19 A a
12 - - 9,23 A A
13 1 2 - a A
14 1 3 - A A
15 4 5 - a a

A matriz de incidncia W associa os nmeros de cada alelo do SNP aos
fentipos. suficiente ajustar o efeito de apenas um dos alelos. Assim, a matriz W
ter apenas uma coluna para o efeito de um dos alelos do SNP, por exemplo, o A.
Essa coluna contm o nmero de cpias do alelo A que os indivduos possuem.
Portanto, contm os valores 0, 1 ou 2 para um indivduo diplide. O nmero de linhas
dessa matriz igual ao nmero de indivduos.

A matriz J inclui uma coluna para a mdia geral. As matrizes 1 e W (nmero
de alelos A) so dadas por | | 1 1 1 1 1 1 1 1 1 1 1 1 '
) 1 12 (
=
x
J e | | 2 1 2 0 1 2 0 1 2 1 2 1 '
) 1 12 (
=
x
W .





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

130


A matriz Z equivale a
Indiv 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
12 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
A matriz A equivale a
Indiv 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 0 0 0 0 0 0 0 0 0 0 0 0.5 0.5 0
2 0 1 0 0 0 0 0 0 0 0 0 0 0.5 0 0
3 0 0 1 0 0 0 0 0 0 0 0 0 0 0.5 0
4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0.5
5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0.5
6 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
12 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
13 0.5 0.5 0 0 0 0 0 0 0 0 0 0 1 0 0
14 0.5 0 0.5 0 0 0 0 0 0 0 0 0 0 1 0
15 0 0 0 0.5 0.5 0 0 0 0 0 0 0 0 0 1
Assim, as equaes de modelo misto so dadas por:
(
(
(

=
(
(
(

(
(
(

+

y Z
y W
y J
g
m
u
A Z Z W Z J Z
Z W W W J W
Z J W J J J
'
'
'
*

' ' '


' ' '
' ' '
1

, em que: ;
2
*
2
1
g
e
o
o
=
2
* g
o : varincia aditiva
dos QTLs no associados aos segmentos cromossmicos marcados;
2
e
o : varincia
residual. Resolvendo-se o sistema matricial, obtm-se o seguinte vetor de solues:
Efeitos Solues
Mdia Geral
7.2713
Efeito do Alelo A do SNP
3.7856
Efeito Gentico Polignico Indiv. 1
-0.2374
Efeito Gentico Polignico Indiv. 2
-0.0725
Efeito Gentico Polignico Indiv. 3
-0.4294
Efeito Gentico Polignico Indiv. 4
-0.0405
Efeito Gentico Polignico Indiv. 5
-0.3014
Efeito Gentico Polignico Indiv. 6
0.1377
Efeito Gentico Polignico Indiv. 7
0.2455
Efeito Gentico Polignico Indiv. 8
0.5906
Efeito Gentico Polignico Indiv. 9
0.1377
Efeito Gentico Polignico Indiv. 10
1.2655
Efeito Gentico Polignico Indiv. 11
-0.1734
Efeito Gentico Polignico Indiv. 12
-1.1225
Efeito Gentico Polignico Indiv. 13
-0.1549
Efeito Gentico Polignico Indiv. 14
-0.3334
Efeito Gentico Polignico Indiv. 15
-0.1709
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

131

Os valores genticos totais dos indivduos com avaliaes fenotpicas e genotpicas
so dados por
*
g m W u v + + = . Para os indivduos com avaliao genotpica apenas, os
valores genticos totais so dados por
* *
g m W u v + + = , em que W* a matriz de
incidncia molecular para os ltimos trs indivduos, a qual difere de W e contm os
valores 1, 2 e zero, respectivamente. Os valores genticos totais dos indivduos so
apresentados a seguir.

Valores Genticos Totais Predies
Indivduo 1
10.820
Indivduo 2
14.770
Indivduo 3
10.628
Indivduo 4
14.802
Indivduo 5
10.756
Indivduo 6
7.409
Indivduo 7
15.088
Indivduo 8
11.648
Indivduo 9
7.409
Indivduo 10
16.108
Indivduo 11
10.884
Indivduo 12
13.720
Indivduo 13
10.902
Indivduo 14
14.509
Indivduo 15
7.100

5.6 LD-MAS via Anlise de Mltiplos Marcadores e Regresso de
Cumeeira

A idia bsica da seleo auxiliada por marcadores explorar as dependncias
estatsticas (desequilbrio de ligao) existentes na distribuio conjunta dos
gentipos dos marcadores e do QTL. O desequilbrio de ligao entre marcadores e
QTL pode ser usado com dois objetivos: (i) inferir sobre a localizao genmica e
efeitos do QTL que afetam um carter; (ii) obter predies do mrito gentico dos
candidatos seleo em um programa de melhoramento gentico. Esse segundo
objetivo no necessariamente requer o mapeamento de QTLs.
O uso de mltiplos marcadores, advindos de estudos de associao genmica
ampla, na predio de valores genticos, deve considerar que alguns marcadores
podem estar detectando o mesmo QTL. Isto porque vrios deles podem estar em
desequilbrio de ligao com um QTL de grande efeito. Uma maneira de considerar
isso por meio do uso da regresso mltipla ajustando todos os marcadores
simultaneamente, segundo o modelo
e m W u y
p
i
i i
+ + =

=1
, em que p o nmero de
marcadores significativos detectados no estudo de associao genmica ampla.

Pelo mtodo de quadrados mnimos ou regresso, todos os marcadores so
testados um por um quanto a sua significncia estatstica. Outros procedimentos do
tipo stepwise podem tambm ser utilizados. Ento, os efeitos dos marcadores
estatisticamente significativos so estimados simultaneamente. Devido falta de
nmero suficiente de graus de liberdade, nem todos os marcadores podem ser
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

132

testados simultaneamente. Antes de aplicar a regresso mltipla na LD-MAS,
necessrio definir quantos marcadores devem ser usados. Isso deve ser definido com
base na quantidade de variao gentica que explicada pelo conjunto de marcadores
a serem usados na seleo. A vantagem da MAS proporcional quantidade de
variao gentica percentual explicada pelos marcadores. Quanto maior o nvel de
significncia (maior a probabilidade de erro tipo I) adotado nos estudos genmicos,
maior nmero de QTLs so detectados mas, maior tambm o nmero de resultados
falsos positivos. Alm disso, vrios SNPs estaro muito prximos entre eles no
genoma e, conseqentemente, estaro detectando o mesmo QTL.

Hayes et al. (2006) apresentam um mtodo para estimar o verdadeiro nmero de
QTLs controlando um carter, por meio da correo do nmero de SNPs
significativos levando em conta a ocorrncia de falsos positivos e a redundncia de
alguns SNPs em detectar os mesmos QTLs. Usando esse mtodo, os autores
verificaram que o nmero de QTLs para alguns caracteres em bovinos leiteiros
atingiram um plat em 145 a 188 locos. Assim, para capturar toda a variao gentica,
seriam necessrios marcadores flanqueando entre 145 e 188 QTLs. No entanto, em
caracteres quantitativos, vrios QTL so de pequeno efeito e alguns so de grande
efeito (Hayes e Goddard, 2001). Dessa forma, nem todos os QTLs precisaro ser
considerados na MAS, pois apenas uma frao deles j explicar a maioria da
variao gentica. Em bovinos de leite e sunos, 10 % a 20 % dos QTLs explicaram 50
% da variao gentica de um carter quantitativo (Hayes e Goddard, 2001; 2003).

Outro aspecto relacionado aplicao da regresso mltipla na LD-MAS refere-
se ao fato da superestimao dos efeitos dos marcadores-QTLs quando tais efeitos
so tratados como fixos (Weller et al., 2005). E se esses efeitos so superestimados, a
vantagem potencial da MAS no se concretiza (Whittaker et al., 2000). Nesse
contexto, a acurcia da MAS pode ser aumentada por meio de estimadores do tipo
shrinkage. Os mtodos (viciados ou no) que minimizam o erro quadrtico mdio de
estimao conduzem a estimadores/preditores do tipo shrinkage. Genericamente, um
estimador do tipo shrinkage tem a forma de um escalar (variando entre zero e um)
multiplicado por um vetor de mdias estimadas por quadrados mnimos ou por
mxima verossimilhana. A regresso ou shrinkage penaliza a estimativa de acordo
com o nmero de observaes usadas para estim-la. Quanto menor o nmero, mais
a estimativa regressada em direo mdia geral. Uma forma de promover o
shrinkage tratar os efeitos como aleatrios.

O estimador
y W I W W m ) (
1
+ =
promove shrinkage. Quando no conhecido,
a escolha arbitrria do mesmo leva ao mtodo de regresso de cumeeira ou ridge
regression (RR), conforme Whittaker et al. (2000) que relataram um aumento de 7 %
na eficincia da MAS por meio da RR. No caso, se o parmetro de regresso for
2 2
/
qtl e
o o =
, tem-se o BLUP para o efeito do QTL. Whittaker et al. (2000) relatam que
o ajuste de muitos marcadores no modelo de regresso produz sria colinearidade,
causando instveis estimativas via quadrados mnimos e pobre predio do escore
molecular. Ento, sugerem o uso da regresso de cumeeira. Esse procedimento
regressa as estimativas de quadrados mnimos em direo a zero, melhora a condio
da matriz dos coeficientes das equaes de quadrados mnimos e reduz o erro
quadrtico mdio de estimao.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

133


Weller et al. (2005) sugerem um eficiente mtodo de mxima verossimilhana
para estimao dos efeitos de QTL, em que as estimativas de quadrados mnimos so
regressadas de acordo com uma assumida distribuio dos efeitos do QTL. Tambm
Meuwissen et al. (2001) e Gianola et al. (2003) sugerem abordagens similares, porm,
baseadas em princpios bayesianos, em que distribuies a priori para os efeitos de
QTL so usadas. Segundo Gianola et al. (2003), o mtodo RR faz mais sentido se
visto de uma perspectiva Bayesiana. A regresso ridge equivalente adoo de uma
priori normal para o vetor de regresso centrado em zero e com estrutura de
covarincia a priori igual matriz identidade vezes um escalar, que a varincia da
distribuio a priori. Detalhes sobre a estimao Bayesiana so apresentados no
tpico sobre GWS.

Alm das tcnicas do ndice de seleo e do BLUP, da regresso mltipla e da
regresso de cumeeira dos fentipos sobre os gentipos marcadores, outras tcnicas
foram propostas para a MAS. Gianola et al. (2003) propuseram a modelagem das
associaes fentipo-marcadores de forma hierrquica via modelos multinveis
incluindo efeitos cromossmicos, covarincia espacial de efeitos de marcadores
dentro de cromossomos e heterogeneidade de famlias. Segundo os autores, existem
problemas estatsticos com o ndice de seleo de Lande e Thompson (1990), uma vez
que a matriz de covarincia dos escores moleculares singular e leva a um infinito
nmero de solues. Outra dificuldade do mtodo de quadrados mnimos existe
quando o nmero de marcadores quase da mesma ordem que o nmero de
indivduos. Nesse caso, alguma tcnica de reduo dimensional, como por exemplo, a
decomposio por valor singular, deve ser usada. Gianola et al. (2003) defendem uma
abordagem que trata todos os efeitos como alelatrios. Isso propicia flexibilidade
para acomodar novos efeitos no modelo. O estimador de regresso ridge de
Whittaker et al. (2000) implica que todos os efeitos de marcadores so
independentes. Entretanto, existe evidncia de co-expresso de genes pelo menos no
mesmo cromossomo. Isso indica que no se verifica a suposio de que os segmentos
marcados dentro de cromossomo tm efeitos independentes. QTLs adjacentes podem
ser mais dependentes do que QTLs distantes. Assim, alguma estrutura de
covarincia espacial ao longo do cromossomo pode ser necessria.

Outro fato que alguns cromossomos podem ter mais QTLs que outros,
conduzindo a variao entre cromossomos. Essa heterogeneidade pode ser
acomodada pela introduo de efeitos cromossmicos no modelo, com marcadores
em diferentes cromossomos tendo distintas distribuies (Gianola et al., 2003).
Procedimentos semi-paramtricos foram tambm apresentados por Gianola et al.
(2006), os quais permitem estimar interaes entre milhares de marcadores. Os
mtodos incluem regresso kernel, a qual regressa os efeitos de marcadores de acordo
com um parmetro de alisamento imbutido nas equaes de modelo misto.






Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

134

5.7 LD-MAS via Anlise de IBD

Fernando e Grossman (1989) assumiram efeito aleatrio de QTL com varincia
conhecida e desenvolveram uma abordagem para a predio de valores genticos de
todos os indivduos de uma populao, em que todos os candidatos seleo
participam da construo da matriz IBD. O mtodo inclui os efeitos de QTL via
ligao com marcadores genticos e adequado quando a herdabilidade e a
freqncia de recombinao entre marcadores e QTLs so tambm conhecidos. O
mtodo vlido para qualquer estrutura de populao diplide e uma extenso da
modelo tradicional de anlise de ligao dentro de famlia, por meio do uso da
informao de todo o pedigree.

De posse de estimativas das varincias do QTL e da varincia gentica
aditiva, tem-se o seguinte modelo de avaliao gentica: e Qq Zg Xb y + + + = * em
que: q o vetor de efeitos genticos aditivos gamticos, que contm duas incgnitas
para cada indivduo em cada loco (um efeito do alelo do QTL no cromossomo
maternal e outro no paternal); g* o vetor aleatrio de efeitos polignicos, excluindo
q; b e e so vetores de efeitos fixos e de erros aleatrios, respectivamente; Q a
matriz de incidncia para os efeitos gamticos do QTL; Z a matriz de incidncia
para g*; X a matriz de incidncia para b. A seleo dos indivduos baseada em
q g g * + = .

5.8 Nmero de Locos a ser Usado na LD-MAS

A razo pela qual uma limitada frao da variao gentica explicada pelos
QTLs identificados refere-se aos baixos nveis de significncia adotados na deteco,
visando evitar a deteco de muitos falsos positivos, quando se avalia muitas
posies para a presena de QTL. Relaxados nveis de significncia, da ordem de 20
% a 40 %, tm maximizado o ganho gentico com a MAS (Hospital et al., 1997).
Esses nveis de significncia conduzem ao uso na seleo de um maior nmero de
locos, detectados como significativos. Bernardo e Yu (2007) obtiveram resultados
similares.
















Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

135


















































Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

136

6 Seleo genmica ampla (GWS)

6.1 Fundamentos da Genome Wide Selection (GWS)

A seleo gentica tem sido praticada pelo procedimento BLUP (em suas
verses frequentista e bayesiana) usando dados fenotpicos avaliados a campo. Uma
primeira proposio realizada para aumentar a eficincia desse procedimento baseado
em dados fenotpicos foi descrita por Lande & Thompson (1990), por meio da seleo
auxiliada por marcadores (MAS) moleculares. A MAS utiliza simultaneamente
dados fenotpicos e dados de marcadores moleculares em ligao gnica prxima com
alguns locos controladores de caractersticas quantitativas (QTL). Em geral, os dados
de marcadores so utilizados como covariveis (efeitos fixos) na explicao dos
valores fenotpicos dos indivduos em avaliao ou como efeitos aleatrios
incorporados no modelo para o fentipo (Fernando e Grossman, 1989). Esses
marcadores so eleitos ou no como determinantes dos efeitos de QTLs aps
modelagem estatstica sujeita a erros do tipo II (probabilidade de aceitar uma
hiptese falsa, ou seja, tomar como verdadeira uma hiptese falsa de ausncia de
efeitos).

A seleo baseada na MAS apresenta as seguintes caractersticas: requer o
estabelecimento (anlise de ligao) de associaes marcadores-QTLs para cada
famlia em avaliao, ou seja, essas associaes apresentam utilidade para seleo
apenas dentro de cada famlia mapeada; para ser til precisa explicar grande parte da
variao gentica de uma caracterstica quantitativa, que governada por muitos
locos de pequenos efeitos. Isto no tem sido observado na prtica, exatamente em
funo da natureza polignica e alta influncia ambiental nos caracteres
quantitativos, fato que conduz deteco apenas de um pequeno nmero de QTLs de
grandes efeitos, os quais no explicam suficientemente toda a variao gentica; s
apresenta superioridade considervel em relao seleo baseada em dados
fenotpicos, quando o tamanho de famlia avaliado e genotipado muito grande (da
ordem de 500 ou mais). Em funo desses aspectos, a implementao da MAS tem
sido limitada e os ganhos em eficincia muito reduzidos (Dekkers, 2004).

O atrativo da gentica molecular em benefcio do melhoramento gentico
aplicado a utilizao direta das informaes de DNA na seleo, de forma a
permitir alta eficincia seletiva, grande rapidez na obteno de ganhos genticos com
a seleo e baixo custo, em comparao com a tradicional seleo baseada em dados
fenotpicos. Visando a esses objetivos, Meuwissen et al. (2001) propuseram um novo
mtodo de seleo denominado seleo genmica (GS) ou seleo genmica ampla
(genome wide selection GWS) ou seleo genmica total (whole genome selection
WGS), a qual pode ser aplicada em todas as famlias em avaliao nos programas de
melhoramento gentico, apresenta alta acurcia seletiva para a seleo baseada
exclusivamente em marcadores (aps terem seus efeitos genticos estimados a partir
de dados fenotpicos em uma amostra da populao de seleo) e no exige prvio
conhecimento das posies (mapa) dos QTLs, no estando sujeita aos erros tipo II
associados seleo de marcadores ligados a QTLs.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

137

Esse mtodo permaneceu discreto por cerca de seis anos, devido ao fato dos
marcadores moleculares disponveis poca serem caros e restritos. Recentemente,
com o desenvolvimento e baixo custo dos marcadores tipo SNP (single nucleotide
polymorphism), o mtodo tornou-se atrativo (Meuwissen, 2007; Goddard & Hayes,
2007; Fernando et al., 2007; Resende 2007; Bernardo e Yu, 2007). A GWS permite a
predio de valores genticos genmicos e excelente para caracteres de baixa
herdabilidade, ao contrrio da MAS, que no til para caracteres de baixa
herdabilidade.

A analise de QTL baseia-se na deteco, mapeamento e uso de QTLs na
seleo (MAS). Ou seja, enfatiza a determinao do nmero, posio e efeitos dos
QTLs marcados. A GWS definida como a seleo simultnea para centenas ou
milhares de marcadores, os quais cobrem o genoma de uma maneira densa, de forma
que todos os genes de um carter quantitativo estejam em desequilbrio de ligao
com pelo menos uma parte dos marcadores. Esses marcadores em desequilbrio de
ligao com os QTLs, tanto de grandes quanto de pequenos efeitos, explicaro quase
a totalidade da variao gentica de um carter quantitativo. O nmero de SNPs de
tal magnitude que a probabilidade de se encontrar um QTL em desequilbrio de
ligao com pelo menos um marcador muito alta. Este aspecto importante uma
vez que somente os marcadores em desequilbrio de ligao com os QTLs sero teis
na determinao dos fentipos e na explicao da variao gentica. Os efeitos dos
marcadores so estimados em uma amostra de indivduos pertencentes a vrias
famlias. Assim, o impacto de determinadas famlias especficas (com especficos
padres de desequilbrio de ligao) nas estimativas dos efeitos dos marcadores ser
minimizado. importante enfatizar que os marcadores tero seus efeitos genticos
estimados a partir de uma amostra de pelo menos 1.000 indivduos genotipados e
fenotipados, ou seja, com base em pelo menos 1.000 repeties experimentais de cada
loco. Assim, embora a herdabilidade de cada marcador efetivo (aquele que identifica
um dos poligenes com preciso) seja muito baixa, com 1.000 repeties essa
herdabilidade se torna alta. Em outras palavras, o efeito de ambiente ser
minimizado por meio do uso de um nmero de repeties muito alto. Essa a mesma
filosofia da avaliao e seleo de caractersticas quantitativas com base em fentipos
em experimentos de campo, implantados com grande nmero de repeties.

A GWS ampla porque atua em todo o genoma, capturando todos os genes
que afetam um carter quantitativo. E isso sem a necessidade prvia de identificar os
marcadores com efeitos significativos e de mapear QTLs, como no caso da MAS.
Valores genticos genmicos associados a cada marcador ou alelo so usados para
fornecer o valor gentico genmico global de cada indivduo. H uma diferena
bsica na predio de valores genticos tradicionais e na predio de valores genticos
genmicos. Nos primeiros, informaes fenotpicas so utilizadas visando a
inferncias sobre os efeitos dos gentipos dos indivduos e, nos ltimos, informaes
genotpicas (gentipos para os alelos marcadores) so usadas visando a inferncias
sobre os valores fenotpicos futuros (ou valores genticos genmicos preditos) dos
indivduos. Em outras palavras, os mtodos tradicionais usam o fentipo para inferir
sobre o efeito do gentipo e a GWS usa o gentipo, com efeito gentico pr-estimado
em uma amostra da populao, para inferir sobre o fentipo a ser expresso nos
candidatos seleo.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

138

Os efeitos dos marcadores no sero, necessariamente, os mesmos em
diferentes estudos e ambientes. Na GWS, os efeitos genticos dos marcadores so
estimados e usados na seleo para cada populao de melhoramento e em um
determinado ambiente. Modelos de estimao incluindo a interao gentipos x
ambientes podem tambm ser usados, visando verificar a possibilidade de se obter
estimativas vlidas para um conjunto de ambientes. Mas, isso depender da
magnitude da interao envolvendo os vrios ambientes.

A GWS pode basear-se no uso de: (i) apenas dos marcadores; (ii) de
hapltipos ou intervalos definidos por dois marcadores; (iii) hapltipos definidos por
mais de dois marcadores, incluindo a covarincia entre hapltipos devida ligao.
Segundo Callus et al. (2008), para caracteres de baixa herdabilidade (10%) no
existem diferenas significativas entre essas trs abordagens. Solberg et al. (2006)
mostraram que possvel praticar a GWS eficientemente com o uso apenas dos
marcadores, ou seja, com a predio direta dos efeitos dos marcadores. Relatam
tambm que isso vantajoso porque no h necessidade de estimar as fases de ligao
entre os marcadores, as quais so estimadas com algum erro.

Cada par contguo de marcadores define um hapltipo ou intervalo. Existem
apenas dois alelos para cada marcador, pois os SNPs tm diferenas em um nico par
de bases. Dessa forma, para cada par de marcadores existem quatro hapltipos
possveis. A freqncia de cada hapltipo depende da freqncia dos alelos em cada
marcador e da distncia entre marcadores ou eventos de recombinao. Assim, um
nmero suficiente de indivduos devem ser genotipados de forma que todos os
hapltipos estejam representados nos indivduos com avaliaes fenotpicas
(Schaeffer, 2006).

No apenas marcadores SNPs podem ser usados na GWS. Marcadores
microssatlites tambm se prestam a esse fim. Solberg et al. (2006) relatam que o uso
de SNPs requer quatro a cinco vezes maior densidade de marcadores do que o uso de
microssatlites. Isto se deve natureza bi-allica (bi-nucleotdica) dos SNPs e multi-
allica dos microssatlites. Tais marcadores so eficientes por serem co-dominantes,
multi-allicos, abundantes e apresentarem alta transferibilidade entre indivduos e
espcies. Outra classe de marcadores que se adequa bem GWS so os DArT
(Diversity Array Technology), a qual permite amostrar amplamente o genoma sem a
necessidade de conhecimento prvio das sequncias de DNA.

A GWS fundamenta-se nos marcadores genticos moleculares do tipo SNP
(polimorfismo de um nico nucleotdeo), o qual se baseia na deteco de
polimorfismo resultante da alterao de um nico par de base no genoma. E para que
uma variao seja considerada SNP, essa deve ocorrer em pelo menos 1 % da
populao. Os SNPs so a forma mais abundante de variao do DNA em genomas e
so preferidos em relao a outros marcadores genticos devido sua baixa taxa de
mutao e facilidade de genotipagem. Milhares de SNPs podem ser usados para
cobrir o genoma de um organismo com marcadores que no esto a mais de 1 cM um
do outro no genoma inteiro. A GWS atua mais proximamente aos QTNs
(nucleotdeos de caractersticas quantitativas) ou sobre marcadores fortemente
ligados a esses. Os QTNs so polimorfismos funcionais, causadores diretos da
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

139

variao quantitativa observada. A anlise de SNPs permite a deteco de
polimorfismos funcionais ou polimorfismos em forte desequilbrio de ligao com os
QTNs. Tecnologias para genotipagem de milhares de SNPs em microarranjos esto
disponveis atualmente. Microarranjos so sistemas de arranjos de DNA que
utilizam lminas de vidro e sondas fluorescentes e permitem depositar milhares de
seqncias de DNA. Nessa tcnica so utilizados nucleotdeos marcados capazes de
emitir fluorescncia ao invs de radioatividade.

O desenvolvimento conceitual da GWS coincide com a tecnologia associada
aos SNPs, a qual acurada e relativamente barata. A GWS usa associaes de um
grande nmero de marcadores SNPs em todo o genoma com os fentipos,
capitalizando no desequilbrio de ligao entre os marcadores e QTLs proximamente
ligados. As predies derivadas de dados fenotpicos e de gentipos SNPs em alta
densidade em uma gerao so ento usadas para obteno dos valores genticos
genmicos (VGG) dos indivduos de qualquer gerao subseqente, tendo por base
os seus prprios gentipos marcadores.

Quando o desequilbrio de ligao entre marcadores no completo, as
freqncias allicas conjuntas envolvendo dois locos podem mudar substancialmente
atravs das geraes, conduzindo a mudanas nos hapltipos. Assim, os efeitos dos
marcadores necessitaro ser re-estimados para manter a acurcia da GWS em vrias
geraes (Dekkers, 2007). Com desequilbrio de ligao completo os efeitos
estimados permanecem constantes atravs das famlias e geraes em um mesmo
ambiente.

6.2 Acurcia da GWS

A acurcia (
q q
r

) da seleo GWS depende da proporo (


2
mq
r ) da variao
gentica explicada pelos marcadores e da acurcia (
m m
r

) da predio dos efeitos dos


marcadores ou hapltipos que esto em desequilbrio de ligao com os QTLs,
segundo a expresso
2 / 1 2 2

) (
mq m m q q
r r r =
. O parmetro
2
mq
r depende da densidade de
marcadores e da extenso e padro do desequilbrio de ligao que existe na
populao. Por sua vez, o parmetro
m m
r


depende da quantidade e preciso dos dados
disponveis para estimar os efeitos dos marcadores, alm da eficincia da estratgia e
dos mtodos estatsticos usados na predio.

Resende (2008) e Resende et al. (2008) apresentaram uma abordagem para
cmputo da acurcia esperada com a GWS, a qual foi empregada por Grattapaglia e
Resende (2011). A acurcia esperada dada por
] ) 1 ( 1 /[ ) ( ) (
2 2 2 2 / 1 2

2
m m mq m m mq q q
h N Nh r r r r + = =
. Com ajuste dos efeitos polignicos
residuais no modelo de predio tem-se )) 1 ( /( ) / (
2 2 2 2 2 2
h h r n h r h
mq Q mq m
+ = . Sem
ajuste dos efeitos polignicos residuais tem-se ) / (
2 2 2
Q mq m
n h r h = , em que
2
h a
herdabilidade individual no sentido restrito do carter,
2
m
h a herdabilidade
individual de um loco, N o nmero de indivduos genotipados e fenotipados,
2
mq
r
a proporo da variao gentica explicada pelos marcadores (magnitude do
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

140

desequilbrio de ligao),
2
m m
r a confiabilidade da estimativas dos efeitos das marcas
e
Q
n o nmero de genes (quando conhecido) controlando o carter ou o nmero de
segmentos cromossmicos independentes (quando o nmero de genes
desconhecido), os quais no sofrem recombinao dentro deles.

A magnitude do desequilbrio de ligao quantificada por
1 S 4N
1
e
+
= = ) (
2 2
r E r
mq (Sved, 1971)

ou
2 S 4N
1
e
+
= = ) (
2 2
r E r
mq (Tenesa et al., 2007).
O
valor esperado da estatstica r
2
, que mede a magnitude do desequilbrio de ligao,
depende do tamanho efetivo populacional (Ne) e da freqncia de recombinao
(funo da distncia S entre locos).

Para Ne = 10 e distncia entre marcas de 1 cM, o valor esperado de r
2
0,71.
Para essa mesma distncia entre locos e Ne de 20 e 30, os valores esperados de r
2
so
0,56 e 0,45, respectivamente. Com o dobro de marcadores e espaamento de 0.5 cM
entre marcadores, os valores esperados de r
2
so: (i): Ne = 10; r
2
= 0.83; (ii) Ne = 20; r
2

= 0.71; (iii) Ne = 30; r
2
= 0.63. Em eucalipto (tamanho do genoma igual a 1.300 cM),
com Ne igual a 20, 1.300 marcadores espaados a 1 cM conduziriam a um r
2
de 0.56.
Com o dobro de marcadores (2.600) e espaamento de 0.5 cM entre marcadores, o
valor esperado de r
2
0.71. Portanto, 2.600 marcadores seria um nmero mnimo de
marcadores para implementao da GWS em eucalipto. Nessa situao, com N igual
a 1.000 indivduos genotipados e fenotipados,
Q
n igual a 100 locos e h
2
de 30%,
aplicando-se a frmula da acurcia ter-se-ia uma acurcia de 70 %, valor esse muito
interessante do ponto de vista prtico, para a seleo precoce em plntulas.

Daetwyler et al. (2008) assumiram varincia residual 1
2
=
e
o e 1
2
=
mq
r ,
obtendo
)] ( 1 /[ ) ( )] / ( 1 /[ ) / (
2 2 2 2

h h n Nh n Nh r
Q Q m m
e e + = + =
mostrando a importncia
da quantidade
Q
n N / = e , a qual equivale ao nmero de indivduos N usados para
estimar o efeito de cada loco na populao de estimao. Resende (2008) obteve uma
expresso mais geral, no assumindo 1
2
=
e
o e 1
2
=
mq
r , ou seja, mantendo esses dois
elementos na frmula e assumindo 1
2
=
y
o (distribuio normal padro para os
fentipos, em que
2
y
o a varincia fenotpica). Sem ajuste dos efeitos polignicos
residuais no modelo de predio tem-se a expresso (Resende, 2008):
] ) 1 ( 1 /[ ) ( ) (
2 2 2 2 / 1 2

2
m m mq m m mq q q
h N Nh r r r r + = =

] / ) 1 ( 1 /[ ) / ( ) (
2 2 2 2 2 2 / 1 2

2
Q mq Q mq mq m m mq q q
n h r N n h Nr r r r r + = =
.


Goddard et al. (2011) assumiram varincia residual 1
2
=
e
o

e obtiveram a expresso
] / 1 /[ ) / ( ) (
2 2 2 2 2 2 / 1 2

2
Q mq Q mq mq m m mq q q
n h Nr n h Nr r r r r + = =
, que praticamente igual
expresso de Resende (2008). igual desde que se assuma N = (N 1). Goddard et al.
(2011) consideram em lugar de n
Q
o nmero efetivo de segmentos cromossmicos
(M
e
) segregando na populao, ou seja, o numero de blocos de DNA que no sofrem
recombinao dentro deles e que devem ser marcados adequadamente. O M
e
depende
do Ne da populao e do tamanho do genoma da espcie. Detalhes sobre esse tema e
sobre o clculo de Me podem ser vistos no tpico 6.26.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

141


Em resumo, a acurcia da GWS depende de cinco fatores: (i) da herdabilidade
do carter; (ii) do nmero de locos controlando o carter e da distribuio de seus
efeitos; (iii) do nmero de indivduos na populao de descoberta; (iv) do tamanho
efetivo populacional; (v) do espaamento entre marcadores, o qual depende do seu
nmero e do tamanho do genoma. Os dois primeiros fatores no esto sobre o
controle do melhorista. Os trs ltimos podem ser modificados pelo melhorista
visando aumentar a acurcia da GWS.

Valores de acurcia esperada para vrias situaes foram tabelados por
Resende (2008). Na Tabela 23 so apresentados resultados da acurcia seletiva da
GWS para um carter controlado por 100 locos e com herdabilidade individual no
sentido restrito igual a 0.30. Verifica-se que, para uma populao de eucalipto com
tamanho efetivo 20 (
2
mq
r = 0.7), a acurcia seletiva esperada com a GWS de 0.79,
para um tamanho amostral de N = 4000 indivduos. Esse valor supera a acurcia
mxima (0.70) para a seleo de indivduos em testes de famlia, pelo BLUP
tradicional na idade adulta, para um carter com herdabilidade de 20%. Isto atesta o
grande potencial da GWS.

Tabela 23. Aumento da acurcia da GWS em funo do aumento do tamanho da populao de estimao.
Carter controlado por 100 locos e com herdabilidade individual no sentido restrito igual a 0.30.
Nmero de
Indivduos
2
mq
r = 0,1
2
mq
r = 0,3
2
mq
r = 0,5
2
mq
r = 0,7
2
mq
r = 0,9
100 0,06 0,18 0,27 0,36 0,44
200 0,09 0,24 0,36 0,47 0,57
500 0,13 0,33 0,48 0,61 0,72
1000 0,17 0,40 0,57 0,70 0,81
2000 0,21 0,46 0,62 0,76 0,87
4000 0,25 0,50 0,66 0,79 0,91
8000 0,28 0,52 0,68 0,81 0,93
*Acurcia mxima para a seleo de indi vduos pelo BLUP tradicional na idade adulta = 0.70

Ganhos adicionais podem ser conseguidos por unidade de tempo, conforme a
Tabela 24. Verifica-se que ganho da ordem de 126% pode ser conseguido com a
reduo, de 4 para 2 anos (ou seja, 50%) do tempo necessrio para completar um ciclo
de seleo.

Tabela 24. Eficincia da GWS por unidade de tempo.
Acurcia
Fenotpica (AF)
Acurcia
Genmica (AG)
Tempo
Fenotpica (TF)
Temp
Genmica
(TG)
Eficincia
(AG TF)/(AF TG)
Superioridade %
0,70 0,79 4 4 1,13 13
0,70 0,79 4 3 1,50 50
0,70 0,79 4 2 2,26 126
0,70 0,79 4 1 4,51 351
0,70 0,79 4 0,5 9,03 803





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

142

Detalhes das Expresses da Acurcia
Partindo da expresso de Resende (2008),
Q mq
Q mq mq
g g
n h r N
n h Nr r
r
/ ) 1 ( 1
) / (
2 2
2 2 2

+
=
,
e
assumindo
1
) 1 (
=

N
N
para N grande tem-se:

Q mq
Q mq mq
g g
n h Nr
n h Nr r
r
/ 1
) / (
2 2
2 2 2

+
=
, expresso idntica de Goddard et al. (2011).

Rearranjando essa expresso tem-se:

Q mq
mq
g g
n h Nr
r
r
/
1
1
2 2
2

+
=
, donde se verifica que o valor mximo atingido pela acurcia
igual raiz quadrada de
2
mq
r
.
Assim, torna-se imperativo aumentar
2
mq
r para se aumentar a acurcia. E
2
mq
r
dada por
m
e m
m
mq
n
M n
n
r
e
M
1
1
+
=
+
=
2
, donde se verifica que o seu aumento s pode ser
conseguido com o aumento do nmero n
m

de marcadores, visto que M
e

fixo para
determinada espcie e Ne da populao, conforme mostrado mais adiante.


Rearranjando
Q mq
mq
g g
n h Nr
r
r
/
1
1
2 2
2

+
= , tem-se
)
) (
1
/( 1
2 2 2 2

h r N
n
r
r
mq
Q
mq
g g
+ =
, donde se
verifica que a acurcia diretamente proporcional a N, h
2
e r
2
mq
e inversamente
proporcional a n
Q
.

Se r
2
mq
= 1,
)
/
1
1 /( 1
2

Q
g g
n Nh
r + =
ou
) 1 /( 1
2

Nh
n
r
Q
g g
+ =

, expresso
equivalente de Daetwyler et al. (2008). Com base nessa expresso, o nmero de
QTL ou genes pode ser estimado por
2
2

1
Nh
r
r
n
g g
g g
Q

= , em que
2

g g
r a estimativa do
quadrado da acurcia obtida com base na GWS aplicada sobre dados experimentais
Daetwyler et al. (2010).

Se r
2
mq
= 1 e se h
2
= 1:
) 1 /( 1

N
n
r
Q
g g
+ =
e a acurcia depende apenas de um
tamanho amostral N de indivduos suficiente para estimar efeitos de
Q
n genes. Se
r
2
mq
< 1 e se h
2
= 1, tem-se
)
) (
1
/( 1
2 2 2

mq
Q
mq
g g
r N
n
r
r + =
e a acurcia depende tambm da
maximizao de r
2
mq
, alm de um N adequado.
Substituindo
e m
m
mq
M n
n
r
+
=
2
na expresso da acurcia e rearranjando chega-se a

]
)
1 /[ 1
2
2
2

m
m
Q
m
g g
n
n
Nh
n
n
r
+
+ + =
e e
M M
, donde se verifica (em
m
n
e
M
) a importncia de n
m

em explicar
e
M (nmero de marcadores em explicar o nmero de segmentos
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

143

cromossmicos) e a importncia de Nh
2
em explicar o nmero de genes (em
2
Nh
n
Q
).
Verifica-se tambm que
e
M inversamente proporcional acurcia.
Considerando
L 4N M
e e
=
conforme Sved (1971) e
) 2 (
2
Ne Ln
L N
n
e
Q
=
conforme
Hayes et al. (2009) tem-se a expresso final
]
)
)] 2 ( [
1 /[ 1
2
2
2

m
m
m
g g
n
n
Ne Ln Nh n
r
+
+ + =
L

4Ne L 2Ne L 4Ne


, a qual depende de cinco fatores: de
maneira inversamente proporcional a Ne e L (tamanho total do genoma em
Morgans), e, diretamente proporcional a N, h
2
e n
m
.

Sved (1971) considera
L 4N M
e e
=
, e, portanto,

m
e m
m
mq
n
M n
n
r
L Ne 4
1
1
+
=
+
=
2

, em que
L 4N
e
o nmero total de segmentos cromossmicos (a serem marcados) e
L/n
m
= S. Hayes et al. (2009) consideram L 2N M
e e
= como o nmero efetivo (de
mesmo tamanho, ponderados pelos comprimentos) de segmentos cromossmicos
(corrigidos, contendo genes). Esses mesmos autores consideram
) 2 ( ) 2 (
)] 1 ( 2 [ ) (
e
e
e
e
e e Q
N Ln
N
N Ln
M
p p M W Var M n
L 2
= = = =
como o nmero provvel de QTL
ou segmentos corrigidos para mesmo tamanho e frequncia, em que
) 2 (
) 1 ( 2 ) (
Ne Ln
p p W Var
1
= =
a varincia da varivel indicadora W dos marcadores.

Quando 1 ) ( = W Var , se L Ne n
Q
2 = , tem-se:

]
)
1 /[ 1
2
2
2
m
m Q Q
m
Q
g g
n
n n
Nh
n
n
n
r
+
+ + =

2 2

ou
]
)
1 /[ 1
2
2
2

m
m
m
g g
n
n
Nh n
r
+
+ + =
L

4Ne L 2Ne L 4Ne


.
Essa expresso conservadora e leva a menores acurcias estimadas.


Se
max
Me L 2 = = Ne n
Q
e (n
Q +
n
m
)/n
m
tender a um tem:se:
) 1 /( 1
2

Nh
n
n
n
r
Q
m
Q
g g
+ + =
ou
) 1 /( 1
2

Nh n
r
m
g g
L 2Ne L 2Ne
+ + =
. Essa expresso mais simples para cmputo rpido.


Goddard (2011), acrescenta na expresso de Me uma diviso por ) / ( k L Ne Ln ,
em que k o nmero de cromossomos, de forma que tem-se
) / ( k L Ne Ln L/[ 2N Me
e
=
.
Quanto maior o tamanho k L / do cromossomo, melhor (mais marcadores no
cromossomo ajudando a capturar o mesmo QTL). Nesse caso, tem-se:
)] / (
2
k L Ne Ln
r
mq
L/[ 2N m
m
e
+
=
.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

144

A frao Ln (Ne L / k) advem do fato de se considerar o LD entre a marca
alvo e todos os marcadores dentro de cromossomos e no apenas o vizinho mais
prximo e o alvo. Outra forma de estimar Me via o r
2
de Hill e Robertson:
2
1
pl
r
= Me em que
2
pl
r o r
2
mdio para todos os pares de locos, o qual relaciona-se com
a variancia dos coeficientes de parentesco (matriz A), por meio de Var (A) =
Me
r
pl
1
2
=
.


Goddard (2011) usa a formula com Me e no n
Q
. Assim,

]
)
1 /[ 1
2
2
2

m
m
Q
m
g g
n
n
Nh
n
n
r
+
+ + =

Me Me
equivale a
]
)
1 /[ 1
2
2
2

m
m
m
g g
n
n
Nh
Me
n
r
+
+ + =

Me Me
.

Em concluso, recomenda-se a expresso
]
)
1 /[ 1
2
2
2

m
m
m
g g
n
n
Nh n
r
+
+ + =

2NeL 2NeL 2NeL


,
obtida pela derivao de Resende (2008) e considerando Me = 2NeL.

Um resumo apresentado a seguir.

Resumo das Expresses para a Acurcia
Autor r
gg
r
2
mq
Me n
Q

2
e
o
Resende
(2008)
Q mq
Q mq mq
g g
n h r N
n h Nr r
r
/ ) 1 ( 1
) / (
2 2
2 2 2

+
=

e m
m
m e
mq
M n
n
n L N
r
+
=
+
=
/ 4 1
1
2

L N M
e e
4 =

)] 1 ( 2 [ p p n n
m Q
=
ou n
Q
suposto
conforme a
herdabilidade
2 2 2
) 1 (
y e
h o o =
1
2
=
y
o

Daetwyler
et al.
(2008)
) 1 /( 1
/ 1
/
2 2
2

Nh
n
n Nh
n Nh
r
Q
Q
Q
g g
+ =
+
=

1
2
=
mq
r
-

n
Q
suposto
2 2
y e
o o =

1
2
=
e
o
Goddard
(2009)
) 1 /( 1
/ 1
/
2 2
2

Nh
n
n Nh
n Nh
r
Q
Q
Q
g g
+ =
+
=

1
2
=
mq
r

) 4 (
2
L Ne Ln
L Ne
M
e
=

) 2 ( Ne Ln
M
n
e
Q
=

2 2
y e
o o =

1
2
=
e
o
Hayes et
al. (2009)
) 1 /( 1
/ 1
/
2 2
2

Nh
n
n Nh
n Nh
r
Q
Q
Q
g g
+ =
+
=

1
2
=
mq
r
L Ne M
e
2 =

) 2 ( Ne Ln
M
n
e
Q
=

2 2
y e
o o =

1
2
=
e
o
Goddard
et al. (2011)
Q mq
Q mq mq
g g
n h Nr
n h Nr r
r
/ 1
) / (
2 2
2 2 2

+
=

e m
m
mq
M n
n
r
+
=
2

) / (
2
c L Ne Ln
L Ne
M
e
=

e Q
M n =
2 2
y e
o o =

1
2
=
e
o


Frmulas Alternativas da Derivao de Resende (2008)
1
Q mq
Q mq mq
g g
n h r N
n h Nr r
r
/ ) 1 ( 1
) / (
2 2
2 2 2

+
=


2
]
)
1 /[ 1
2
2
2

m
m
Q
m
g g
n
n
Nh
n
n
r
+
+ + =
e e
M M


3
]
)
)] 2 ( [
1 /[ 1
2
2
2

m
m
m
g g
n
n
Ne Ln Nh n
r
+
+ + =
L

4Ne L 2Ne L 4Ne




4
]
)
1 /[ 1
2
2
2

m
m
m
g g
n
n
Nh n
r
+
+ + =

2NeL 2NeL 2NeL




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

145

Casos especiais da derivao de Resende (2008)
Casos
especiais da
derivao de
Resende
(2008)
Se r
2
mq
= 1 (dados de
sequncia ou n
m
alto):
) 1 /( 1
2

Nh
n
r
Q
g g
+ =

Nh
2
= 10 n
Q
para obter
acurcia de 90% e N =
50 n
Q
para h
2
de 0.2:
200 locos: N = 10.000

Se h
2
= 1 (dados de
valores genticos com
acurcia 100%)
)
) (
1
/( 1
2 2 2
mq
Q
mq
g g
r N
n
r
r + =

Se r
2
mq
= 1 e se h
2
= 1:
) 1 /( 1

N
n
r
Q
g g
+ =
: necessidade de
grande nmero de dados para
conhecer os efeitos de cada loco e
alelo; N = 10 n
Q
para obter
acurcia de 90%. Se 200 locos: N =
2000.
* n
Q
pode ser visto como n
Q
= Ne L

A seguir ilustra-se o aumento de r
2
mq
em funo do aumento de n
m
em Eucalipto,
com base na expresso de Hayes et al. (2009).

Comportamento de r
2
mq
em funo de Ne, n
m
e Me em Eucalipto.
Ne Me n
m
r
2
mq
Ne Me n
m
r
2
mq

10 86.8 3000 0.85 20 141.0 3000 0.74
10 86.8 5000 0.91 20 141.0 5000 0.83
10 86.8 10000 0.95 20 141.0 10000 0.91
10 86.8 15000 0.97 20 141.0 15000 0.94
10 86.8 20000 0.97 20 141.0 20000 0.95
10 86.8 30000 0.98 20 141.0 30000 0.97

30 190.5 3000 0.66 50 282.3 3000 0.54
30 190.5 5000 0.76 50 282.3 5000 0.66
30 190.5 10000 0.87 50 282.3 10000 0.79
30 190.5 15000 0.91 50 282.3 15000 0.85
30 190.5 20000 0.93 50 282.3 20000 0.88
30 190.5 30000 0.95 50 282.3 30000 0.92

100 490.7 3000 0.37 200 867.9 3000 0.22
100 490.7 5000 0.49 200 867.9 5000 0.32
100 490.7 10000 0.66 200 867.9 10000 0.49
100 490.7 15000 0.74 200 867.9 15000 0.59
100 490.7 20000 0.79 200 867.9 20000 0.66
100 490.7 30000 0.85 200 867.9 30000 0.74

A seguir ilustra-se o aumento da acurcia em funo do aumento de N e n
m
em
Eucalipto, com base na expresso de Resende (2008).

Comportamento de r
gg
em funo de N e nmero de marcas

em Eucalipto. Ne 100.
h
2
a
N Nmarcas r
gg
h
2
a
N Nmarcas r
gg

0.1 1000 10000 0.28 0.1 1000 20000 0.33
0.2 1000 10000 0.37 0.2 1000 20000 0.44
0.3 1000 10000 0.43 0.3 1000 20000 0.51
0.4 1000 10000 0.48 0.4 1000 20000 0.56
0.5 1000 10000 0.51 0.5 1000 20000 0.60
0.6 1000 10000 0.54 0.6 1000 20000 0.63
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

146


0.1 2000 10000 0.37 0.1 2000 20000 0.44
0.2 2000 10000 0.48 0.2 2000 20000 0.56
0.3 2000 10000 0.54 0.3 2000 20000 0.63
0.4 2000 10000 0.58 0.4 2000 20000 0.67
0.5 2000 10000 0.61 0.5 2000 20000 0.70
0.6 2000 10000 0.64 0.6 2000 20000 0.72

0.1 10000 10000 0.61 0.1 10000 20000 0.70
0.2 10000 10000 0.69 0.2 10000 20000 0.78
0.3 10000 10000 0.73 0.3 10000 20000 0.81
0.4 10000 10000 0.74 0.4 10000 20000 0.83
0.5 10000 10000 0.76 0.5 10000 20000 0.84
0.6 10000 10000 0.76 0.6 10000 20000 0.85
Tabelas vlidas para eucalipto (L = 13 Morgans), pinus (L = 15 Morgans) e caf (L = 14 Morgans).

A seguir ilustra-se os valores de acurcia de quatro mtodos de seleo em Eucalipto.

Acurcias seletivas dos mtodos de seleo em Eucalipto.
Herdabilidade Massal Blup
Individual
GWS1 GWS2
0.1 0.32 0.67 0.44 0.70
0.2 0.45 0.72 0.56 0.78
0.3 0.55 0.76 0.63 0.81
0.4 0.63 0.78 0.67 0.83
0.5 0.71 0.81 0.70 0.84
0.6 0.77 0.84 0.72 0.85
GWS1: Seleo Genmica Ampla usando 2.000 indivduos genotipados para 20.000 marcas; GWS2:
Seleo Genmica Ampla usando 10.000 indivduos genotipados para 20.000 marcas.


A seguir ilustra-se os valores de ganho com seleo de quatro mtodos de seleo em
Eucalipto.

Ganhos genticos (em unidades de desvio padro gentico aditivo por
unidade de tempo (ano) associados aos mtodos de seleo em Eucalipto.

Herdabilidade Massal Entre e
Dentro*
Blup
Individual
GWS1 GWS2
0.1 0.277 0.494 0.592 1.55 2.46
0.2 0.392 0.547 0.635 1.96 2.73
0.3 0.481 0.583 0.663 2.19 2.85
0.4 0.555 0.614 0.688 2.35 2.91
0.5 0.620 0.642 0.713 2.46 2.95
0.6 0.680 0.670 0.740 2.54 2.98
GWS1: Seleo Genmica Ampla usando 2.000 indivduos genotipados para 20.000 marcas;
GWS2: Seleo Genmica Ampla usando 10.000 indivduos genotipados para 20.000 marcas.
* de Famlias.




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

147

6.3 Populaes de Estimao, Validao e Seleo
Na prtica da seleo genmica ampla, trs populaes podem ser definidas:
populao de estimao, validao e seleo. Essas podem: (i) ser fisicamente
distintas (3 populaes diferentes); (ii) exercer duas funes ao mesmo tempo (uma
s populao usada para estimao e validao); (iii) exercer trs funes ao mesmo
tempo (uma s populao usada para estimao, validao e seleo). Em geral, as
estratgias (i) e (ii) so as mais usadas, embora a (iii) seja tambm muito usada no
mtodo G-BLUP (ver tpico 6.12). A Figura 1 ilustra a estratgia (ii).

Populao de Estimao. Tambm denominada populao de descoberta, de
treinamento ou de referncia. Esse conjunto de dados contempla um grande nmero
de marcadores avaliados em um nmero moderado de indivduos (1.000 a 10.000,
dependendo da acurcia desejada, conforme relatado no tpico anterior), os quais
devem ter seus fentipos avaliados para os vrios caracteres de interesse. Equaes de
predio (regresso mltipla aleatria) de valores genticos genmicos so obtidas
para cada carter de interesse. Essas equaes associam a cada marcador ou intervalo
o seu efeito predito no carter de interesse. Nessa populao so descobertos, via
marcadores, os marcadores que explicam os locos que controlam os caracteres, bem
como so estimados os seus efeitos.

Populao de Validao. Quando fisicamente disjunta da populao de estimao, esse
conjunto de dados menor do que aquele da populao de descoberta e contempla
indivduos avaliados para os marcadores SNPs e para os vrios caracteres de
interesse. As equaes de predio de valores genticos genmicos so testadas para
verificar suas acurcias nessa amostra independente. Para computar essa acurcia, os
valores genticos genmicos so preditos (usando os efeitos estimados na populao
de estimao) e submetidos a anlise de correlao com os valores fenotpicos
observados. Como a amostra de validao no foi envolvida na predio dos efeitos
dos marcadores, os erros dos valores genticos genmicos e dos valores fenotpicos
so independentes e a correlao entre esses valores predominantemente de
natureza gentica e equivale capacidade preditiva (
y y
r

) da GWS em estimar os
fentipos, sendo dada pela prpria acurcia seletiva (
q q
r

) multiplicada pela raiz


quadrada da herdabilidade individual (h), ou seja, h r r
q q y y
= , conforme demonstrado
no tpico 6.5. Assim, para estimao da prpria acurcia deve-se obter
h r r
y y q q

/

=
.
Isso vlido quando so usados os valores fenotpicos brutos para cmputo da
correlao. Quando so usados valores genotpicos preditos com base nos fentipos
em vez dos valores fenotpicos brutos, a herdabilidade deve ser substituda pela
confiabilidade. De maneira geral adota-se a estratgia (ii), segundo um esquema
Jacknife de validao cruzada. Segundo Meuwissen (2007), quando dezenas a
centenas de milhares de hapltipos so estimados, existe o risco de
superparametrizao, ou seja, erros nos dados serem explicados pelos efeitos de
marcadores. A validao cruzada ento de grande importncia para contornar esse
problema.


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

148

Populao de Seleo. Esse conjunto de dados contempla apenas os marcadores
avaliados nos candidatos seleo. Essa populao no necessita ter os seus fentipos
avaliados. As equaes de predio derivadas na populao de descoberta so ento
usadas na predio dos valores genticos genmicos (VGG) ou fentipos futuros dos
candidatos seleo. Mas a acurcia seletiva associada refere-se quela calculada na
populao de validao. Na Figura 2 Ilustrada a aplicao da seleo genmica
ampla no melhoramento gentico de sunos (Goddard e Hayes, 2009).

A seguinte estratgia e sequncia de anlise envolvendo as populaes de
estimao e validao podem ser indicadas: compute a predio dos valores genticos
genmicos (VGG) usando todos os marcadores e calcule a correlao r
VGG,y
entre
VGG e y, em que
y VGG y y
r r
,
=
; ordene os marcadores por maiores mdulos dos efeitos
estimados dos marcadores; crie arquivos com subconjuntos dos marcadores com
maiores mdulos dos efeitos estimados dos marcadores (100, 250, 500, 1000, 1500, 2000,
...); analise todos esses arquivos e compute as correlaes r
VGG,y
e escolha o arquivo
timo que maximiza a r
VGG,y
; faa a validao nesse arquivo timo com k = 2 no
processo Jacknife descrito a seguir; faa a validao nos outros arquivos menores que
o timo e em um maior que o timo para ver tendncias (usar k = 2); compute os
valores de
h r r
y y q q

/

=
nas validaes realizadas.



Figura 1 Esquema de aplicao da seleo genmica ampla em um programa de melhoramento gentico
(Resende et al., 2010).


6.4 Populao de Validao e Jacknife
Na estimao de um parmetro u a partir de uma amostra ou conjunto de dados
com n observaes, o procedimento Jackknife para a estimao da varincia do
estimador u

consiste na omisso de cada uma das n observaes, uma em cada


reamostragem. A metodologia generalizada do Jackknife baseia-se na diviso do
conjunto de N dados amostrais em g grupos de tamanho igual a k, de forma que N =
gk. Em geral, k tomado como 1, mas, pode ser to grande quanto N/2. O estimador
i

u corresponde quele baseado em amostras de tamanho (g 1)k, onde o i-simo


Populao de Estimao (PE)
1.000 a 10.000 Indivduos
Genotipados e Fenotipados

y = 1u + Xm + e
Estimao dos Efeitos dos Marcadores
Gerao das equaes de predio
Populao de Validao (PV)
Cmputo da Acurcia nos mesmos
Individuos da PE via Validao
Cruzada
Populao de Seleo (PS) Precoce
20.000 Indivduos apenas Genotipados
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

149

grupo de tamanho k foi removido. Com k = 1, N = g e (g 1)k = g 1= N-1, de forma
que
i

u refere-se amostra em que foi omitida a observao i (Resende, 2008).


Validaes com k = 1 e k =2 tendem a conduzir aos mesmos valores de acurcia na
populao de validao. Assim, no h necessidade de usar k = 1, sendo que valores
maiores so tambm suficientes para a validao cruzada.



Figura 2 Ilustrao da aplicao da seleo genmica ampla no melhoramento gentico de
sunos (Goddard e Hayes, 2009).




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

150

6.5 Correlao e Regresso entre Valores Genticos Preditos e
Fentipos na Populao de Validao

Os coeficientes de correlao e regresso envolvendo valores observados e
preditos so medidas prticas da capacidade dos mtodos predizerem de forma
acurada e no viesada, respectivamente. A correlao fornece a capacidade preditiva,
a qual equivale ao produto da acurcia pela raiz quadrada da herdabilidade. O
coeficiente de regresso equivale algebricamente a 1. Coeficientes de regresso abaixo
de 1 indicam que os valores genticos so superestimados e apresentam variabilidade
alm da esperada e acima de 1 indicam que os valores genticos estimados
apresentam variabilidade aqum da esperada. No vcio importante quando a
seleo envolve indivduos de muitas geraes usando efeitos dos marcadores
estimados em uma s gerao. Coeficientes de regresso prximos de 1 indicam que
as avaliaes so no viesadas e so efetivas em predizer as reais magnitudes das
diferenas entre os indivduos em avaliao. A seguir so apresentadas algumas
definies paramtricas importantes envolvendo os valores fenotpicos corrigidos
(y
c
) e os valores genticos genmicos preditos na populao de validao (
V
g ).

A. Covarincia

) , ( )] ( , [ ) , ( g g Cov e g g Cov y g Cov
V V c V
= + =

B. Varincias

2

) (
V
g V
g Var o =
2 2 2 2 2
/ ) (
c g e g y c
h y Var
c
o o o o = + = =

C. Correlao

c g g c g g V c g g V
y g V y g c V c V gf
h r h g g Cov h g g Cov
g g Cov y g Cov y g Cor r
V V
c V c V

2 / 1 2 2


)] / ( /[ ) , ( ] ) / ( /[ ) , (
) /( ) , ( ) /( ) , ( ) , (
= = =
= = =
o o o o
o o o o

D. Regresso de y
c
em
V
g

1 / ) /( ) , ( ) /( ) , ( ) / ( Re
2

2

= = = = =
V V V V
g g g V g c V V c g y
g g Cov y g Cov g y g b o o o o

E. Acurcia

c gf g g
h r r /

=

F. Confiabilidade

2 2

) / (
c gf g g
h r r =

O erro padro da estimativa da acurcia pode ser computado por
2 / 1 2

)] 2 /( ) 1 [( ) ( = N r r s
g g g g
. O coeficiente de regresso tem valor esperado igual a 1 e
nessa situao indica que a predio foi no viesada. Assim sendo, pode-se tambm
usar o coeficiente de regresso para estimar a herdabilidade (
2
c
h ) a ser empregada.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

151

Vrios valores de herdabilidade so avaliados e aquele que fornecer uma regresso
igual a 1 deve ser escolhido como melhor estimativa. Se a regresso der resultado
menor que 1 o valor de herdabilidade avaliado foi de alta magnitude e deve ser
diminudo at a convergncia para 1. Se a regresso der resultado maior que 1 o valor
de herdabilidade avaliado foi de pequena magnitude e deve ser aumentado at a
convergncia para 1.

6.6 Mtodos estatsticos na seleo genmica ampla

No contexto da seleo assistida por marcadores e da predio genmica, o
mtodo de quadrados mnimos (LS) apresenta srias deficincias. Segundo Gianola
et al. (2003), o ndice de seleo (calculado como regresso envolvendo escores
moleculares) apresentado por Lande e Thompson (1990) para a MAS falha quando
formulado em uma maneira vetorial. Isto porque a matriz de covarincia dos escores
moleculares singular uma vez que a distribuio dos valores ajustados da regresso
definida somente no espao p-dimensional (nmero de covariveis) e no no
espao n-dimensional (nmero de indivduos com escores moleculares). Ento, o
ndice de seleo conduz a um infinito nmero de solues.
Outra dificuldade que surge quando o nmero de marcadores iguala ou
supera o nmero de indivduos genotipados. Nessa situao, a colinearidade das
variveis preditoras causa problemas de identificao paramtrica e algum mtodo de
reduo dimensional deve ser usado, como por exemplo a decomposio por valor
singular. Outro problema a prpria inadmissibilidade (no propiciam mnimo erro
quadrtico mdio) dos estimadores LS, resultado esse que desmorona a estimao por
LS e por GLS (quadrados mnimos generalizados). Assim, o mtodo LS no
recomendado na MAS e na GWS. Na GWS, devido ao nmero de marcadores
maior do que o nmero de indivduos, existe uma escassez de graus de liberdade para
estimar os efeitos de todos os marcadores. Uma soluo para contornar essa questo
usar o mtodo da regresso ridge (RR de Whittaker et al., 2000) ou assumir os efeitos
de marcadores como aleatrios ao invs de fixos. O ajuste de efeitos aleatrios no
consome graus de liberdade, e ento, os efeitos de todos os marcadores podem ser
estimados simultaneamente. E isto conduz ao procedimento RR-BLUP, relatado a
seguir.
O mtodo LS ineficiente devido a: impossibilidade de estimar todos os
efeitos simultaneamente, pois o nmero de efeitos a estimar maior do que o
nmero de dados; estimando um efeito de cada vez e verificando a sua significncia,
conduz a superestimativas dos efeitos significativos; a acurcia do mtodo baixa;
somente QTLs de grande efeito sero detectados e usados e, conseqentemente, nem
toda a variao gentica ser capturada pelos marcadores. O mtodo LS assume
distribuio a priori para os QTLs, com varincia infinitamente grande, fato que
incompatvel com a conhecida varincia gentica total. O RR-BLUP assume os
efeitos de QTL com distribuio normal com varincia constante atravs dos
segmentos cromossmicos. A distribuio dos efeitos de QTL conhecida em poucos
caracteres e espcies. Em gado bovino leiteiro, Goddard & Hayes (2007) relatam a
presena de 150 QTLs para o carter produo de leite e estimaram a distribuio de
seus efeitos como aproximadamente exponencial.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

152

Um mtodo ideal para GWS deve contemplar trs atributos: (i) acomodar a
arquitetura gentica do carter em termos de genes de pequenos e grandes efeitos e
suas distribuies; (ii) realizar a regularizao do processo de estimao em presena
de multicolinearidade e grande nmero de marcadores, usando para isso estimadores
do tipo shrinkage; (iii) realizar a seleo de covariveis (marcadores) que afetam a
caracterstica em anlise. O problema principal da GWS a estimao de um grande
nmero de efeitos a partir de um limitado nmero de observaes e tambm as
colinearidades advindas do desequilbrio de ligao entre os marcadores. Os
estimadores do tipo shrinkage lidam adequadamente com isso, tratando os efeitos de
marcadores como variveis aleatrias e estimando-os simultaneamente (Resende et
al., 2008). Os principais mtodos para a GWS (Tabela 25) podem ser divididos em
trs grandes classes: regresso explcita, implcita e com reduo dimensional. Na
primeira classe, destacam-se os mtodos RR-BLUP, LASSO (Least Absolute Shrinkage
and Selection Operator), Rede Elstica (Elastic Net EN), BayesA e BayesB, dentre
outros. Na classe de regresso implcita, citam-se os mtodos de redes neurais,
RKHS (Reproducing Kernel Hilbert Spaces, que um mtodo semi-paramtrico
(Gianola; Campos, 2009) e regresso kernel no paramtrica via modelos aditivos
generalizados (Gianola et al., 2006). Dentre os mtodos de regresso com reduo
dimensional, destacam-se o de componentes independentes, quadrados mnimos
parciais e de componentes principais.

Tabela 25. Classificao dos Mtodos para GWS
Classe Famlia Mtodo Atributos
Regresso explcita Mtodos de estimao
penalizada (Regresso
linear)
RR-BLUP/GWS Regularizao
Arquitetura gentica homognea
Seleo indireta de covariveis
LASSO Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
EN Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
RR-BLUP-Het/GWS Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
Mtodos de estimao
bayesiana (Regresso
no linear)
BayesA Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
BayesB Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
Fast BayesB Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
BayesCt Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
BayesDt Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
BLASSO Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
IBLASSO Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
Regresso implcita Regresso Kernel
RKHS
Redes neurais
Regresso com
reduo dimensional
Quadrados mnimos parciais
Componentes principais
Componentes Independentes

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

153

Os mtodos de regresso implcita so divididos em dois grupos: (i) mtodos
de estimao penalizada (RR-BLUP, LASSO, EN, RR-BLUP-Het); (ii) mtodos de
estimao bayesiana (BayesA, BayesB, Fast BayesB, BayesC, BayesD, BLASSO,
IBLASSO e outros) (Tabela 25). Os estimadores penalizados so obtidos como
soluo para um problema de otimizao, em que a funo objetivo (funo cujo
valor minimizado ou maximizado, dependendo do problema e objetivo) definida
pelo balano entre preciso do ajuste (soma de quadrado dos resduos) e
complexidade do modelo (componente de penalizao). Os mtodos de estimao
penalizada diferem de acordo com as funes de penalizao usadas, as quais
produzem diferentes graus de shrinkage. Esse encurtamento previne a super-
parametrizao e pode conduzir reduo do erro quadrtico mdio de estimao.
Os mtodos bayesianos esto associados a sistemas de equaes no lineares e
as predies no lineares podem ser melhores quando os efeitos de Quantitative trait
loci (QTL) no so normalmente distribudos, devido presena de genes de efeitos
maiores. As predies lineares associadas ao RR-BLUP assumem que todos os
marcadores com mesma frequncia allica contribuem igualmente para a variao
gentica (ausncia de genes de efeitos maiores). Na estimao bayesiana, o
encurtamento das estimativas dos efeitos do modelo controlado pela distribuio a
priori assumida para esses efeitos. Diferentes prioris induzem a diferentes
encurtamentos. Os mtodos de estimao penalizada e os bayesianos podem ser com
(BayesB, Fast BayesB, BayesC, BayesD, LASSO, BLASSO, IBLASSO) ou sem
(RR-BLUP, EN, RR-BLUP-Het, BayesA) seleo direta de covariveis. Os mtodos
bayesianos so superiores quando a distribuio dos efeitos dos QTL leptocrtica
(curtose positiva), devido presena de genes de grandes efeitos. Com distribuio
normal dos efeitos dos QTL, o mtodo RR-BLUP igualmente eficiente.
Comparaes entre os mtodos de predio de valores genticos genmicos
tm sido realizadas. Meuwissen et al. (2001) concluram pela superioridade terica do
mtodo BayesB, o qual mostrou-se ligeiramente superior ao RR-BLUP. Entretanto, o
autor simulou os dados genotpicos segundo a mesma distribuio a priori empregada
no processo de estimao. Isso conduziu a acurcias mais elevadas por esse mtodo,
as quais podem no ser realsticas na prtica, se a distribuio real associada aos
efeitos genticos diferir da distribuio a priori assumida na anlise.

Hayes et al. (2009) avaliaram a efetividade prtica da seleo genmica em
gado de leite nos Estados Unidos, Austrlia e Nova Zelndia. Concluram que o
mtodo BLUP mostrou-se aproximadamente igual a outros mtodos mais
complexos, em termos de acurcia. Adicionalmente, o mtodo BLUP vantajoso
porque a nica informao a priori necessria uma estimativa da varincia gentica
aditiva do carter. Os autores relataram tambm a importncia da incluso do efeito
polignico no modelo de avaliao gentica, como forma de capturar e selecionar
QTLs de baixa freqncia no capturados pelos marcadores. Habier et al. (2007)
compararam os mtodos de quadrados mnimos (denominado por eles como
regresso fixa ou FR-LS), BLUP (denominado por eles como regresso aleatria ou
RR-BLUP) e Bayes B, em termos de acurcia seletiva na seleo ao longo prazo, aps
vrias geraes depois da predio dos efeitos genticos dos marcadores. Nessa
situao, a acurcia tende a diminuir devido modificao das relaes de parentesco
(em relao ao parentesco na gerao de estimao dos efeitos genmicos) mas, h
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

154

um componente persistente da acurcia devido ao LD. Os resultados mostraram que
o decrscimo na acurcia devido modificao das relaes de parentesco maior no
mtodo RR-BLUP. Inicialmente, os mtodos RR-BLUP e Bayes B apresentaram
acurcia similar. Mas, aps 11 geraes, o mtodo Bayes B superou o RR-BLUP.
Comparando mtodos bayesianos, Habier et al. (2011) relataram que o mtodo
BayesA mostrou-se superior na maioria das situaes, mas nenhum dos mtodos
bayesianos so claramente superiores em todas as situaes. Entretanto, BayesB,
BayesC e BayesD apresentam a vantagem de propiciar informao sobre a
arquitetura gentica do carter quantitativo e identificar as posies de QTL por
modelagem da frequncia de Single nucleotide polymorphism( SNP) no nulos.
Tambm Mrode et al. (2010) concluram pela superioridade do BayesA e Fast BayesB
sobre o BayesB. O mtodo Fast BayesB foi desenvolvido por Meuwissen et al.
(2009), visando diminuir o tempo de computao do mtodo BayesB, originalmente
implementado via simulao estocstica por meio de procedimento Monte Carlo
Cadeia de Markov (MCMC). Esses autores derivaram um estimador no MCMC
por meio de integrao analtica. Esse mtodo aproxima bem o mtodo original e
muito mais rpido. Mrode et al. (2010) obtiveram, na prtica, uma ligeira
superioridade do Fast BayesB sobre o BayesB.
Os mtodos BayesA e RR-BLUP em associao com um mtodo de seleo de
marcadores propiciam tambm informao sobre a arquitetura gentica do carter
quantitativo. E essa seleo de covariveis pode ser feita por meio da GWAS a
posteriori (GWAS-PSE, conforme detalhado em tpico seguinte) e tambm pelo
ordenamento do mdulo dos efeitos estimados de marcadores.
Com distribuio exponencial e poucos efeitos com valor zero, o melhor
estimador dos efeitos allicos denominado LASSO (Tibshirani, 1996). Entretanto,
com muitos efeitos com valor zero, o LASSO pode no ser adequado. Usai et al.
(2009) compararam o LASSO com BLUP e BayesA empregando 156 SNPs
significativos. As acurcias obtidas foram das ordens de 0,89, 0,75 e 0,84,
respectivamente. Assim, o LASSO uma boa opo quando se usa um nmero
limitado de marcadores.
Gonzalez-Recio et al. (2008) compararam o mtodo no paramtrico ou semi-
paramtrico Reproducing Kernel Hilbert Spaces (RKHS) com a regresso bayesiana e
RR-BLUP em termos de eficincia na seleo genmica. Concluram que o mtodo
da regresso RKHS apresentou melhor capacidade preditiva do que os demais.
Espao de Hilbert (Hilbert Spaces) um conceito muito usado em fsica estatstica
(fsica quntica) ou mecnica estatstica (mecnica quntica) associado ao tema
entropia, ou medida de desordem ou imprevisibilidade de um sistema (Salinas, 2005).
Tambm so emprestados da fsica estatstica os conhecimentos da distribuio de
Gibbs, usados na implementao da anlise bayesiana. Mtodos de regresso com
reduo dimensional regresso via quadrados mnimos parciais (PLSR) e regresso
via componentes principais (PCR) foram avaliados por Solberg et al. (2009).
Concluram que esses so mais simples e rpidos computacionalmente, porm menos
acurados que o BayesB, com acurcias da ordem de 0,68 (PLSR e PCR) e 0,84
(BayesB). Outro mtodo eficiente nessa classe o ICR (Azevedo et al., 2012).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

155

Um procedimento BLASSO melhorado (IBLASSO ou Improved Bayesian
Lasso) foi proposto por Legarra et al. (2011). O IBLASSO apresenta capacidade
preditiva superior ao BLASSO e similar ao RR-BLUP-Het e BayesA com
distribuies a priori no informativas para os efeitos aleatrios e componentes de
varincia. Com base no exposto e nos resultados de literatura relatados, verifica-se
que na classe dos mtodos de regresso explcita, o BayesA, o LASSO bayesiano
Melhorado (IBLASSO) e o RR-BLUP so os mtodos favoritos quando o modelo
polignico infinitesimal se aplica. Na presena de genes de grande efeito, o mtodo
RR-BLUP necessita ser modificado de forma a permitir heterogeneidade de varincia
gentica entre locos; isso gera o mtodo RR-BLUP-Het. Adicionalmente, os mtodos
BayesA, RR-BLUP e RR-BLUP-Het podem necessitar serem complementados com a
seleo de covariveis por meio de alguma forma de GWAS. As varincias genticas
de cada loco, necessrias no mtodo RR-BLUP-Het, podem ser estimadas via os
mtodos BayesA (por meio de MCMC) ou IBLASSO.
O presente texto contempla os mtodos BayesA, BayesB, Fast BayesB,
BayesC, BLASSO, IBLASSO, RR-BLUP, RR-BLUP-Het, MCMC-BLUP, PLSR,
PCR, ICR e RKHS. Esses mtodos propiciam, em determinadas situaes, os trs
atributos desejveis de acomodao da arquitetura gentica do carter, regularizao
da estimao e seleo de covariveis.

6.7 Mtodo RR-BLUP
O mtodo RR-BLUP/GWS usa preditores do tipo BLUP, mas os efeitos de
marcadores no so ajustados como variveis classificatrias mas sim como variveis
explicativas ou explanatrias. Assim so variveis regressoras e so ajustadas como
covariveis de efeitos aleatrios, ou seja, os fentipos so regressados com base
nessas covariveis. O fato de serem covariveis e no variveis classificatrias,
conduz a diferentes matrizes de incidncia e consequentemente diferentes algoritmos
computacionais em relao ao BLUP tradicional. O nome mais apropriado
Regresso Aleatria (Random Regression) do tipo BLUP (RR-BLUP) aplicado
seleo genmica ampla (RR-BLUP/GWS). A tcnica da regresso aleatria um
tipo especial da regresso de cumeeira (Ridge Regression).

Os estimadores associados regresso aleatria e regresso de cumeeira
promovem shrinkage ditado por uma funo da quantidade (parmetro de
penalizao). Quando no conhecido, a escolha arbitrria do mesmo leva ao
mtodo de regresso ridge regression (RR). Se o parmetro de regresso for
associado a ) / /( /
2 2 2 2
Q g e gi e
n o o o o = = , tem-se a regresso aleatria BLUP para o
efeito do segmento cromossmico i, em que
2
gi
o a varincia gentica aditiva
associada ao loco ou segmento i e
2
g
o e
2
e
o so a varincia gentica aditiva do carter
e varincia residual, respectivamente. A quantidade n
Q
desconhecida a priori, mas
pode ser inferida conforme descrito adiante. O parmetro de penalizao pode
tambm ser determinado por via iterativa ou sintonia fina, escolhendo-se aquele que
maximiza a correlao entre valor fenotpico e valor gentico predito na validao
cruzada. Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor
a predio simultnea dos efeitos dos marcadores, sem o uso de testes de
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

156

significncia para marcas individuais. Isto contrasta com o mtodo da MAS proposto
por Lande e Thompson (1990). Uma comparao entre as trs proposies pode ser
vista na Tabela 26.

Tabela 26. Comparao entre as trs proposies de seleo auxiliada por marcadores.

Autores Mtodo Populao Nmero de
Marcadores (m)
Teste de
Significncia
Extenso para
o Enfoque
Bayesiano
Lande e
Thompson (1990)
MAS Indice
de Seleo
Reg. Mult.
Dentro de famlia
ou cruzamento
Muito menor que
tamanho do cruzamento
(N): m << N
Sim No
Whittaker et al.
(2000)
MAS Ridge
Regression
Dentro de famlia
ou cruzamento
Maior ou igual ao
tamanho do cruzamento
(N): m >= N
No No
Meuwissen et al.
(2001)
GWS RR-
BLUP
Toda a Populao Muito maior que tamanho
da populao de estimao
(N): m >> N
No Sim

Verifica-se pela Tabela 26, que a inovao de Meuwissen et al. (2001) no foi
em termos de metodologia estatstica mas, em termos conceituais enfatizando o uso
do conceito de desequilbrio de ligao em nvel populacional e no apenas dentro de
famlia e o no uso de testes de significncia para marcas. E o maior mrito foi a
demonstrao, via simulao, do fato de que a GWS pode realmente funcionar na
prtica.

A GWS enfatiza tambm o no uso de significncia estatstica para a seleo de
marcas. Esse ponto distingue a GWS da GWAS (Genome Wide Association
Studies), a qual procura associao entre locos e carter fenotpico em nvel
populacional, por meio de testes de hipteses visando detectar efeitos com
significncia estatstica. A GWAS sofre com a alta taxa de falsos negativos devido
ao uso de pontos de corte muito rigorosos visando evitar a ocorrncia de falsos
positivos. A GWS equivale GWAS aplicada sobre todos os locos simultaneamente
e baseando-se em estimao e predio em vez de teste de hiptese. Dessa forma
consegue explicar parte muito maior da variabilidade gentica e evitar a chamada
herdabilidade faltante ou perdida (missing heritability), tpica dos estudos de anlise
de ligao e de associao.

A distino entre regresso fixa, regresso ridge e regresso aleatria, em um
modelo usando somente fentipos, est associada ao parmetro de penalizao
*
, o
qual dado por
2 2 *
/ ) 1 ( h h = . Valores pequenos de
*
j so suficientes para reduzir
o impacto da multicolinearidade presente entre as covariveis na matriz WW, que
aproximadamente singular. Valor de
*
igual a zero (valor de h
2
igual a 1) caracteriza
a regresso fixa. Valores de
*
pequenos (0,01 a 1) caracterizam a regresso ridge e
valores altos de
*
(maiores que 0,1) caracterizam a regresso aleatria.

A predio via RR-BLUP descrita a seguir com base em Resende (2007;
2008). O seguinte modelo linear misto geral ajustado para estimar os efeitos dos
marcadores: y = Xb + Wm + e, em que y o vetor de observaes fenotpicas, b o
vetor de efeitos fixos, m o vetor dos efeitos aleatrios de marcadores e e refere-se ao
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

157

vetor de resduos aleatrios. X e W so as matrizes de incidncia para b e m. A
matriz de incidncia X contm os valores 0, 1 e 2 para o nmero de alelos do
marcador (ou do suposto QTL) em um indivduo diplide. Outra forma equivalente
de codificar usar os valores -1, 0 e 1. As equaes de modelo misto genmicas para a
predio de m via o mtodo RR-BLUP equivalem a:

(

=
(

(
(

+
y W
y X
m
b
n
I W W X W
W X X X
Q g
e
'
'

) / (
' '
' '
2
2
o
o
.

O valor gentico genmico global do indivduo j dado por

= =
i
i ij j
m w y VGG
,
em que W
i
equivale a 0, 1 ou 2 para os gentipos mm, Mm e MM, respectivamente,
para o marcador biallico e codominante i (SNP). O componente
ij
w refere-se ao
elemento i da linha j da matriz W, referente ao indivduo j.
Modelos com efeitos de dominncia (d) podem tambm serem ajustados.
Esses so da forma y = Xb + Wm + Td + e. Nesse caso, os elementos de W so
codificados como (2)
1/2
, 0 e (2)
1/2
para os gentipos MM, Mm e mm,
respectivamente. E os elementos de T so codificados como 1, 1 e 1 para os
gentipos MM, Mm e mm, respectivamente. Valores de W e T codificados dessa
forma so independentes e apresentam mdia zero e varincia 1. Se os elementos de
W so codificados com os valores -1, 0 e 1, os modelos com efeitos de dominncia
apresentam os elementos de T dados por 0, 1 e 0, para os gentipos MM, Mm e mm,
respectivamente.

As equaes de predio apresentadas acima assumem a priori que todos os
locos explicam iguais quantidades da variao gentica. Assim, a variao gentica
explicada por cada loco dada por
Q g
n /
2
o , em que
2
g
o a variao gentica total e
Q
n
o nmero de locos (quando cada loco est perfeitamente marcado por uma s
marca). A variao gentica
2
g
o pode ser estimada por REML sobre os dados
fenotpicos da maneira tradicional ou pela prpria variao entre os marcadores ou
segmentos cromossmicos de QTL, conforme descrito adiante. A quantidade
Q
n
dada por

=
n
i
i i Q
p p n ) 1 ( 2
.
Verifica-se que no h necessidade de uso da matriz de parentesco. A matriz
de parentesco baseada em pedigree usada no BLUP tradicional substituda por uma
matriz de parentesco estimada pelos marcadores. Essa matriz de parentesco funo
da prpria matriz WW presente nas equaes de modelo misto. Esse procedimento
superior ao uso do pedigree, pois efetivamente captura a matriz de parentesco
realizada para cada carter e no uma matriz de parentesco mdio associada ao
pedigree. Por exemplo, a correlao gentica aditiva entre dois irmos completos,
baseada em pedigree 0,5. Mas os marcadores pode indicar que o valor verdadeiro
uma frao entre 0 e 1. O valor 0,5 esperado em mdia. Mas a correlao pode ser 0;
0,5 ou 1, em cada loco, em funo do nmero de alelos idnticos compartilhados entre
os dois irmos.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

158

A GWS melhora a acurcia da estimativa
d
g , referente aos efeitos da
segregao mendeliana dentro de famlias e o mtodo que explora adequadamente a
segregao de amostragem mendeliana que ocorre por ocasio da formao de
gametas. Uma vez que a GWS avalia diretamente o DNA associado (via
marcadores) a cada loco de todo o carter polignico, avalia diretamente cada
segregao em nvel individual e no em nvel mdio. Avaliando diretamente o
gentipo dos filhos, permite conhecer cada segregao. Conforme Goddard & Hayes
(2007), sob o modelo infinitesimal com grande nmero de locos de pequeno efeito, o
BLUP genmico prediz os valores genticos de maneira mais acurada do que o BLUP
tradicional baseado em pedigree e dados fenotpicos. A GWS enfatiza mais o termo
referente segregao mendeliana
d
a , dando mais peso a esse componente do que o
faz o BLUP tradicional. Isso leva seleo de menos indivduos aparentados do que
o faz o BLUP, reduzindo assim o incremento da endogamia na populao.

A matriz de parentesco realizada G pode ser tambm computada parte e
incorporada nas equaes de modelo misto do BLUP tradicional, conforme o modelo
(iii) descrito a seguir. Nesse caso, ela dada por
] ) 1 ( 2 /[ ) ' (
* *

=
n
i
i i
p p W W G

(para SNPs), em que p
i
a freqncia de um dos alelos do loco i e W* refere-se
matriz W corrigida para suas mdias em cada loco (2p
i
). Para garantir G como uma
matriz positiva definida pode-se obter G
p
= G + 10
-6
I, em que I uma matriz
identidade. O coeficiente de endogamia genmico para o indivduo i dado por G
ii

1. Outra forma de obter G via '
* *
DW W G = , em que D diagonal com D
ii
dado por
)]} 1 ( 2 [ /{ 1
i i ii
p p n D = , em que n o nmero de marcadores.

A diagonal da matriz WW contempla o parentesco de um indivduo com ele
mesmo e os elementos fora da diagonal mostra o nmero de alelos compartilhados
por parentes. A correlao de Wright entre parentes pode ser obtida dividindo esses
elementos fora da diagonal pelo produto das razes quadradas dos respectivos
elementos da diagonal. Por outro lado, a diagonal da matriz WW mostra quantos
indivduos herdaram cada alelo e elementos fora da diagonal indicam quantas vezes
dois alelos diferentes foram herdados pelo mesmo indivduo. Usando mtodos
genmicos o conceito de endogamia em um loco neutral no mais vlido, pois so
consideradas medidas de parentesco nos locos do prprio carter sob seleo. As
medidas tradicionais de endogamia baseadas em pedigree resultam em perda de
diversidade muito mais variveis.

A predio de valores genticos genmicos via BLUP pode ser computada via 3
mtodos equivalentes:

(i) Via RR-BLUP, conforme especificado acima, em que:

)

( ' ) ' (
1 1 1
b X y R W I W R W W m W g + = =

, visto que
)

( ' ) ' (
1 1 1
b X y R W I W R W m + =

. O vetor aleatrio de erros tem varincia
igual a
2
) (
e
R e Var o = . R uma matriz diagonal de pesos para ponderar y
com diferentes confiabilidades. Com confiabilidades altas e homogneas
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

159

(maiores que 0,85), pode-se considerar R = I e o sistema simplifica para
)

( ' ) ' (
1
b X y W I W W m + =

, em que
) / (
2
2
2
2
Q g
e
m
e
n o
o
o
o
= =
.

(ii) Via BLP ou ndice de seleo (com G genmica e b

estimado via quadrados


mnimos generalizados, o que garantido quando y contem valores
genticos desregressados), em que: )

( )] / ( [
1 2 2
b X y R G G g
g e
+ =

o o . Se
necessrio os efeitos dos marcadores podem ser obtidos por
)

( )] / ( ]}[ ) 1 ( 2 /[ ' {
1 2 2
b X y R G p p W m
g e
n
i
i i
+ =

o o
. Com R = I, uma
observao por indivduo e dividindo ambos os lados da equao por G o
sistema simplifica para )

( )] / ( [
1 2 2 1
b X y G I g
g e
+ =

o o . Nesse caso, os
mtodos do ndice de seleo (Henderson, 1963; Resende et al., 1990; Lopes,
2005) e de modelos mistos (Henderson, 1973) so idnticos para a seleo
genmica.

(iii) Via BLUP Modelo Equivalente, em que:

)

( )] / ( [
1 1 2 2 1 1
b X y R G R g
g e
+ =

o o . Com R = I e uma observao por
indivduo o sistema simplifica para )

( )] / ( [
1 2 2 1
b X y G I g
g e
+ =

o o .

Na situao em que os marcadores no explicam toda a variao gentica, o
modelo pode ser estendido para englobar o efeito polignico residual g* (variao
gentica no explicada pelos marcadores). Esse modelo dado por y = Xb + Wm +
Tg* + e, em que T a matriz de incidncia para g*. Com o uso de mapa denso de
marcadores a incluso dos efeitos polignicos, g* no aumenta a acurcia da GWS
(Calus & Veerkamp, 2007). No entanto, para capitalizar o ganho gentico no longo
prazo, a incluso desses efeitos recomendada (Muir, 2007). No longo prazo, o
BLUP tradicional obtm informao no genoma inteiro em cada gerao. A GWS
sem o efeito polignico seleciona de forma muito acurada para a mesma parte do
genoma em cada gerao. Uma forma de aliviar esse problema por meio da re-
estimao dos efeitos de marcadores, freqentemente, visando explorao de novas
associaes de marcadores-QTL.

Para implementao do procedimento RR-BLUP/GWS so necessrios: W,
X, y e ) / /( /
2 2 2 2
Q g e gi e
n o o o o = = . O vetor y refere-se a fentipos corrigidos; a matriz
W refere-se contagem de doses dos marcadores moleculares; X um vetor
conhecido composto de valores 1; depende de componentes de varincia
(herdabilidade ou confiabilidade da seleo) e do nmero de segmentos
cromossmicos n
Q
. A seguir so descritos cada um desses elementos, conforme
Resende et al. (2010).





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

160

6.8 Formas de parametrizao da matriz de incidncia genotpica

Parametrizao 1

A matriz de incidncia W contm os valores 0, 1 e 2 para o nmero de alelos do
marcador (ou do suposto QTL) em um indivduo diplide. Com marcadores
codominantes a mdia e varincia da varivel indicadora W associada matriz de
incidncia so dadas por:
Mdia da varivel W = 0 x p
2
+ 1 x 2p(1-p) + 2 x (1-p)
2
= 2p
Varincia da varivel W = Var (Z) = Var (Z
i
) = (0 2p)
2
x p
2
+ (1 2p)
2
x 2p(1-
p) + (2 - 2p)
2
x (1-p)
2
= 2p(1-p)

Assumindo os alelos de cada marca como em equilbrio de Hardy-Weinberg
na populao, o clculo das frequncias allicas realizado conforme o quadro a
seguir, sendo p dado por p = N
2
/N + (1/2) N
1
/N, sendo o calculo realizado para cada
coluna de marcador no arquivo de dados em que N
2
o numero de cdigos 2 na
referida coluna no arquivo.

Gentipos Cdigo Contagem Frequencia Clculo da Frequencia de M
MM 2 N
2
p
2
N
2
/N = p
2

Mm 1 N
1
2p(1-p) (1/2) N
1
/N = p(1-p)
mm 0 N
0
(1-p)
2
0
Soma - N 1 p = N
2
/N + (1/2) N
1
/N

Os valores de W devem ser centrados em zero para que os efeitos das marcas
codominantes sejam efeitos de substituio allica com mdia zero na populao, e,
nesse caso, assumindo equilbrio de Hardy-Weinberg, a variao gentica aditiva do
carter na populao equivale a


m
i
m i i g
) p ( p =
2 2
1 2
. Dessa forma, os valores de W
i

devem ser subtrados pela mdia de W (via 0 - 2p, 1 - 2p e 2 - 2p, respectivamente)
obtendo-se uma varivel com mdia zero. Assim, com centralizao, no mtodo RR-
BLUP deve-se usar

=
m
i
i i Q
p p n ) 1 ( 2
e os efeitos genticos aditivos dos indivduos so
dados por m W g = . Para os indivduos com dados perdidos de marcas, seus valores
na matriz W devem ser o valor esperado 2p, que, centrados, transformam-se em
zero.
importante relatar que os efeitos dos QTLs via marcadores m so
assumidos com distribuio normal ( ) , 0 ( ~
2
m
I m ) e os alelos marcadores so
assumidos como amostras de uma distribuio Bernoulli com mdia p e varincia
p(1-p). O nmero de alelos em um indivduo diploide (varivel W) apresenta
distribuio Binomial com mdia 2p e varincia 2p(1-p) (2 provas Bernoulli).

Parametrizao 2

Adicionalmente, pode-se padronizar (usando ) p ( p W Var
i i i
= 1 2 ) ( ) os dados
dos marcadores na matriz W, da seguinte forma para cada elemento W
i
da matriz,
referente ao loco i:

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

161

W
i
= (0 2p
i
) /(Var(W
i
))
1/2
se o indivduo homozigoto para o primeiro
alelo (mm);
W
i
= (1 - 2p
i
)/(Var(W
i
))
1/2
se o indivduo heterozigoto (Mm);
W
i
= (2 - 2p
i
)/2/(Var(W
i
))
1/2
se o indivduo homozigoto para o segundo
alelo no loco marcador (MM);
W
i
= 0 se o indivduo apresenta dado perdido de marca.
A quantidade p
i
a frequncia do segundo alelo do marcador. Dessa forma, a
varincia de W com W
i
ajustado igual a 1, obtendo-se uma varivel com mdia zero
e varincia unitria. Sendo m o efeito do marcador na populao, a varincia devida
ao marcador dada por Var(W
i
m) = Var(W
i
) Var(m). Com a transformao acima,
Var(W
i
) = 1 e portanto, Var(W
i
m) = Var(m). Em outras palavras, modelando a
varincia do efeito do marcador, modela-se diretamente a varincia do marcador,
independentemente de sua frequncia. Assim, com centralizao e padronizao
2
m g
n =
2
. Dessa forma, no mtodo RR-BLUP deve-se usar n
Q
= n e os efeitos
genticos aditivos dos indivduos so dados por m W g = .
Essa padronizao reflete positivamente na composio da matriz de
parentesco genmico G usada no G-BLUP, a qual conter a mdia ponderada das
relaes de parentesco estimadas de cada loco marcador, em que os pesos da
ponderao so funo da inversa da PEV (varincia do erro de predio) associada
varivel indicadora W em cada marcador. No caso, a PEV dada por
) p ( p W Var W PEV
i i i i
= = 1 2 ) ( ) ( . E a matriz G dada por n WW G / ' = . Essa
parametrizao melhor do que a 1 e 3, segundo Meuwissen et al. (2011). Todavia
equivalente a parametrizao ' W WD G
P
= , mencionada em tpico anterior, em que
)] 1 ( 2 /[ 1 ) (
i i P
p p n D diag = . Pela parametrizao 1, tem-se no G-BLUP:
] ) 1 ( 2 /[ '

=
m
i
i i
p p WW G
, a qual melhor que a 2, segundo Endelman e Jannink (2012).
Parametrizao 3
Em outra parametrizao, a matriz de incidncia X contm os valores -1, 0 e 1
para o nmero de alelos do marcador (ou do suposto QTL) em um indivduo
diploide, ou seja, para os gentipos mm, Mm e MM, respectivamente. Essa
parametrizao ligeiramente inferior anterior (Legarra et al., 2011). Para essa
parametrizao deve-se usar, no mtodo RR-BLUP,


m
i
i i
) p ( p = n 1 2
e o efeito gentico
aditivo do indivduo j dado por
) 2 )( 1 ( ) )( 0 ( ) 2 )( 1 ( [
i i ij i i i i ij
m
i
i i ij j
m q w I m q m p w I m p w I g = + = + = =

.

Para garantir G como uma matriz positiva definida no G-BLUP, pode-se
obter G
p
= G + 10
-6
I, em que I uma matriz identidade, ou usar G
p
= e G + (1- e ) A,
ou usar G
p
= e G + (1- e ) I, em que :
m g
g
n Var
Var
/ 125 . 0 ) (
) (
+
=


e
,
m
n
que em
/ 125 . 0 05 . 0
05 . 0
2
2
+
= e

) ( 05 . 0 ) (
2
bovinos Var se
g
=

, conforme tpico 6.28. Assim, se nm = 1000, w = 0.95 o peso dado a G.

Parametrizaes para marcadores DArT so apresentadas por Resende et al. (2010).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

162

6.9 Correo dos Fentipos

Os fentipos devem ser corrigidos para os efeitos ambientais e dos genitores.
Assim, os valores genticos devem ser preditos e posteriormente desregressados e
corrigidos para os efeitos dos genitores. Devem ser desregressados por 3 motivos: no
pode haver duas regresses, uma baseada em pedigree e outra baseada em
marcadores; a matriz A baseada em pedigree menos precisa que a WW baseada
em marcas; presena de genes de grande efeito presentes em um dos genitores.
Adicionalmente devem ser corrigidos para os efeitos genticos dos genitores,
trabalhando-se basicamente com o efeito da segregao mendeliana desregressada, j que
o dado ideal para a populao de treinamento deve ser o mrito gentico verdadeiro de
indivduos no aparentados. E o efeito da segregao mendeliana proporciona isso:
analise da associao de alelos de marcas e de QTL, ou seja, captura efeitos genticos
explicados pelo desequilbrio de ligao e no pelo parentesco ou genealogia.

Uma forma explcita de se fazer isso, parcialmente, a considerao do
pedigree via ajuste de g*, o vetor de efeitos polignicos por meio do modelo y = Wb +
Xm + Tg* + e, em que T a matriz de incidncia para a*. Sem a correo mencionada
acima ou o ajuste de g*, os marcadores podem estar capturando apenas o parentesco
(estrutura de populao) entre os indivduos e no necessariamente o desequilbrio
de ligao com os genes propriamente ditos. Nesse caso, a acurcia da validao em
uma amostra independente (indivduos de outras famlias) da populao e, tambm,
em indivduos de outras geraes poder ser baixa, ao contrrio do que teria sido
predito.
Outra forma de realizar esse ajuste para estrutura de populao por meio do
ajuste dos efeitos de genitores como efeitos fixos (Vazquez et al., 2010). Este ajuste
suga dos valores genticos individuais os efeitos dos genitores, deixando somente os
efeitos da segregao mendeliana, os quais devem ser desregressados. Esse ajuste
adequado quando a acurcia da avaliao dos genitores prxima de 1. Vrias
alternativas de correo de fentipos so apresentadas no Captulo 1, tpico 1.12.
Outra opo de correo para estrutura de famlia segundo o modelo
descrito no final do item 4.3. Nesse caso, ajusta-se os primeiros autovetores
(associados aos maiores autovalores) de G como covariveis de efeitos fixos,
conforme descrito no incio do item 6.30.

Quando se tem um catalogo de valores genticos com diferentes acurcias, o
procedimento de obteno dos valores fenotpicos desregressados e corrigidos para os
efeitos genticos dos genitores envolve os seguintes passos (Garrick et al, 2009;
Resende et al., 2010):







Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

163

(i) Definio do sistema de equaes associado predio do valor gentico de um
indivduo i (
i
g ) e do valor gentico mdio de seus genitores j e k ( 2 / ) (
k j gm
g g g + = ):
(

=
(

+
+
i
gm
i
gm
i i
gm gm
y
y
g
g
Z Z
Z Z

2 2
2 4
* ' *
* * '


, em que:

2 2 *
/ ) 1 ( h h = , em que h
2
a herdabilidade ao nvel de indivduo.
gm gm
Z Z
'
: contedo de informao associado mdia dos genitores.
i i
Z Z
'
: contedo de informao associado ao indivduo (mais informaes
de seus descendentes ou clones).
i gm
y e y : informao fenotpica corrigida para os efeitos fixos associada
mdia dos genitores e ao indivduo, respectivamente.

(ii) Obteno da quantidade desconhecida
gm gm
Z Z
'
:

2 / 1 2 * * '
) / 16 ( 5 . 0 ) 4 5 . 0 ( o o o + + =
gm gm
Z Z , em que:
) 5 . 0 /( 1
2
gm
r = o
) 1 /( ) 5 . 0 (
2 2
i gm
r r = o
4 / ) (
2 2 2
gk gj gm
r r r + = : confiabilidade associada ao valor gentico mdio predito dos
genitores j e k.
2
i
r : confiabilidade associada ao valor gentico predito do indivduo.

(iii) Obteno da quantidade desconhecida
i i
Z Z
'
:
) 1 2 ( 2
* ' '
+ = o o
gm gm i i
Z Z Z Z

(iv) Obteno da quantidade desconhecida
i
y :
Resoluo para
i
y , do sistema
(

=
(

+
+
i
gm
i
gm
i i
gm gm
y
y
g
g
Z Z
Z Z

2 2
2 4
* ' *
* * '


. Assim,
i i i gm i
g Z Z g y ) 2 ( ) 2 (
* ' *
+ + = , o qual representa a informao do indivduo, agora
corrigida para o valor gentico mdio de seus genitores.

(v) Obteno do valor gentico desregressado
*

i
g :
) /(
' *
i i i i
Z Z y g = .

Assim, para obteno de
*

i
g necessita-se da herdabilidade h
2
, das
confiabilidades (quadrado da acurcia) das avaliaes dos trs indivduos (
2
gj
r ,
2
gk
r e
2
i
r ) e dos efeitos genticos preditos dos trs indivduos (
i
g ,
j
g e
k
g ).


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

164

Considere um carter com h
2
de 0.20 e a avaliao gentica de 3 indivduos
onde foram obtidos os seguintes resultados:
i
g = 18,
j
g =13 e
k
g = 5;
2
i
r = 0.70
2
gj
r = 0.90 e
2
gk
r = 0.80. Assim, so obtidos:
425 . 0 4 / ) 80 . 0 90 . 0 ( 4 / ) (
2 2 2
= + = + =
gk gj gm
r r r ;
9 2 / ) 5 13 ( 2 / ) ( = + = + =
k j gm
g g g ;
4 2 . 0 / 8 . 0 / ) 1 (
2 2 *
= = = h h ;
3333 . 13 ) 425 . 0 5 . 0 /( 1 ) 5 . 0 /( 1
2
= = =
gm
r o ;
25 . 0 ) 70 . 0 1 /( ) 425 . 0 5 . 0 ( ) 1 /( ) 5 . 0 (
2 2
= = =
i gm
r r o .

Com base nesses valores e seguindo o passo (ii) calcula-se
gm gm
Z Z
'
:
765 . 41 ) 25 . 0 / 16 3333 . 13 ( 4 5 . 0 ) 4 3333 . 13 5 . 0 ( 4 ) / 16 ( 5 . 0 ) 4 5 . 0 (
2 / 1 2 2 / 1 2 * * '
= + + = + + = o o o
gm gm
Z Z

A seguir calcula-se o
i i
Z Z
'
seguindo o passo (iii):
4412 . 6 ) 1 25 . 0 2 ( 4 2 765 . 41 25 . 0 ) 1 2 ( 2
* ' '
= + = + = o o
gm gm i i
Z Z Z Z .

Computa-se agora, seguindo o passo (iv), a quantidade
9423 . 187 18 ) 4 2 4412 . 6 ( 9 ) 4 2 ( ) 2 ( ) 2 (
* ' *
= + + = + + =
i i i gm i
g Z Z g y .

E finalmente calcula-se o valor corrigido e desregressado , seguindo o passo (v):

1780 . 29 4412 . 6 / 9423 . 187 ) /(
' *
= = =
i i i i
Z Z y g . Esse o valor do indivduo, a ser
usado na anlise genmica integrando o vetor y. Tal quantidade equivalente
a
* 2 *
/ ) (
i gm i i
r g g

= , ou seja, ao valor gentico individual corrigido para a mdia
de seus genitores e desregressado pela quantidade
6169 . 0 ) 4 4412 . 6 /( 4 1 ) /( 1
* * ' * * 2
= + = + =
i i i
Z Z r , que a acurcia da estimao
do efeito da segregao mendeliana.

Em caso de testes de prognie em uma s gerao, o valor individual corrigido
para o valor gentico mdio de seus genitores e desregressado so dados pela
expresso ) 5 , 0 5 , 0

(
*
k j i
g g c C b X y g = , em que b

e c so os efeitos
estimados de blocos e de parcelas, com respectivas matrizes de incidncia X e C.

Apenas desregressar por
2
i
r captura LD e parentesco. Seria necessrio ajustar o
efeito polignico para remover a estruturao devida ao parentesco. Regressar por
* 2
i
r
e corrigir para efeito dos genitores captura apenas LD, eliminando a correlao
intraclasse entre os valores genticos preditos. Por esse motivo, o valor gentico
genmico dos indivduos na populao de validao (visando cmputo da acurcia)
so dados por
*
m W u g u
i i
+ = + . No se deve somar
gm
g . Por outro lado, na
populao de estimao, visando a seleo, deve-se computar
*
m W g u g u
i gm i
+ + = + ou fazer a predio de m usando os valores genticos
desregressados, mas no corrigidos para os efeitos dos genitores e usar diretamente
m W u g u
i i
+ = + . Na populao de seleo propriamente dita (onde apenas os
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

165

gentipos dos marcadores esto disponveis), a seleo precoce deve basear-se
diretamente em m W u g u
i i
+ = + , mas a acurcia da seleo calculada com base em
*
m W u g u
i i
+ = + , em que
*
m o vetor de efeitos preditos dos marcadores, obtido
via
*

i
g , usando valores genticos desregressados e corrigidos para os efeitos de
genitores. Po outro lado, m o vetor de efeitos preditos dos marcadores, obtido
usando valores genticos apenas desregressados.

6.10 Relao entre Varincia Gentica e Varincia dos Marcadores

A relao entre varincia gentica aditiva e varincia dos efeitos dos
marcadores essencial na predio genmica. Tem-se que Var(g
i
) = Var(W
i
m) =
Var(W
i
) Var(m) = 2p
i
(1-p
i
) Var(m
i
) = 2p
i
(1-p
i
) m
i
2
equivale varincia gentica
devida ao loco i. Para vrios locos, a varincia gentica aditiva total dada por

=
n
i
i i i g
m p p
2 2
) 1 ( 2 o
, a qual pode ser expressa tambm por

=
n
i
i i g
V U
2
o
, em que
) 1 ( 2
i i i
p p U = e
2
i i
m V = . A covarincia entre U e V, denominada C
UV
dada por
) / ) )( / ( / ) (

=
n
i
n
i
i i
n
i
i i UV
n V n U n V U C
e refere-se covarincia entre frequncias allicas e
magnitudes dos efeitos allicos. Rearranjando essa expresso tem-se
) / ) )( (

+ =
n
i
n
i
i i
n
i
UV i i
n V U nC V U
, de forma que

+ = =
n
i
i
n
i
i i
n
i
UV i i g
n m p p nC V U / ) ( )] 1 ( 2 [
2 2
o
.
Sendo 2 2
/ ) (
m
n
i
i
n m o =

, tem-se
UV
n
i
m i i g
nC p p + =

] ) 1 ( 2 [
2 2
o o
.
Assim, a varincia entre marcadores (
2
m
o ) obtida por REML, as freqncias
allicas e os efeitos dos marcadores preditos por BLUP podem ser usados na obteno
da varincia gentica aditiva total. Em alguns casos C
UV
tende a zero, revelando
ausncia de correlao entre frequncias e efeitos allicos (Resende et al., 2010). Em
outros casos, a quantidade
2
i
m substituda por
2
m
o , pois a esperana de
2
i
m a
varincia do efeito do marcador, ou seja,
2 2
) (
m i
m E o = . Assim, muitas das aplicaes
usam
] ) 1 ( 2 [
2 2

=
n
i
m i i g
p p o o
e a varincia entre marcadores dada por
] ) 1 ( 2 /[ ) (
2 2

=
n
i
i i UV g m
p p nC o o
simplificada para
] ) 1 ( 2 /[
2 2 2

= =
n
i
i i g gi m
p p o o o
.

Na predio RR-BLUP/GWS necessita-se da quantidade
) / /( /
2 2 2 2
Q g e gi e
n o o o o = = , em que
Q
n o nmero de locos controlando o carter
(assumindo que cada loco est perfeitamente marcado), o qual desconhecido a
priori. Sendo
] ) 1 ( 2 /[
2 2

=
n
i
i i g gi
p p o o
,
Q
n pode ser tomado como
] ) 1 ( 2 [


n
i
i i
p p
.
Alternativamente, pode ser expresso como
2 2 2 2
/ ) 1 ]( ) 1 ( 2 [ / ) 1 ( h h p p h h n
n
i
i i Q
= =

. Assim, de posse de h
2
e das freqncias
allicas nos locos marcadores, obtm-se para uso nas equaes de modelo misto.

A varincia gentica e a herdabilidade (h
2
) podem ser computadas via dados
fenotpicos ou via dados de marcadores e fenotpicos conforme descrito acima no
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

166

cmputo de
2
g
o . A h
2
a ser usada no RR-BLUP deve ser a herdabilidade ajustada ou
dos dados corrigidos (
2 2 2
/
yaj a aj
h o o = ), em que
2
yaj
o a varincia fenotpica ajustada.
Se y corrigido para a mdia dos genitores o numerador de
2
aj
h deve conter apenas a
varincia gentica devida segregao mendeliana, ou seja,
2 2 * 2
/ ) 2 / 1 (
yaj a aj
h o o = ou
2 2 * 2
/ ) 4 / 3 (
yaj a aj
h o o = quando se conhece os dois genitores (famlias de irmos
germanos) ou apenas um dos genitores (famlias de meios irmos), respectivamente.
Essas herdabilidades podem ser expressas tambm em funo da herdabilidade
individual h
2
, por meio das expresses )) 1 ( 2 / 1 /( ) 2 / 1 (
2 2 2 * 2
h h h h
aj
+ = para
prognies de irmos germanos e )) 1 ( 4 / 3 /( ) 4 / 3 (
2 2 2 * 2
h h h h
aj
+ = para prognies de
meios-irmos (Resende, 2002). Essas frmulas mostram que o denominador de
* 2
aj
h
tambm contempla apenas a varincia gentica devida segregao mendeliana e no
a varincia gentica total. Outra forma de expressar
* 2
aj
h usar diretamente a
confiabilidade ou quadrado da acurcia dos efeitos da segregao mendeliana (
* 2
i
r ).
Para cmputo do RR-BLUP e da acurcia da GWS,
* 2
aj
h pode ser tomada como a
mdia dos
* 2
i
r dos indivduos em anlise.

Recomenda-se analisar inicialmente todo o conjunto de marcadores
codominantes em todos os indivduos fenotipados (populao de estimao
completa). Esse procedimento visa identificar os marcadores com maiores efeitos em
mdulo, objetivando rodar anlises com subgrupos menores de marcadores e
determinar quantos e quais marcadores maximizam a acurcia seletiva. O nmero
timo de marcadores um compromisso entre maior informatividade (maior
acurcia, pela maior captura de genes) e menor preciso (menor acurcia, pelo menor
tamanho amostral por efeito estimado) com o aumento do nmero de marcadores.
Posteriormente, a validao deve ser realizada usando apenas a frao de marcadores
que maximiza a acurcia, usando n como o somatrio
] ) 1 ( 2 [


n
i
i i
p p
nesse
subconjunto de marcadores. Tambm
2
m
o e h
2
devem ser recalculadas, sendo que essa
h
2
pode ser menor do que aquela calculada anteriormente. Mas a h
2
usada para
computar a acurcia a partir da capacidade preditiva, via h r r
y y q q
/

= , deve ser a h
2

total, estimada dos prprios dados fenotpicos. Essa tende a ser similar a h
2
estimada
via marcadores, quando se usa o total de marcas em grande nmero. Esse
procedimento de seleo indireta de covariveis (denominado RR-BLUP_B por
Resende et al. 2010 e Resende Jr. et al. 2012) recomendvel, pois tende a produzir
acurcia mais alta, similar obtida pelos mtodos Bayesianos. Dessa forma, ambas as
abordagens assumem que muitos dos marcadores apresentam efeitos zero. O
aumento ou diminuio da acurcia da GWS via RR-BLUP um compromisso ou
balano entre acrscimo da quantidade de informao til via uso de maior nmero
de locos marcadores e diminuio do tamanho de amostra efetivo para estimar o
efeito de cada loco, ou seja, menor nmero de indivduos por loco a ser estimado
(menor N/n).

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

167

O nmero reduzido de marcadores explicando grande parte da variao
gentica ou da acurcia mxima possvel muito interessante do ponto de vista
prtico. Nesse caso, arranjos de DNA com baixa densidade de marcadores
previamente selecionados poderiam ser usados nas populaes de seleo. Na
Austrlia, a acurada predio de valores genticos genmicos em gado leiteiro pode
ser realizada com chips de SNP contendo 1000 (propiciando 85% da acurcia obtida
com 42500 SNP) a 5000 (propiciando 95% da acurcia obtida com 42500 SNP) SNP
igualmente espaados (Moser et al., 2010). Uma alternativa ao uso de marcadores
previamente selecionados o uso de marcadores igualmente espaados e em maior
nmero do que aqueles selecionados. Isso permite atender a vrios caracteres e pode
conduzir ao uso generalizado da GWS em vrias espcies e pases.

6.11 Exemplo via RR-BLUP/GWS

Considere o pequeno exemplo a seguir, referente avaliao de 5 indivduos para
o carter dimetro e genotipagem para 7 marcas, em que so apresentados o nmero
de um dos alelos de cada loco marcador.

Individuo Dimetro Marca 1 Marca 2 Marca 3 Marca 4 Marca 5 Marca 6 Marca 7
1 9.87 2 0 0 0 2 0 0
2 14.48 1 1 0 0 1 1 0
3 8.91 0 2 0 0 0 0 2
4 14.64 1 0 1 0 1 0 0
5 9.55 1 0 0 1 1 1 0

Os efeitos genticos dos marcadores so obtidos resolvendo-se
(

=
(

(
(

+
y W
y X
m
b
n
I W W X W
W X X X
Q g
e
'
'

) / (
' '
' '
2
2
o
o
.

Tem-se as seguintes matrizes:

(
(
(
(
(
(

=
0 1 1 1 0 0 1
0 0 1 0 1 0 1
2 0 0 0 0 2 0
0 1 1 0 0 1 1
0 0 2 0 0 0 2
W
(
(
(
(
(
(

=
9.55
14.64
8.91
14.48
9.87
y
;
(
(
(
(
(
(

=
1
1
1
1
1
X
.

Efetuando-se as multiplicaes e assumindo
) / (
2
2
Q g
e
n o
o
= 1, tem-se
] 5 [ ' = X X ; 2] 2 5 1 1 3 5 [ ' = W X ; 2]' 2 5 1 1 3 5 [ )' ' ( ' = = W X X W
(
(
(
(
(
(
(
(
(

= +
5 0 0 0 0 4 0
0 3 2 1 0 1 2
0 2 8 1 1 1 7
0 1 1 2 0 0 1
0 0 1 0 2 0 1
4 1 1 0 0 6 1
0 2 7 1 1 1 8
' I W W
Xy = [57.45]
(
(
(
(
(
(
(
(
(

=
17.8200
24.0300
58.4100
9.5500
14.6400
32.3000
58.4100
' y W

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

168


Assim, tem-se:
(
(
(
(
(
(
(
(
(
(

(
(
(
(
(
(
(
(
(
(

=
(

17.8200
24.0300
58.4100
9.5500
14.6400
32.3000
58.4100
57.4500
5 0 0 0 0 4 0 2
0 3 2 1 0 1 2 2
0 2 8 1 1 1 7 5
0 1 1 2 0 0 1 1
0 0 1 0 2 0 1 1
4 1 1 0 0 6 1 3
0 2 7 1 1 1 8 5
2 2 5 1 1 3 5 5

-1
m
b
.

Os resultados so
(
(
(
(
(
(
(
(
(
(

=
(

1.63765 -
0.5436
0.3526 -
1.3701 -
1.4467
0.2761
0.3526 -
12.4519

m
b
, em que 12,4519 a mdia geral e os demais valores
so as estimativas dos efeitos genticos dos marcadores.

O valor gentico genmico dos indivduos de uma populao de seleo
podem ser obtidos por

= =
i
i ij j
m w y VGG
. No caso, as predies para os 5 indivduos
so
(
(
(
(
(
(

=
1.5317 -
0.7415
2.7230 -
0.1145
1.4104 -
VGG
. Outras formas de obteno de W so apresentadas no tpico 6.8.
6.12 G-BLUP com Dominncia e Interao GE: Avaliao Simultnea
Global

Modelo BLUP Individual Fenotpico

O modelo linear misto convencional, contemplando os efeitos fixos (b),
genticos aleatrios (a) e ambientais aleatrios (e) dado por: e Zg Xb y + + = .

Modelo de QTL

Incluindo os efeitos (q) dos QTLs para cada loco j, o modelo torna-
se
e q Q Zg Xb y
j
j j
+ + + =

*
,em que Q
j
uma matriz de incidncia que relaciona os
indivduos aos alelos do loco j, e q contm os efeitos allicos para cada loco. As
matrizes de incidncia Q no so conhecidas e nem as suas dimenses, dadas pelo
nmero de alelos em cada loco. Tambm no conhecido o nmero de locos que
afeta o carter. Isto contrasta com o primeiro modelo, em que as matrizes de
incidncia para b e g (X e Z, respectivamente) so conhecidas. Se Q fosse conhecida
as equaes de modelo misto poderiam ser usadas sem qualquer alterao.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

169

Modelo GWS

Um outro modelo melhor poderia ser
e q Q Xb y
j
j j
+ + =

, no qual todos os locos
seriam individualizados e no haveria necessidade de incluso do resduo gentico
polignico ou infinitesimal (
*
g ). Como se conhecem apenas os marcadores esse
modelo dado por
e m W Z Xb y
i
i i
+ + =

.

O que torna a anlise de QTL e da GWS diferenciada do BLUP tradicional o
fato da matriz Q ser desconhecida. No entanto, ela pode ser estimada com base nas
informaes dos marcadores. Segundo Perez-Enciso e Misztal (2004), a forma como
os marcadores so usados para estimar W e a forma de definio de q resulta em
distintos modelos que contemplam os vrios delineamentos para a anlise de QTLs e
formas de seleo genmica.

Modelo G-BLUP

A avaliao gentica em um programa de melhoramento gentico envolve
simultaneamente indivduos fenotipados e genotipados, apenas fenotipados e apenas
genotipados. Essas trs classes de indivduos necessitam ter seus valores genticos
preditos para que sejam ordenados e comparados. Uma opo realizar trs predies
isoladas e fazer o ordenamento global. Outra opo para o grupo de indivduos
apenas genotipados estabelecer um ndice combinando a predio genmica com a
predio baseada nos valores genticos preditos de seus genitores (ver final do tpico
6.26). No entanto, a alternativa mais eficiente realizar toda a predio em um nico
passo, conforme relatado por Misztal et al. (2009) e apresentado a seguir.
Para o grupo de indivduos genotipados e fenotipados, o seguinte modelo linear
misto geral ajustado para estimar os efeitos genticos aditivos usando informaes
fenotpicas: y = Xb + Zg + e, em que y o vetor de observaes fenotpicas, b o vetor
de efeitos fixos, g o vetor dos efeitos genticos aditivos individuais (aleatrios) e e
refere-se ao vetor de resduos aleatrios. Xe Z so as matrizes de incidncia para b e
g. Usando informaes fenotpicas e dos marcadores tem-se o modelo equivalente: y
= Xb + ZWm + e, em que m o vetor dos efeitos aleatrios de marcadores, W a
matriz de incidncia para m e g = Wm. A matriz de incidncia W contm os valores
0, 1 e 2 para o nmero de alelos do marcador (ou do suposto QTL) em um indivduo
diploide. Outra forma equivalente de codificar W usar os valores -1, 0 e 1 (Resende,
2007; 2008; Resende et al., 2010).
As equaes de modelo misto para a predio de g via o mtodo G-BLUP
equivalem a:
(

=
(

(
(

+

y Z
y X
g
b
G Z Z X Z
Z X X X
g
e
'
'

' '
' '
2
2
1
o
o
, em que
] ) 1 ( 2 /[ ) ' ( / ) ' (

= =
n
i
i i
p p WW k WW G
e


n
i
i i
) p ( p = k 1 2
. Com padronizao prvia dos elementos de W (dividindo-os por
2 / 1
1 [2 ] ) p ( p
n
i
i i

) e centrando a mdia em zero tem-se n WW' = G / , em que n o nmero
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

170

de marcas. O parmetro de escala


n
i
i i
) p ( p = k 1 2
assume independncia entre
efeitos de SNPs. Visando contornar essa suposio, Gianola et al. (2009) sugeriram o
seguinte parmetro de escala:
( ) ( ) n n p p q p k
n
i
i i
|
|
.
|

\
|
+ + + |
.
|

\
|
+ =

) /( 2 / )] 1 ( [ 2 ) (
2
0 0
| o | o
em que ) + ( = p /
0
a
frequncia allica esperada, ) p ( = q
0 0
1 e e so parmetros da distribuio
beta ajustando a frequncia allica bsica e n o nmero de marcadores SNP. O
estimador de g pode ser resumido em:
| | | | Z

G + Z Z' = g
g
e 1
1
2
2

(
(

.
A matriz G densa e sua inverso apresenta alta demanda computacional.
Assim, interessante evitar essa inverso. Isto pode ser feito modificando
(multiplicando por G) as equaes de modelo misto para
(

=
(



y R GZ
y R X
g
b
I Z R GZ X R GZ
Z R X X R X
g
1
1
2 1 1
1 1
'
'

) / 1 ( ' '
' '
o

ou, na sua forma simplificada em funo de R, para
(

=
(

(
(

+
y GZ
y X
g
b
I Z GZ X GZ
Z X X X
g
e
'
'

' '
' '
2
2
o
o
. Esse sistema de equaes ento resolvido pelo mtodo
de Gauss-Seidel ou por iterao nos dados. Mas, em muitos casos, o nmero N de
indivduos genotipados baixo e, como a matriz G tem dimenso N x N, a mesma
pode ser invertida diretamente.
Para a avaliao global das trs classes de indivduos em um nico passo, o
mesmo modelo y = Xb + Zg + e pode ser usado, porm com uma alterao
(substituio da matriz G pela matriz H) nas equaes de modelo misto, conforme
Misztal et al.(2009):
(

=
(

(
(

+

y Z
y X
g
b
H Z Z X Z
Z X X X
g
e
'
'

' '
' '
2
2
1
o
o
.
A matriz H inclui ambas as relaes, baseadas em pedigree (A) e diferenas
(

A ) entre essas e as relaes genmicas, de forma que H = A +

A . Assim, H dada
por
22
12
21
11
0
0
0
A G
A
G
A
A
A
H

+ = =
, em que os subscritos 1 e 2 representam indivduos no
genotipados e genotipados, respectivamente.

A inversa de H, que permite computaes mais simples, dada por:
1
22
1 22
12
21
11
1
22
1
1 1
0
0
0


+
=

+ =
A G A
A
A
A
A G
A H
, em que
1
22

A a inversa da matriz de
parentesco baseada em pedigree para os indivduos somente genotipados.

O valor gentico genmico global do indivduo j dado por

i
i ij j
m w = g
. Esse,
quando estimado quando o individuo j no participa da estimao de , pode ser
correlacionado com o fentipo observado de j, visando fazer a validao. A partir da
estimao dos valores genticos ( g ) pelo G-BLUP, os efeitos estimados dos
marcadores ( m ) podem ser obtidos, conforme desenvolvido a seguir:
. ) (
1
g W W W m m W W g W m W g

= = =
.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

171

A anlise pelo G-BLUP favorvel computacionalmente, pois resulta em um
menor nmero de equaes a serem resolvidas. Outro uso importante dessa anlise
refere-se estimao da herdabilidade total explicada por todos os marcadores
simultaneamente. Com matriz de parentesco dada por
] ) p ( p [ ) (WW' = k ) (WW' = G
n
i
i i
1 2 / /
, essa h
2
pode ser estimada por REML fazendo
uso das equaes de modelo misto para a estimao dos componentes de varincia
2
g
e
2
e
. Segundo outra parametrizao, os elementos da matriz G representam o
parentesco realizado mdio multi-locos e so dados por



n
= i i i
i ik i ij
jk
) p (
) )(w (w
n) ( = G
1
1 2p
2p 2p
/ 1
. Outro ponto favorvel do G-BLUP refere-se
possibilidade de estimao direta (via PEV) da acurcia da GWS. Para indivduos
com fentipos, essa acurcia ser aquela sem validao cruzada, vlida apenas para a
populao de estimao. No G-BLUP, a populao de validao (indivduos que
foram apenas genotipados) tem seus fentipos substitudos por dados perdidos e,
portanto, os indivduos dessa populao tem uma estimativa validada da acurcia.
Um modelo G-BLUP incluindo efeitos de dominncia (d) e epistticos do
tipo aditivo x aditivo (aa) pode ser ajustado e dado por y = Xb + Zg + Zd + Zaa + e,
em que a estrutura de varincias dada por
) , 0 ( ~ ); , 0 ( ~ ); , 0 ( ~ ); , 0 ( ~
2 2 2 2
e aa aa d d g
I N e G N aa G N d G N g e os efeitos
epistticos apresentam matriz de covarincia G
aa
= G#G, em que # denota o produto
de Hadamard. Os efeitos de dominncia apresentam matriz de incidncia S e de
covarincia G
d
, com varincia
2
1
2
] ) 1 2p ( 1 ][ 1 [2p
md
n
i
i i i i d
) p ( ) p ( o o

=
=
, em que
2
md
o a
varincia de dominncia contribuda por um loco m. A relao
2 2
/
d md
o o entodada
por
] ) 1 2p ( 1 ][ 1 [2p / 1 /
1
2 2

=
=
n
i
i i i i d md
) p ( ) p ( o o
.
A matriz S anloga W e composta por valores de 0, 1 e 0 (para os
gentipos marcadores MM, Mm e mm, respectivamente), seguindo, portanto,
distribuio Bernoulli com mdia ) p (
i i
1 2p e varincia ] 1 2p ( 1 ][ 1 [2p ) p ( ) p (
i i i i
.
Subtraindo os elementos de S pela mdia ( ) p (
i i
1 2p ), obtm-se os seguintes
valores de
ij
s , para o marcador i no indivduo j: ] 1 [2p - 0 s
ij
) p (
i i
= ,
] 1 [2p - 1 s
ij
) p (
i i
= e ] 1 [2p - 0 s
ij
) p (
i i
= , respectivamente, obtendo-se uma varivel
com mdia zero. Para os indivduos com dados perdidos de marcas, seus valores na
matriz S devem ser o valor esperado ) p (
i i
1 2p , que, centrados, transformam-se em
zero. Assim, valores perdidos devem ser substitudos por 0 s
ij
= .
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

172

Sendo
2
' ) (
md d
SS Sm Var o = e pelo modelo equivalente
2 2
' ) (
md d d d
SS Sm Var G o o = = ,
a matriz de parentesco de dominncia , ento, dada por
2 2
/ '
d md d
SS G o o = . Sendo
] ) 1 2p ( 1 ][ 1 [2p / 1 /
1
2 2

=
=
n
i
i i i i d md
) p ( ) p ( o o
, tem-se
] ) 1 2p ( 1 ][ 1 [2p / '
1

=
=
n
i
i i i i d
) p ( ) p ( SS G
.
Os elementos da matriz
d
G representam o parentesco realizado mdio de
dominncia multi-locos e so ento dados por



n
i= i i i i
i i ik i i ij
d
) p ( ) p (
s s
n) ( = G
jk
1
)] 1 2p ( 1 ][ 1 [2p
)] p 1 ( 2p ( )][ p 1 ( 2p ( [
/ 1
.
Modelos em nvel de indivduos contemplando as interaes gentipos
ambientes (ge) podem tambm ser ajustados, desde que existam indivduos
aparentados no mesmo ambiente e tambm entre ambientes. Neste caso, o modelo
equivale a y = Xb + Zg + Zge + e, em que ge o vetor dos efeitos da interao entre os
efeitos genticos aditivos e de ambientes (aleatrios) e Z a matriz de incidncia
para a e ge. As equaes de modelo misto para a predio de a e ge via o mtodo
BLUP equivalem a:
(
(

=
(
(

(
(
(
(
(
(

+
+

Z
y Z
y X
e g
g
b
G Z Z Z Z X Z
Z Z G Z Z X Z
Z X Z X X X
ge
e
ge
g
e
'
'


' '
' '
2
2
1
2
2
1
o
o
o
o
, em que:
G
ge
= G para pares de indivduos no mesmo ambiente e G
ge
= 0 para pares de
indivduos em diferentes ambientes. A varincia da interao entre os efeitos
genticos aditivos e de ambientes denotada por
2
ge
.
O mtodo G-BLUP ou BLUP genmico pode tambm ser implementado
considerando a heterogeneidade de varincia entre marcadores. Nesse caso, a matriz
G dada por
] ) 1 ( 2 /[ ) ' (
* *

=
n
i
i i
p p DW W G
, em que p
i
a frequncia de um dos alelos
do loco i e W* refere-se matriz W corrigida para suas mdias em cada loco (2p
i
). A
matriz D dada por ) ( = diag(D)
n
2 2
1
... e os elementos
2
i
podem ser obtidos pelos
mtodos IBLASSO, BLASSO, BayesA, BayesB, etc. Essa abordagem apresenta
tambm os seguintes pontos favorveis: (i) permite a anlise simultnea de
indivduos genotipados e no genotipados; (ii) permite o cmputo direto da acurcia
seletiva via inverso da matriz dos coeficientes das equaes de modelo misto; (iii) a
matriz D pode ser estimada em apenas uma amostra da populao e ser usada em
toda a populao de seleo e em vrias geraes; (iv) permite considerar a
heterogeneidade de varincia gentica entre marcadores.









Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

173

6.13 GBLUP e Regresso Aleatria Multivariada (MRR)

Para caracteres associados a curvas de crescimento em funo do tempo ou da
idade de avaliao, os modelos de regresso aleatria multivariados (MRR) devem
ser adotados considerando dois conjuntos de regresso dos fentipos do carter em
funo das idades mensuradas. O primeiro conjunto diz respeito regresso fixa para
os indivduos pertencentes mesma classe de efeitos fixos e o segundo contempla
efeitos aleatrios que descrevem os desvios de cada indivduo em relao regresso
fixa. As regresses fixas e aleatrias so representadas por funes contnuas.

Um modelo de regresso aleatria multivariado pode ser ajustado para os
efeitos aleatrios gentico aditivo e ambiente permanente cujas covariveis podem
ser descritas por polinmios de Legendre. Esse modelo dado por y = Xb + Zg + Tp
+ e, em que p o vetor dos efeitos de ambiente permanente com matriz de incidncia
T. Expresso de outra forma, o modelo dado por e p g Xb y
p g
+ + + = | | , em que
g
| e
p
| so matrizes de incidncia para os coeficientes polinomiais dos efeitos gentico
aditivo e de ambiente permanente, respectivamente.

As distribuies dos coeficientes de regresso aleatria so dadas por:
) , 0 ( ~
g
K A N g , sendo A a matriz de parentesco entre os indivduos e
g
K uma matriz
de dimenso (k
g
+1) x (k
g
+1) de covarincias entre coeficientes de regresso aleatria
para os efeitos genticos aditivos;
n P
p ~ N(0,I K ) , sendo
n
I uma matriz identidade
de ordem n e
P
K

uma matriz de dimenso (k
p
+1) x (k
p
+1) de covarincias entre
coeficientes de regresso aleatria para os efeitos de ambiente permanente. Maiores
detalhes so apresentados no Captulo 1. Com seleo genmica os modelos de
regresso aleatria multivariados devem usar, em lugar de A, a matriz de parentesco
genmico, dada por
] ) p ( p [ ) (WW' = k ) (WW' = G
n
i
i i
1 2 / /
.

6.14 Comparao entre Mtodos de Estimao Penalizada
Mtodos de estimao penalizada

Em um problema de regresso tem-se que a varivel dependente y dada
como funo de uma varivel preditora (w) e vetor de erros aleatrios (e), segundo o
modelo
e + w ' = y
. No contexto da seleo genmica define-se w como um vetor
de gentipos marcadores codominantes geralmente codificados como 0, 1 ou 2 de
acordo com o nmero de cpias de um dos alelos do loco marcador. E definido
como um vetor de coeficientes de regresso que contemplam os efeitos dos
marcadores no carter fenotpico y, via desequilbrio de ligao com os genes que o
controlam. Aqui, a notao substitui a notao m usada nos tpicos anteriores.

Usando esperana condicional, a equao de regresso dada por:
w) | E(y = w ' = y


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

174

Isso implica
] ) , | ( ) ( /[ ] ) , | ( ) ( [ ) , | (

} }
= = | | | | | | | | | d w y p p d w y p p y w E
, em
que
) p( a funo densidade de probabilidade de

e w) , | p(y a funo de
verossimilhana de y.

Assim, a predio de y depende de ) p( , ou seja, da distribuio dos efeitos
(via LD com os QTLs) dos marcadores. Essa distribuio pode ser tratada como
informao ou distribuio a priori no contexto bayesiano ou como varivel aleatria
no contexto frequentista. Se ) N(

2
0, ~ ,


BLUP de e y BLUP de y. Isto
implica que os efeitos de todos os marcadores so tomados da mesma distribuio.
Alternativamente, pode ser assumido que ) N(
i
i
2
0, ~
, em que


i
2
tomado de
uma distribuio qui-quadrado invertida, segundo o enfoque bayesiano. Nesse caso,
isso implica que grande nmero de marcadores apresenta efeitos pequenos e poucos
marcadores apresentam efeitos grandes.

Esse mtodo BLUP para os coeficientes de regresso denominado
regresso aleatria ou regresso de cumeeira (Ridge Regression) (RR-BLUP). Os
coeficientes de regresso ridge so definidos como aqueles que minimizam a soma de
quadrados penalizada dada por

n
= i
i RR
N
j
n
= i
i ij j
(t) + ) x (y N) (
1
2
1
2
/ 1
, em que
RR
o
parmetro de penalizao (associado ao shrinkage) ou parmetro ridge, n o nmero
de marcadores e N o nmero de indivduos. O primeiro termo da equao a soma
de quadrados dos resduos (medida da falta de ajuste do modelo) da regresso e o
segundo termo a penalizao, a qual depende da magnitude dos coeficientes de
regresso via
n
= i
i

1
2
. Por meio da funo de penalizao, um grande valor de

cria
um maior custo para
|
de grande valor, levando-o a encolher mais. Ocorre ento a
minimizao da soma de quadrados dos resduos, sujeita restrio
t
n
= i
i
s

1
2
. A
soluo para esse problema de otimizao conduz a y W' (t)I] + W [W' =
RR
1


.


Outro mtodo relacionado o LASSO, que combina shrinkage (regularizao)
com seleo de variveis e envolve o seguinte problema de otimizao, via
minimizao de
| | + ) w (y N) (
n
= i
i L
N
j
n
= i
i ij j

1 1
2
/ 1
, em que | |
n
= i
i
1
a soma dos valores
absolutos dos coeficientes de regresso. As solues em que os coeficientes de
regresso se distanciam de zero sofrem penalizao.
Ocorre ento a minimizao da
soma de quadrados dos resduos, sujeita a restrio t | |
n
= i
i
s

1
. O componente
| |
n
= i
i L
1

regulariza a regresso sem penalizar muito. O parmetro de suavizao
L
controla a
intensidade da regularizao.

Para computao do Lasso, Tibshirani (1996) props o mtodo de
programao quadrtica, o qual muito complexo. A escolha do
L
de capital
importncia, pois o mesmo influencia o tamanho do grupo de marcadores
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

175

selecionados. medida em que
L
tende a zero a soluo converge para mtodo de
regresso fixa via quadrados mnimos (FR-LS), ou seja, para
y W' W) (W' =
1


. Nesse
caso, no h seleo de covariveis e predio torna-se instvel. Valores muito altos
de
L
reduzem muito os valores dos coeficientes de regresso. Para cmputo de
L
de
forma otimizada, Usai et al. (2009) propuseram o algoritmo da regresso de ngulo
mnimo (LARS) associada a um passo de validao cruzada. O LASSO pode ser
implementado tambm via abordagem bayesiana, em que
BL
controla a preciso da
distribuio a priori atribuda aos coeficientes de regresso.

Dois atributos importantes de um mtodo estatstico de regresso ou modelo de
predio so a acurcia preditiva e a capacidade de interpretao. O mtodo de
quadrados mnimos falha nos dois aspectos. um mtodo no viesado, mas pode
apresentar estimativas com alta varincia e, portanto, no apresenta mnimo erro
quadrtico mdio e nem alta acurcia. O mtodo RR apresenta pequeno vis e alta
acurcia preditiva propiciada pelo shrinkage, o qual regulariza a estimao e melhora a
estabilidade da soluo. Ambos os mtodos no produzem modelos interpretveis,
pois, no selecionam covariveis. Um terceiro mtodo, denominado seleo de
subconjuntos de covariveis (como o Garrote de Breiman) produz modelos
interpretveis, porm, com muita variabilidade nos resultados, pois, trata-se de um
processo discreto. O mtodo Lasso foi proposto para conciliar esses dois atributos
desejveis (acurcia preditiva e capacidade de interpretao). Portanto, mantm a
estabilidade da RR e produz modelos interpretveis (pois produz alguns coeficientes
que so exatamente 0) como a seleo de subconjuntos. Conforme Tibshirani (1996),
os trs mtodos podem ser assim comparados:

a. Situao de pequeno nmero de grandes efeitos (controle gentico por poucos
genes de grandes efeitos): Garrote de Breiman melhor, seguido por Lasso e
RR.
b. Situao de moderado nmero de moderados efeitos: Lasso melhor, seguido
por RR e Garrote de Breiman.
c. Situao de grande nmero de pequenos efeitos (controle gentico por muitos
genes de pequenos efeitos): RR melhor por pequena margem, seguido por
Lasso e Garrote de Breiman.
Detalhes dos mtodos de estimao penalizada
a. Regresso Ridge (RR-BLUP)

O mtodo RR genmico foi proposto por Whittaker et al.
(2000).

Funo objetivo a ser minimizada:
)
`

|
.
|

\
|


n
= i
i RR
N
j
n
= i
i ij j RR
+ ) w (y =
1
2
1
2
argmin



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

176


Funo de penalizao, restrio ou regularizao:

=
n
i
i RR
1
2
|

Caractersticas:

- Mantm todas as covariveis, conduzindo a modelos complexos.
- Produz bons resultados para o caso de muitos marcadores de pequenos efeitos.
- Previne problema de multicolinearidade (que conduziria a estimativas imprecisas)
entre marcadores correlacionados.
- Regressa os coeficientes de preditores correlacionados igualmente na direo de
zero e de cada um.
-

n
= i
i

1
2
a norma de penalizao em
|
.
- Quanto maior o valor de lambda (parmetro de sintonia ou complexidade, que
regula a fora da penalizao ou shrinkage), maior o encurtamento.
- Se lambda estimado por REML, tem-se o mtodo RR-BLUP e
) (h ) h ( n = ) n (h ) h ( = ) n ( = = =
Q Q Q g
2
e m
2
e gi
2
e RR
2 2 2 2 2 2 2
/ 1 / / 1 / / / /
e ) + (n n = h
RR Q Q
/
2
, em que


n
i
i i Q
) p ( p = n 1 2 ou nmero de QTL, h
2
a
herdabilidade do carter,
2
g
a varincia gentica aditiva do carter e
2
e
a
varincia residual.
- Se a matriz de parentesco A for computada via informao de marcadores (G) e
utilizada no mtodo BLUP fenotpico tradicional, tem-se o mtodo denominado G-
BLUP ou BLUP genmico, que equivalente ao RR-BLUP em termos da predio
dos efeitos aditivos g. Assim, tem-se para o G-BLUP:
y )] ( G + [ZZ = g
g e
1 1 2 2
/

, em que Z a matriz de incidncia dos indivduos e y
vetor de fentipos corrigidos para os efeitos fixos.
] ) p ( p [ ) ' W (W G
n
i
i i
= 1 2 /
* *
, em que p
i
a freqncia de um dos alelos do loco i e
W* refere-se matriz W corrigida para suas mdias em cada loco (2p
i
).

Tem-se ento a equivalncia
y )] ( G + [ZZ = y W' (t)I] + W W[W' = W = g
g e
1
RR
1 2 2 1
/


.

b. LASSO

Funo objetivo a ser minimizada:
)
`

|
.
|

\
|


| | + ) w (y =
n
= i
i L
N
j
n
= i
i ij j L
1 1
2
argmin



Funo de penalizao:
| |
n
= i
i L
1


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

177

Caractersticas:

- Mantm as covariveis mais significativas e remove as demais.
-
| |
n
= i
i
1
a norma de penalizao em
|
(com base em valores absolutos de
|
) e
induz esparsidade na soluo, conduzindo a seleo de covariveis e shrinkage,
simultaneamente.
-
| |
n
= i
i L
1
regulariza o ajuste de quadrados mnimos e regressa alguns coeficientes a
zero. Essa formulao do regularizador faz com que o Lasso regresse
|
de forma
mais forte que o RR-BLUP, conduzindo alguns coeficientes a zero.

- Instvel com dados de alta dimenso, pois no pode selecionar mais covariveis (n)
do que do que o tamanho amostral (N) e, nesse caso, seleciona arbitrariamente um
membro de um grupo de covariveis altamente correlacionadas.

- No possui a propriedade orculo ou de retido, que se refere a coeficientes no zero
assintoticamente no viesados, normalidade assinttica e seleo consistente de
covariveis medida que N e n tendem a infinito.

- O mtodo Lasso adaptativo foi proposto visando atingir a propriedade orculo, mas
mantm a instabilidade com dados de alta dimenso.

c. Rede elstica (EN)

Funo objetivo a ser minimizada:
)
`

|
|
.
|

\
|
|
.
|

\
|


n
= i
n
= i
i i EN
N
j
n
= i
i ij j EN
| | ) ( + + ) w (y =
1 1
2
1
2
1 argmin


Funo de Penalizao:
|
.
|

\
|


n
= i
n
= i
i i EN
| | ) ( +
1 1
2
1
ou
|
.
|

\
|

q
n
= i
i EN
| |
1


Caractersticas:

- Se 0 = o , EN = LASSO ou se q = 1, EN = LASSO.
- Se 1 = o , EN = RR ou se q = 2, EN = RR.
- Se 2 1 s s q tem-se EN.
- o varia entre 0 e 1 e maior que 0.
- Usa duas penalizaes: a norma de penalizao do Lasso para a seleo de
covariveis e a norma de penalizao da RR para estabilizar a soluo (quando as
covariveis so altamente correlacionadas) e melhorar a predio.
- Comporta semelhantemente ao Lasso, mas robusta a extrema colinearidade entre
as covariveis.
- Permite seleciona um nmero de covariveis maior que o tamanho da amostra (N).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

178

- No possui a propriedade orculo.
- O mtodo Rede Elstica Adaptativa foi proposto visando atingir a propriedade
orculo do Lasso Adaptativo e a robustez do mtodo EN extrema colinearidade
entre as covariveis (Zou e Hastie, 2005).

Os mtodos frequentistas Lasso e EN no so usados frequentemente devido
ao surgimento dos Lassos Bayesianos, os quais apresentam uma srie de vantagens e
contornam os problemas associados aos referidos mtodos frequentistas.

d. Regresso Ridge com heterogeneidade de varincias entre locos marcadores (RR-
BLUP-Het)
Soluo para os coeficientes de regresso:
y W' (t)I] + W [W' =
h
RR
1




- similar ao RR-BLUP, mas mesmo para marcas de mesma frequncia, regressa os
coeficientes de regresso diferentemente na direo de zero.

- Os fatores de penalizao dos marcadores no sistema de equaes de modelo misto
so dados pelos elementos
i
RR
do vetor
h
RR
, em que i refere-se ao loco i.

- Os elementos
i
RR
podem ser obtidos via os mtodos bayesianos e usados para
cmputo do mtodo RR-BLUP-Het.
Distribuies normal (RR-BLUP) e exponencial (LASSO)
D
e
n
s
i
d
a
d
e
|

Figura 3. Densidades das distribuies normal (curva pontilhada) e exponencial dupla (curva
cheia), ambas com mdias iguais a zero e varincias iguais unidade.

Observa-se que a densidade a priori utilizada no LASSO Bayesiano apresenta maior
massa de densidade no valor zero e caudas mais robustas, exercendo maior
encurtamento sobre coeficientes de regresso prximos de zero e menor
encurtamento sobre coeficientes de regresso distantes de zero (Figura 3).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

179

6.15 Mtodos Bayesianos

Os mtodos de predio de valores genticos genmicos RR-BLUP, Bayes A e
Bayes B foram considerados por Meuwissen et al.(2001). Essas abordagens diferem
na suposio sobre o modelo gentico associado ao carter quantitativo. O BLUP
assume o modelo infinitesimal com muitos locos de pequenos efeitos; o mtodo
BayesA assume poucos genes de grandes efeitos e muitos genes com pequenos
efeitos. No mtodo Bayes B muitos efeitos de marcadores so assumidos como zero,
a priori. Isso reduz o tamanho do genoma por meio da concentrao nas partes do
mesmo onde existem QTLs. O melhor mtodo aquele que reflete melhor a
natureza biolgica do carter polignico em questo, em termos de efeitos gnicos.
O mtodo ideal de predio de valores genticos genmicos equivale ao
clculo da mdia condicional do valor gentico dado o gentipo do indivduo em cada
QTL. Essa mdia somente pode ser calculada usando uma distribuio a priori dos
efeitos dos QTLs. Considerando, por meio de marcadores, cada QTL em separado,
essa esperana condicional dada por ) (

w E | | = . O estimador apropriado segue o


teorema de Bayes e dado por
( )
( ) | | |
| | | |
|
d f w f
d f w f
) (
) (

}
}
=
, em que ) ( | w f a funo
de verossimilhana dos dados (w), e ( ) | f a distribuio a priori dos efeitos | dos
QTLs marcados. Esse estimador mostra que o mtodo ideal depende da distribuio
a priori dos efeitos de QTL. A presena de QTLs testada em muitas posies (10 mil
SNPs) e, portanto, no existe QTLs em muitas posies. Dessa forma, a distribuio
a priori ( ) | f deve ter uma alta probabilidade para ( ) 0 f . Para especificar essa alta
probabilidade, deve-se ter uma noo de quantos QTLs controlam o carter
(Goddard & Hayes, 2007).
Nessa situao, com muitos efeitos | iguais a zero, o mtodo RR-BLUP
resulta em muitas estimativas de | prximas de zero, porm no iguais a zero. Na
soma dessas estimativas, esse efeito acumulado introduz algum erro na predio. Os
mtodos bayesianos Bayes A e Bayes B relatados por Meuwissen et al. (2001)
consideram mais adequadamente a distribuio a priori dos efeitos dos QTLs.
O mtodo Bayes A similar ao mtodo BLUP com varincias heterogneas,
pois as varincias dos segmentos cromossmicos diferem para cada segmento e so
estimadas sob esse modelo, considerando a informao combinada dos dados e da
distribuio a priori para essas varincias. Essa distribuio tomada como uma qui-
quadrado invertida e escalada. Os mtodos Bayesianos propiciam acurcias mais
altas porque foram muitos efeitos de segmentos cromossmicos a valores prximos
a zero (Bayes A) ou a zero (Bayes B, conduzindo a N/n mais favorvel) e as
estimativas dos efeitos dos demais segmentos cromossmicos so regressadas de
acordo com uma quantidade ditada pelas distribuies a priori dos efeitos de QTL.
A estimao Bayesiana maximiza a distribuio a posteriori do parmetro ou
distribuio condicional do parmetro dado as observaes (y) e proporcional ao
produto da funo de verossimilhana pela distribuio a priori do parmetro. Em
outras palavras, a funo de verossimilhana conecta a distribuio a priori
posteriori usando para isto os dados experimentais (amostrais). Dessa forma, a
distribuio a posteriori contempla o grau de conhecimento prvio sobre o parmetro
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

180

e tambm as informaes adicionais propiciadas pelo experimento e a base da
estimao Bayesiana.
De maneira genrica, na anlise bayesiana os seguintes passos devem ser
adotados: (i) especificao das distribuies a priori para os efeitos e componentes de
varincia; (ii) especificao da funo de verossimilhana para o vetor de observaes
(distribuio condicional dos dados): (iii) obteno da distribuio conjunta a
posteriori para os efeitos e componentes de varincia; (iv) obteno das distribuies
condicionais completas a posteriori para os efeitos e componentes de varincia; (v)
marginalizao das distribuies condicionais a posteriori para os efeitos e
componentes de varincia. A marginalizao analtica praticamente impossvel,
portanto mtodos MCMC, como o amostrador de Gibbs, tm sido utilizados para
obter amostras das distribuies marginais a posteriori por meio das distribuies
condicionais completas a posteriori j citadas.
Nos mtodos MCMC, as cadeias antes do equilbrio fornecem amostras das
distribuies condicionais completas a posteriori ...) , , (
3 2
u u u y f
i

para os efeitos e
componentes de varincia. Aps o equilbrio fornecem amostras das distribuies
marginais a posteriori ) ( y f
i
u

para as referidas variveis aleatrias. Meuwissen et al.
(2001) usaram 10.000 ciclos MCMC com descarte dos 1.000 primeiros como perodo
de burn in (para se atingir o equilbrio).

BayesA

O mtodo BayesA proposto por Meuwissen et al. (2001) produz resultados
similares ao mtodo BLUP com varincias heterogneas, pois as varincias dos
segmentos cromossmicos diferem para cada segmento e so estimadas sob esse
modelo, considerando a informao combinada dos dados fenotpicos (funo de
verossimilhana) e da distribuio a priori para estas varincias. Neste caso, o modelo
ajustado por meio de uma abordagem bayesiana com estrutura hierrquica em dois
nveis. Os efeitos dos marcadores so assumidos como amostras de uma distribuio
normal com mdia zero e varincia de cada marcador dada por uma distribuio qui-
quadrada inversa e escalonada conforme a seguir:
) N( |
i i i
2 2
0, ~
) S , (
2
i
2 2
~


em que

o nmero de graus de liberdades e


2

S o parmetro de escala da
distribuio.

Assim, tem-se que a distribuio marginal a priori dos efeitos genticos dos
marcadores,
2
i
S , | , tem distribuio t de Student univariada, ou seja,
) S , t( S , |
2

2
i
0, ~ . Assim, esta formulao resulta na modelagem dos efeitos dos
marcadores como amostras de uma distribuio t de Student.

O valor de
2

S pode ser derivado com base no valor esperado de uma varivel


aleatria com distribuio qui-quadrado invertida escalonada. Essa esperana
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

181

matemtica, para um componente de varincia genrico
2
, dada por
2
2
2

S
= ) E(
.
Assim, o parmetro de escala dado por

) )( E(
= S
2
2
2

. Ento, para os efeitos
genticos dos marcadores tem-se
2
2
2

S
= ) E(
e

) )( E(
= S
2
2
2

. A esperana
) E(
i
2
equivale


n
= i
i i
g
i
) p (

= ) E(
1
2
2
1 2p
. Assim,

n
= i
i i
g

) (
) p (

= S
2
1 2p
1
2
2

, em que

=
4.012 ou 4.2, conforme Meuwissen et al. (2001),
2
g
a varincia gentica aditiva do
carter e p
i
a freqncia allica do marcador i. Meuwissen et al. (2001)
consideraram
0.0429 0.002
2
ou = S

. Isto descreve uma distribuio moderadamente


leptocrtica. Qualquer valor maior que 4 pode ser usado para

. Valores menores
ou iguais a 4 torna a priori flat (no informativa).

Para os efeitos residuais tem-se
2
2
2

e
e e
e

S
= ) E(
e
e
e e
e

) )( E(
= S
2
2
2

. A esperana
) E(
e
2
equivale
2 2
~
e e
= ) E( . Assim,
4.2
2 4.2
~
2
~ 2 2 2
) (
=

) (
= S
e
e
e
e e

, em que
2 ~
e

um valor a
priori de
2
e
.
Assumindo
) N(
i
i
2
0, ~
, em que
2
i

tomado de uma distribuio qui-


quadrado invertida, segundo o enfoque bayesiano, isso implica que grande nmero de
marcadores apresenta efeitos pequenos e poucos marcadores apresentam efeitos
grandes.
O uso de uma mistura de distribuies normal e qui-quadrado invertida
conduz a uma distribuio t para
|
e, portanto, com uma cauda mais longa que a
distribuio normal. Este mtodo pode ser implementado via amostragem de Gibbs,
para obteno dessa informao combinada (priori x verossimilhana) ou da
distribuio a posteriori das varincias.

Os mtodos associados a modelos hierrquicos bayesianos (BayesA e B) por
meio de suas formulaes em termos dos hiperparmetros propiciam varincias
especficas para cada marcador. RR-BLUP so funes lineares dos dados e
regressam as estimativas com o mesmo erro padro (mesmas frequncias allicas e
tamanho amostral) pela mesma quantidade. Prioris Gaussianas conduzem a shrinkage
homogneo atravs dos marcadores. Os mtodos bayesianos so funes no lineares
dos dados e regressam efeitos menores mais do que os maiores, ou seja, admitem
maiores herdabilidades para os maiores efeitos.

O shrinkage homogneo no desejvel, pois alguns marcadores esto ligados a
QTLs e outros no esto. Mas assumindo distribuio a priori t escalada ou dupla
exponencial para os efeitos de marcadores tem-se os mtodos BayesA e BLASSO,
respectivamente, os quais produzem shrinkage especficos de acordo com o tamanho
do efeito e da varincia do marcador.

Alm das distribuies consideradas para os efeitos aleatrios no modelo linear
frequentista e para a verossimilhana do vetor de observaes, a abordagem
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

182

bayesiana requer atribuies para as distribuies a priori dos efeitos e componentes
de varincia. Essas distribuies podem ser informativas, conforme acima, ou no
informativas. Distribuio a priori no informativa ou uniforme pode ser atribuda a
esses componentes, refletindo conhecimento a priori vago. Para os componentes de
varincia, distribuies
2
_ invertidas podem ser consideradas como priori e,
considerando 2 =
i
u e
2
i
S
= 0, a distribuio
2
_ se torna uniforme e, portanto, no
informativa. A vantagem de usar distribuio qui-quadrado invertida como priori
para os componentes de varincia refere-se ao fato de que, com dados com
distribuio normal, a distribuio a posteriori tambm uma qui-quadrado invertida.

Considere o seguinte modelo:
y = Ju + W + e, onde:
y : vetor de dados fenotpicos.
u : mdia geral.
: vetor de efeitos genticos aditivos (aleatrios) de marcadores.
e : vetor de erros.
J,W : matrizes de incidncia que associam u e aos dados fenotpicos (y).

Considera-se, inicialmente, que a distribuio condicional dos dados
fenotpicos, dados u, e

e
2
normal multivariada:
) , 1 ( ~ , ,
2 2
e e
I W N y o | o | + , onde I a matriz identidade e
2
e
a varincia
residual.
Os parmetros de interesse para inferncias so:
2
e
2
i
e , , . Para conduzir
a anlise bayesiana, torna-se necessrio especificar as distribuies a priori para
2
e i
e ,
2
. Isto j foi realizado acima. Definidas estas distribuies, pode-se agora
escrever a distribuio conjunta a posteriori dos parmetros do modelo.
) , , , ( ) , , , ( ) , , , (
2 2 2 2 2 2
e i e i e i
y p p y p o o | o o | o o o |
| | |

) , , , ( ) ( ) ( ) ( ) (
2 2 2 2 2
e i e i i i
y p p p p p o o | o o o |
| | |
=


Considerando a distribuio a priori dos componentes de varincia como
uma qui-quadrado escalada invertida, tem-se que a distribuio conjunta a
posteriori pode ser reescrita:
(
(

|
|
.
|

\
|
+
+

|
.
|

\
|
+
+

2
2
1
2
2
2
2
1
2
2 2 2
2
' (
exp
2
) 1 ( )' 1 (
exp ) , , , (
i
n
i
e
e e
N
e e i
S
S W y W y
y p
e
|
| |
u
|
u
|
o
u | |
o
o
u | |
o o o o |
|


Para implementao do GS, deve-se derivar todas as distribuies
condicionais a posteriori a partir da distribuio conjunta a posteriori. A distribuio
condicional a posteriori de
2
i
dada por uma qui-quadrado invertida escalonada
por
i i
' + S
2
e com graus de liberdade

, ou seja
) ' + S , ( = ) | P(
i i
2

2
i i
2
. No se pode usar essa distribuio a posteriori
diretamente para estimar
2
i
, pois ela condicional aos efeitos
i
que so
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

183

desconhecidos. Assim, a tcnica de amostragem de Gibbs, baseada em
distribuies a posteriori condicional a todos os outros efeitos, usada para estimar
os efeitos
i
e suas varincias.

Ento, para obteno da informao combinada da distribuio a priori e da
verossimilhana dos dados, ou seja, para obteno da distribuio a posteriori dos
efeitos genticos dos marcadores, adota-se o procedimento de simulao estocstica
(mtodo Monte Carlo cadeias de Markov MCMC) denominado amostragem de
Gibbs.

Em termos mais simples, o algoritmo da amostragem de Gibbs pode ser
apresentado de forma resumida, conforme Resende (2008):

1. Fornecer os valores iniciais dos parmetros de locao e disperso do
modelo. Estes valores iniciais podem ser calculados atravs de
procedimentos padres tais como a estimao de componentes de varincia
por REML ou quadrados mnimos. Considerando a mdia geral u como
nico efeito fixo, pode-se calcular u como a mdia aritmtica das
observaes. O vetor dos efeitos de marcadores deve ser inicializado com
um nmero positivo de pequena magnitude.
2. Atualizar
2
i
para o i-simo marcador, amostrando-o da distribuio
condicional completa ) ' + S , ( = ) | P(
i i
2

2
i i
2
com 4.2 =
g
e
2

S calculado conforme a expresso acima.


3. Dados
i
e u, calcular os valores de e via ) ( | W J y e = , em que W = [W
1

W
2
W
3
] a matriz de incidncia para os efeitos de marcadores. Ento,
atualize a varincia residual por meio da amostragem de ) e ' e (N
i i
2,
2

.
4. Amostrar, de uma distribuio normal com mdia (1/N) Wg) (y e
varincia

e
2
/ N
, a mdia geral dado a atualizada varincia residual.

5. Amostrar, de uma distribuio com mdia
2
/
J
i
2
e ij
'
ij
n
'
ij 0 = ij
'
ij
'
ij
+ W W
u W W W y W
e varincia
) + W (W
i
2
e ij
'
ij e
2 2
/ / , todos os efeitos de marcadores
ij
dado a amostragem
mais recente da mdia,
2
e
e
2
i
, em que W
ij
o vetor coluna de W com
efeitos
ij
. No caso,
ij=0
equivale a com efeito
ij
igualado a zero.

6. Repetir os passos de (2) a (5) at que se obtenha a convergncia da cadeia.









Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

184

BayesB

O mtodo BayesB apresenta as mesmas suposies que o BayesA para uma
frao t dos SNPs e assume que ( t 1 ) dos SNPs apresenta efeitos nulos. Um
problema desse mtodo a escolha da frao t . Com a seleo de covariveis
baseada nos maiores mdulos de seus efeitos estimados, os dois mtodos tendem a se
equivaler. Na prtica, o BayesA tem se mostrado superior ao BayesB com t igual a
0.66 (Habier et al., 2011; Mrode et al., 2010).

Para os efeitos dos QTLs, o mtodo BayesB usa uma distribuio a priori com
alta densidade em


2
= 0
e distribuio qui-quadrado invertida para 0
2
>

. Assim,
considera que em muitos locos no existe variao gentica, ou seja, no esto
segregando. Assim, a distribuio a priori equivale a ) , ( ~
2 2 2
S
i
u _ o
|

com
probabilidade t e 0
2
=
i
com probabilidade ( t 1 ), em que depende da taxa de
mutao do gene. As quantidades 4.234 = e S
2
= 0.0429 usadas por Meuwissen et al.
(2001) produzem a mdia e varincia de
2
i
dado que 0
2
>
i
. Tais quantidades
tambm dependem dos efeitos mutacionais e precisam ser estimadas na prtica.

A distribuio a priori do mtodo BayesA no tem um pico de densidade em
0
2
=
i
. No mtodo BayesB, uma vez que no possvel uma amostragem de
0
2
=
i
, o mtodo da amostragem de Gibbs no pode ser usado, pois no move sobre
todo o espao de amostragem. Assim, o algoritmo de Metropolis-Hastings (HM)
deve ser usado. Esse mtodo resolve esse problema por meio da amostragem
simultnea de
2
i i
e . O amostrador de Metropolis-Hastings consiste em gerar
amostras sequenciais como meio de aproximar uma distribuio da qual no h como
amostrar diretamente. Tal amostrador pode amostrar diretamente de qualquer
distribuio de probabilidade f(x), desde que a densidade em x possa ser calculada.
Detalhes da implementao desse algoritmo so apresentados por Sorensen e
Gianola (2002) e Chib e Greenberg (1995).

A amostragem simultnea de
2
i i
e
realizada da distribuio
) y , | P( ) y | P( = ) y | , P(
i i i i i
- - -
2 2 2
.
, em que y* denota o vetor de dados corrigido para
os efeitos fixos e para todos os efeitos genticos, exceto
i
. Essa expresso indica que
se deve amostrar
2
i
de ) y | P(
i
-
2
|
sem condicionar em
i
(em contraste com o
mtodo BayesA) e em seguida amostrar
i
de ) y , | P(
i i
-
2
condicional a
2
i
e y*,
como no mtodo BayesA. A distribuio ) y | P(
i
-
2
no pode ser expressa na forma
de uma distribuio conhecida e ento deve-se usar o algoritmo MH para amostrar
dessa distribuio. A distribuio a priori ) p(
i
2
usada como distribuio auxiliar
para sugerir atualizaes para a cadeia de MH.

Os mtodos bayesianos teoricamente propiciam acurcias mais altas porque
foram muitos efeitos de segmentos cromossmicos a valores prximos a zero
(BayesA) ou a zero (BayesB) e as estimativas dos efeitos dos demais segmentos
cromossmicos so regressadas de acordo com uma quantidade ditada pelas
distribuies a priori dos efeitos de QTL.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

185

BayesC

Gianola et al. (2009) faz uma anlise crtica dos mtodos associados a modelos
hierrquicos bayesianos (BayesA e B) especificamente em relao s suas
formulaes em termos dos hiperparmetros que propiciam varincias especficas
para cada marcador. Segundo o autor nenhum dos mtodos permite o aprendizado
bayesiano sobre essas varincias para prosseguir para longe das prioris. Em outras
palavras, os hiperparmetros da priori para essas varincias sempre tero influncia
na extenso do shrinkage produzido nos efeitos dos marcadores. O usurio do mtodo
pode controlar a quantidade de shrinkage apenas arbitrariamente, por meio da
variao nos parmetros e S (associados distribuio qui-quadrado invertida).
Segundo os autores, o mtodo BayesB no bem formulado no contexto bayesiano.
Isto porque designar a priori que 0
2
=
gi
, no conduz necessariamente a g
i
= 0,
conforme inteno original de Meuwissen et al. (2001), em que g
i
o efeito gentico
do loco i. Sugere ento que o estado zero seja especificado ao nvel dos efeitos e no
ao nvel das varincias. Assim, probabilidade de mistura t poderia ser atribuda
uma distribuio a priori Beta. Surge ento, o mtodo BayesC que vantajoso e
permite especificar uma distribuio a priori para t , permitindo a modelagem da
distribuio dupla exponencial.

Vrios outros mtodos bayesianos foram propostos (BayesC e BayesD,
conforme Habier et al., 2011), todos eles com o propsito de permitir o aprendizado
bayesiano. Habier et al. (2011) relataram que o mtodo BayesA mostrou-se superior
na maioria das situaes, mas que nenhum dos mtodos bayesianos so claramente
superiores dentre eles; entretanto o BayesB, BayesD e especialmente o BayesC
apresentam a vantagem de propiciar informao sobre a arquitetura gentica do
carter quantitativo e identificar as posies de QTL por modelagem da frequncia
de SNP no nulos. No mtodo BayesC uma varincia comum especificada para
todos os locos. Adicionalmente, tratada como uma incgnita com distribuio a
priori uniforme (0,1) caracterizando o mtodo BayesC, que equivale ento ao
mtodo RR-BLUP com seleo de covariveis e implementado via MCMC. Tambm
se igual a zero os mtodos BayesC e RR-BLUP so iguais.

A modelagem de muito interessante para a anlise de associao. A
maioria das marcas no est em desequilbrio de ligao com os genes. Assim, a
seleo de um grupo de marcas que est em associao com o carter necessria. O
mtodo BayesB determina subjetivamente. Os mtodos BayesC e BayesD
modelam os efeitos genticos aditivos como

n
= i
i ij i j
x = a
1
, em que ) ( =
i
0,1 . A
distribuio de ) ( =
n
...
1
binomial com probabilidade . Esse modelo de mistura
mais parsimonioso do que o mtodo BayesB. Seguindo a hierarquia do modelo,
uma distribuio deve ser postulada para e deve ser uma Beta (Legarra et al., 2011).

Se 1 = , no h seleo de marcas e o mtodo torna-se o RR-BLUP implementado
via MCMC (RR-BLUP bayesiano). Para o caso da distribuio Beta com parmetros
e , tem-se:

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

186

- Se = 0 e = 0: h problema na estimao, pois a distribuio Beta torna-se mal
definida.
- Se = 1 e = 1: tem-se uma distribuio Uniforme em .
- Se = 1 e = 10
10
: tem-se prximo de zero e a maioria das marcas ter efeito zero.
- Se = 10
8
e = 10
10
: tem-se quase fixado em 0,01 e em torno de 1% das marcas ter
efeito no carter.

BayesD

O mtodo BayesD mantm varincias especficas para cada loco e modela
como uma varivel aleatria. O mtodo BayesD difere do BayesA e BayesB por
considerar o parmetro de escala das prioris qui-quadrado invertidas para as
varincias especficas para cada loco como uma incgnita com distribuio a priori
Gama (1,1). Como o desconhecido parmetro de escala comum a todos os locos, as
informaes de todos os locos contribuem para a sua posteriori e por meio desta para
as posterioris das varincias especficas de cada loco.

Adicionalmente, tratado como uma incgnita com distribuio a priori
Uniforme (0,1) produzindo os mtodos BayesC e BayesD. Em contraste, igual
a um no BayesA e pode ser da ordem de 0.01 no BayesB (Habier et al., 2011). Uma
comparao entre os mtodos bayesianos apresentada na Tabela 27.

Tabela 27. Comparao entre os mtodos bayesianos
Mtodo Modelo para os efeitos
genticos
Parmetros que
estima
Mtodo se = 1
BayesD

n
= i
i ij i j
w = a
1

2
i
,
i
,
2
e
,
BayesD
BayesC

n
= i
i ij i j
w = a
1

2

,
i
,
2
e
,
BayesC
BayesC

n
= i
i ij i j
w = a
1

2

,
i
,
2
e

RR-BLUP bayesiano (
i
= 1)
BayesB

n
= i
i ij i j
w = a
1

2
i
,
i
,
2
e

BayesA
BayesA

n
= i
ij i j
w = a
1

2
i
,
2
e

-
RR-BLUP

n
= i
ij i j
w = a
1

2

,
2
e

-



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

187

Fast BayesB

O mtodo Fast BayesB foi desenvolvido por Meuwissen et al. (2009) visando
diminuir o tempo de computao do mtodo BayesB. Esses autores derivaram um
algoritmo de esperana condicional iterativa (ICE) para estimar
i
por meio de
integrao analtica. Os seguintes passos devem ser adotados.

a) Calcular as observaes ajustadas,
i
y

, que so corrigidas para os efeitos de


todos os outros marcadores, usando a expresso
j
n
i j
j i
w y = y


. Estimar a
estatstica suficiente
N ) ) w (w y (w = Y
j
n
i j
j
'
i
'
i i
/


=

e N =
2
e
/
2
.
b) Calcular ] Y | E[ =
i i i

, que usado para atualizar a soluo para o marcador i.


A expresso para cmputo de
] Y | E[ =
i i i

usa a funo Delta Dirac e


apresentada por Meuwissen et al. (2009).

A natureza aproximada do algoritmo ICE devida ao fato de
i
y

e
i
Y no serem
conhecidos e sim serem estimados. Erros de estimao em
i
y

e
i
Y

ocorrem devido a
erros de estimao nos efeitos
j

dos outros marcadores.



6.16 Mtodos Lasso
Os Lassos bayesianos so vantajosos em relao aos mtodos bayesianos de
Meuwissen et al. (2001) por serem assintoticamente livres de informao a priori. O
parmetro pode ser estimado dos prprios dados pelos mtodos MCMC (esse
algoritmo pode ser implementado usando informao a priori vaga) e MCEM (esse
algoritmo EM no requer informao a priori). Os mtodos BayesA e BayesB
requerem a designao de distribuies a priori para a varincia de cada marcador.
Adicionalmente alguns mtodos bayesianos requerem a estimao de . Nos Lassos
no existe e uma distribuio controlada por declarada para toda a coleo de
varincias dos locos marcadores.
No mtodo Lasso original, uma moda conjunta estimada e espera-se que a
maioria dos marcadores tenham efeitos exatamente igual a zero (Usai et al., 2009).
No Lasso bayesiano so estimadas mdias a posteriori, produzindo valores muito
pequenos, mas no zero. E mdias a posteriori so o critrio timo para seleo
(Legarra et al., 2011). No Lasso original a soluo admite at (N-1) coeficientes de
regresso no nulos, em que N o nmero de indivduos. O Lasso bayesiano relaxa
essa restrio, possivelmente produzindo um modelo mais acurado.
A formulao bayesiana do Lasso (BLASSO) inclui um termo de varincia
comum para modelar ambos os termos, os resduos e os efeitos genticos dos
marcadores (Park; Casella, 2008; Campos et al., 2009b). Legarra et al. (2011)
propuseram o mtodo BLASSO melhorado (IBLASSO), o qual usa dois termos de
varincia, um para modelar os resduos e outro para modelar os efeitos genticos dos
marcadores. Esses termos se adequam aos conceitos de variao endgena e exgena
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

188

no contexto dos modelos mistos, conforme Singer et al. (2011). Isso tambm
coerente com a teoria da gentica quantitativa, que preconiza a decomposio da
variao fenotpica em variao gentica e residual.

Uma comparao entre os trs mtodos Lassos, o RR-BLUP e o RR-BLUP-Het
apresentada na Tabela 28.

Tabela 28. Caractersticas dos trs mtodos Lassos.
Mtodo Modelo Varincia entre
marcadores
Varincia gentica aditiva Parmetro de forma
LASSO
) exp[( ) 2 / ( ~
) exp( ) 2 / ( ) , 1 (
) , 0 ( ~
1
2
2 2
i
i
e
e e
p
I MVN e
e W u y
| |
| o |
o o
|

= =
+ + =
[

- - -
BLASSO
] / ) exp[( ) 2 / ( ) , (
) , 0 ( ~
1
2
2 2
o | o o |
o o
|
=
+ + =
p
I MVN e
e W u y

. 2 / exp 2 /
... ( 0, ~
2 2 2
2 2
) ( ) ( = ) | p(
); = diag(D) ); D N( ) | p(
i
i
n
2
1

[
o

2 2
/ ) 2 ( ) ( o |
e
Var =

2 2
1
2
/ 2 1 2p ) ( ) p ( =
e
m
= i
i i a


2 2 2
/ 2
e
) ( =
IBLASSO
] / ) exp[( ) 2 / ( ~ ,
) , 0 ( ~
1
2
2 2
| | |
o | o o |
o o
|
i
i
e e
I MVN e
e W u y

+ + =
[

. 2 / exp 2 /
... ( 0, ~
2 2 2
2
) ( ) ( = ) | p(
); = diag(D) D); N( ) | p(
i
i
n
2
1

[





2
/ 2 ) ( | = Var


2
i
2
i i
= = ) Var(

2
1
2
/ 2 1 2p ) p ( =
m
= i
i i a


2 2
/ 2

=
RR-BLUP
) I MVN( |
) I MVN( | e
e + W + = y
2

2
e e
0, ~
0, ~
1u
2
2
2

= Var() 2
1
2
1 2p

m
= i
i i a
) p ( =



2 2 2 2
/ ) ( =
e

RR-BLUP-
Het
D) MVN( , |
) I MVN( | e
e + W + = y
2
e e
0, ~
0, ~
1u
2
2
i
2
i i
= = ) Var(

-
2 2 2 2
/ ) ( =
i
e i


IBLASSO

A parametrizao do IBLASSO equivalente ao do LASSO original de
Tibshirani (1996), porm, a implementao bayesiana. Outra diferena refere-se ao
fato de que a parametrizao do LASSO original assume que a matriz de incidncia
W foi padronizada. O IBLASSO no assume isso. Essa diferena pode ser observada
na descrio dos modelos apresentada na Tabela 3. A igualdade na parametrizao
advm da comparao entre os termos ) (

2 / e ) ( 2 / . Somente a proporo
) (

/ utilizada na prtica e, portanto, e

no podem ser estimados


separadamente. Assim, o de Tibshirani equivale a ) (

/ do IBLASSO e ,
essencialmente, uma medida da variao gentica dos marcadores na populao. De
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

189

forma equivalente, o modelo do IBLASSO poderia ser escrito em termos de
2

,
retirando .

A forma da distribuio dos efeitos das marcas determinada pelo parmetro
de forma , que relacionado variao gentica dos marcadores por meio da
expresso
2
/ 2 ) = Var( . Essa relao denota que
2
desempenha papel similar ao
inverso da varincia nos modelos sob normalidade. O parmetro pode ser
estimado por MCMC ou mxima verossimilhana marginal (MCEM ou REML). A
estimao por MCEM evita o uso de super-priori para (Park; Casella, 2008).

Partindo-se da relao
2
1
2
1 2p

m
= i
i i g
) p ( =

(Gianola et al., 2009), tem-se
2
1
2
/ 2 1 2p ) p ( =
m
= i
i i g
, em que
2
g
a varincia gentica aditiva. Uma vez que a
varincia gentica aditiva do carter geralmente conhecida a priori (de outros
estudos), uma informao a priori para pode ser dada por
2
1
2
/ 2 1 2p
g
m
= i
i i
) p ( =

. Entretanto, nos modelos hierrquicos bayesianos
propriamente ditos (caso dos Lassos bayesianos e no dos mtodos bayesianos de
Meuwissen), informao a priori atribuda aos hiperparmetros ( e componentes
de varincia, por exemplo) de forma que a influncia dessa informao desaparece
assintoticamente.

O modelo genrico do Lasso da forma
, , ] ) [( ) ( = ) , | p(
) I MVN( | e
e + W + = y
2
/ exp 2 /
0, ~
1u
2
2



Essa distribuio exponencial do Lasso para coaduna bem com a
distribuio observada para os efeitos genticos de um carter quantitativo
(Goddard, 2009).

Com dois componentes de varincia (
2
e
e
2

) o modelo torna-se
, , ] ) [( ) ( , |
) I MVN( | e
e + W + = y
i
i

2

2
e e
/ exp 2 / ~
0, ~
1u
2

[


Notando-se a equivalncia com o modelo de Tibshirani, tem-se
, , ) [( ) ( |
i
i

[
exp 2 / ~
Usando uma formulao em termos de um modelo hierrquico aumentado, incluindo
um componente de varincia extra
2
i
t associado a cada loco marcador, tem-se:
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

190


. 2 / exp 2 /
... 0, ~
2 2 2
2
) ( ) ( = ) | p(
); = diag(D) D); N( ) | p(
i
i
n
2
1

[

Assim, tem-se
2
i
2
i i
= = ) Var( .

A implementao prtica desse modelo via amostrador de Gibbs apresentada a
seguir, conforme Legarra et al. (2011).

A distribuio a priori de
2
e
consiste de uma qui-quadrado invertida com 4 graus de
liberdade. A distribuio a priori para pode ser deliberadamente vaga, como uma
Uniforme entre 0 e 1000000.

As distribuies condicionais a posteriori completas so apresentadas a seguir.

) ' ' ) W (y ' N( demais | u
e
2
~
1 1 / 1 1, 1 /
~
1


) LHS , LHS ) W (y ' N(w demais |
I I e i i i i
/ 1 /
~
~
~
1
2

, em que
2
i e i i i
+ w ' w = LHS
2
~
e
i
w a linha de W correspondente ao efeito i e
i
|
~
indica todas as variveis
~
,
exceto
i

~
.
( )
2
i i
, ) ( IG demais |
2 / 1 2 2 2
/
~

, em que IG refere-se a Gama Invertida.


( )

) m G demais |
i
2 2
~
/ ,2 , em que G refere-se a Gama com parmetro de forma
igual ao nmero m de marcas e parmetro de escala igual a

)
~
/ 2
2
i
t .
( ) N + , S + e ' e demais |
2
e e
4
~ ~ 2 2
, em que N o nmero de indivduos e
2
e
S a
escala da distribuio a priori da varincia residual.

BLASSO

O modelo da forma
, , ] ) [( ) ( , |
) I MVN( | e
e + W + = y
i
i
2
2
/ exp 2 / ~
0, ~
1u
2

[


Usando uma formulao em termos de um modelo hierrquico aumentado tem-se:

. ) 2 / exp( ) 2 / ( ) (
; ) ... ) ( ); , 0 ( ~ ) (
2
1
2 2
2 2
1
2
t t
t t o t |
=
=
[
i
n
p
D diag D N p

Assim, tem-se que a varincia gentica em cada loco marcador dada por
2 2
=
2
i i
.

As distribuies condicionais a posteriori completas so conforme descrito para o
IBLASSO, porm com as seguintes modificaes:

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

191

2 2
~

+ w ' w = LHS
2
i e i i i

( )
2
i i
, ) ( IG demais |
2 / 1 2 2 2 2
/
~


( ) N + m + , S + e ' e + D ' demais |
2
e
4
~ ~
~ ~ ~
2 1 2 2
.
Essa ltima distribuio condicional mostra que os efeitos de marcadores so na
prtica considerados como pseudo resduos no BLASSO.

G-BLUP com heterogeneidade de varincias

O mtodo G-BLUP ou BLUP genmico pode tambm ser implementado
considerando a heterogeneidade de varincia entre marcadores. Nesse caso, a matriz
A dada por
] ) 1 ( 2 /[ ) ' (
* *

=
n
i
i i
p p DW W A
, em que p
i
a frequncia de um dos
alelos do loco i e W* refere-se matriz W corrigida para suas mdias em cada loco
(2p
i
). A matriz D dada por ) ( = diag(D)
n
2 2
1
... e os elementos
2
i
podem ser obtidos
via os mtodos IBLASSO, BLASSO, BayesA, BayesB, etc. Essa abordagem
apresenta tambm os seguintes pontos favorveis: (i) permite a anlise simultnea de
indivduos genotipados e no genotipados; (ii) permite o cmputo direto da acurcia
seletiva via inverso da matriz dos coeficientes das equaes de modelo misto; (iii) a
matriz D pode ser estimada em apenas uma amostra da populao e ser usada em
toda a populao de seleo e em vrias geraes.

Relao entre RR-BLUP, BLASSO e IBLASSO


Em presena de genes maiores, o RR-BLUP difere consideravelmente do
BLASSO e IBLASSO. Nesse caso, o IBLASSO e o RR-BLUP-Het so melhores. O
IBLASSO similar ao BayesA mas com maior shrinkage, nas marcas de menor
efeito.

Em termos de ordenamento dos candidatos seleo, tm-se as seguintes
tendncias. Com seleo indireta de covariveis nos mtodos que no o fazem
diretamente: (i) BayesA igual a BayesB; (ii) RR-BLUP igual ao Lasso em ranking,
desde que a arquitetura gentica seja homognea; (iii) RR-BLUP igual ao BayesA e
BayesB, desde que a arquitetura gentica seja homognea e as prioris utilizadas nos
mtodos bayesianos sejam no informativas; (iv) Com arquitetura gentica
heterognea, RR-BLUP-Het similar ao IBLASSO em ranking; (v) RR-BLUP
igual ao BayesC desde que as prioris utilizadas no mtodo bayesiano sejam no
informativas; (vi) RR-BLUP igual ao BayesD, desde que a arquitetura gentica
seja homognea e as prioris utilizadas no mtodo bayesiano sejam no informativas.
Se = 1, o BayesC igual ao RR-BLUP.

RR-BLUP e Lasso podem ser implementadas sob o enfoque frequentista e
bayesiano. Se prioris no informativas forem utilizadas, tem-se que RR-BLUP
frequentista semelhante ao RR-BLUP bayesiano e Lasso frequentista semelhante
ao Lasso bayesiano.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

192

A seleo indireta de covariveis no RR-BLUP usando os maiores mdulos
dos efeitos estimados dos marcadores produz o mtodo RR-BLUP_B (Resende et al.,
2010; Resende Junior et al., 2011), o qual pode apresentar acurcia superior. Mas esse
mtodo e tambm o RR-BLUP tradicional dividem toda a variao gentica aditiva
do carter por uma funo do nmero de marcadores ajustados. E os marcadores
usados no capturam toda essa variao gentica. Assim, no RR-BLUP_B maior
variao gentica atribuda a cada marcador do que de fato deveria. Assim, o RR-
BLUP_B deve usar somente a variao gentica capturada pelos marcadores
ajustados em cada anlise e no a varincia gentica total do carter. Assim deve-se
usar o REML para estimar essa variao ou outro mtodo bayesiano, como o
BLASSO ou IBLASSO, produzindo o mtodo REML/RR-BLUP_B ou
BLASSO/RR-BLUP_B ou IBLASSO/RR-BLUP_B. Tambm, a escolha do melhor
modelo REML/RR-BLUP_B deve basear-se na validao cruzada.

Relao entre RR-BLUP e BLASSO

Com arquitetura gentica homognea, conforme Resende et al. (2011), a h
2
pode ser
obtida a partir do parmetro de penalizao do BLASSO e das frequncias allicas
nos locos marcadores.
Sendo
2 / 1
2 ] [ =
RR BL
, tem-se:
RR Q
Q
Q RR Q RR Q
2
BL
+ n
n
=
n +
=
) ( +
=
) ( +
= h
/ 1
1
2n / 2 1
1
2n / 1
1
2
, em que


n
i
i i Q
) p ( p = n 1 2 .
Pelo mtodo RR-BLUP, a h
2
dada por ) + (n n = h
RR Q Q
/
2
, fato que confirma a
equivalncia dos mtodos na situao de arquitetura gentica homognea.
Como
RR
assumido como conhecido no RR-BLUP, o estimador para a h
2

capturada por todos os marcadores em conjunto pode ser especificado em funo do
parmetro de penalizao
BL
do BLASSO, sendo dado por
2 2
2

2n
2n
2n /

1
1

BL Q
Q
Q BL
+
=
) ( +
= h .

Resultados prticos tm revelado que a capacidade preditiva no varia muito
com o valor de
RR
e
L
associados s herdabilidades entre 5% e 95%, quando o
nmero de locos grande (Silva et al., 2011).

Relao entre RR-BLUP, BLASSO e IBLASSO

Para o IBLASSO, conforme Resende et al. (2011), tem-se:
2
e
n
i
i i
n
i
i i
2
e
n
i
m i i
n
i
m i i
+ ) p ( p
) p ( p
=
+ ) p ( p
) p ( p
= h

2
2
2
2
2
1 2
1 2
1 2
1 2
.
De forma alternativa e usando
2 2
/ 2
IBL m
= , tem-se:
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

193

) 2 /( 1
1
)] 1 ( 4 /[ 1
1
/ 2 ) 1 ( 2
/ 2 ) 1 ( 2
) 1 ( 2
) 1 ( 2
2 2
2 2 2 2
2
2 2
2
2
Q IBL e
n
i
i i IBL e e
n
i
IBL i i
n
i
IBL i i
e
n
i
m i i
n
i
m i i
n
p p p p
p p
p p
p p
h
o
o o

o o
o
+
=
+
=
+

=
+

, pois


n
i
i i Q
) p ( p = n 1 2 . Assim, com arquitetura gentica homognea, a h
2
pode ser
obtida a partir do parmetro de penalizao do IBLASSO, das frequncias allicas
nos locos marcadores e da varincia residual.
Sendo
2 / 1 2
/ 2 ] [ =
e RR IBL
, tem-se:
RR Q
Q
Q RR Q RR Q IBL e
n
n
n n n
h
o +
=
+
=
+
=
+
=
/ 1
1
) 2 /( 2 1
1
) 2 /( 1
1
2 2
2
.

Pelo mtodo RR-BLUP, a h
2
dada por ) + (n n = h
RR Q Q
/
2
, fato que confirma a
equivalncia dos trs mtodos na situao de arquitetura gentica homognea.

6.17 Distribuies dos efeitos genticos nos mtodos RR-BLUP, Bayes
e Lasso.

Na Tabela 29 so apresentadas as distribuies assumidas para os efeitos genticos de
marcadores nos diferentes mtodos de GWS.

Tabela 29. Distribuies assumidas para os efeitos genticos de marcadores nos diferentes
mtodos de GWS.

Mtodo Distribuio a priori dos efeitos Distribuio a priori
das varincias
Distribuio a posteriori
das varincias
RR-BLUP
(bayesiano)
Normal com varincia comum qui-quadrado invertida
no informati va
qui-quadrado invertida

BayesA Normal com heterogeneidade de
varincias entre marcas (t dado priori qui-
quadrado para as varincias)
qui-quadrado invertida
(equi vale ao BayesB
com t = 0)
qui-quadrado invertida

BayesB Normal com heterogeneidade de
varincias entre marcas, mdia zero e
varincia finita (t dado priori qui-
quadrado para as varincias)
Mistura de distribuies
0 com probabilidade (1-
t) e qui-quadrado
invertida com
probabilidade t

qui-quadrado invertida
BayesCt
Mistura de distribuies 0 e Normal com
varincia comum (t dado priori qui-
quadrado para as varincias)
qui-quadrado invertida,
t com distribuio
Uniforme entre 0 e 1
qui-quadrado invertida

Lassos Exponencial Dupla Exponencial Dupla Gama Invertida

As distribuies assumidas para os efeitos genticos de marcadores nos
diferentes mtodos de GWS so: RR-BLUP: Normal com varincia comum;
Mtodos Bayesianos: t dado priori qui-quadrado para as varincias; Lassos:
Exponencial Dupla. A Figura 4 ilustra as formas das distribuies normal (RR-
BLUP), t (BayesA) e exponencial (LASSO).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

194

-10 -5 0 5 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
X
D
e
n
s
i
d
a
d
e
Exponencial Dupla
t-Student
Normal
Figura 4 Funes densidade de probabilidade das distribuies exponencial dupla,
normal e t de Student, todas com mdias iguais a zero e varincias iguais unidade
(Resende Jr. et al., 2012c).

Observa-se que, em relao ao RR-BLUP, a densidade a priori utilizada no
LASSO Bayesiano apresenta maior massa de densidade no valor zero e caudas mais
robustas, exercendo maior encurtamento sobre coeficientes de regresso prximos
de zero e menor encurtamento sobre coeficientes de regresso distantes de zero. A
densidade a priori utilizada no BayesA tambm apresenta maior massa de densidade
no valor zero e caudas mais robustas do que a normal usada no RR-BLUP. O
LASSO Bayesiano tambm exerce maior encurtamento sobre coeficientes de
regresso prximos de zero do que o BayesA. Mas as caudas das distribuies so
similares pelos dois mtodos (Figura 4).







Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

195

6.18 Regresso Kernel Hilbert Spaces (RKHS)

Os mtodos regresso kernel no paramtrica via modelos aditivos
generalizados (Gianola et al., 2006), regresso semi-paramtrica RKHS (Reproducing
Kernel Hilbert Spaces) (Gianola; Kaam, 2008) e de redes neurais pertencem classe de
regresso implcita e so mtodos no paramtricos ou semi-paramtricos. Esses
mtodos so uma alternativa para o juste de modelos com muitas interaes
epistticas e de dominncia.

Gonzales-Recio et al. (2008) compararam mtodos no paramtricos (RKHS),
regresso bayesiana e RR-BLUP em termos de eficincia na seleo genmica.
Concluram que o mtodo da regresso RKHS (Reproducing Kernel Hilbert Spaces)
apresentou melhor capacidade preditiva do que os demais. Esse mtodo equivale ao
BLUP modelo animal com a matriz de parentesco substituda pelos kernels. O
mtodo semi-paramtrico RKHS parece ter maior capacidade preditiva quando
aplicado a dados reais (Gianola et al., 2009), sem fazer fortes suposies a priori.

Regresses no paramtricas so representaes funcionais entre um grande
nmero de covariveis e uma varivel dependente, gerando uma estrutura menos
parametrizada, com menos suposies e com facilidade para acomodar efeitos de
interaes.

As funes de kernel podem ser usadas em mtodos no paramtricos para
estimar densidades a partir de uma amostra (Bishop, 2006). A regresso de
Naradaya-Watson (NWR) aplicando o kernel binomial para estimao da funo do
valor allico tem sido usada para implementao do modelo no paramtrico usando
a teoria do modelo aditivo (Hastie e Tibshirani, 1986; Gianola et al., 2006). Este
mtodo apresenta resultado similar ao do RR-BLUP, sendo que o NWR depende do
fator de alisamento e o RR-BLUP depende do fator de shrinkage.

RKHS
Modelo
O modelo genrico para o fentipo dado por
j j j
e + ) g(w + u = y , em que: y
j

o fentipo do indivduo j; u a mdia do carter em estudo; e
j
o erro aleatrio e
g(w
j
) uma funo desconhecida que relaciona os gentipos marcadores
(covariveis) com os fentipos (varivel dependente).
A funo g(w) definida por
) (
) , (
) ( ) (
w p
dy w y p y
w y E w g
}


= =
.
Funo Objetivo a ser Minimizada:
}
2
2
) ( )] ( [( min arg

H
N
j
i j RKHS
w g h w g u y +

=

|
.
Funo de Penalizao
2
) (
H
w g h , em que h o parmetro de suavizao e
2
) (
H
w g a norma de g(w) em um
espao de Hilbert, a qual induz regularizao, cuja fora ditada por h.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

196


Caractersticas

No espao infinito de Hilbert, procura-se a funo g(w) que minimize a soma de
quadrados penalizada
}
2
2
) ( )] ( [( )] ( [
H
N
j
i j
w g h w g u y w g SS +

=

. A soluo para essa
minimizao dada por:

=
+ =
N
j
i j
w w k w g
1
0
) ( ) ( o o
, em que
j
o
so coeficientes desconhecidos (com total
equivalente ao nmero N de indivduos genotipados) e k(w-w
j
) o kernel de
reproduo, cuja escolha define o espao de Hilbert em que se dar a minimizao da
soma de quadrados. A regularizao realizada produz nos modelos de regresso
RKHS um menor nmero de parmetros do que em outros mtodos.

Na RKHS uma coleo de funes reais implicitamente definida pela
escolha de um kernel de reproduo, k(w
i
,w
j
). Esta funo mapeia pares de gentipos
em nmeros reais. Sob uma perspectiva bayesiana o kernel de reproduo define
correlaes a priori entre as avaliaes da funo (valores genticos) em pares de
gentipos (Cor[g(w
i
),g(w
j
)]. A escolha do kernel fundamental na especificao do
modelo e a RR pode ser representada como regresses RKHS. De maneira geral, os
kernels so escolhidos por algoritmos de forma a maximizar a performance do
modelo, maximizando a capacidade preditiva. Uma grande variedade de kernels
avaliada e selecionado aquele que timo segundo o critrio de seleo do modelo
(aquele que maximiza a capacidade preditiva) (Campos et al., 2009a). A capacidade
preditiva na populao de validao a capacidade de prever futuras observaes. Na
populao de estimao uma medida da qualidade do ajustamento entre os dados de
treinamento e o modelo.

Na regresso RKHS a estrutura de covarincia proporcional a uma matriz
de kernel K, dada por Cov(g
i
,g
j
) o K
RKHS
(w
i
,w
j
), em que w
i
,w
j
so vetores de
gentipos marcadores para os indivduos i e j, e K(.,.) uma funo positiva definida
avaliada nos gentipos marcadores. Uma grande vantagem da RKHS que o modelo
representado em termos de N incgnitas, fato que uma grande vantagem
computacional quando n muito maior que N.

Nos modelos de regresso explicita e na RKHS, as funes base (funes das
covariveis usadas para construir a regresso, por exemplo, polinmios) para
regressar fentipos em marcadores so definidas a priori e isto impe restries nos
padres que podem ser capturados pelos mtodos. No mtodo de redes neurais as
funes base usadas so inferidas dos prprios dados e isso confere grande
flexibilidade a esse mtodo. Porm, h o risco de superparametrizao e a
interpretao dos parmetros no trivial. A superparametrizao significa que a
capacidade preditiva na populao de estimao apresenta boa performance mas no
a apresenta na populao de validao (em dados que no foram usados para ajustar o
modelo) (Campos et al., 2009a e b).


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

197

O modelo pode ento ser expandido da seguinte forma:


j j j
e + ) g(w + u = y
j
N
= j
i j j
e + ) w k(w + u = y


1
, em que
0
o faz parte de u.
Em termos vetoriais, tem-se:

e + T(h) + = y 1u , em que:

(
(
(
(
(
(
(
(

=
) (
.
.
.
) (
) (
) (
2
1
h t
h t
h t
h T
n
,
n n i h i h i h i
w w k w w k w w k h t )] ( )... ( ) ( [ ) (
2 1 1
= e
n n 1
] [ = ' ...
2 1
.

Assumindo ) N(
j
2
0, ~
o
e que os componentes de varincia e h so
conhecidos, tm-se as equaes de modelo misto para obteno das solues de u e
j
:

(

=
(

(
(

+
y h T
y u
I h T h T h T
h T
e
)' (
' 1

) ( )' ( ' 1 ) (
1 )' ( 1 ' 1
2
2
o
o
o
o
.

Aps a escolha do parmetro de suavizao h, pode-se obter estimativas
REML para os componentes de varincia
2
o
e
2
e
. O parmetro de suavizao h pode
ser determinado via validao cruzada ou via abordagem bayesiana, atribuindo-se
distribuies a priori prprias para todos os parmetros do modelo (Gianola;
Campos, 2009).

O modelo KRHS pode ser tambm assim especificado: e + K + = y
h
1u , em
que u uma constante,
h
K a matriz positiva definida de kernels, dependente do
parmetro de suavizao h; um vetor contendo coeficientes no paramtricos que
so assumidos com distribuio normal ) , 0 ( ~
2 1
o
o o

h j
K N , com
2
o
o representando a
recproca do parmetro de alisamento (
1 2
= o
o
). Os resduos tm distribuio
normal com matriz de covarincia R=I
2
e
. A soluo para o dada por
y I K
e h e
2 2 2
] [

= + o o o o
o
.

Os fentipos so preditos por o 1
*
h
K u y + = , onde uma linha de
*
h
K tem a
forma )] ( [
* *
j i h t
w w K K = , com ) (
*
j i h
w w K sendo o kernel entre o genotipo do
indivduo i no grupo de validao e o gentipo do indivduo j no grupo de estimao.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

198

RKHS com efeito polignico

Nesse caso, o efeito gentico de um indivduo j dado pelo seguinte modelo
j j j
+ p = g , em que
j
p a regresso sobre o pedigree,
j
a regresso semi-
paramtrica sobre os marcadores. Na RKHS, a suposio de que ) , , ( =
n 2
...
1

um processo gaussiano com mdia nula e funo de covarincia proporcional a um
kernel de reproduo, , K
RKHS
(w
i
,w
j
), avaliada nos gentipos marcadores, em que w
i

e w
j
so vetores de gentipos marcadores para os indivduos i e j.

A distribuio a priori conjunta de p , o e componentes de varincia
associados
2
p
o ,
2
o
o e
2
e
o dada por:

) , ( ) , ( ) , (
) , 0 ( ) , 0 ( ) , , , , , , , , , , (
2 2 2 2 2 2
2 2 2 2 2
p p p e e e
p RKHS p p e e e p
S df S df S df x
A p N K N Sf df S df S df p u p
o _ o _ o _
o o o o o o o o
o o o
o o o o


Qualquer funo positiva definida satisfazendo ) , (
j i RKHS
i j
j i
w w K

o o para
todas as sequncias no nulas } {
i
o uma escolha vlida de kernel.

Pode-se escolher ) w , (w K
j i RKHS
como um kernel Gaussiano
( ) { }
0.5
/ 2 exp q d = ) w , (w K
ij j i RKHS

, em que
2
1
) w (w = d
jk
p
= k
ik ij

o quadrado da distncia
Euclidiana, e q
0.5
a mediana amostral da matriz de quadrados das distncias
Euclidianas amostrais { }
ij
d .

Combinando a distribuio a priori conjunta com a funo de
verossimilhana, a distribuio condicional completa do modelo torna-se (Crossa
etal., 2010):
( )}
) , ( ) , ( ) , (
) , 0 ( ) , 0 ( / , , , , , , , (
2 2 2 2 2 2
2 2 2
1
2 2 2
p p p e e e
p RKHS j e
n
i
j j i e p
S df S df S df x
A p N K N n p u y N H y p u p
o _ o _ o _
o o o o o o o o o o
o o o
o o

=

+ +
[
Amostras so retiradas dessa distribuio.

Um modelo sem o efeito polignico pode ser ajustado removendo
j
p das equaes
acima. Assim, as distribuies a priori e a posteriori so dadas por:


) , ( ) , (
) , ( ) , 0 ( ) , , , , , , , , , (
2 2 2 2
2 2 2 2 2 2
p p p
e e e RKHS p p e e e p
S df S df x
S df K N Sf df S df S df u p
o _ o _
o _ o o o o o o o
o o o
o o o o

e
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

199

( )}
) , ( ) , ( ) , (
) , 0 ( / , , , , , , (
2 2 2 2 2 2
2 2
1
2 2 2
p p p e e e
RKHS i e
n
i
j j e p
S df S df S df x
K N n u y N H y u p
o _ o _ o _
o o o o o o o o o
o o o
o o

=

+
[
,
respectivamente.

O modelo animal univariado tradicional pode tambm ser expresso em
termos de e g y + = em que ) , 0 ( ~ , 0
2 2
o o
o o
RKHS RKHS
K N K g , conduzindo ao estimador
y g K I
e RKHS e
2 1 2 2
] [

= + o o o
o
(Campos et al., 2009).

6.19 Regresso via quadrados mnimos parciais (PLSR)

A regresso via quadrados mnimos parciais (PLS) um mtodo de reduo
dimensional que pode ser aplicado seleo de marcadores com efeitos significativos
em um carter. um mtodo muito usado em quimiometria na situao em que se
tem um grande nmero de variveis com relaes desconhecidas e o objetivo a
construo de um bom modelo preditivo para a varivel resposta (Wold et al., 1985).
No PLS variveis latentes so extradas como combinaes lineares das variveis
originais e so usadas para a predio da varivel resposta, conforme descrito a
seguir.

j j j
e + ) f(w = y : valor fenotpico do indivduo j.
) f(w
j
: funo que relaciona gentipos marcadores aos fentipos.
j
e : termo residual.
Pelo PLS, a funo ) f(w
j
definida como

h
= l
l jl j
t = ) f(w
1
, em que
jl
t o
componente latente l (l = 1, 2, h) no individuo j e geralmente h menor que o
nmero de variveis.
l
o efeito gentico associado ao componente latente l. O
efeito gentico (regresso) associado ao marcador i dado por

h
= l
li l i
w =
1
.
As variveis latentes so componentes ortogonais (isso elimina o problema de
multicolinearidade) e a PLSR similar regresso via componentes principais
(PCR). Ambos os mtodos constroem a matriz T de componentes latentes, como
transformao linear da matriz W das variveis originais por meio de T = WQ, em
que Q uma matriz de pesos. A diferena que a PCR extrai componentes que
explicam a varincia de W e a PLSR extrai componentes que tem maior covarincia
com y. Na PLSR as colunas de pesos na matriz Q so definidas de forma que o
quadrado da matriz de covarincia amostral entre y e os componentes latentes
maximizado sob a restrio de que os componentes latentes sejam no
correlacionados.

Existem diferentes tcnicas para extrao dos componentes latentes. A
complexidade tima do modelo, ou seja, o nmero de componentes latentes, pode ser
determinada por validao cruzada.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

200

O mtodo PLS definido de acordo com as seguintes decomposies das
matrizes W e Y, as quais so efetuadas de forma simultnea:

1
' E TL = W + ,
2
Y=Uq'+e (1),
, em que T e U so matrizes de componentes, L e q so matrizes de
carregamento,
1
E e
2
e so vetores de resduos. A decomposio no independente,
o que possibilita estabelecer uma relao entre componentes de W e Y de forma que
para cada fator a relao abaixo obtida:

u =b t


, sendo

b (u' t ) (t' t ) =

(
pls
1,...,n = ) coeficientes estimados via
quadrados mnimos ordinrios (Ordinary Least Squares OLS) e agrupados em uma
matriz diagonal B. Maiores detalhes so apresentados por Azevedo (2012).

6.20 Regresso via componentes principais (PCR)

Conforme Azevedo et al. (2012), o mtodo PCR definido de acordo com a
seguinte combinao de variveis:
P W Z
v

= (2),

, sendo P a matriz de autovetores da matriz de covarincia entre as covariveis (W)
e, Z
v
a matriz dos componentes principais ( Z
v
,
pcr
=1,...,n v ), os quais representam
combinaes lineares das covariveis originais.

Visando estabelecer a relao entre Y e os componentes utiliza-se a regresso
linear mltipla para obter as equaes de predio do PCR e do PLS,
respectivamente:

pcr pcr
0 1 1 2 2 n n
y = + z + z + ... + z
,
(3)


y=TBq' , (4)
em que:
v
o coeficientes da regresso entre Y e Z, v obtidos por meio do mtodo
OLS.
Os coeficientes Bq' e

no possuem interpretao biolgica, porm possvel
estimar os coeficientes associados s variveis originais (efeitos dos marcadores)
combinando as equaes (2) e (3), (1) e (4) dos mtodos PCR e PLS, respectivamente.
Desta forma tem-se:

pcr

m =P ,
pls

m =LBq' .

Os mtodos PLS e PCR podem tambm serem aplicados com seleo
de covariveis, gerando os mtodos PLS esparso e PCR
supervisionado (Long et al. 2011).


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

201

6.21 Regresso via componentes independentes (ICR)

A Regresso via Componentes Independentes (Independent Component
Regression ICR), proposto por Comon (1994), consiste em decompor a matriz de
covariveis W em combinaes de componentes independentes, garantindo a
retirada da multicolinearidade dos dados, alm de reduzir a dimensionalidade. Por
esse mtodo no existe o pressuposto de que os dados sejam provenientes de uma
distribuio normal. Desta forma, pode ser aplicado de forma eficiente seleo
genmica ampla (GWS), em que a matriz de marcas W parametrizada com os
valores 0, 1 e 2 (distribuio no normal). Dessa forma, conforme Azevedo et al.
(2012), tem-se a decomposio dada por:
S F W ' ' = ,
em que: F definida como uma funo ) (KR f , sendo K uma matriz de
ortogonalizao de S obtida por meio da decomposio espectral e R uma matriz
ortogonal que maximiza a independncia estatstica das colunas de S, em que S a
matriz dos componentes independentes

S
icr
=1,...,n .
O algoritmo desenvolvido por Hyvrinen (1998b) utilizado na ICR visando
encontrar a matriz R baseando-se no princpio da mxima entropia ( J(r) ). Desta
forma, obtm-se a seguinte aproximao:
2
i i
J(r) [E{G (r)}-E{G (v)}] ,
sendo r e v variveis padronizadas e
( )
2
1
G (u)= - exp - u 2 em que u uma varivel
normal padronizada. Aps o processo iterativo tem-se a matriz de componentes dada
por:
WKR S =

, (5)


sendo KR uma aproximao de F. Assim, obtm-se a equao de predio baseada no
mtodo ICR expressa por:
icr icr
n n 0 1 1 2 2
s s s y = + + + ... + , (6)
em que:

s o componente independente e


o coeficiente da regresso
determinado por meio do mtodo OLS,
icr
=1,...,n .Similarmente aos outros mtodos,
pode-se obter os efeitos de marcadores partir das equaes (5) e (6) por meio da
seguinte equao:
icr
m =KR ,

, sendo o vetor de estimativas dos coeficientes provenientes da regresso entre Y e
S.
Um passo importante dos mtodos de Reduo Dimensional a escolha do
nmero timo de componentes a serem inseridos no modelo. Um critrio de deciso
para o PLS e PCR adotar uma percentagem da variao total explicada pelos
componentes, a qual neste trabalho foi de 70%. Tal porcentagem tambm foi
considerada para o mtodo ICR, uma vez que Cadavid et al. (2008) sugere que o
nmero de componentes no mtodo ICR pode ser o mesmo obtido no mtodo PCR.





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

202

6.22 Comparao entre 12 mtodos de seleo genmica ampla
Para a comparao entre vrios mtodos estatsticos na GWS foram
simulados dois conjuntos de dados usando o aplicativo RealBreeding (Viana, 2011),
(Tabela 30).
Tabela 30. Parmetros usados na simulao.
Carter Va Ve h
2
Soma 2pq
N genes
menores
N genes
maiores
N
indivduos
N SNP
Sem gen
maior
4,826202 11,26114 0,300 233,47 100 0 300 500
Com gen
maior
114,5132 267,1974 0,300 231,80 98 2* 300 500
* os dois explicando 30% da variao gentica e os 98 explicando 70%.
Foram empregados os seguintes softwares e mtodos na GWS (Tabela 31).
Tabela 31. Softwares e mtodos usados na GWS.
Mtodo Software Referncia
1 FR-LS
Selegen Genmica Resende (2007)
2 RR-BLUP Selegen Genmica Resende (2007)
3 RR-BLUP-Het Selegen Genmica Resende (2007)
4 RR-BLUP Padronizado Genome Wide Prediction Meuwissen et al (2009)
5 Fast BayesA Genome Wide Prediction Meuwissen et al (2009)
6 Fast BayesB Genome Wide Prediction Meuwissen et al (2009)
7 IBLASSO GS3 Legarra et al (2011)
8 BayesCPi GS3 Legarra et al (2011)
9 MCMC-BLUP GS3 Legarra et al (2011)
10 BLASSO BLR Perez et al. (2010)
11 RKRS R Campos et al. (2009a)
12 PLSR R Os autores
Os resultados referentes GWS so apresentados na Tabela 32 (Resende et al., 2011).






Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

203

Tabela 32. Resultados de acurcia referentes GWS.
Mtodo Acurcia Carter 1 Acurcia Carter 2
1 FR-LS
0,59 0,44
2 RR-BLUP 0,71 0,78
3 RR-BLUP-Het (IBLASSO) 0,71 0,80
4 RR-BLUP Padronizado 0,71 0,78
5 Fast BayesA 0,71 0,79
6 Fast BayesB 0,71 0,79
7 IBLASSO 0,71 0,80
8 BayesCPi 0,59 0,70
9 MCMC-BLUP 0,71 0,80
10 BLASSO 0,68 0,63
11 RKRS 0,99 0,99
12 PLSR 0,99 0,99
Verifica-se que, para o carter 1, com arquitetura gentica homognea, a
maioria dos mtodos forneceram acurcia idntica de 0,71. Apenas os mtodos FR-
LS, BLASSO e BayesCPi foram inferiores. Os mtodos RKRS e PLSR no usam
herdabilidade e, portanto, os resultados (0,99) obtidos na populao de estimao
referem-se a coeficientes de determinao fenotpica e no a acurcias. Para a
comparao desses mtodos com os demais torna-se necessria a realizao de
validao cruzada em todos os mtodos.
Para o carter 2, com arquitetura gentica heterognea, os mtodos diferiram
mais, destacando-se como superiores os mtodos IBLASSO, RR-BLUP-Het (com
componentes de varincia estimados pelo IBLASSO) e MCMC-BLUP, concordando
com Legarra et al. (2011). Os mtodos FR-LS e BLASSO foram inadequados para os
dois caracteres. Os mtodos RR-BLUP e RR-BLUP padronizado, se aplicados
corretamente, so idnticos.






Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

204

6.23 Pesos das marcas nos diferentes mtodos e frequncias allicas

O conhecimento dos pesos dados s diferentes fontes de informao nos
procedimentos de estimao relevante no estudo das propriedades dos diferentes
mtodos de estimao. Mrode et al. (2010) abordaram essa questo. A equao de
estimao dos efeitos de marcadores pelo mtodo RR-BLUP dada por
y W' I) + W (W' = m
RR
1


. O estimador do efeito de uma marca i equivale a
i i i i i RR i i i
yd f = yd w ' w ) + w ' (w = m
1


, em que
i i RR i i i
w ' w ) + w ' (w f
1
= e
i
yd o desvio
fenotpico associado marca i corrigido para todos os demais efeitos ambientais e
genticos de outras marcas, sendo dado por
) m w (y ' w = yd
j
j j i i

, i j. O valor
gentico aditivo do indivduo k dado por

=
i
i i i k
yd f w g
.
Pelos mtodos bayesianos BayesA e BayesB existe um componente adicional
resultante da amostragem da distribuio condicional a posteriori de tal que
) ) ' ( , (
2 1
e i i i i
i
i i i k
w w m N yd f w g o

+ + =

. O segundo termo dessa equao tende a zero


quando se faz as mdias de todas as amostras de Gibbs salvas aps o perodo de burn
in.
Diferenas nos pesos dos marcadores, ou seja, diferentes shrinkages podem
surgir mesmo quando se usa o mtodo RR-BLUP, como resultado da variao nas
frequncias allicas. Mrode et al. (2010) relatam os seguintes pesos associados a cada
categoria (alta, mdia e baixa) de frequncia allica: 0,19, 0,12 e 0,04, respectivamente.
Para os mtodos BayesA e BayesB, os pesos no variaram entre as categorias de
frequncia allica, equivalendo a 0,52 e 0,88, respectivamente. O peso maior
associado ao BayesB deve-se ao fato desse mtodo efetivamente ajustar um menor
(66% no caso) nmero de marcadores.

Verifica-se ento que os pesos diferem entre mtodos. Isso afeta as alteraes nas
frequncias allicas como resultado da seleo. E o mtodo RR-BLUP enfatiza pouco
os alelos de baixa frequncia, podendo ser desfavorvel para o melhoramento a longo
prazo. Para contornar isso, um ndice de seleo enfatizando mais os alelos de baixa
frequncia poderia ser estabelecido. Tambm, isto pode ser corrigido via
parametrizao com padronizao em W.

As correlaes entre pesos e frequncias allicas foram 0,99; 0,40 e -0,05 para o
RR-BLUP, BayesA e BayesB, respectivamente. No mtodo RR-BLUP, a quantidade
e magnitude de informao depende essencialmente das frequncias allicas. No
BayesA e BayesB, dependem tambm da variao gentica diferencial entre locos.
Conforme Mrode et al. (2010), a correlao entre os efeitos dos marcadores pelos
mtodos BayesA e RR-BLUP usando componentes de varincia obtidos pelo mtodo
BayesA foi de 0,99.




Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

205

6.24 Imputao de gentipos marcadores

Dados perdidos associados aos gentipos marcadores podem ser imputados
cientificamente usando a informao de parentesco entre os indivduos genotipados e
no genotipados. Assim, para funcionar, esse mtodo demanda que haja algum
parentesco entre os indivduos da populao.

O contedo allico c para os indivduos genotipados (Y) dado por 0, 1 ou 2
para os gentipos aa, Aa e AA, respectivamente, para marcadores biallicos e
codominantes. O contedo allico para os indivduos no genotipados (X) dado por
(Gengler et al., 2007):

( )
|
|
.
|

\
|

1
1
1
Y
YY XY X
c
A A c
, em que A refere-se matriz de parentesco
(correlao) gentico aditivo entre indivduos genotipados (
YY
A ) e entre indivduos
genotipados e no genotipados (
XY
A );
Y
c o vetor de contedo allico dos
indivduos genotipados; a mdia geral, calculada diretamente dos dados
genotpicos: 1 um vetor de uns.

A mdia geral pode tambm ser calculada simultaneamente ao vetor
X
c por
meio das equaes de modelo misto:

|
|
.
|

\
|
=
|
|
|
.
|

\
|
|
|
.
|

\
|
+

y
Y
X
Y
c M
c
c
c
A M M M
M
'
' 1

' 1 '
' 1 1 ' 1
1

o
, em que M uma matriz de incidncia
que associa
Y
c a
|
|
.
|

\
|
X
Y
c
c
. M pode ser rescrita como ( )
X Y
I = M 0 , em que I uma matriz
identidade. A matriz de parentesco dada por
|
|
.
|

\
|
=
XX XY
YX YY
A A
A A
A
. O modelo associado
ao sistema de equaes equivale a e Mc c
Y Y
+ + =
*
, em que ] [
*
X Y Y
c c c = .

O fator necessrio para que o sistema tenha soluo e dado por
2
/
c
2
e
= , em
2
e
a varincia do erro de genotipagem e
2
c
varincia do contedo
allico c. O componente
2
e
deve ser mantido prximo de zero, ou seja, da ordem de
0,001. Isso est associado a um coeficiente de determinao de c equivalente a 0,999.
Dessa forma, 0.001001 0.999 / 0.001 /
2
= = =
c
2
e
.

As equaes de modelo misto apresentadas so praticamente iguais s
equaes de quadrados mnimos. Para derivao do BLUP no necessrio a
suposio de normalidade (o contedo c no tem distribuio normal) segundo
alguns procedimentos como a minimizao da varincia do erro de predio;
necessita-se apenas de componentes de varincia conhecidos. Outras derivaes
como aquela via mximo a posteriori (MAP) assumem que y e g tem distribuio
normal multivariada. Nesse caso, propriedades favorveis adicionais so asseguradas
ao BLUP (ver Resende, 2002, pginas 220 a 226).
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

206


Considere o seguinte exemplo, com quatro indivduos genotipados (no
aparentados e com contagem de alelos marcadores 1, 0, 2 e 2, respectivamente) e um
no genotipado e irmo completo do indivduo nmero 4. Tem-se as seguintes
matrizes e resoluo pelas equaes de modelo misto:

1= [1 1 1 1]
c
Y
= [1 0 2 2]

M = [1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0]

A = [1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0.5
0 0 0 0.5 1]

Sendo 0.001 = , tem-se

Matriz dos Coeficientes = MC

|
|
.
|

\
|
+
=

o
1
' 1 '
' 1 1 ' 1
A M M M
M
MC


MC = [ 4.0000 1.0000 1.0000 1.0000 1.0000 0
1.0000 1.0010 0 0 0 0
1.0000 0 1.0010 0 0 0
1.0000 0 0 1.0010 0 0
1.0000 0 0 0 1.0013 -0.0007
0 0 0 0 -0.0007 0.0013]

Lado Direito das Equaes = LD

|
|
.
|

\
|
=
y
Y
c M
c
LD
'
' 1

LD = [5 1 0 2 2 0].








Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

207

Soluo
|
|
|
|
|
|
|
|
|
.
|

\
|

= =
|
|
|
.
|

\
|

3746 . 0
7493 . 0
7493 . 0
2488 . 1
2498 . 0
2500 . 1
) (

1
LD MC
c
c
X
Y

.
Assim, o gentipo imputado para o indivduo 5 foi 0,3746.
Resolvendo-se via frmula tem-se:
( )
( ) ( )
( ) 625 . 1
75 . 0
75 . 0
25 . 1
25 . 0
25 . 1
5 . 0 0 0 0 1
1
1
1
1
1
1
) 4 (
1
=
|
|
|
|
|
|
.
|

\
|

=
|
|
.
|

\
|

=
|
|
.
|

\
|

=
|
|
.
|

\
|

Y
XY
Y
XY
Y
YY XY X
c
A
c
I A
c
A A c

O valor 1,625 menos a mdia geral 1,25, fornece o valor 0,375.

6.25 Aumento na eficincia seletiva do melhoramento de plantas e
animais

O aumento da eficincia seletiva com o uso da GWS pode ocorrer pela
alterao dos quatro componentes da expresso do progresso gentico, dada por
L ) r (k = G
g g g S
/

, em que k o diferencial de seleo padronizado (dependente da


intensidade de seleo),
g g
r

a acurcia seletiva,
g
o desvio padro gentico
(variabilidade gentica) do carter na populao e L o tempo necessrio para
completar um ciclo seletivo.
Espcies vegetais perenes (florestais, fruteiras, forrageiras, cana-de-acar, caf) e animais
Nessas espcies, o benefcio da GWS se d devido ao aumento de
g g
r

e
reduo em L. O aumento em
g g
r

se d devido ao uso da matriz de parentesco real e


prpria de cada carter (Resende, 2007). E esse aumento depende do tamanho da
populao de estimao e da densidade de marcadores. O fator L enormemente
reduzido com a GWS, pois a predio genmica e a seleo podem ser feitas no
estgio de plntulas. Assim, mesmo que
g g
r

seja de mesma magnitude que aquela


obtida com a seleo fenotpica, a GWS ser ainda superior seleo baseada em
fentipos, devido reduo em L. A GWS explorando essas vantagens foi
implementada por Resende Jr. (2010), Resende et al. (2012) e Resende Jr. et al. (2012 a
e b) em espcies florestais, por Cavalcanti et al. (2012) em cajueiros, por Oliveira et
al. (2012) em mandioca, por Simeo et al. (2013) em forrageiras e por Rocha (2011) e
Azevedo (2012) em sunos.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

208

Espcies vegetais algamas anuais (milho, girassol)

Nessas espcies o benefcio da GWS se d devido a trs fatores: aumento de
g g
r

, aumento de k e reduo em L. H tambm um aumento da variao gentica


explorada pelo mtodo da seleo recorrente.
Nesse caso, o aumento de
g g
r

se d devido ao uso da matriz de parentesco real e


tambm devido ao fato de se explorar toda a variao gentica da populao e no
somente aquela entre famlias. Uma vez que a seleo pela GWS praticada
precocemente e antes do florescimento, torna-se possvel a seleo em nvel de
indivduo e nos dois sexos (como se faz no melhoramento de plantas perenes), sem a
necessidade de duas estaes de plantio: uma para a avaliao de famlias e outra para
o estabelecimento do lote de recombinao. Consequentemente, o tempo L tambm
reduzido. Essa coincidncia entre unidade de seleo e unidade de recombinao
maximiza tambm a herdabilidade do mtodo de seleo (explora adicionalmente
0,50 ou 0,75 da variao gentica aditiva que estava dentro de prognies). A seleo
em nvel de indivduo propicia tambm o aumento da intensidade de seleo k. A
GWS explorando essas vantagens foi implementada por Fritsche Neto (2011),
Fritsche Neto et al. (2012) e Oliveira et al. (2012).
Espcies vegetais autgamas anuais (soja, feijo, arroz, trigo)

Nessas espcies, usando a duplicao de haplides para a obteno direta de
linhagens, o benefcio da GWS se d devido aos quatro fatores: aumento de
g g
r

,
aumento de k, aumento de
g
(por meio da explorao de duas vezes a variao
gentica aditiva) e reduo em L.
Seguindo o mtodo normal ou genealgico de melhoramento, tem-se que a
seleo via GWS no pode ser realizada na gerao F
2
, pois deve-se caminhar at a
homozigose para a seleo final. Assim, no se reduz L. Mas pode-se identificar os
bons alelos com a GWS na gerao F
2
e direcionar o cruzamento entre as melhores
plantas, fazendo-se a seleo recorrente intrapopulacional em autgamas. Isso
permite aumentar
g g
r

e
g
e, consequentemente, aumenta-se o ganho gentico.
Adicionalmente aumenta-se k, pois possvel avaliar um nmero muito maior de
plantas F
2
do que de famlias F
2:3
. Para o avano de plantas S
0
at linhagens
homozigotas pode-se praticar a seleo precoce via GWS em cada gerao (sem a
necessidade de experimentar prognie), maximizando-se ento a acurcia seletiva. A
estimao dos efeitos de marcas baseada em plantas S
0
da gerao F
2
.
O aumento da eficincia do melhoramento de plantas anuais via aplicao da
metodologia de modelos mistos apresentada com detalhes na coleo de artigos
publicados por Viana et al. (2010; 2011; 2012).





Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

209

6.26 Reduo no erro da inferncia sobre os QTL via uso dos
marcadores

(A) Mtodo G-BLUP

O mtodo G-BLUP foi inicialmente aplicado por Nejati-Javaremi et al. (1997) e Fernando
(1998) e, no contexto da seleo genmica por Habier et al. (2007), Van Raden (2008),
Goddard (2008), Goddard et al. (2009), Hayes et al. (2009) e Stranden & Garrick (2009).
Assim, no contexto da GWS, o mtodo G-BLUP emergiu vrios anos aps a proposio dos
mtodos RR-BLUP (tambm denominado SNP-BLUP), BayesA e BayesB por Meuwissen et
al. (2001).

Modelo G-BLUP
e Zg Xb y + + =
;
2
) (
g M
G g Var o =
,
em que G
m
a matriz de parentesco genmico nos locos marcadores.

Modelo Equivalente G-BLUP
Wm g =
e ZWm Xb y + + =
;
2 2
' ' ) (
m m
WW W WI Wm Var o o = =
, em que m o vetor de efeitos genticos (substituio allica) dos marcadores.

Assim, ) ( ) ( Wm Var g Var = e, portanto,
2 2
'
m g M
WW G o o = e
2 2
/ '
g m M
WW G o o = e W a
respectiva matriz de incidncia.

A vantagem da GWS advm da possibilidade de se acessar os gentipos dos
prprios QTLs que controlam o carter em questo e ento estimar os seus efeitos
nos fentipos. De forma equivalente, uma vez lidos os gentipos dos QTLs nos
vrios indivduos pode-se construir a matriz de parentesco exato (G
Q
) entre os
indivduos em avaliao e produzir estimativas acuradas de seus valores genticos
genmicos. Nessa predio BLUP usando G
Q
realiza-se intrinsecamente a associao
QTL e seus efeitos nos fentipos.

No entanto, na prtica, tem-se a matriz de parentesco G
M
baseada em marcadores
e no tem-se G
Q
. Assim, h uma distncia ou erro (G
E
) na inferncia sobre G
Q

baseada em G
M
, ou seja, G
Q
- G
M
= G
E
e, portanto, G
Q
= G
M
+ G
E
= G
M
+ (G
Q
- G
M
).
Assim, G
M
= G
Q
- G
E
, ou seja, G
M
estima a diferena G
Q
- G
E
.

O valor esperado de G
M
quando o nmero de marcadores tende a infinito a
matriz A obtida com base em pedigree. Assim a equao para G
Q
pode ser rescrita
como G
Q
= G
M
+ (G
Q
- G
M
) = E(G
M
) + [G
Q
- E(G
M
)] = A + (G
Q
- A). Nessa mesma
condio (nmero muito grande de marcadores) e se os marcadores coincidem
perfeitamente com os QTLs tem-se G
Q =
A e as selees genmica e fenotpica se
equivalem. Uma vez que o nmero de QTLs de um carter finito, tem-se A G
Q
= e
a seleo genmica pode superar a fenotpica. Nesse caso, os desvios em ) ( A G
Q

contemplam a segregao mendeliana dos alelos nos QTLs.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

210

Sendo G
Q
= A + (G
Q
- A) e como no se conhece G
Q
, essa pode ser estimada por
) (

A G A G
M Q
+ = | , em que |

uma regresso matricial dos elementos de


) ( A G
Q


nos elementos de ) ( A G
M
e visa retirar de G
M
quanto devido a G
Q
, separando-a
de G
E
. O coeficiente de regresso dado por
) ( / ) ( ) ( / )] ( ), [(

A G Var A G Var A G Var A G A G Cov


M Q M M Q
= = | . O denominador de
|

, ) ( A G Var
M
, pode ser expresso por
) ( ) ( ) (
E Q M
G Var A G Var A G Var + =
e, portanto,
contempla dois componentes confundidos: (i) superioridade do uso de
Q
G em lugar
A; (ii) erro no uso de
M
G no lugar de
Q
G .

Como
Q
G desconhecida, a mesma deve ser estimada com base nos marcadores
(G
M
), assumindo que os QTLs tem as mesmas propriedades allicas que os
marcadores, isto , desequilbrio de ligao mdio entre marcas igual desequilbrio de
ligao mdio entre marcas e QTLs. Assim, esse ltimo LD pode ser predito
dividindo aleatoriamente o total de marcadores em dois grupos sem sobreposio,
calculando as matrizes
1 M
G e
2 M
G associadas a esses dois grupos e computando a
covarincia entre essas duas matrizes.

Conforme Goddard et al. (2011), a quantidade )] ( ), [(
2 1
A G A G Cov c
M M
= estima
)] ( ), [( A G A G Cov
M Q
e consequentemente ) ( A G Var
Q
. O denominador de |


equivale a 2 / ) ( )] ( ), [(
2 1 2 1 M M M M
G G Var A G A G Cov den + = . Assim,
2 / ) ( )] ( ), [(
)] ( ), [(

2 1 2 1
2 1
M M M M
M M
G G Var A G A G Cov
A G A G Cov
den
c
+

= = |
. A quantidade
) (
2 1 M M
G G Var
estima
) ( 2
E
G Var , pois
). ( 2 ) ( ) ( ) ( 2 ) ( ) ( ) (
2 1 E E Q Q E Q M M
G Var G Var G Var G Var G Var G Var G G Var = + + + =

Conforme Yang et al. (2010),
m E
n G Var / 1 ) ( = . Assim,
m m M M
M M
n c
c
n A G A G Cov
A G A G Cov
den
c
/ 1 / 1 )] ( ), [(
)] ( ), [(

2 1
2 1
+
=
+

= = |
. Isto pode ser simplificado para
) 1 /( 1 1

+ = cn | .

A covarincia )] ( ), [(
2 1
A G A G Cov c
M M
= estimada como a covarincia entre os
elementos fora da diagonal das matrizes das diferenas ) (
1
A G
M
e ) (
2
A G
M
. A
quantidade c pode ser tambm computada como ) , (
LOW
QMAF M
G G Cov c = , em que
LOW
QMAF
G a matriz de parentesco real ao nvel dos QTLs ou variantes causais,
formada somente com os SNPs de baixa MAF (minor allele frequency), os quais
mimicam os referidos QTLs. Intrinsecamente tem-se
) (
) , (
M
QMAF M
G Var
G G Cov
LOW
= |
.
O valor de |

permite determinar quanto da diferena ) ( A G


M
devida
melhoria da GWS em relao seleo fenotpica e quanto devida distncia entre
Q
G e
M
G , ou seja, pela falta de determinao dos QTLs pelas marcas. Assim,
conforme Goddard et al.(2011), |

pode ser dado tambm por


) /(

Me n n
m m
+ = |
, em que
Me o nmero efetivo de segmentos cromossmicos, cuja frmula de clculo
apresentada mais adiante. Essa proporo |

mede a relao entre nmero de efeitos


a estimar em relao ao nmero de efeitos a explicar, assumindo que todas as marcas
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

211

so diferentes dos QTLs. Esse estimador ) 4 2 /( 1 ) ( ~

2
NeL r E + = | (Tenesa et al.,
2007) ou ) 4 1 /( 1 ) ( ~

2
NeL r E + = | (Sved, 1971).

Quando os marcadores so os QTLs ou esto em desequilbrio de ligao com os
QTLs, G
M
propicia mais informaes sobre a covarincia entre parentes do que a
matriz A. Isto ocorre porque a matriz A no considera a variao no parentesco entre
os irmos completos. Uma segunda abordagem usar o ajuste de g*, conforme
detahado a seguir.

(B) Mtodo GBLUP Melhorado

Modelo G-BLUP melhorado
e Zg Xb y + + =
;
2
) (
g Q
G g Var o =


Modelo Equivalente G-BLUP melhorado
Wm q =
e Zg Zq Xb e Zg ZWm Xb y + + + = + + + = * *
;
2
) (
q M
G q Var o =
;
2
*
*) (
g
A g Var o =
, em que g* o vetor de efeitos polignicos no capturados pelos marcadores.
Assim,
2
*
2 2
g q g
o o o + = e, portanto,
2
*
2
) (
g q M
A G g Var o o + = .

Os componentes de varincia
2
q
o e
2
* g
o podem ser estimados por REML e ento
tem-se ) /(

2
*
2 2
g q q
o o o | + = . Pode-se ento estimar
Q
G como
2 2
*
2
] ) (

g M g q M Q
A G A A G G o | o o + = + = , em que
2
*
2 2

g q g
o o o + =
. A matriz
Q
G

estimada
deve ento ser usada no lugar de A nas equaes de modelo misto para a predio dos
valores genticos dos indivduos e cmputo de suas acurcias seletivas.

Esse modelo G-BLUP melhorado equivalente ao RR-BLUP com ajuste do vetor
de efeitos polignicos residuais. Apresenta como vantagem a possibilidade de computar
as acurcias seletivas dos indivduos.

(C) Otimizao do G-BLUP na predio de g (catlogo de valores genticos dos indivduos)

Um fator que contribui para a reduo de
E
G a padronizao de W, obtendo-se
W
p
. Essa padronizao reflete positivamente na composio da matriz de parentesco
genmico G
m
, a qual conter a mdia ponderada das relaes de parentesco estimadas
de cada loco marcador, em que os pesos da ponderao so funo da inversa da PEV
(varincia do erro de predio) associada varivel indicadora W em cada marcador.
No caso, a PEV dada por ) p ( p W Var PEV
i i i
= = 1 2 ) ( . E a matriz G
m
dada por
n W W G
p p M
/ ' = , em que
p
W contm elementos dados por
2 / 1
] 1 [2p
2p
) p (
) (w
w
i i
i ij
ij
p

=
, em que j
refere-se a indivduos. Essa parametrizao tambm interessante porque no
propicia pesos subestimados informaes dos alelos com baixa frequncia. Assim,
permite detectar alelos raros como no nulos. As parametrizaes alternativas
propiciam maior peso aos SNPs com alta heterozigose ( ) p ( p
i i
1 2 ).

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

212

Nesse caso, os elementos da matriz G
m
representam o parentesco realizado mdio
multi-locos e so dados por



n
i= i i
i ik i ij
jk
) p (
) )(w (w
n) ( = G
1
1 2p
2p 2p
/ 1
. Outro ponto favorvel
do G-BLUP estimado dessa maneira refere-se possibilidade de estimao direta
(via PEV) da acurcia da GWS.

Os seguintes modelos alternativos podem ser usados para maximizar a eficincia
da GWS pelo mtodo BLUP:

a. RR-BLUP (SNP-BLUP ) com ajuste do vetor de efeitos polignicos residuais


e Zg Zq Xb e Zg ZWm Xb y + + + = + + + = * *
.
* * g q g m W g + = + =


b. Modelo G-BLUP melhorado 1: | estimado a partir dos marcadores e fentipos

e Zg Xb y + + =
;
2
) (
g Q
G g Var o =

e Zg Zq Xb e Zg ZWm Xb y + + + = + + + = * *

2 2
*
2
] ) (

g M g q M Q
A G A A G G o | o o + = + = , com ) /(

2
*
2 2
g q q
o o o | + = .
Q
G
g g =


c. Modelo G-BLUP melhorado 2: | estimado a partir dos marcadores e Ne.
e Zg Xb y + + =
;
2
) (
g Q
G g Var o =

) (

A G A G
M Q
+ = |
, com ) / 1 /(

m
n c c + = | ou ) /(

Me n n
m m
+ = | , em que Me
o nmero efetivo de segmentos cromossmicos sendo dado por
)] /[ln( ) 2 (
c c c
L Ne N NeL Me = (Goddard et al., 2011, em que L
c
o comprimento
mdio de um cromossomo em Morgans e
c
N o nmero de cromossomos).

Q
G
g g =


Tem-se tambm )) ln( / 4 2 /( 1 ) /(

c m m
L Ne NeS Me n n + = + = | em que
n N L S
c c
/ = a distncia mdia entre marcadores ou tamanho do segmento
cromossmico, ou seja, ) 4 2 /( 1 ) ( ~

2
NeS r E + = | , que mede o r
2
entre pares de locos
vizinhos, conforme Tenesa et al. (2007). Tomando por base a expresso de Sved
(1971), ) 4 1 /( 1 ) (
2
NeS r E + = , e no de Tenesa et al. (2007), tem-se
)] 2 /[ln( ) 2 (
c c c
L Ne N NeL Me = .










Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

213

(D) Otimizao do G-BLUP na predio de m (catlogo de efeitos genticos dos marcadores)

As mesmas recomendaes referentes obteno de
M
G devem ser seguidas. Mas
os dados fenotpicos tambm devem ser corrigidos e, para
Q
G

, o estimador mais
adequado
) (

A G G
M Q
= |
, capitalizando somente a segregao mendeliana.

d. RR-BLUP com correo prvia dos fentipos (y
c
) para os efeitos dos
genitores.



e Zg Zq Xb e Zg ZWm Xb y
c
+ + + = + + + = * *
.
) ( 5 . 0
p m s s
g g m W g + + =
: efeito gentico predito para os novos indivduos da
gerao seguinte (s), a partir de suas matrizes de incidncia (W
s
) e dos efeitos
genticos preditos de seus genitores maternos e paternos.

e. Modelo G-BLUP com correo prvia dos fentipos (y
c
) para os efeitos dos
genitores.


e Zg Xb y
c
+ + =
;
2
) (
g Q
G g Var o =

g W W W m ) (
1
=

) ( 5 . 0
p m s s
g g m W g + + =
.

(E) Estimao do Me


O M
e
pode ser estimado a partir de:
) ( ) ( ) ( ) / 1 (
E M Q
G Var A G Var A G Var Me = =
) / 1 ( ) ( ) (
m M G M
n A G Var PEV A G Var
M
= =
ou )] /[ln( ) 2 (
c c c
L Ne N NeL Me = (Goddard et al., 2011, em que L
c
o comprimento
mdio de um cromossomo em Morgans e
c
N o nmero de cromossomos) ou
= = ) ( ) / 1 ( A G Var Me
Q
valor mdio de r
2
entre todos os pares de locos (
2
p all
r

).
Assim, a varincia nos coeficientes de parentesco em torno de A equivale ao
desequilbrio de ligao mdio.

A quantidade ) / 1 (
2
p all
r Me

= tem grande impacto na acurcia seletiva. Essa
depende sobretudo de Me Nh /
2
. Se Me baixo essa frao ter valor alto, e a acurcia
ser alta. No caso,
2
p all
r

refere-se ao desequilbrio mdio envolvendo todos os pares
de SNPs e difere de
2
mq
r que refere-se ao desequilbrio envolvendo marcadores
vizinhos. As quantidades ) /(

2
*
2 2
g q q
o o o | + = e ) /(

Me n n
m m
+ = | so estimadores de
2
mq
r . O desequilbrio mdio
2
p all
r

equivale varincia dos coeficientes de parentesco
associados aos elementos fora da diagonal de G
M
, os quais apresentam mdia 0. Os
elementos da diagonal de G
M
apresentam mdia 1.

Outra abordagem para inferir sobre n
Q
(nmero de locos gnicos) usar o seu
valor esperado, dado o tamanho efetivo (Ne) da populao e o tamanho L do genoma
da espcie. Com base no tamanho efetivo populacional (Ne), pode-se calcular o
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

214

nmero efetivo de locos ou segmentos cromossmicos (Me) devidos ligao
(segundo esse conceito, para dois gametas quaisquer, o genoma quebrado em Me
segmentos de tamanho igual). Nesse caso, n
Q
dado por n
Q
= Me V(q) = Me k,
sendo V(q) a heterozigose mdia de todos os segmentos cromossmicos
independentes, ou seja, V(q) = 2p(1-p), em que p a freqncia allica mdia. V(q)
anlogo a V(Z
i
), sendo que q refere-se aos locos gnicos e Z refere-se aos locos
marcadores.

Segundo Goddard, (2008) e conforme apresentado por Resende (2008), a
quantidade Me dada por Me = (2NeL)/[Ln(4NeL)], em que L o tamanho total do
genoma em Morgans. Entretanto, Hayes et al. (2009) relata que o valor mais
apropriado para Me situa-se entre 4NeL (que o nmero real de segmentos) e
(2NeL)/[Ln(4NeL)], sendo uma boa aproximao usar Me = 2NeL, ou seja, assumir
o nmero efetivo de locos como 2NeL. Esse nmero efetivo de locos deve ser
ponderado por uma funo da freqncia allica do gene (via freqncia do
marcador), que est implcita em V(q). O valor de n
Q
dado ento por n
Q
= Me
V(q) = Me k, em que V(q) = k dado por k = 1/[Ln(2Ne)]. Dessa forma, n
Q
= 2NeL
1/[Ln(2Ne)]. A quantidade Me V(q) refere-se ao nmero esperado de marcas com
efeitos significativos.

Entretanto, segundo Daetwyler et al. (2010), a abordagem de Goddard (2008)
propiciou, via simulao, resultados mais coerentes do que a abordagem de Hayes et
al. (2009), embora Daetwyler et al. (2010) parece no ter feito a correo para k. Com
dados reais (r
2
mq
< 1), Hayes et al. (2009) concluram o contrrio.

Geralmente o nmero de SNPs significativos maior do que o nmero de locos
pois cada SNP rastreia um grande segmento cromossmico e ento o efeito de cada
segmento cromossmico dividido em muitos SNPs. Em gado de leite, o nmero de
SNPs com efeitos significativos variou de 3.000 a 4.000 entre caracteres, dentre cerca
de 40.000 marcadores usados (Hayes et al, 2009).

O nmero mximo de SNPs com efeitos significativos limitado pelo Ne. Com Ne
mais baixo, menor n
Q
. O nmero real de segmentos cromossmicos total 4NeL,
ou seja, 120.000 em bovinos, que bem maior que o nmero efetivo de segmentos.

Na Tabela 33 so apresentados valores de n
Q
para bovinos (genoma com L = 30
Morgans) e eucalipto (genoma com L = 13,2 Morgans), para diferentes valores de Ne,
usando vrias abordagens.










Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

215

Tabela 33. Nmero efetivo de segmentos cromossmicos (Me) e de locos (n
Q
) em funo do
tamanho efetivo (Ne) e do comprimento do genoma (L) em bovinos e eucalipto.

Bovinos
Ne Tam Me Max. Me
Provavel
- Me Min. Correo Me Provvel
Corrigido*
Me Min.
Corrigido**
Correo 2 Me Prov
Corrigido
2***
Ne Ltot


4 Ne L


2NeL
Ln
(4NeL)
2NeL/
Ln (4NeL)
1/Ln(2Ne) 2NeL/ Ln(2Ne) 2NeL /
[Ln (4NeL)
Ln(2Ne)]
Ln (Ne
Lc)
2NeL/ Ln
(Ne Lc)
15 30 1800 900 7.50 120.07 0.29 261 34.82 2.71 332.34
30 30 3600 1800 8.19 219.82 0.24 432 52.76 3.40 529.23
50 30 6000 3000 8.70 344.85 0.22 660 75.87 3.91 766.87
100 30 12000 6000 9.39 638.80 0.19 1140 121.37 4.61 1302.88
200 30 24000 12000 10.09 1189.79 0.17 2040 202.26 5.30 2264.87
500 30 60000 30000 11.00 2726.75 0.14 4200 381.75 6.21 4827.34
1000 30 120000 60000 11.70 5130.29 0.13 7800 666.94 6.91 8685.89
* Hayes et al. (2009); **Goddard (2008); ***Goddard et al. (2011).

Eucalipto
Ne Tam Me Max. Me
Provavel
- Me Min. Correo Me Provvel
Corrigido*
Me Min.
Corrigido**
Correo 2 Me Prov
Corrigido
2***
Ne Ltot


4 Ne L


2NeL
Ln
(4NeL)
2NeL/
Ln (4NeL)
1/Ln(2Ne) 2NeL/ Ln(2Ne) 2NeL /
[Ln (4NeL)
Ln(2Ne)]
Ln (Ne
Lc)
2NeL/ Ln
(Ne Lc)
15 13.2 792 396 6.67 59.33 0.29 115 17.21 2.71 146.23
30 13.2 1584 792 7.37 107.50 0.24 190 25.80 3.40 232.86
50 13.2 2640 1320 7.88 167.54 0.22 290 36.86 3.91 337.42
100 13.2 5280 2640 8.57 307.99 0.19 502 58.52 4.61 573.27
200 13.2 10560 5280 9.26 569.90 0.17 898 96.88 5.30 996.54
500 13.2 26400 13200 10.18 1296.52 0.14 1848 181.51 6.21 2124.03
1000 13.2 52800 26400 10.87 2427.75 0.13 3432 315.61 6.91 3821.79
* Lc = comprimento do cromossomo, aproximadamente igual (1 Morgan) para bovinos e eucalipto, que apresentam 30 e 13 pares
de cromossomo respectivamente.

Na Tabela 34 so apresentados clculos de r
2
mq
obtidos via ) /(

Me n n
m m
+ = |
considerando Me conforme Goddard et al. (2011).

Tabela 34. Valores de r
2
obtidos via ) /(

Me n n
m m
+ = | .
Bovinos
Ne Me M r
2
mq

100 1302.88 10000 0.88
100 1302.88 20000 0.94
100 1302.88 30000 0.96

200 2264.87 10000 0.82
200 2264.87 20000 0.90
200 2264.87 30000 0.93

1000 4827.34 10000 0.67
1000 4827.34 20000 0.81
1000 4827.34 30000 0.86



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

216

Eucalipto
Ne Me M r
2
mq

15 146.23 5000 0.97
15 146.23 10000 0.99
15 146.23 20000 0.99
50 337.42 5000 0.94
50 337.42 10000 0.97
50 337.42 20000 0.98
100 573.27 5000 0.90
100 573.27 10000 0.95
100 573.27 20000 0.97
500 2124.03 5000 0.70
500 2124.03 10000 0.82
500 2124.03 20000 0.90

Sunos
h
2
a
N Nmarcas L Ne r
2
mq
n
Q

ra*
0.2 1000 1000 28 15 0.79 247.0 0.55
0.2 1000 1000 28 30 0.69 410.3 0.42
0.2 1000 1000 28 50 0.61 608.0 0.32
0.2 1000 1000 28 100 0.47 1056.9 0.20
0.2 1000 1000 28 400 0.22 3351.0 0.05
0.2 1000 1000 28 500 0.19 4053.4 0.04
0.2 1000 1000 28
1000
0.12 7367.5 0.02
0.4 1000 10000 28 15 0.97 247.0 0.77
0.4 1000 10000 28 30 0.96 410.3 0.68
0.4 1000 10000 28 50 0.94 608.0 0.60
0.4 1000 10000 28 100 0.90 1056.9 0.48
0.4 1000 10000 28 400 0.74 3351.0 0.25
0.4 1000 10000 28 500 0.70 4053.4 0.21
0.4 1000 10000 28
1000
0.57 7367.5 0.13
0.2 2000 1000 28 15 0.79 247.0 0.66
0.2 2000 1000 28 30 0.69 410.3 0.53
0.2 2000 1000 28 50 0.61 608.0 0.42
0.2 2000 1000 28 100 0.47 1056.9 0.27
0.2 2000 1000 28 400 0.22 3351.0 0.08
0.2 2000 1000 28 500 0.19 4053.4 0.06
0.2 2000 1000 28
1000
0.12 7367.5 0.03
0.4 2000 10000 28 15 0.97 247.0 0.86
0.4 2000 10000 28 30 0.96 410.3 0.79
0.4 2000 10000 28 50 0.94 608.0 0.72
0.4 2000 10000 28 100 0.90 1056.9 0.60
0.4 2000 10000 28 400 0.74 3351.0 0.33
0.4 2000 10000 28 500 0.70 4053.4 0.29
0.4 2000 10000 28
1000
0.57 7367.5 0.18
* Acurcia
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

217

Outra forma de calcular Me a partir da expresso da acurcia dada por
) /( ) ( )] / ( 1 /[ ) / (
2 2 2 2

Nh Me Nh Me Nh Me Nh r
g g
+ = + =
apresentada por Daetwyler et al.
(2008). Rearranjando essa expresso tem-se
2

2
/ ) 1 )( (

gBLUP g gBLUP g
r r Nh e M =
. Assim, Me
pode ser computado a partir da acurcia estimada via mtodo G-BLUP. Se mtodos
Bayesianos com seleo de covariveis (BayesB, BayesCpi, BayesDpi, Blasso,
Iblasso) so aplicados, o nmero de QTLs pode ser inferido via
2

2
/ ) 1 )( (
gBayes g gBayes g QTL
r r Nh n =
(Daetwyler et al. (2010). Assim,
QTL
n uma frao de
Me com efeitos mensurveis sobre o carter avaliado. A acurcia do G-BLUP,
expressa como funo de Me independe do nmero de QTLs governando o carter,
pois no h seleo de covariveis visto que todos os marcadores so retidos no
modelo e supe-se que todos os Me segmentos possuem genes.

(F) G-BLUP-Het melhorado com heterogeneidade de varincia entre SNPs

Com heterogeneidade de varincia entre SNPs e sendo D uma matriz diagonal
(
i
D diag t = ) ( , sendo
i
t o componente de varincia associado ao loco marcador i;
) , 0 ( ~ D m ) contemplando essa heterogeneidade, a modelagem da estrutura de varincia
se modifica e as equaes de modelo misto tornam-se:

(

=
(

+

y Z
y X
g
b
G Z Z X Z
Z X X X
g e
'
'
~

/ *

' '
' '
2 2 1
o o

, em que
2
*
2
*

g q M
A G G o o + = , sendo
2 '
/ ) (
g P p M
DW W G o = quando
p
W contm elementos
dados por
2 / 1
] 1 [2p
2p
) p (
) (w
w
i i
i ij
ij
p

=
. A matriz D estimada por algum mtodo Bayesiano,
segundo o modelo e Zg Wm Xb y + + + =
*
, com ) , 0 ( ~ D m .

Essa modelagem gera um mtodo G-BLUP com heterogeneidade de varincia e
produz resultados similares aos obtidos pelo mtodo BayesA.

(H) G-BLUP-Het melhorado com heterogeneidade de varincia e modelagem espacial
entre SNPs

Com dependncia espacial entre efeitos de SNPs dentro de cromossomos
devida ao desequilbrio de ligao entre eles, modelos espaciais podem ser adotados.
Nesse caso, a matriz D deve ser substituda por uma matriz de correlao
autoregressiva (AR1) contemplando essa covarincia espacial.

Um modelo autorregressivo com varincias heterogneas (ARH) pode ser
ajustado. Nesse caso, tem-se
' ) ( ) (
p ARH m p p
W W m W Var g Var = =

e para 3 marcas a
estrutura de covarincia :


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

218

(
(
(

=
2
1
3 2
2
2
3 1
1
2 1
2
3
2
1
.
m
m m m
m m m m m
ARH m
Sim
o
o o o
o o o o o
e
2 '
/ ) (
g P ARH m p M
W W G o = .

Se parte da varincia entre SNPs correlacionada e parte independente ou
no correlacionada, tem-se ' ) ( ) (
p ARH p p
W W m W Var g Var + = = e

(
(
(

+
+
+
= +
) (
) ( .
) (
2 2
1
3 2
2 2
2
3 1
1
2 1
2 2
3 3
2 2
1 1
nc c
nc c
nc c
m m
c m c m m m
c m c m c m c m m m
ARH
Sim
o o
o o o o
o o o o o o
e
2 '
/ ) (
g P ARH p M
W W G o + =
.

Outra estrutura de correlao que pode ser usada associada a modelos ante-
dependncia estruturados (SAD, que inclui tambm heterogeneidade de
autocorrelaes), em que ' ) ( ) (
p mSAD p p
W W m W Var g Var E = =

e a estrutura da matriz de
covarincia :
(
(
(

=
2
2 3 2
2
2 1 3 1 1 2 1
2
3
2
1
.
m
m m m
m m m m m
mSAD
Sim
o
o o o
o o o o o
e
2 '
/ ) (
g P mSAD p M
W W G o E = .

Com SNPs correlacionados em parte e tambm independentes, tem-se
' ) ( ) (
p SAD p p
W W m W Var g Var + = = e a estrutura da matriz de covarincia :
(
(
(

+
+
+
= +
) (
) ( .
) (
2 2
2 3 2
2 2
2 1 3 1 1 2 1
2 2
3 3
2 2
1 1
nc c
nc c
nc c
m m
c m c m m m
c m c m c m c m m m
SAD
Sim
o o
o o o o
o o o o o o
e
2 '
/ ) (
g P SAD p M
W W G o + = .

Este modelo SAD pode ser estruturado para contemplar 10 atributos:
diferentes precises e heterogeneidade na varivel indicadora W
p
; diferentes
precises na varivel fenotpica y; heterogeneidade de varincias na varivel aleatria
m; efeitos autocorrelacionados em m; heterogeneidade de autocorrelaes em m;
simultaneamente efeitos autocorrelacionados e no correlacionados em m; cmputo
da matriz de parentesco G
FG
visando o uso da informao de ligao (LA); cmputo
da matriz G* por meio do ajuste para a mesma endogamia base de G
FG
; cmputo da
matriz
*

G por meio de regresso de G* em A; considerao da varincia de G


Mijj
, ou
seja, o erro de amostragem associado a cada SNP. Alguns dos atributos mencionados
aqui so abordados mais adiante.








Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

219

(I) Correo de Fentipos com Diferentes Precises

Para considerar as diferentes precises na varivel fenotpica y, duas
alternativas de correo podem ser usadas e essa correo deve ser usada mesmo aps
a desregresso e correo para os efeitos genticos dos genitores (correo para
estrutura de populao). A primeira alternativa foi relatada por Van Raden (2008) e
Legarra et al. (2011). A segunda foi relatada por Garrick et al. (2009).

O modelo misto tradicional pode ser especificado de duas maneiras:

(i) Modelo para fentipos com iguais precises e homogeneidade de
varincia residual

). , 0 ( ~ ); , 0 ( ~
;
2 2
e g
I N e A N g
e Zg Xb y
o o
+ + =

Esse modelo conduz seguintes equaes de modelo misto:

(

=
(



y I Z
y I X
g
b
A Z I Z X I Z
Z I X X I X
e
e
g e e
e e
1 2
1 2
2 1 1 2 1 2
1 2 1 2
) ( '
) ( '
~

/ 1 ) ( ' ) ( '
) ( ' ) ( '
o
o
o o o
o o
(

=
(

+

y Z
y X
g
b
A Z Z X Z
Z X X X
g e
'
'
~

/ ' '
' '
2 2 1
o o



(ii) Modelo para fentipos com diferentes precises e homogeneidade de
varincia residual

) , 0 ( ~ ); , 0 ( ~
;
2 2
e g
R N e A N g
e Zg Xb y
o o
+ + =

, em que R uma matriz diagonal contendo os diferentes pesos associados s
diferentes precises dos fentipos. Esse modelo conduz s seguintes equaes
equivalentes de modelo misto:

(

=
(



y R Z
y R X
g
b
A Z R Z X R Z
Z R X X R X
e
e
g e e
e e
1 2
1 2
2 1 1 2 1 2
1 2 1 2
) ( '
) ( '
~

/ 1 ) ( ' ) ( '
) ( ' ) ( '
o
o
o o o
o o

(

=
(



y R Z
y R X
g
b
A Z R Z X R Z
Z R X X R X
e
e
g e e
e e
) / 1 ( '
) / 1 ( '
~

/ 1 ) / 1 ( ' ) / 1 ( '
) / 1 ( ' ) / 1 ( '
2 1
2 1
2 1 2 1 2 1
2 1 2 1
o
o
o o o
o o

(

=
(



y R Z
y R X
g
b
A Z R Z X R Z
Z R X X R X
g e
1
1
2 2 1 1 1
1 1
'
'
~

/ ' '
' '
o o
.

R foi definido da seguinte forma por Van Raden (2008):
1
1
2

=
gi g
ii
r
R , em que
2
gi g
r a confiabilidade associada ao fentipo mdio das filhas do
do indivduo i, corrigida para os efeitos dos genitores, a qual, quando associada a
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

220

prognies de meios irmos, pode ser dada por
Fi e g g
g
gi g
n
r
/ ] ) 4 / 3 [( ) 4 / 1 (
) 4 / 1 (
2 2 2
2
2

o o o
o
+ +
=
, em que
Fi
n o nmero de filhas de um genitor i. Desenvolvendo a expresso de
ii
R obtem-se
Fi g
e g
g
Fi e g
g
g
g
Fi e g g
gi g
ii
n
n n
r
R
1
) 4 / 1 (
) 4 / 3 (
) 4 / 1 (
/ ] ) 4 / 3 [(
) 4 / 1 (
) 4 / 1 (
) 4 / 1 (
/ ] ) 4 / 3 [( ) 4 / 1 (
1
1
2
2 2
2
2 2
2
2
2
2 2 2
2

o
o o
o
o o
o
o
o
o o o +
=
+
=
+ +
= =
.
As equaes de modelo misto tornam-se ento
(
(
(
(
(

+
+
=
(

(
(
(
(
(

+
+ +
+ +

y n I Z
y n I X
g
b
A Z n I Z X n I Z
Z n I X X n I X
Fi
e g
g
Fi
e g
g
g e Fi
e g
g
Fi
e g
g
Fi
e g
g
Fi
e g
g
) (
) 4 / 3 (
) 4 / 1 (
'
) (
) 4 / 3 (
) 4 / 1 (
'
~

) / ( ) (
) 4 / 3 (
) 4 / 1 (
' ) (
) 4 / 3 (
) 4 / 1 (
'
) (
) 4 / 3 (
) 4 / 1 (
' ) (
) 4 / 3 (
) 4 / 1 (
'
2 2
2
2 2
2
2 2 1
2 2
2
2 2
2
2 2
2
2 2
2
o o
o
o o
o
o o
o o
o
o o
o
o o
o
o o
o

Uma vez que
ii
R j considera a herdabilidade do carter, a frao ) / (
2 2
g e
o o
simplifica-se para um. Assim, tem-se
(
(
(
(
(

+
+
=
(

(
(
(
(
(

+
+ +
+ +

y n I Z
y n I X
g
b
A Z n I Z X n I Z
Z n I X X n I X
Fi
e g
g
Fi
e g
g
Fi
e g
g
Fi
e g
g
Fi
e g
g
Fi
e g
g
) (
) 4 / 3 (
) 4 / 1 (
'
) (
) 4 / 3 (
) 4 / 1 (
'
~

) (
) 4 / 3 (
) 4 / 1 (
' ) (
) 4 / 3 (
) 4 / 1 (
'
) (
) 4 / 3 (
) 4 / 1 (
' ) (
) 4 / 3 (
) 4 / 1 (
'
2 2
2
2 2
2
1
2 2
2
2 2
2
2 2
2
2 2
2
o o
o
o o
o
o o
o
o o
o
o o
o
o o
o
.
Multiplicando-se todos os termos da equao por
2
2 2
) 4 / 1 (
) 4 / 3 (
g
e g
o
o o +
obtm-se
(

=
(

(
(
(

+
+

y n I Z
y n I X
g
b
A Z n I Z X n I Z
Z n I X X n I X
Fi
Fi
g
e g
Fi Fi
Fi Fi
) ( '
) ( '
~

) 4 / 1 (
) 4 / 3 (
) ( ' ) ( '
) ( ' ) ( '
2
2 2
1
o
o o
, que so as equaes de modelo
misto para um modelo de reprodutor, ponderadas pelo tamanho de prognie de cada
um.

Garrick et al. (2009) relatam que as observaes desregressadas apresentam
heterogeneidade de varincia quando os indivduos apresentam diferentes
confiabilidades. Sugerem ento os seguinte peso para as informaes:
2 2

2
2
2 2

2
2
] / ) 1 )( 1 [(
1
] / ) 1 )( 1 [( h r r r
h
r r r
P
gi g gi g mq g gi g gi g mq
e
ii


=

=
o
o
, em que
2
mq
r refere-se ao
desequilbrio envolvendo marcadores vizinhos ou proporo da variao gentica
explicada pelos marcadores. As quantidades ) /(
2
*
2 2 2
g q q mq
r o o o + = e
) /(
2
Me n n r
m m mq
+ = so estimadores de
2
mq
r . Tem-se tambm
) 4 2 /( 1 ) (
2
S Ne r E
mq
+ = (Tenesa et al., 2007), em que S a distncia mdia entre
marcadores ou tamanho do segmento cromossmico que no sofre recombinao
dentro dele.
Mas como
2
2
g
e
o
o
constante para todos os indivduos tem-se que
] / ) 1 )( 1 [(
1
2

2
gi g gi g mq
ii
r r r
P

=
. Tambm
) 1 [(
1
2
mq
r
constante para todos os indivduos e tem-
se que
1 ) / 1 (
1
/ ) 1 (
1
2

=
gi g gi g gi g
ii
r r r
P
. Verifica-se que esses pesos so equivalentes
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

221

ponderao por
1
ii
R nas equaes de modelo misto, conforme Van Raden et al.
(2008), fato no notado por Garrick et al. (2009). Tambm os pesos no dependem da
quantidade
2
mq
r .

Outra opo transformar o modelo para
) , 0 ( ~ ); , 0 ( ~ ;
2 2 2 / 1 2 / 1 2 / 1 2 / 1
e g
I N e A N g e R Zg R Xb R y R o o

+ + = e usar as tradicionais
equaes de modelo misto:
(

=
(

+

y Z
y X
g
b
A Z Z X Z
Z X X X
g e
'
'
~

/ ' '
' '
2 2 1
o o
.

(J) G-BLUP com Genotipagem dos Genitores e Fenotipagem dos Descendentes

Nesse caso, usando valores genticos desregressados e corrigidos para os efeitos dos
genitores, tem-se:

| | | | | | )

( '
~
) / ( '
1 2 2 1 1
b X y R Z g G Z R Z
g e
= +

o o ;

Fi g
e g
gi g
ii
n r
R
1
) 4 / 1 (
) 4 / 3 (
1
1
2
2 2
2

o
o o +
= = .

Com apenas uma observao desregressada por genitor, tem-se Z = I, e, portanto:

| || | | | )

(
~
) / (
1 2 2 1 1
b X y R g G R
g e
= +

o o ;

| |
(
(

+
=
(
(

+
+

)

(
) 4 / 3 (
) 4 / 1 (
~
) / (
) 4 / 3 (
) 4 / 1 (
2 2
2
2 2 1
2 2
2
b X y
n
I g G
n
I
e g
g Fi
g e
e g
g Fi
o o
o
o o
o o
o
.

Uma vez que
ii
R j considera a herdabilidade do carter, tem-se
) 1 / (
2 2
=
g e
o o
e:
| |
(
(

+
=
(
(

+
+

)

(
) 4 / 3 (
) 4 / 1 (
~
) 4 / 3 (
) 4 / 1 (
2 2
2
1
2 2
2
b X y
n
I g G
n
I
e g
g Fi
e g
g Fi
o o
o
o o
o
.

Multiplicando-se todos os termos da equao por
2
2 2
) 4 / 3 (
g
e g
o
o o +
obtm-se
| | | | )

( )) 4 / 1 ( (
~
) 4 / 3 (
)) 4 / 1 ( (
2
2 2
1
b X y n I g G n I
Fi
g
e g
Fi
=
(
(

+
+

o
o o
que so as equaes de modelo
misto para um modelo individual reduzido (em que a matriz Z composta por
valores 0 e 0.5), ponderadas pelo tamanho de prognie de cada um. Esse modelo
estima o valor gentico aditivo total e no apenas o metade dele como o faz o modelo
de reprodutor. Assim, embora usando indivduos genotipados diferentes dos
fenotipados, o uso da matriz R dada por
Fi g
e g
gi g
ii
n r
R
1
) 4 / 1 (
) 4 / 3 (
1
1
2
2 2
2

o
o o +
= =
conduz
estimao dos valores genticos aditivos totais para marcadores e indivduos e no
apenas metade deles.
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

222

(K) Otimizao do G-BLUP Simultneo em Indivduos Genotipados e no Genotipados

A avaliao gentica em um programa de melhoramento gentico envolve
simultaneamente indivduos fenotipados e genotipados, apenas fenotipados e apenas
genotipados.

Para a avaliao global das trs classes de indivduos em um nico passo, o
mesmo modelo y = Xb + Zg + e pode ser usado, porm com uma alterao
(substituio da matriz G pela matriz H) nas equaes de modelo misto, conforme
Misztal et al.(2009):
(

=
(

(
(

+

y Z
y X
g
b
H Z Z X Z
Z X X X
g
e
'
'

' '
' '
2
2
1
o
o
.
A matriz H inclui ambas as relaes, baseadas em pedigree (A) e diferenas
(

A ) entre essas e as relaes genmicas, de forma que H = A +

A . Assim, H dada
por
(

+ =
(

=
22 21
12 11
0
0 0
A G
A
G A
A A
H
, em que os subscritos 1 e 2 representam indivduos
no genotipados e genotipados, respectivamente.

A inversa de H, que permite computaes mais simples, dada por:
(

+
=
(

+ =


1
22
1 22 21
12 11
1
22
1
1 1
0
0 0
A G A A
A A
A G
A H
, em que
1
22

A a inversa da matriz de
parentesco baseada em pedigree para os indivduos somente genotipados. Mtodos
distintos para cmputo direto das inversas de matrizes de parentesco foram
apresentados por Henderson (1976) e Thompson (1977).

Outra forma de expressar H por meio de
(

+
=
(

=


G A A G
G A A A A A G A A A
H H
H H
H
21
1
22
1
22 12 21
1
22 22
1
22 12 11
22 21
12 11
) (
. Verifica-se que os efeitos de G
sobre os outros blocos da matriz H so determinados pelas regresses matriciais do
tipo
1
22 12

A A , ou seja, so baseados inteiramente nas informaes de pedigree e no
fazem uso da informao genmica nessa regresso. No entanto, os gentipos
marcadores podem tambm propiciar informao nessas regresses.

Meuwissen et al. (2011) relatam que essa forma de construo de H produz
estimativas viesadas e menos acurada de valores genticos devidas aos seguintes
fatores: (i) ausncia de regresso de ) (
22
A G em A visando considerar os erros de
estimao em G; (ii) no uso das informaes de marcadores nas regresses
matriciais usadas para propagar a informao genmica dos indivduos genotipados
para os no genotipados; (iii) diferentes escalas entre as informaes genmicas e de
pedigree.

Tais autores propuseram ento o mtodo LDLAb para construir uma matrix
H que verdadeiramente combina todas as informaes genmicas e de pedigree em
uma abordagem unificada. O mtodo LDLAb possui as seguintes caractersticas: (i)
faz a regresso de ) (
22
A G em A, conforme tpico anterior; (ii) permite propagar a
informao genmica dos indivduos genotipados para os no genotipados, por meio
da matriz G
FG
; (iii) substitui a matriz de parentesco A por uma matriz G
FG
baseada
Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

223

em anlise de ligao (LA) conforme Fernando e Grossman (1989), usando a mesma
populao base de A, permitindo escalas iguais entre as informaes genmicas e de
pedigree. O mtodo LDLAb maximiza a acurcia seletiva, embora seja
computacionalmente mais oneroso.

Segundo o mtodo LDLAb, a matriz H passa ento a ser dada por
(
(

+
=
(

=


*
21
1
22
*
* 1
22 12 21
1
22 22
* 1
22 12 11
*
21
12 11

G G G G
G G G G G G G G G G
G G
G G
H
FG FG
FG FG FG FG FG FG FG FG
FG
FG FG
LDLAb
.

Assim, o mtodo segue os seguintes passos:

a. Cmputo da matriz de parentesco G
FG
visando o uso da informao de ligao
(LA).
b. Cmputo da matriz G* por meio do ajuste de n W W G
p p
/ ' = , em que
p
W contm
elementos dados por
2 / 1
] 1 [2p
2p
) p (
) (w
w
i i
i ij
ij
p

=
, para a mesma endogamia base de G
FG
.
c. Cmputo da matriz
*

G por meio de ) (

* *
A G A G + = | , em |

que foi definido em


tpico anterior.
d. Construir a matriz
(
(

+
=


*
21
1
22
*
* 1
22 12 21
1
22 22
* 1
22 12 11

(
G G G G
G G G G G G G G G G
H
FG FG
FG FG FG FG FG FG FG FG
LDLAb
.

O mtodo LDLAb utiliza completamente a informao LA contida nos dados de
marcadores moleculares. Por usar estrutura de famlia, o mtodo G-BLUP permite
usar a informao LA. A regresso matricial
1
22 12

FG FG
G G substitui
1
22 12

A A , e, portanto,
considera a informao molecular que est contida em G
FG
. Fica provado ento que a
GWS usa ambos LA e LD. O mtodo FG usa apenas LA.

O mtodo LDLA puro exige que todos os indivduos da populao base sejam
tambm genotipados. Na seleo genmica no se tem essas informaes, de forma
que o tradicional mtodo LDLA no pode ser usado. Mas o mtodo G-BLUP
Simultneo em Indivduos Genotipados e no Genotipados fornece um meio de
propagar a informao genmica dos indivduos das geraes atuais at os indivduos
fundadores da populao base por meio do pedigree.

O cmputo da matriz G* para a mesma endogamia base de G
FG
descrito a
seguir. As matrizes G e A
22
devem ser expressas na mesma escala. Caso contrrio,
havero diferenas entre elas, mesmo se as relaes de parentesco via marcadores e
via pedigree forem as mesmas. A transformao para a mesma escala faz uso das
estatsticas F de Wright referentes coeficientes de endogamia, definidas a seguir:

st
F : endogamia da populao base (endogamia antiga).
is
F : endogamia contribuda pela populao corrente ou atual (endogamia nova).
it
F : endogamia total do indivduo i.
is st st it
F F F F ) 1 ( + = .
) 1 /( ) (
st st it is
F F F F = .

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

224

O ajuste consiste em extrair de G o
st
F e muda-lo para aquele calculado de A
22

(chamado
st
A ) e recalcular a matriz G (obtendo G*) usando
st
A como endogamia
geral da populao e calculando de G a quantidade
is
F . Assim, as seguintes
quantidades devem ser calculadas:

) 1 ( =
ii it
G F : elementos da diagonal de G menos 1. Nesse caso,
st
F a endogamia
mdia na populao base, ou seja, a mdia dos elementos da diagonal de G menos 1.
) 1 /( ) 1 (
st st ii is
F F G F = .
1 ) 1 (
*
+ + =
is st st ii
F A A G : endogamia total do indivduo i calculado mudando a
endogamia bsica para aquela de A
22
.
st
A : mdia dos elementos da diagonal de A
22
menos 1.

Dessa forma,
*
ii
G so os elementos da diagonal de G re-escalados. De maneira
similar os elementos fora da diagonal de G so re-escalados usando os mesmos
valores de
st
F e
st
A , baseados nas diagonais de G e A
22
, respectivamente, e
transformando os numeradores do parentesco em coancestrias (| ), ou seja,
dividindo por 2 e posteriormente, transformando as coancestrias para o mesmo nvel
de endogamia por meio de
] ) 1 ( [ 2
*
jis st st ji
A A G | + =
, em que ) 1 /( ) 2 / (
st st ji jis
F F G = | a
coancestria entre os indivduos j e i, relativa endogamia bsica de
st
F . A matriz
(

=
* *
* *
*

jj ji
ij ii
G G
G G
G
ento usada na matriz
(
(

+
=


*
21
1
22
*
* 1
22 12 21
1
22 22
* 1
22 12 11

(
G G G G
G G G G G G G G G G
H
FG FG
FG FG FG FG FG FG FG FG
LDLAb
.

Uma outra abordagem que pode conduzir a melhoramento da GWS o uso da
teoria da coalescncia. A ligao gnica conduz ao fato de que pontos prximos no
cromossomo tenham a mesma rvore de coalescncia. Alelos IBS na gerao atual e
que eram IBS na gerao inicial so IBD e provavelmente esto em LD. A teoria da
coalescncia trata todos os alelos em um loco como sendo IBD e ento modela a
probabilidade de ocorrncia de mutaes causando-os a no serem IBS. As seguintes
relaes podem ser descritas:

Coalescncia: IBD em LD: interesse do RR-BLUP.
IBS: IBD em LD e LE + mutantes novos: interesse do G-BLUP.
IBD: LE e LD: LE interesse do A-BLUP.












Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

225

(L) Disponibilidade de duas estimativas de valor gentico em cada indivduo: BLUP
fenotpico + BLUP GWS

Essa situao ocorre quando esto disponveis os valores genticos preditos para o
carter com base em dados fenotpicos (a) e genotpicos de marcas (g). Um ndice de
seleo pode ser estabelecido usando essas duas informaes, cuja covarincia
equivale a
2

2
a a g g
r r , em que
2
g g
r a confiabilidade da seleo genmica e
2
a a
r a
confiabilidade da predio dos valores genticos usando dados fenotpicos.

Tal ndice dado por:
a b g b I
2 1
+ =
Os coeficientes de ponderao (b
i
) do ndice so dados por:
C P b
1
= , em que:
(

=
2

a a a a g g
a a g g g g
r r r
r r r
P
(
(

=
2

a a
g g
r
r
C
= vetor de covarincia gentica entre o valor gentico
e as duas fontes de informao.

Resolvendo o sistema de equaes, obtm-se os seguintes coeficientes de
ponderao:
(



=
(

=
) 1 /( ) 1 (
) 1 /( ) 1 (
2

2
1
a a g g g g
a a g g a a
r r r
r r r
b
b
b
.

O aumento na acurcia pela incluso da informao molecular dado por
2 / 1 2 2

]} ) 1 )[( 1 /( {
a a a a g g g g aum
r r r r r = .






















Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

226

6.27 Gentica de Populaes Genmica Ampla (GWPG)

Com o advento da genotipagem ampla via marcadores SNPs e
sequenciamento tem-se acesso a todos os locos do genoma e a Gentica de
Populaes faz parte integral dos procedimentos de estimao de componentes de
varincia dos caracteres na populao e da predio dos valores genticos dos
indivduos. As seguintes quantidades so estimadas via anlise apenas dos
marcadores, sem associao com fentipos:

- Call Rate:

Proporo dos indivduos nos quais a genotipagem com determinada marca
foi efetuada com sucesso.

- Freqncias Allicas:

Assumindo os alelos de cada marca como estando em equilbrio de Hardy-
Weinberg na populao, o clculo das frequncias allicas (p
i
) realizado por p
i
=
N
2
/N + (1/2) N
1
/N, sendo o calculo realizado para cada coluna de marcador no
arquivo de dados em que N
2
o numero de cdigos 2 na referida coluna no arquivo e
N
1
o numero de cdigos 1.

- Frequncia do Alelo menos Frequente (MAF):

MAF = min (p
i
, 1-p
i
)
Geralmente os marcadores teis so aqueles com MAF maior que 5% ou 10%.


- Heterozigose mdia ou varincia da varivel indicadora W (Binomial):

H = 2 p
i
(1-p
i):
equivale tambm mdia da varivel indicadora T dos efeitos de
dominncia.

- Varincia da heterozigose (h) ou da varivel indicadora S (Bernoulli):

Var (h) = H (1-H)

- Desequilbrio de ligao entre pares de locos vizinhos:

Usando as matriz de incidncia W dos marcadores o valor de r pode ser dado por
2 / 1 2 / 1 ) , (
)] ( [ )] ( [
) , (
ib ia
ib ia
b a
W Var W Var
W W Cov
r =
, em que W dada conforme abaixo.

Indivduo N. Alelos
Loco Marcador a (W
a
)
N. Alelos
Loco Marcador b (W
b
)
1 0 0
2 2 1
3 1 1
4 1 0
5 2 1
Correlao r r = 0.76 r
2
= 0.58


Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

227

A quantidade r
2
estima r
2
mq
, a partir do qual pode-se estimar Ne, via

L N n
n
e m
m
2
2
+
=
mq
r
, quando se conhece n
m
e L (tamanho do genoma).

- Desequilbrio de ligao entre todos os pares de locos:

Calculado de maneira similar ao r
2
acima, porm envolvendo todos os pares
de locos (
2
tpl
r ). Fornece uma estimativa do nmero efetivo de segmentos
cromossmicos (Me) por meio da expresso
2
1
tpl
r
= Me
.
Goddard et al. (2011) acrescenta na expresso de r
2
mq
uma diviso por
) / ( k L Ne Ln
, em que k o nmero de cromossomos. Quanto maior o tamanho k L / do
cromossomo melhor (existem mais marcadores no cromossomo ajudando a capturar
o mesmo QTL). A expresso torna-se ento:

)] / (
2
k L Ne Ln
r
mq
L/[ 2N m
m
e
+
=
, em que a frao ) / ( k L Ne Ln

advm do fato de se considerar o LD entre todos os marcadores dentro de
cromossomo e a marca alvo e no apenas o vizinho mais prximo e o alvo.



- Estimao de
2
mq
r via
2
tpl
r :

A partir da expresso
Me n
n
r
m
m
mq
+
=
2
,
2
mq
r pode ser estimado por
1
2
2
2
+
=
tpl m
tpl m
mq
r n
r n
r
.

- Varincia dos coeficientes de parentesco:

O desequilbrio de ligao entre todos os pares de locos permite tambm estimar a
varincia ( ) (
g
Var ) dos coeficientes de parentesco (
jk g
G ou ) na matriz de
parentesco genmico G. Tem-se a igualdade
Me
r Var
tpl g
1
) (
2
= =
.

- Varincia dos coeficientes de parentesco genticos aditivos entre irmos completos:
Gentipos
Marcadores Nmero de
Alelos do
Marcador
(Binomial, n =2)
Proporo de
uma
Binomial
com n =2
(r
g
*)
Frequncia
Genotpica
(f)
Medias por
Gentipo: =
r
g
* f
Desvio
de r
Desvio
Quadrtico
Desvio
Quadrtico *
Frequncia
MM 0 0 0.25 0 -0.5 0.25 0.0625
Mm 1 0.5 0.5 0.25 0 0 0
mm 2 1 0.25 0.25 0.5 0.25 0.0625
-

Mdia Geral
g

= 0.50

Varincia
(
) (
g
Var
) = 0.125
* r
a
: correlao gentica aditiva entre indivduos irmos germanos.

Verifica-se que a varincia ( ) (
g
Var ) equivale a 0.125 para um loco. Para n
Qd
locos
segregantes ou segmentos cromossmicos independentes dentro de famlia, tem-se
Qd
g
n
Var
8
1
) ( =
para famlias de irmos completos.



Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

228

- Varincia dos coeficientes de parentesco genticos de dominncia entre irmos completos:
Gentipos
Marcadores
Efeitos de
Dominncia:
Distribuio
Bernoulli (f)
Corelao
Gentica de
Dominncia
(r
d
)
Medias por
Classe de
Gentipo: = r
d

* f
Efeitos: Desvio
da Bernoulli
Desvio
Quadrtico
Varincia: Desvio
Quadrtico *
Frequncia (1-p) e p
MM e mm 0 0 0 x 0 = 0 1-0.25=-0.25 0.0625 0.046875
Mm 1 0.25 0.25 *1=0.25 1-0.25=0.75 0.5625 0.140625
-
- - p=0.25 - - 0.1875

Verifica-se que a varincia (
) (
d
Var
) equivale a 0.1875 para um loco. Para n
Qd
locos
tem-se
Qd
d
n
Var
1875 . 0
1
) ( =
para famlias de irmos completos. Outra denominao
para
d
coeficiente de fraternidade.

Outra abordagem para cmputo de
) (
g
Var
apresentada por Stam (1980):

2
)] ( 2 [
5 . 0
) (
|
|
.
|

\
|
+
=
k L
Var
g

,
em que L o tamanho do genoma em Morgans e k o nmero de cromossomos. Para
eucalipto (L = 13) tem-se
) (
g
Var
= 0.0048 e o desvio padro equivale a 0.0693. Assim,
a correlao gentica aditiva dentro de famlias de irmos germanos varia de cerca de
0. 30 a cerca de 0.70.

A influncia do nmero n
i
de indivduos por famlia na
) (
g
Var
, para o caso
de um loco, dada por
125 . 0 )] 1 /( [ ) (
1
=
i i g
n n Var
, apresentada a seguir.

125 . 0 )] 1 /( [ ) (
1
=
i i g
n n Var

n
i
%de0.125
0.1667 4 0.75
0.1429 8 0.88
0.1364 12 0.92
0.1304 24 0.96
0.1277 48 0.98
0.1263 100 0.99
0.1256 200 1.00

Verifica-se que, com o aumento de n
i
, a
) (
1 g
Var
tende a 0.125. Entre 20 e 50
individuos por famlia j ocorre a estabilizao de
) (
1 g
Var
. Tamanho de famlia
muito pequeno tambm um fator de aumento em
) (
g
Var
.

- Estimao do Tamanho Efetivo (Ne) via
2
tpl
r :

A partir da expresso
Me n
n
r
m
m
mq
+
=
2
, estima-se
1
2
2
2
+
=
tpl m
tpl m
mq
r n
r n
r
.
A partir de
L Ne n
n
r