Você está na página 1de 291

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica

Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

UNIVERSIDADE FEDERAL DE VIOSA


CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia


Bayesiana (MCMC), Regresso Aleatria Multivariada e Estatstica Espacial

Marcos Deon Vilela de Resende


Fabyano Fonseca e Silva
Paulo Svio Lopes
Camila Ferreira Azevedo

Disciplina EST792 - Mtodos Estatsticos na Seleo Genmica Ampla

Citao: Resende, M.D.V.; Silva, F.F.; Lopes, P.S.; Azevedo, C.F. Seleo Genmica Ampla (GWS)

via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria


Multivariada (RRM) e Estatstica Espacial. Viosa: Universidade Federal de Viosa/Departamento
de Estatstica. 2012. 291 p. http://www.det.ufv.br/ppestbio/corpo_docente.php

Viosa MG 2012

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

UNIVERSIDADE FEDERAL DE VIOSA


CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

Dados Internacionais de Catalogao na Publicao - CIP


Embrapa Florestas
Seleo genmica ampla (GWS) via modelos mistos (REML/BLUP), inferncia Bayesiana (MCMC), regresso
aleatria multivariada (RRM) e estatstica espacial [recurso eletrnico] / Marcos Deon Vilela de Resende ... [et al.].Dados eletrnicos.- Viosa, MG : Universidade Federal de Viosa, 2012. 291 p.
Disciplina EST792 Mtodos Estatsticos na Seleo Genmica Ampla.
Sistema requerido: Adobe Acrobat Reader.
Modo de acesso: World Wide Web.
<http://www.det.ufv.br/ppestbio/corpo_docente.php.pdf>
Ttulo da pgina da web (acesso em 12 nov. 2012).
ISBN 978-85-89119-08-5
1. Estatstica biomtrica. 2. Seleo genmica. 3. Gentica quantitativa. 4. Matemtica
computacional. I. Resende, Marcos Deon Vilela de. II. Silva, Fabyano Fonseca e. III. Lopes,
Paulo Svio. IV. Azevedo, Camila Ferreira.
CDD 519.5 (21. ed.)
Marcos Deon Vilela de Resende, Fabyano Fonseca e Silva, Paulo Svio Lopes, Camila Ferreira Azevedo.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

UNIVERSIDADE FEDERAL DE VIOSA


CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia


Bayesiana (MCMC), Regresso Aleatria Multivariada e Estatstica Espacial
Marcos Deon Vilela de Resende1
Fabyano Fonseca e Silva2
Paulo Svio Lopes3
Camila Ferreira Azevedo4

Apresentao
A Seleo Genmica veio unir a Gentica de Populaes Gentica
Quantitativa. Estes dois ramos com forte orientao Biomtrica tradicionalmente
caminharam em separado, seja no Melhoramento Gentico de Plantas e Animais ou
na Gentica Humana. Atualmente, a estimao de componentes da variao gentica
e de valores genticos e a predio de fentipos usa trs conjuntos de dados ou
informaes: fenotpicos, genealgicos e genotpicos em locos marcadores
moleculares em desequilbrio de ligao com os genes de interesse. Ferramentas da
Gentica de Populaes participam plenamente dos mtodos de estimao
atualmente empregados. Dessa forma, Gentica de Populaes, Gentica
Quantitativa, Gentica Molecular e Estatstica so demandados simultaneamente na
anlise gentica dos caracteres de interesse. Esse texto aborda a nova Gentica
Quantitativa do terceiro milnio.
Viosa MG 2012.
Os autores.

1Estatstico, Ps-Doutor em Estatstica Biomtrica e Estatstica Gentica (Inglaterra)


2Zootecnista, Ps-Doutor em Estatstica Biomtrica e Estatstica Gentica (USA)
3Zootecnista, Ps-Doutor em Gentica Quantitativa e Melhoramento Animal (USA)
4Matemtica, Mestre em Estatstica Aplicada e Biometria (UFV)

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

UNIVERSIDADE FEDERAL DE VIOSA


CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

Sumrio
1 Fundamentos Estatsticos da Seleo Gentica (7)
1.1 Propriedades dos Estimadores em Inferncia Estatstica (7)
1.2 Evoluo dos Mtodos de Avaliao Gentica (10)
1.3 Modelos Estatsticos Lineares (17)
1.4 Modelos Estatsticos de Seleo (19)
1.5 Mtodos Estatsticos de Estimao (20)
1.6 Derivaes Frequentistas e Bayesianas dos Estimadores de Valores Genticos (22)
1.7 Estimao de Componentes de Varincia (30)
1.8 Estimao Bayesiana de Componentes de Varincia: relao com ML e REML (33)
1.9 Estimao Bayesiana via MCMC (34)
1.10 Mtodos Numricos e Softwares para REML/BLUP e MCMC (41)
1.11 Testes de Hipteses e Parcimnia de Modelos (46)
1.12 Modelos Computacionais BLUP (48)
1.13 Modelos BLUP Univariados Multi-Efeitos (50)
1.14 Modelos BLUP Multivariados (50)
1.15 Modelos BLUP Espaciais e de Competio (Efeitos Associativos) (53)
1.16 Modelos BLUP Longitudinais (Regresso Aleatria e Normas de Reao) (60)
1.17 Casos Especiais: GLMM, GEE, HGLMM, PL, MP, PLS e SALP (67)
1.18 Mtodos Estatsticos para GWS (73)
1.19 Procedimento Estatstico para Comparao de Duas Metodologias (75)
1.20 Procedimento BLUP Melhorado: I-BAYES-BLUP (79)

2 Anlise genmica (82)


2.1 Fundamentos da Anlise de QTLs e da Seleo Genmica (82)
2.2 Anlise de Ligao (LA) e Anlise de Desequilbrio de Ligao (LDA) (85)

3 Anlise de QTL e da expresso gnica (89)


3.1
3.2
3.3
3.4
3.5
3.6

Mtodos de Anlise de QTL (89)


Anlise de QTL como Efeito Aleatrio via Modelos Lineares Mistos (93)
Anlise de QTL em Famlias de Irmos Germanos (94)
Estimao da Herdabilidade via Parentesco Genmico (97)
Funes de Mapeamento (99)
Anlise da Expresso Gnica (101)

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

4 Gentica de associao (GWAS) (108)


4.1 Coeficientes e Medidas de Desequilbrio de Ligao (108)
4.2 Mtodos de Anlise de QTL via LDA (109)
4.3 Mapeamento Genmico Amplo via Regresso em Marcas nicas (114)
4.4 Poder Estatstico e Significncia na Associao e Deteco de QTL (116)
4.5 Mapeamento Genmico Amplo via Modelos Mistos com Hapltipos (118)
4.6 Mapeamento Genmico Amplo via Abordagem IBD-LD (119)
4.7 Mapeamento Genmico Amplo via Abordagem LDA-LA (120)
4.8 Mapeamento Genmico Amplo via Abordagem GWS (120)
4.9 Associao Genmica Ampla (GWAS) em Humanos (121)
4.10 Captura da h2 e Imperfeito LD entre SNPs e Variantes Causais (122)
4.11 GWAS via BayesCpi e BayesDpi (123)

5 Seleo Auxiliada por Marcadores Moleculares (MAS) (126)


5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8

Tipos de Seleo via Marcadores Genticos (126)


Seleo em Genes de Efeitos Conhecidos ou Marcadores Diretos (GAS) (127)
MAS via Marcadores em Equilbrio de Ligao (LE-MAS) (127)
MAS via Marcadores em Desequilbrio de Ligao (LD-MAS) (128)
LD-MAS via Anlise de Marcas nicas (128)
LD-MAS via Anlise de Mltiplos Marcadores e Regresso de Cumeeira (129)
LD-MAS via Anlise de IBD (134)
Nmero de Locos a ser Usado na LD-MAS (134)

6 Seleo genmica ampla (GWS) (136)


6.1 Fundamentos da Genome Wide Selection (GWS) (136)
6.2 Acurcia da GWS (139)
6.3 Populaes de Estimao, Validao e Seleo (147)
6.4 Populao de Validao e Jacknife (148)
6.5 Correlao e Regresso entre Valores Genticos Preditos e Fentipos (150)
6.6 Mtodos Estatsticos na Seleo Genmica Ampla (151)
6.7 Mtodo RR-BLUP (155)
6.8 Formas de Parametrizao da Matriz de Incidncia Genotpica (160)
6.9 Correo dos Fentipos (162)
6.10 Relao entre Varincia Gentica e Varincia dos Marcadores (165)
6.11 Exemplo via RR-BLUP/GWS (167)
6.12 G-BLUP com Dominncia e Interao GE: Avaliao Simultnea Global (168)
6.13 G-BLUP e Regresso Aleatria Multivariada (MRR) (173)
6.14 Comparao entre Mtodos de Estimao Penalizada (173)
6.15 Mtodos Bayesianos (179)
6.16 Mtodos Lasso (187)
6.17 Distribuies dos Efeitos Genticos nos Mtodos RR-BLUP, Bayes e Lasso (193)
6.18 Regresso Kernel Hilbert Spaces (RKHS) (195)
6.19 Regresso via Quadrados Mnimos Parciais (PLSR) (199)
6.20 Regresso via Componentes Principais (PCR) (200)
6.21 Regresso via Componentes Independentes (ICR) (200)
6.22 Comparao entre 12 Mtodos de Seleo Genmica Ampla (202)
6.23 Pesos das Marcas nos Diferentes Mtodos e Frequncias Allicas (204)
6.24 Imputao de Gentipos Marcadores (205)
6.25 Aumento na Eficincia Seletiva do Melhoramento de Plantas e Animais (207)

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.26
6.27
6.28
6.29
6.30
6.31

Reduo no Erro da Inferncia sobre os QTL via Uso dos Marcadores (209)
Gentica de Populaes Genmica Ampla (GWPG) (226)
Gentica Quantitativa Genmica Ampla (GWQG) (229)
Software Selegen Genmica para GWS e GWAS (234)
Software GCTA para G-REML em Gentica Humana e Animal (239)
Variao Epigentica e Covarincia entre Parentes (243)

7 Scripts em R para Modelos Mistos, Inferncia Bayesiana e Seleo


Genmica (245)
7.1 R para Modelos Mistos (245)
7.2 R para Inferncia Bayesiana (247)
7.3 R para Seleo Genmica (248)
7.3.1 Mtodo BayesA (248)
7.3.2 Mtodo BayesB (249)
7.3.3 Mtodo BayesCPi (250)
7.3.4 Mtodo BLASSO (252)
7.3.5 Mtodo Regresso via Quadrados Mnimos Parciais (PLSR) (253)
7.3.6 Mtodo Regresso via Componentes Principais (PCR) (253)
7.3.7 Mtodo Regresso via Componentes Independentes (ICR) (256)
7.3.8 Mtodo Regresso Ridge-BLUP (RR-BLUP) (257)
7.3.9 Mtodo G-BLUP (259)
7.3.10 Anlise Espacial no Mtodo RR-BLUP (262)
7.3.11 Mtodo Regresso Kernel Hilbert Spaces (RKHS) (263)

8 Referncias (264)
9 Fotos de Pesquisadores com Participao Relevante na Evoluo dos
Mtodos Estatsticos de Avaliao Gentica (288)

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

UNIVERSIDADE FEDERAL DE VIOSA


CENTRO DE CINCIAS EXATAS E TECNOLGICAS
DEPARTAMENTO DE ESTATSTICA
PROGRAMA DE PS-GRADUAO EM ESTATSTICA APLICADA E BIOMETRIA

1 Fundamentos Estatsticos da Seleo Gentica


O melhoramento gentico de animais e plantas fundamenta-se em duas aes: a
identificao de indivduos superiores; a criao de novas combinaes genotpicas
superiores por meio do cruzamento entre esses indivduos elites. Em ambas as etapas
a seleo tem papel fundamental e realizada com base na avaliao gentica dos
indivduos, a qual tem dois objetivos: (i) inferir sobre os valores genticos dos
indivduos; (ii) ordenar os indivduos com base em seus valores genticos.
1.1 Propriedades dos Estimadores em Inferncia Estatstica

A escolha de um mtodo timo de estimao/predio de valores genticos


deve basear-se no critrio de uma inferncia mais precisa e realista possvel, a qual
deve ser avaliada segundo parmetros estatsticos adequados. Nesse contexto, os
parmetros mais importantes so a acurcia seletiva e o erro quadrtico mdio de
estimao. A acurcia conceituada como a correlao entre o valor gentico
verdadeiro e aquele estimado a partir das informaes genotpicas (marcadores) e/ou
fenotpica dos indivduos. Um estimador acurado apresenta menor diferena
quadrtica entre valores verdadeiros e estimados, ou seja, apresenta mnimo erro
quadrtico mdio (EQM) de estimao. A Tabela 1 ilustra essa questo.
Tabela 1. Ilustrao de clculo da acurcia e do erro de predio de valores
genticos a partir de dados simulados.
Individuo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Valor Gentico Real ( g )

Valor Gentico
Predito ( g )

Erro de Predio
(%)( g g )

65.929
76.213
55.333
54.678
74.766
92.742
81.241
62.385
83.280
66.279
59.107
63.325
60.807
66.864
78.432
54.042
75.274
86.995
72.250
80.547

71.716
74.242
62.620
60.012
76.409
75.515
76.785
72.929
81.906
67.104
63.747
64.381
68.552
65.872
67.242
56.527
77.499
76.232
78.856
70.806

0.09
0.03
0.13
0.10
0.02
0.19
0.05
0.17
0.02
0.01
0.08
0.02
0.13
0.01
0.14
0.05
0.03
0.12
0.09
0.12
Erro Mdio de Predio 0.08
Correlao ou Acurcia 0.78

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

No exemplo apresentado, o erro mdio de predio foi de 8 % e a correlao


entre os valores verdadeiros e aqueles preditos foi de 78 %. Esse o valor da acurcia
seletiva ( rgg ) e seu quadrado ( rgg2 ) denominado confiabilidade, confiana ou fidcia
seletiva. O valor gentico estimado equivale ao verdadeiro mais o erro de predio,
ou seja, g g ( g g ) .
Um mtodo timo de estimao/predio deve apresentar mnimo EQM, o
qual dado por EQM = Vcio2 + Preciso = Vcio2 + PEV. Assim, um estimador de
mnimo EQM apresenta vcio nulo ou baixo e alta preciso (baixa varincia do erro
de predio PEV ou Var ( g g ) ). Em ausncia de vcio, EQM = PEV. A Figura 1
ilustra os conceitos de vcio, preciso e acurcia (Resende, 2008; Peternelli et al., 2011).

a)

b)

c)

d)

Figura 1: ilustrao dos conceitos de acurcia, preciso e vcio. (a): alto vicio, baixa preciso, baixa acurcia;
(b): baixo vcio, baixa preciso, baixa acurcia; (c): alto vcio, alta preciso, baixa acurcia; (d): baixo vcio,
alta peciso, alta acurcia.

Verifica-se pela Figura 1 que a alta acurcia (capacidade de acertar o alvo da


predio nas vrias tentativas) uma combinao de alta preciso (baixa variao
nas vrias tentativas) e baixo vcio (mdia das vrias tentativas igual ao alvo da
predio). Em outras palavras, pode-se dizer que a acurcia a capacidade de acessar
a verdade, e a preciso a capacidade de acessar sempre a mesma estria mas no
necessariamente a verdade. A acurcia e a preciso guardam entre si as seguintes
relaes:
- Acurcia ( rgg )
r g g [1 PEV / g2 ]1 / 2

- Preciso (PEV)
PEV Var ( g g ) (1 rg2g ) g2

A raiz quadrada da PEV equivale ao desvio padro do erro de predio e pode


ser usada para cmputo do intervalo de confiana do efeito gentico (g) predito, por
meio da expresso: g i t [Var ( g g )]1 / 2 ou g i t [(1 r 2 ) g2 ]1 / 2 , em que t um valor
g g i

tabelado (1,96) associado distribuio t de Student a 95 % de confiana na inferncia


e g2 a varincia gentica aditiva da populao.
A estimao da PEV com base na inversa da matriz dos coeficientes das
equaes de modelo misto apresentada a seguir, com base em Resende (2002). A
matriz dos coeficientes das equaes do modelo misto y Xb Zg e equivale a

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

C 12 X ' X
X 'Z

e a inversa generalizada de C igual

C 22 Z ' X Z ' Z A 1

11
12
C
C
a C 21
, em que y, b e g so vetores de dados, efeitos fixos e genticos
C 22
C
aditivos, respectivamente, os ltimos com matrizes de incidncia X e Z. Tem-se
tambm Var ( g ) A g2 , em que uma matriz de correlao entre os elementos de g.
O estimador da varincia do erro de predio (PEV) dos efeitos genticos dado por
PEV Var ( g g ) C 22 e2 .
Assim, a acurcia pode ser estimada por: r [1 PEV / g2 ]1 / 2 .
C
C 11
C 21

g g

Especificamente para um indivduo i, tem-se:


PEV i d i e2 (1 rg2g i ) g2
rg g (1 d i e2 / g2 ) 1 / 2 (1 d i ) 1 / 2 , em que:
i

di : i-simo elemento da diagonal de C22.


2 1 h2
.
e2
h2
g
O desvio padro do erro de predio do valor gentico do indivduo i dado
por: SEP i [ d i e2 ]1 / 2 [(1 rg2g ) g2 ]1 / 2 .
i

importante relatar que para o caso em que R I e2 e as equaes de


modelo misto no so simplificadas em relao ao termo R-1, tem-se PEVi = Ci22.
Em inferncia estatstica, os estimadores devem apresentar as seguintes
propriedades desejveis:
a) No vcio, tal que a esperana matemtica do estimador seja o prprio parmetro.
b) Consistncia, tal que, com o aumento do tamanho da amostra, a esperana do
estimador convirja para o parmetro e a varincia do estimador, para zero
(associado ao conceito de convergncia em probabilidade): refere-se ao aumento
da acurcia de uma estimativa com o aumento do tamanho da amostra.
c) Eficincia, tal que o estimador apresente varincia mnima.
d) Suficincia, tal que o estimador condense o mximo possvel a informao
contida na amostra e no seja funo (dependente) do parmetro.
e) Completitude que est ligada unicidade do estimador.
f) Invarincia translao, tal que a estimao dos componentes de varincia no
seja afetada por mudanas nos efeitos fixos.
g) Admissibilidade, que implica mnimo EQM global.
h) Acurcia, que congrega baixo vcio e baixa PEV (alta preciso).
i) Interpretabilidade: complexidade mnima aps seleo de covariveis.
j) Regularidade: estimao sem consumir graus de liberdade.
k) Estimabilidade: possibilidade de estimao dados o mtodo estatstico de
estimao e o conjunto de dados (o conceito de estimabilidade envolve conceitos de
estimao no tendenciosa e unicidade).
l) Parcimnia: eficcia com o menor nmero possvel de parmetros no modelo.

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

m) Propriedade Shrinkage: regresso ou penalizao (ditada pelo tamanho da


amostra e das variaes dos efeitos aleatrios e residuais) e economia de graus de
liberdade.
n) Propriedade Orculo ou de retido, que se refere a coeficientes no zero
assintoticamente no viesados, normalidade assinttica e seleo consistente de
covariveis medida que N (nmero de indivduos) e nm (nmero de covariveis)
tendem a infinito.
o) Ajuste Vlido, produzindo estimativas no espao paramtrico (varincias
positivas e herdabilidades entre zero e um).
p) Identificabilidade: soluo nica para os parmetros do modelo.
Dessas propriedades, as mais importantes em conexo com a avaliao
gentica so apresentadas na Tabela 2. As demais so tambm importantes e sero
invocadas em outras partes desse texto.
Tabela 2. Propriedades dos estimadores mais importantes em conexo com a
avaliao gentica.
Propriedades
Admissibilidade
Acurcia U
Acurcia Global
Interpretabilidade
Regularidade

Propriedades Componentes
2
Vis baixo + PEV mnima global
Vis 0 + PEV mnima na classe U
2
Vis baixo + PEV mnima global
Complexidade Mnima
Estimabilidade + Ajuste vlido

Denominao das Propriedades


No vis aproximado + eficincia global
No vis + eficincia local
No vis aproximado + eficincia global
Parcimnia
Shrinkage, economia de graus de liberdade

U: classe de estimadores no viesados.

O erro quadrtico mdio de predio equivale distncia Euclideana mdia entre os


estimadores e os correspondentes parmetros. Minimizar o erro quadrtico mdio
significa maximizar a acurcia. Assim, o mtodo ideal de estimao ou predio dos
valores genotpicos aquele que minimiza EQM. Verifica-se que tal mtodo pode ser
viciado em pequeno grau, pois o que importa minimizar a soma (Vcio ) 2 PEV .
Na classe dos estimadores/preditores no viciados, a preciso dada pelo parmetro
varincia do erro de predio (PEV) e a estratgia de minimizar PEV conduz
tambm maximizao da acurcia. Mas, de maneira geral (relaxando a necessidade
de no vcio), o que deve ser minimizado o EQM, buscando a admissibilidade.
Alm da admissibilidade e acurcia, a interpretabilidade e a regularidade so
relevantes, especialmente na seleo genmica.
1.2 Evoluo dos mtodos de avaliao gentica

Em inferncia estatstica frequentista existem basicamente cinco classes de


modelos de seleo. Fisher (1925) criou o mtodo da ANOVA via quadrados
mnimos ordinrios (OLS) para a avaliao de variedades de cereais em
delineamentos balanceados. O modelo genrico bsico dado por y Xb e , em que
y o vetor da varivel resposta, b o vetor de efeitos genticos (fixos no caso) e e o
vetor de erros aleatrios com matriz de covarincia R I e2 , caracterizando a Classe
I de modelos de seleo. Nessa Classe I, os candidatos seleo so de efeitos fixos,
implicando na escolha entre tratamentos, representados por uma amostra aleatria de
observaes tomadas independentemente em cada tratamento.

10

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A abordagem inicial da anlise de dados desbalanceados devida a Fisher e Yates,


ambos trabalhando na Rothamsted Experimental Station na Inglaterra. Para este caso de
representao desbalanceada, Yates (1934) apresentou as solues de quadrados
mnimos ponderados (WLS) para dois diferentes modelos de classificao cruzada.
Nesse caso, matriz de covarincia diagonal dada por R I ei2 , em que ei2 a
varincia do erro associada observao i. Pela abordagem de Fisher e Yates os
valores genticos eram estimados como efeitos fixos.
Henderson et al. (1959) em um artigo influente apresentou estimadores de
quadrados mnimos generalizados (GLS) de efeitos fixos contemplando a
interferncia de efeitos aleatrios (g) correlacionados na estimao daqueles efeitos.
Nesse caso, o modelo dado por y Xb Zg e , em que X e Z so conhecidas
matrizes de incidncia. A matriz de covarincia de y dada por Var(y) = V = Var
(g) + R = Var ( g ) I e2 em que Var (g) pode ser no diagonal.
Na Classe II de modelos de seleo, a seleo envolve candidatos considerados
como variveis aleatrias no observveis pertencentes a uma determinada
populao. Essa classe sempre foi considerada no melhoramento gentico, associado
aos ndices de seleo envolvendo informaes de parentes, desde o trabalho de Lush
(1931). Sob esse modelo aleatrio os preditores associados pertencem ao mtodo BLP
(melhor predio linear). O modelo (de mdias) dado por y Zg e , em que g o
vetor de valores genticos, considerados como aleatrios. O BLP no especifica o que
fazer com a mdia geral (u), o qual na prtica tem sido estimada por OLS (Resende
et al., 1993). Bueno Filho e Vencovsky (2009) relatam a utilidade do BLP no
melhoramento vegetal.
O terceiro tipo de seleo foi negligenciado por estatsticos e melhoristas at o
incio da dcada de 1970. Essa Classe III de modelo de seleo, denominado Modelo
Misto de Seleo (em analogia ao modelo misto de anlise de varincia), foi
apresentada formalmente por Henderson (1973), contemplando o mtodo BLUP
(melhor predio linear no viesada). O modelo dado por y Xb Zg e , em que
b um vetor de efeitos fixos (efeitos ambientais identificveis) e g o vetor de
efeitos genticos, considerados como aleatrios. Neste caso, os candidatos seleo
so variveis aleatrias no observveis pertencentes a mais que uma populao, e o
mrito de cada candidato a soma da mdia da populao mais o valor predito da
varivel aleatria associada ao candidato. Neste caso, a seleo depende, tambm, de
efeitos fixos desconhecidos. O modelo misto de seleo foi apresentado como BLUP
por Henderson (1973), mas, foi concebido por volta de 1949 pelo prprio Henderson.
Naquela poca, Henderson derivou o mtodo BLUP por meio da da maximizao da
funo densidade de probabilidade conjunta de y (valores fenotpicos) e g (valores
genticos) (Henderson, 1973). A funo maximizada no era uma funo de
verossimilhana e sim uma densidade conjunta.
Em termos mais rigorosos, a seleo um problema puramente estatstico,
visto que na prtica seleciona-se uma frao de indivduos segundo seus valores
genticos os quais seguem uma distribuio de probabilidade. Pearson (1903) derivou
as mdias e varincias condicionais para a distribuio normal multivariada. Os

11

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

resultados de Pearson foram apresentados em notao matricial por Aitken (1934) e


empregados por Henderson no contexto dos preditores BLUP, os quais podem ser
vistos como valores genticos condicionais a um conjunto de (N-r) funes lineares
dos dados, linearmente independentes e invariantes `a translao, em que N o
nmero de observaes e r o posto de X, a matriz de incidncia para os efeitos
fixos. Os ndices de seleo podem ser vistos como computaes das mdias
condicionais dos valores genticos dadas as observaes. Lush (1931) foi o primeiro
cientista a utilizar preditores de valores genticos baseados em mdias condicionais e
Cochran (1951) estendeu as propriedades timas dos ndices de seleo para quaisquer
distribuies.
A mdia fenotpica, mdia aritmtica ou mdia estimada pelo mtodo de
quadrados mnimos no um estimador de mnimo EQM quando se tem mais que
dois tratamentos ou materiais genticos em avaliao. O trabalho de Stein (1955), que
constituiu um verdadeiro paradoxo na Estatstica, demonstrou que a mdia
aritmtica estimador no admissvel, isto , que existem estimadores que propiciam
menor erro quadrtico mdio ou menor risco que a mdia aritmtica, quando mais
que duas mdias necessitam ser estimadas. Neste contexto, James e Stein (1961)
apresentaram um estimador melhorado para a mdia populacional, que dado por
M * k (Yi .. Y... ) Y... , em que k um fator regressor (ou de shrinkage) da mdia
amostral de determinado tratamento ( Y i . ) sobre a mdia geral ( Y... ), em que
k 1 [(T 3) /(T 1)] / F e T o nmero de gentipos em avaliao.
Os mtodos (viciados ou no) que minimizam o EQM conduzem a
estimadores/preditores do tipo shrinkage. Genericamente, um estimador do tipo
shrinkage tem a forma de um escalar (variando entre zero e um) multiplicado por um
vetor de mdias estimadas por quadrados mnimos ou por mxima verossimilhana.
Ou seja, para o caso balanceado, esse tipo de estimador multiplica as mdias
fenotpicas por um fator que varia entre zero e um, dependendo da confiabilidade
(herdabilidade) que se tem nas mdias fenotpicas estimadas.
Estimadores do tipo shrinkage comearam a ser usados por Lush (1931) no
contexto do melhoramento animal associado ao mtodo da melhor predio linear
(BLP) e, posteriormente, foram tambm usados no mtodo da melhor predio linear
no viciada (BLUP) conforme Henderson (1973; 1975) e Thompson (1976; 1979). Esses
mtodos assumem os efeitos de materiais genticos como aleatrios e o BLUP ,
adicionalmente, um preditor no viciado. Entretanto, conforme Stein (1955), para
mais que dois tratamentos, estimadores do tipo shrinkage so necessrios,
independentemente se os efeitos forem tomados como fixos ou aleatrios. O
estimador melhorado de James e Stein (1961) no necessita de qualquer suposio
referente a efeitos fixos ou aleatrios, ou sobre as distribuies das mdias a serem
estimadas (Efron e Morris 1977) e pertencem Classe IV de modelos de seleo.
Requer apenas o relaxamento da suposio de no vcio. Este estimador viesado,
mas tem menor erro quadrtico mdio que o estimador de quadrados mnimos, em
determinada regio do espao paramtrico.
No contexto da avaliao gentica, importante relatar que o vcio
propiciado pelo estimador de James-Stein pequeno e s pode existir quando o

12

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

nmero de tratamentos baixo (inferior a dez). medida que o nmero de


tratamentos aumenta, o estimador viesado torna-se no viesado e, por isso, o
estimador de James-Stein denominado como aproximadamente no viesado.
Conforme Schaeffer (1999), a princpio, somente estimadores no viesados eram
usados pelos estatsticos. Os desenvolvimentos tericos, porm, evidenciaram que
tais estimadores podem gerar estimativas fora do espao paramtrico admissvel.
Assim, atualmente, procedimentos aproximadamente no viesados, desde que
admissveis (de mnimo erro quadrtico mdio), tm sido considerados como os
ideais.
Os estimadores de James e Stein (1961) propiciam, com o aumento do
nmero de tratamentos em avaliao, uma transio natural de um modelo de efeitos
fixos para um modelo de efeitos aleatrios. E isso s depende do tamanho da
populao (nmero de tratamentos). Com grande nmero de tratamentos, os
estimadores de James-Stein e o mtodo BLUP (cujo regressor k = 1 1/F) se
equivalem (Tabela 3). Nesse caso, a metodologia BLUP a melhor escolha pela
facilidade de implementao e por poder ser estendida para o caso no balanceado.
Quando o nmero de tratamentos superior a cinco, o modelo se aproxima mais de
aleatrio (devendo-se usar o mtodo BLUP) e, quando menor que cinco o modelo se
aproxima mais de fixo (devendo-se usar o mtodo de quadrados mnimos, cujo fator
de regresso igual a 1). Logicamente o estimador de James-Stein o mais eficaz em
qualquer das situaes (Resende e Duarte, 2007).
Tabela 3. Valores dos regressores (de James-Stein) dos desvios das mdias fenotpicas em
relao mdia geral, em experimentos balanceados, para obteno de estimativas precisas de
valores genticos para diferentes nmeros de tratamentos ou genitores na populao.

Nmero de tratamentos

Regressor

Nmero de tratamentos

Regressor

1 - 0,33/F*

14

1 - 0,85/F

1 - 0,33/F

15

1 - 0,86/F

1 - 0,50/F

16

1 - 0,87/F

1 - 0,60/F

17

1 - 0,88/F

1 - 0,67/F

18

1 - 0,88/F

1 - 0,71/F

19

1 - 0,89/F

1 - 0,75/F

20

1 - 0,89/F

10

1 - 0,78/F

21

1 - 0,90/F

11

1 - 0,80/F

38

1 0,95/F

12

1 - 0,82/F

135

1 0,99/F

13

1 - 0,83/F

400

1 1/F

- F*: F de Snedecor centrado em zero, sendo que esse regressor deve multiplicar diretamente a mdia fenotpica e no o desvio; F: F de Snedecor centrado na mdia geral

O procedimento de estimao bayesiana pertence Classe V de modelos de seleo


e foi recomendado para avalio gentica por Gianola e Fernando (1986). O teorema de
Bayes foi derivado em 1763 e, portanto, bem mais antigo do que o mtodo de Stein, e
tambm minimiza o erro quadrtico esperado. Por isso, o estimador de James-Stein
muito similar ao estimador de Bayes, tornando-se inclusive idnticos para grande
nmero de tratamentos (Efron e Morris 1977). Por isso, so tambm denominados como
estimadores de Bayes-Stein, Bayes emprico ou regra emprica de Bayes. Em inferncia
bayesiana no existe qualquer distino entre efeitos fixos ou aleatrios, e os parmetros

13

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

a serem estimados so considerados variveis aleatrias que devem ser estimadas


considerando as incertezas a elas associadas.
Na Tabela 4 apresentada a evoluo dos mtodos de avaliao gentica. Em cada
linha da tabela o primeiro autor citado refere-se ao trabalho mais influente e os demais
referem-se a trabalhos bsicos e/ou tericos que j haviam abordado o tema.
Tabela 4. Evoluo dos mtodos de estimao de componentes de mdias (valores genticos).

Mtodo

Observaes em y so Variveis Aleatrias


Autores
Modelo
Estimador

OLS

Fisher (1925)

Fixo y

WLS

Yates (1934)

GLS

Henderson
(1959)

BLP

BLUP (A-BLUP)

James-Stein

MAP (Bayes)

MAS (LE e LD) via OLS e


BLUP

et

al.

b ( X ' X ) 1 X ' y

Estrutura de
Varincias
e ~ N (0, I e2 )

Fixo y Xb e

b ( X ' R 1 X ) 1 X ' R 1 y

e ~ N ( 0, R I ei2 )

Fixo

b ( X ' V 1 X ) 1 X ' V 1 y

Xb e

y Xb Zg e

Lush (1931; 1945);


Pearson (1903);
Aitken (1934)

Aleatrio y Zg e

g [ Z ' R 1 Z ( A g2 ) 1 ]1 Z ' R 1 y

Henderson (1973);
Thompson (1976);
Henderson (1949)

Misto

g [ Z ' R 1 Z ( A g2 ) 1 ] 1

Efron e Morris
(1977); James e
Stein (1962); Stein
(1955)
Gianola e Fernando
(1986); Fernando e
Gianola (1986);
Robertson (1955);
Dempfle (1971);
Bayes (1763)
Lande e Thompson
(1990, OLS);

y Xb Zg e
y Xb Zg e

Aleatrio

y Xb Zg e

y ~ N ( Xb, V )
V Var ( g ) I e2
e ~ N (0, R I e2 )

g ~ N (0, A g2 )
e ~ N (0, R I e2 )

g ~ N (0, A g2 )

Z ' R 1 (Y Xb )

g k (Yi .. Y... ) Y...


k (1 1 / F )

e ~ N ( 0, R I ei2 )

Py g P( g )
P( y )
g [ Z ' R 1 Z ( A g2 ) 1 ] 1

e ~ N (0, R I e2 )

P g y

g ~ N (0, A g2 )

Z ' R 1 (Y Xb )

b ~ N (0, I b2 )

b2

Fixo

e ~ N (0, I e2 )

y u Zg Qi qi e
i 1

g Zg Wi mi
i 1

s o nmero de marcas significativas

ou
s

y u Zg Wi mi e

Fernando e
Grossman (1989);
Goddard (1991)

i 1

Misto

y Xb Zg Qi qi e
i

g Zg Wi mi

e ~ N (0, I e2 )

e ~ N (0, I e2 )

g ~ N (0, A g2 )

ou

y Xb Zg Wi mi e
i

Meuwissen et al.
(2001); Whittaker et
al. (2000); Van
Raden (2008);
Nejati-Javaremi et
al. (1997); Resende
et al. (2010);
Resende Jr. et al.
(2012)

Misto
y Xb Qi qi e

g Wm W (W ' R 1W I ) 1W ' R 1 ( y Xb )
em_que

ou
m (W ' R 1W I ) 1W ' R 1 ( y Xb )

g ~ N (0, G g2 )

ou

m (W 'W I ) 1W ' ( y Xb )

G (WW ' ) /[ 2 p i (1 p i )]

Mtodo

Autores

Modelo

Estimador

Modelos Espaciais:
Krigagem e
Autoregressivos

Matheron (1971);
Robinson (1991);
Gilmour et al. (1995)

Misto

g [ Z ' Z ( A ) ]

GWS (RR-BLUP);
GBLUP; Bayes; RRBLUP_B)

y Xb Wi mi e

n
i

ou

y Xb Z Wi mi e
i

g [ R 1 G 1 ( e2 / g2 )] 1 R 1 ( y Xb )
em_que
n

A G (WW ' ) /[ 2 p i (1 p i )]

i
y Xb ZWm e
Observaes em y so Variveis Mistas (Aleatrias + Determinsticas)

ou

y Xb Zg e

2
g

Z ' 1 (Y Xb )

1 1

Estrutura
Varincias
e ~ N (0, )

g ~ N (0, A g2 )
e2 [ ( c ) ( r )]
c

de

14

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1 1 2 3
1

1 1 2
c (c ) 2 1 1 1

3
2
1
1

Modelos de Regresso
Aleatria Multivariada:
Polinmios de Legendre,
Splines cbicas e B
Modelos de Competio:
Efeitos Associativos ou
Indiretos

Schaeffer e Dekkers
(1994); White et al.
(1999); Meyer (2005)

Misto

g [ Z ' 1 Z ( A K g ) 1 ] 1

y Xb Zg e

e ~ N (0, )

g ~ N (0, A K g )

Z ' 1 (Y Xb)

e2 [ ( c ) ( r )]
c

Resende et al. (2005)


Van Vleck e Cassady
(2005); Arango et al.
(2005);

Misto

g [ Z ' 1 Z G * 1 ] 1
Z ' 1 (Y Xb )

y Xb Zg e
y Xb Z NZ e
y Xb Z NZ

2 [ (c ) (r )] I2
c

g
G*
g

A: matriz de correlao gentica aditiva construda via pedigree; G: matriz de correlao gentica aditiva construda via marcadores. Notao: Vetores y, b, g, m, q: referentes aos
dados fenotpicos, efeitos fixos, genticos aditivos polignicos aleatrios, genticos aditivos aleatrios de marcadores, genticos aditivos aleatrios de QTL, respectivamente,
2 e
com varincias 0, 2 ,
2 . Matrizes X, Z, W, Q: incidncia para b, g, m, q, respectivamente.

Na Tabela 5 apresentada a evoluo na forma de considerao do modelo gentico


associado aos caracteres quantitativos nos mtodos de avaliao gentica.
Tabela 5. Evoluo na forma de considerao do modelo gentico associado aos
caracteres quantitativos nos mtodos de avaliao gentica.
Modelo

Efeitos

Polignico Infinitesimal

Pequenos - Infinitos

Mtodo de
Seleo
BLUP

Autores

Misto de Herana: genes


maiores + polignico
residual

Grandes + Pequenos Infinitos

LE - MAS

Fernando e Grossman
(1989)

Misto de Herana: genes


maiores + polignico
residual

Grandes + Pequenos Finitos


(segregando dentro de
famlias)

LE - MAS

Fernando et al. (1994)

Misto de Herana: genes


maiores + polignico
residual

Grandes + Pequenos Finitos


(segregando na populao:
entre famlias)

LD - MAS e
GWS

Meuwissen et al. (2001)

Fisher (1918)

O modelo linear misto convencional contempla os efeitos fixos (b), genticos


aleatrios (g) e ambientais aleatrios (e) por meio de y Xb Zg e (Modelo
Individual). Incluindo os efeitos (q) dos QTLs de grandes efeitos para os locos i, o
modelo torna-se y Xb Zg * Qi qi e (Modelo de QTL), quando se conhecem os
i

genes ou y Xb Zg * Wi mi e quando se conhecem apenas os marcadores, em


i

que Qi uma matriz de incidncia que relaciona os indivduos com os alelos do loco
i, e qi e mi contm os efeitos allicos para cada loco gnico e marcador,
respectivamente. As matrizes de incidncia Q no so conhecidas e nem as suas
dimenses, dadas pelo nmero de alelos em cada loco. Tambm no conhecido o
nmero de locos que afeta o carter. Isto contrasta com o primeiro modelo, em que as
matrizes de incidncia para b e g (X e Z, respectivamente) so conhecidas. Se Q fosse
conhecida as equaes de modelo misto poderiam ser usadas sem qualquer alterao.
Um outro modelo melhor seria y Xb Qi qi e ou y Xb Z Wi mi e (Modelo
i

GWS), no qual todos os locos seriam individualizados e no haveria necessidade de


incluso do resduo gentico polignico ou infinitesimal ( g * ).

15

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O que torna a anlise genmica diferenciada o fato da matriz Q ser


desconhecida. No entanto, ela pode ser estimada com base nas informaes dos
marcadores (matriz W). Segundo Perez-Enciso e Misztal (2004), a forma como os
marcadores so usados para estimar Q e a forma de definio de q resulta em
distintos modelos que contemplam os vrios delineamentos para a anlise de QTLs e
formas de seleo genmica.
Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor a
predio simultnea dos efeitos dos marcadores, sem o uso de testes de significncia
para marcas individuais. Isto contrasta com o mtodo da MAS proposto por Lande e
Thompson (1990). Uma comparao entre as trs proposies pode ser vista na
Tabela 6.
Tabela 6. Comparao entre as trs proposies de seleo auxiliada por marcadores.
Autores
Mtodo
Populao
Nmero de Marcadores
Teste de
Extensao para
(nm)
Significncia
o Enfoque
Bayesiano
Sim
No
Lande e
MAS Indice
Dentro de
Muito menor que tamanho
Thompson (1990)
de Seleo
famlia ou
do cruzamento (N): nm << N
Reg. Mult.
cruzamento
Maior ou igual ao tamanho
Whittaker et al.
MAS Ridge
Dentro de
No
No
do cruzamento (N): nm >= N
(2000)
Regression
famlia ou
cruzamento
Meuwissen et al.
GWS RRToda a
Muito maior que tamanho da
No
Sim
(2001)
BLUP
Populao
populao de estimao (N):
nm >> N

Verifica-se pela Tabela 6, que a inovao de Meuwissen et al. (2001) no foi


em termos de metodologia estatstica mas, em termos conceituais enfatizando o uso
do conceito de desequilbrio de ligao em nvel populacional e no apenas dentro de
famlia e o no uso de testes de significncia para marcas. E o maior mrito foi a
demonstrao, via simulao, do fato de que a GWS pode realmente funcionar na
prtica. Por outro lado, a verso G-BLUP da GWS, enfatizando a troca da matriz A
pela G no BLUP tradicional (Van Raden, 2008) j havia sido proposta por NejatiJavaremi et al. (1997) e Fernando (1998).
O no uso de significncia estatstica para a seleo de marcas pela GWS a
distingue da GWAS (Genome Wide Association Studies), a qual procura associao
entre locos e carter fenotpico em nvel populacional, por meio de testes de
hipteses visando detectar efeitos com significncia estatstica. A GWAS sofre com
a alta taxa de falsos negativos devido ao uso de pontos de corte muito rigorosos
visando evitar a ocorrncia de falsos positivos. A GWS equivale GWAS aplicada
sobre todos os locos simultaneamente e baseando-se em estimao e predio em vez
de teste de hiptese. Dessa forma consegue explicar parte muito maior da
variabilidade gentica e evitar a chamada herdabilidade faltante ou perdida (missing
heritability), tpica dos estudos de anlise de ligao e de associao.

16

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.3 Modelos Estatsticos Lineares

Os modelos estatsticos lineares tem a forma geral y = u + b + g + e, em que u


uma constante ou mdia geral, b um fator de blocagem cujos nveis so efeitos fixos
ou aleatrios, g um fator de tratamentos cujos nveis so efeitos fixos ou aleatrios
e e um erro aleatrio. Esses modelos podem ser classificados em:

Modelo Fixo: todos os fatores possuem nveis com efeitos


fixos, exceto o erro aleatrio (e).
Modelo Aleatrio: todos os fatores possuem nveis com efeitos
aleatrios, exceto a mdia geral (u).
Modelo Misto: possui efeitos fixos, alm da mdia geral, e
efeitos aleatrios alm do erro experimental.

A natureza dos efeitos estatsticos pode ser definida:

Fator de efeitos fixos: os nveis so constantes; so escolhidos;


a inferncia vlida para os nveis em estudo; a informao
entre nveis no afeta a estimao de cada nvel.
Fator de efeitos aleatrios: os nveis so variveis aleatrias
amostradas segundo uma distribuio de probabilidade; os
nveis so amostras aleatrias de uma populao; a inferncia
vlida para toda a populao; a informao entre nveis afeta a
estimao de cada nvel.

No contexto dos modelos mistos, as seguintes regras prticas podem ser


adotadas para a definio de efeitos fixos ou aleatrios, a qual depende de: (i) nmero
de nveis do fator (com 38 nveis o modelo aproxima 95% ao modelo aleatrio,
conforme a Tabela 3); (ii) tamanho de cada nvel do fator (com 5 indivduos de cada
genitor em cada nvel, 15% da variao gentica fica retida entre nveis ou grupos e
para utiliz-la deve-se tomar o fator grupo como de efeitos aleatrios); (iii)
magnitude da variao entre nveis do fator em relao variao residual ( medida
que o coeficiente de determinao c2 do fator tende a 1, o modelo tende de aleatrio
para fixo); (iv) presena de tratamento preferencial aos melhores indivduos, caso em
que os grupos de indivduos devem ser tratados como de efeitos fixos, explorando a
propriedade do Blup de invarincia translao nos efeitos fixos.
Fora relativa dos efeitos fixos e efeitos aleatrios com matrizes de correlao A e I
Os efeitos fixos dominam efeitos aleatrios com matriz de correlao A e I.
Efeitos aleatrios com matriz de correlao A dominam efeitos aleatrios com
matriz de correlao I. Isto ilustrado a seguir.

17

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(A) - Modelo de reprodutor: ajustes no concorrentes

Efeitos fixos
Pop (p)
1
1
1
1
1

Touro (t)

Indivduo (g)

Peso

Modelo Ajustado

1
2
2
3
3

11
12
13
14
15

200.10
160.50
302.45
112.67
145.89

y 1u Tt e
t ~ N ( 0, I t2 )

Ajuste para
Touro
Aleatrio em t
Aleatrio em t
Aleatrio em t
Aleatrio em t
Aleatrio em t

(B) - Modelo de reprodutor: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matriz de correlao I:

Efeitos fixos
Pop (p)
1
2
2
2
2

0 1 I 1

Touro (t)

Indivduo (g)

Peso

Modelo Ajustado

Ajuste para Touro

1
2
2
3
3

11
12
13
14
15

200.10
160.50
302.45
112.67
145.89

y Xp Tt e

Fixo em p e zero em t
Aleatrio em t
Aleatrio em t
Aleatrio em t
Aleatrio em t

t ~ N ( 0, I )
2
t

(C) - Modelo individual ou animal: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matriz de correlao A:

0 1 A 1 . O indivduo 11 ter seu efeito gentico predito em g mas o valor refere-se somente parte dentro de famlia.
Efeitos fixos
Pop (p)
1
2
2
2
2

Touro (t)

Indivduo (g)

Peso

Modelo Ajustado

Ajuste para Touro

1
2
2
3
3

11
12
13
14
15

200.10
160.50
302.45
112.67
145.89

y Xp Zg e

Fixo em p e zero em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g

g ~ N ( 0, A g2 )

(D) - Modelo individual ou animal: ajustes concorrentes: efeitos aleatrios com matriz de correlao A dominam efeitos
aleatrios com matriz de correlao I:

Efeitos fixos
Pop (p)
1
1
1
1
1

Touro (t)
1
2
2
3
3

A 1 I 1 . Nesse caso, o vetor estimado t conter apenas valores zero.


Indivduo (g)
Peso
Modelo Ajustado
11
12
13
14
15

y 1u Tt Zg e

200.10
160.50
302.45
112.67
145.89

g ~ N ( 0, A g2 )
t ~ N ( 0, I t2 )

Ajuste para
Touro
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g

(E) - Modelo individual ou animal: ajustes concorrentes: efeitos fixos dominam efeitos aleatrios com matrizes de correlao A e
I simultaneamente: 0 1 A 1 e I 1

Efeitos fixos
Pop (p)
1
2
2
2
2

Touro (t)

Indivduo (g)

Peso

1
2
2
3
3

11
12
13
14
15

200.10
160.50
302.45
112.67
145.89

Modelo Ajustado

y Xp Tt Zg e
g ~ N ( 0, A g2 )
t ~ N ( 0, I t2 )

Ajuste para Touro


Fixo em p e zero em g e t
Aleatrio em g
Aleatrio em g
Aleatrio em g
Aleatrio em g

(F) - Modelo de famlias de irmos completos: ajustes no concorrentes: o vetor f estima os efeitos de famlia contemplando

2f (1 / 2) g2 (1 / 4) do2 min ancia .


Efeitos fixos
Pop (p)
1
1
1
1
1

Famla (f)

Indivduo (g)

Peso

Modelo Ajustado

1
2
2
3
3

11
12
13
14
15

200.10
160.50
302.45
112.67
145.89

y 1u Ff e
f ~ N ( 0, I 2f )

Ajuste para
Famlia
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f

(G) - Modelo individual ou animal com famlias de irmos completos: ajustes concorrentes: efeitos aleatrios com matriz de
correlao A dominam efeitos aleatrios com matriz de correlao I:

A 1 I 1 . O vetor f estima os efeitos da capacidade

especfica de combinao (CEC) associados a cada famlia, contemplando

Efeitos fixos
Pop (p)
1
1
1
1
1

2f (1 / 4) do2 min ancia .

Famla (f)

Indivduo (g)

Peso

Modelo Ajustado

1
2
2
3
3

11
12
13
14
15

200.10
160.50
302.45
112.67
145.89

y 1u Ff Zg e

g ~ N ( 0, A g2 )
f ~ N ( 0, I 2f )

Ajuste para
CEC de Famlia
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f
Aleatrio em f

18

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Assim, os efeitos associados matriz de incidncia X so mais fortes do que


aqueles associados matriz de incidncia Z abrangendo os seguintes casos:
X ' X 0 1 ( e2 / b2 )

X 'Z
;

1
2
2
Z' X
Z ' Z I ( e / g )

X ' X A 1 ( e2 / g2 )

X'Z
,

1
2
2
Z' X
Z ' Z I ( e / g )

X ' X 0 1 ( e2 / b2 )

X'Z
e

1
2
2
Z' X
Z ' Z A ( e / g )

em que A uma matriz no diagonal de

correlao entre valores genticos aditivos, com elementos dados por a XY , o


numerador do coeficiente de parentesco de Wright entre os indivduos X e Y dado
a XY
, em que a XX 1 F o parentesco do indivduo com
( a XX aYY )1 / 2
ele mesmo e F o coeficiente de endogamia. Se F = 0, ra XY a XY .

pela correlao ra XY

1.4 Modelos Estatsticos de Seleo

Os modelos estatsticos de seleo tem a forma geral g f ( y ) , em que t um


estimador dos efeitos de tratamentos genticos e y = u + b + g + e. Os modelos
estatsticos de seleo podem ser classificados em (Resende, 2008):
A) Estimadores no Viesados
(i)

(ii)

(iii)

Modelo I (Fixo): tem como alvo a escolha entre


tratamentos independentes e de efeitos fixos; assume
implicitamente que g2 = Var(g) / Var(y) = 1, ou seja, que
o coeficiente de determinao dos efeitos de tratamento
equivale a 100%; utiliza na seleo os procedimentos de
comparao de mdias fenotpicas estimadas por
quadrados mnimos (OLS).
Modelo II (Aleatrio): tem como alvo a seleo entre
variveis aleatrias no observveis pertencentes a uma
mesma populao estatstica (ambiente); assume g2 =
Var(g) / Var(y) = h2, em que h2 a herdabilidade de
cada nvel do fator de tratamentos; utiliza na seleo o
procedimento da melhor predio linear (BLP) ou ndice
de seleo (SI).
Modelo III (Misto): tem como alvo a seleo entre
variveis aleatrias no observveis pertencentes a
vrias populaes estatsticas (ambientes ou raas, de
efeitos fixos); assume g2 = Var(g) / Var(y) = h2, em que
h2 a herdabilidade de cada nvel do fator de
tratamentos; estima as mdias das vrias populaes por
quadrados mnimos generalizados (GLS), produzindo
melhores estimativas lineares no viciadas (BLUE)
dessas mdias; utiliza na seleo o procedimento da
melhor predio linear no viciada (BLUP).

19

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O procedimento BLUP pode ser assim caracterizado:


B: minimiza a varincia do erro de predio (PEV), ou seja, maximiza
a preciso.
L: uma funo linear das observaes.
U: no viciado, propriedade essa que, em conjuno com a
minimizao da PEV, maximiza a acurcia na classe dos preditores
no viesados.
P: preditor de uma varivel aleatria.
As propriedades B e U, simultaneamente, caracterizam um procedimento
acurado, na classe dos preditores no viesados. Assim, o BLUP poderia tambm
ser traduzido como preditor linear acurado (ALP).
B) Estimadores Aproximadamente no Viesados
(iv)

Modelo IV: tem como alvo a escolha entre tratamentos


com coeficientes de determinao dados por
g 2 1 [(T 3) /(T 1)] / F , em que T o numero de nveis
dos efeitos aleatrios g e F a estatstica F de Snedecor,
funo da proporo entre varincia entre tratamentos e
varincia residual. Utiliza na seleo mdias fenotpicas
estimadas por quadrados mnimos (OLS) ponderadas
pelo fator de shrinkage g2 (Estimadores de James-Stein).

(v)

Modelo V: tem como alvo a escolha entre variveis


aleatrias obtidas como mdias a posteriori (MAP) de
uma distribuio condicional dos valores genticos
dados o vetor de dados e os valores atualizados dos
componentes de varincia e efeitos fixos (Estimadores
de Bayes ou MAP).

1.5 Mtodos Estatsticos de Estimao

Os mtodos estatsticos de estimao de componentes de mdia e de


varincia, associados aos cinco tipos de modelos estatsticos de seleo, so
apresentados na Tabela 7.
Tabela 7. Mtodos estatsticos de estimao de componentes de mdia e de
varincia e testes de hipteses .

Modelo Estatstico
Linear e de Seleo
Modelo I (Fixo)

Mtodo de Estimao de
Componentes de Mdias
Quadrados Mnimos (LS)

Modelo II (Aleatrio)

BLP ou BLUP

Modelo III (Misto)

BLUP

Modelo IV

James-Stein

Modelo V

Bayes (MAP)

Mtodo de Estimao de
Componentes de Varincia
Quadrados Mnimos: Anlise
de Varincia (ANOVA)
Mxima Verossimilhana (ML)
ou ML Residual (REML):
Anlise
de
Deviance
(ANADEV)
REML: Anlise de Deviance
(ANADEV)
Quadrados Mnimos: (OLS);
Mxima Verossimilhana (ML)
Moda a Posteriori (MAP) via
MCMC

Teste da Significncia
dos Efeitos
Teste F de Snedecor;
Teste de Wald
Teste LRT via Qui Quadrado
Teste LRT via QuiQuadrado
Intervalo de Confiana
Intervalo Bayesiano de
Credibilidade

20

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Verifica-se uma sofisticao dos procedimentos quando se passa do modelo I


para o modelo III e V. Uma ilustrao de clculos associados anlise de deviance
apresentada a seguir.
Na anlise de modelos mistos com dados desbalanceados, os efeitos do
modelo no so testados via testes F tal como se faz no mtodo da anlise de
varincia. Nesse caso, para os efeitos aleatrios, o teste cientificamente
recomendado o teste da razo de verossimilhana (LRT). Para os efeitos fixos,
um teste F aproximado pode ser usado. Um quadro similar ao quadro da anlise de
varincia pode ser elaborado. Tal quadro pode ser denominado de Anlise de
Deviance (ANADEV) e estabelecido segundo os seguintes passos:
a) Obteno do ponto de mximo do logaritmo da funo de
verossimilhana residual (Log L) para modelos com e sem o efeito a ser
testado;
a) Obteno da deviance D = -2 Log L para modelos com e sem o efeito a
ser testado;
b) Fazer a diferena entre as deviances para modelos sem e com o efeito a
ser testado, obtendo a razo de verossimilhana (LR);
c) Testar, via LRT, a significncia dessa diferena usando o teste quiquadrado com 1 grau de liberdade.
Considere como exemplo o seguinte experimento, conduzido no
delineamento de blocos ao acaso com vrias plantas por parcela. Tem-se ento o
seguinte modelo, y = u + g + b + gb + e, em que g refere-se ao efeito aleatrio de
gentipos, b refere-se ao efeito fixo de blocos, gb refere-se ao efeito aleatrio de
parcela e e refere-se ao resduo aleatrio dentro de parcela. A seguinte anlise de
deviance (ANADEV) pode ser realizada.
Efeito

Deviance
+

LRT(Qui-quadradod)

Comp.Var.

Coef. Determ.

6.5546**

0.032924*

h2g = 0.0456*

Gentipos

647.1794

Parcela

654.1289+

13.5041**

0.068492**

c2parc = 0.0948**

Resduo

0.6206

c2res=0.8595

Modelo Completo

640.6248

c2total=1.0000

Bloco

F = 7.0172**

Qui-quadrado tabelado: 3,84 e 6,63 para os nveis de significncia de 5 % e 1 %, respectivamente..


+ Deviance do modelo ajustado sem os referidos efeitos
d
Distribuio com 1 grau de liberdade.

Verifica-se que os efeitos de gentipos e de parcelas so significativos.


Conseqentemente, os respectivos componentes de varincia so significativamente
diferentes de zero, assim como os respectivos coeficientes de determinao
(herdabilidade dos efeitos genotpicos h2g e coeficiente de determinao dos efeitos
de parcela - c2parc). O fator bloco, considerado de efeito fixo, foi testado via F de
Snedecor. A anlise de devincia uma generalizao (para os casos balanceado e
desbalanceado) da clssica anlise de varincia.

21

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.6 Derivaes Frequentistas e Bayesianas de Estimadores de Valores


Genticos

a. Minimizao da soma de quadrados dos resduos ou erros de estimao sob


modelo de efeitos fixos e restrio U de no vicio (OLS).
b. Minimizao da soma de quadrados ponderada (comtemplando heterocedasticia)
dos resduos sob modelo de efeitos fixos e restrio de no vicio (WLS).
c. Minimizao da soma de quadrados ponderada (comtemplando heterocedasticia
e erros correlacionados) dos resduos sob modelo de efeitos fixos e restrio de
no vicio (GLS).
d. Maximizao da funo de verossimilhana de y (ML; BLP emprico).
e. Minimizao do erro quadrtico mdio de estimao sob modelo aleatrio (BLP
se os componentes de varincia so conhecidos).
f. Maximizao da acurcia: maximizao da distribuio conjunta entre g e y (BLP
se os componentes de varincia so conhecidos).
g. Minimizao do erro quadrtico mdio de estimao na classe U sob modelo
misto (BLUP se os componentes de varincia so conhecidos, Krigagem).
h. Maximizao da acurcia na classe U: maximizao (com respeito a g e b) da
distribuio conjunta entre g e ( y Xb ) (BLUP se os componentes de varincia
so conhecidos; BLP de g + GLS de b).
i. Maximizao da funo de verossimilhana restrita de ( y Xb ) (REML; BLUP
emprico).
j. Maximizao da distribuio a posteriori de g dado y (MAP ou Bayes ou Mdia
condicional a posteriori).
k. GWS: Maximizao da acurcia na classe U: maximizao da distribuio
conjunta entre g e m (RR-BLUP e G-BLUP); m um vetor dos efeitos de
marcadores genticos de DNA.
l. GWS: Maximizao da distribuio a posteriori de g dado m (MAP ou Bayes ou
Mdia condicional).
Existem duas formas frequentistas de derivao do BLUP: (i) pela
minimizao do erro quadrtico mdio de predio ( E ( g g ) ) sob restrio de

no vicio; (ii) pela maximizao da funo densidade de probabilidade conjunta do


vetor de dados e do vetor de parmetros. A forma (ii) apresentada a seguir.
Modelo misto
y = Xb + Zg + e
Funo Densidade de Probabilidade de y
f ( y Xb,V )

1
2

(1 / 2 ) N

1/ 2

exp ( y Xb )'V 1 ( y Xb )
2

22

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Funo Densidade de Probabilidade Conjunta de y e g


f ( y , g ) f ( y g ). f ( g )

1
2

(1 / 2 ) N

1/ 2

1
1/ 2

2 (1 / 2 ) q G

exp ( y Xb Zg )' R 1 ( y Xb Zg )
2

exp ( g ' G 1 g )
2

A funo densidade de probabilidade conjunta de y e g dada pelo produto


entre a funo densidade de probabilidade condicional de y dado g e a funo
densidade de probabilidade de g, ou seja, f(y,g) = f(y|g) . f(g). Maximizando essa
funo, por meio da derivao da mesma em relao a b e g, e tomando-se as
derivadas identicamente nulas, obtm-se as equaes de modelo misto. importante
reafirmar que a funo a ser maximizada uma funo densidade de probabilidade
conjunta de y e dos parmetros e no uma funo de verossimilhana ( f ( y g ) ).
Detalhes dessa derivao so apresentados por Lopes et al. (1998) e Martins et al.
(1997;1998).
A predio usando BLUP assume que os componentes de varincia so
conhecidos. Entretanto, na prtica, so necessrias estimativas fidedignas dos
componentes de varincia (parmetros genticos) de forma a se obter o que se
denomina BLUP emprico (Harville e Carriquiry, 1992). O procedimento
recomendado para estimao de componentes de varincia o da mxima
verossimilhana restrita (REML), desenvolvido por Patterson e Thompson (1971).
Teorema de Bayes (em termos de Eventos)
Probabilidade condicional: Se A e B so eventos em um dado espao de
probabilidade, a probabilidade condicional de um evento A dado o evento B, indicado
por P[AB] definida por:
P[A, B]

P[ A B ]

P[B]

se P[B] 0,

Probabilidade Conjunta: a partir da frmula da probabilidade condicional obtm-se a


frmula da probabilidade conjunta dada por
P[A,B]=P[B] . P[ A B ]=P[A] . P[ B A ].
Teorema de probabilidade total: para um dado espao de probabilidade se B1, B2, ..., Bn
uma coleo de eventos mutuamente disjuntos satisfazendo:

B j e P B j 0 para j 1, 2, ..., n ento


j 1

PA P A B j PB j PA ,
n

j 1

em que o espao amostral.

Teorema de Bayes: a partir da frmula da probabilidade conjunta e da probabilidade


total obtm-se:
P B k A

P A , B

P A

P A B k P B k

P A
n

j 1

Bj P Bj

Pr obabilidad e Conjunta
.
Pr obabilidad e Total

23

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Funo Densidade de Probabilidade e Expectncia


Uma varivel aleatria contnua no possui uma funo de probabilidade que
associe probabilidades a cada ponto ou valores de seu domnio. Estas probabilidades
so calculadas para intervalos de valores do domnio atravs de uma funo
densidade de probabilidade. A funo f(Y) uma funo densidade de probabilidade
desde que satisfaa s condies:

P (a Y b) f ( y) dy

(i)

(ii)

f ( y) dy 1

Uma varivel com distribuio Normal ou Gaussiana com parmetros (mdia)


e 2 (varincia), tem como funo densidade de probabilidade:
f(y)

1
1

exp
( y u )2 , y , e 0
2 1/ 2
2
( 2 )
2

Formalmente, os momentos dos dados equivalem aos valores esperados de uma


funo de uma varivel aleatria. Sendo Y uma varivel aleatria e g() uma funo
com domnio e contradomnio reais, define-se expectncia ou valor esperado g() da
varivel aleatria Y, a funo E [g(Y)] dada por:
(i) E [ g (Y )] g (Y ) PY ( y ) se Y uma varivel aleatria discreta;
Y

(ii)

E [ g (Y )]

g (Y )

f Y ( y ) dy se Y uma varivel aleatria contnua com

funo densidade de probabilidade f Y ( y ) .


Assim, tem-se:
a) Se g (Y) = Y, ento, E[g(Y)] = E(Y) = Y: primeiro momento;
b) Se g (Y) = Y2, ento, E[g(Y)] = E(Y2): segundo momento;
c) Se g (Y) = Y3, ento, E[g(Y)] = E(Y3): terceiro momento;
d) Se g (Y) = Y4, ento, E[g(Y)] = E(Y4): quarto momento;
e) Se g (Y) = (Y-0), ento, E[g(Y)] = E(Y) = Y: primeiro momento
centrado em zero (mdia);
f) Se g (Y) = (Y-Y)2, ento, E[g(Y)] = E(Y-Y)2=Var(Y): segundo
momento centrado na mdia (varincia).
Os momentos de uma varivel aleatria ou de sua correspondente distribuio
so as potncias das esperanas. O r-simo momento de uma varivel aleatria Y
usualmente indicado por Mr e definido por Mr = E(Yr) se a esperana existe. O rsimo momento central de uma varivel aleatria Y em torno de a definido como
E[(Y-a)r]. Se a = Y, tem-se o r-simo momento central de Y em torno da mdia Y.
Assim:
M1 = E[(Y-Y)] = 0: primeiro momento central;
M2 = E[(Y-Y)2] = Var (Y): segundo momento central.
A varincia de uma varivel aleatria Y com esperana E(Y) = Y definida por:

24

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(i) Y2 Var(Y ) (Y Y ) 2 PY ( y) se Y discreta;


Y

(ii)

Y2 Var (Y )

(Y

) 2 f Y ( y ) dy

se Y contnua.

Funo Densidade Marginal


Uma funo densidade marginal de uma varivel Y1 com respeito outra varivel Y2
refere-se aos valores assumidos por Y1 independente dos valores assumidos por Y2.
Nesse caso, a distribuio marginal Y1 dada por f ( y ) f ( y , y ) dy , donde se v que
1

y2 integrada (tendo eliminada a sua influncia) na funo. Assim, y2 considerada


varivel de distrbio.
Funo Densidade Condicional
Uma funo densidade condicional de uma varivel Y1 com respeito outra varivel
Y2 refere-se aos valores assumidos por Y1 quando Y2 assume um valor constante.
Nesse caso, a distribuio condicional dada por f ( y1 y 2 ) f ( y1 , y 2 ) / f ( y 2 ) , onde f ( y2 )
a densidade marginal da varivel Y2, a qual fixada em um determinado valor.
A esperana condicional de Y1 dado Y2 uma regresso de Y1 em Y2, dada por
E (Y1 Y 2 y 2 ) 1 ( y 2 2 ) 1 ( y 1 y 2 / y2 2 )( y 2 2 ) 1 ( conjunta

y1 y 2

/ m arg inal y 2 )( y 2 2 )

Estimao Bayesiana
A estimao Bayesiana difere da estimao por mxima verossimilhana (ML)
devido ao fato de se maximizar a distribuio a posteriori do parmetro em vez da
funo de verossimilhana. Essa distribuio dita condicional do parmetro dadas
as observaes (y) e proporcional ao produto da funo de verossimilhana pela
distribuio a priori do parmetro. De maneira similar ML, possvel tambm
maximizar a funo densidade a posteriori em relao aos parmetros. Se a
informao a priori encontra-se disponvel a estimao Bayesiana deve ser prefervel
ML.
O princpio bayesiano atribudo postumamente (1763) a Thomas Bayes, que
nunca publicou em vida um trabalho matemtico. No entanto, a base desse princpio
foi publicada antes por Saunderson (1683-1739), um cego professor de tica, que
publicou vrios artigos matemticos.
Ao invs de maximizar a distribuio a posteriori, uma alternativa definir uma
funo de perda, como por exemplo as funes de perda linear e quadrtica, as quais
contemplam respectivamente as diferenas simples e quadrticas entre os valores
estimados e os parmtricos. Minimizar a funo de perda linear equivale a
maximizar a densidade a posteriori (obtendo a moda) e minimizar a funo de perda
quadrtica equivale a maximizar a mdia da distribuio a posteriori. Se a distribuio
a priori no informativa (vaga) e/ou a quantidade de dados muito grande (a

25

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

verossimilhana domina a priori), a estimao bayesiana converge para a estimao


ML, ou seja, ambas so equivalentes.
O Teorema de Bayes, definido em termos de densidades de probabilidade,
tem a seguinte formulao para a distribuio de uma varivel aleatria contnua:
f y

f ( y , )
f ( y)

f ( y ) f

f ( y ) f

(1)

: vetor de parmetros
f(): funo densidade de probabilidade da distribuio a priori, que tambm a
densidade marginal de . Esta funo denota o grau de conhecimento acumulado
sobre , antes da observao de y.
y : vetor de dados ou de informaes obtidas por amostragem.
f(y): funo densidade de probabilidade da distribuio condicional de uma
observao (y) dado (denominada funo de verossimilhana ou
modelo para os dados).

f ( y , ) = f(y) f() : funo densidade conjunta de y e .


f(y): distribuio condicional de dado y, ou distribuio a posteriori (que a base
da estimao e predio bayesiana).
A Figura a seguir (em que y foi substitudo por X) ilustra essas distribuies.

26

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

f y R f ( y, ) d R f ( y ) f d E f ( y )

distribuio

marginal

ou

preditiva de y com respeito a , onde R a amplitude da distribuio de . E


significa esperana com respeito distribuio de . (A integrao da distribuio
conjunta, no espao paramtrico de , produz a marginal de y). A funo f y
denominada funo de verossimilhana ponderada (por f ) sobre a distribuio de
. A marginal de y independente de , o qual integrado para fora da funo.
Como f(y) no funo de (ou seja, f(y) constante para qualquer ), a
forma usual da formulao de Bayes : f(y) f(y) f(), onde indica
proporcionalidade. Dessa forma, f(y) no integra 1.
A expresso (1) advm das expresses f(,y) = f(y) f() e f(,y)=f(y)
f(y), as quais so obtidas a partir do teorema da probabilidade condicional.
Em termos de estimao, enquanto para a estatstica freqentista podem
existir vrios estimadores para um determinado parmetro, para a estatstica
bayesiana existe, em princpio, um nico estimador, o qual conduz a estimativas
que maximizam a funo densidade de probabilidade a posteriori. Assim,
inferncias sobre so realizadas a partir da densidade a posteriori atravs da
expresso geral p y R f (y ) d , onde p denota probabilidade (Gianola &
Fernando, 1986).
Ao nvel do i-simo elemento do vetor , a esperana condicional de i
dado y

i f ( y ) f ( ) d
R

f ( y )

f ( ) d

, o qual o usual estimador bayesiano de i.

Verifica-se que a predio dos valores genticos ( g ), a partir dos dados


fenotpicos (y), baseia-se na mdia condional ou regresso de g em y, dada por:
E( g y) g f ( y, g ) dg / f ( y, g ) dg , em que:
f ( y, g ) : funo densidade da distribuio de probabilidade conjunta de y e g.

Com dados desbalanceados, independentemente da distribuio, o


ordenamento dos candidatos com base em E(gy) e a seleo daqueles com os maiores
valores, maximiza a mdia dos indivduos selecionados, conforme demonstrado por
Fernando & Gianola (1986).
Em inferncia bayesiana no existem parmetros de efeitos fixos, mas apenas
variveis aleatrias. Tais variveis so estimadas, diferentemente da abordagem
frequentista, em que os efeitos aleatrios so preditos e os efeitos fixos e
componentes de varincia so estimados. Na inferncia bayesiana os parmetros tm
uma distribuio de probabilidade enquanto na inferncia frequentista (com fatores
de efeitos fixos) os estimadores dos parmetros que tm uma distribuio de
probabilidade.

27

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Relao entre Blup e Estimadores Bayesianos


Alm das distribuies (normais) adotadas para os efeitos aleatrios (g) no
modelo linear clssico e para a verossimilhana do vetor de observaes (y), a
abordagem bayesiana requer atribuies para as distribuies a priori dos efeitos
fixos e componentes de varincia. A atribuio de distribuies a priori no
informativas ou uniformes para os efeitos fixos e componentes de varincia uma
forma de caracterizar um conhecimento a priori vago sobre os referidos efeitos e
componentes (Gianola & Fernando, 1986; Silva et al., 2008; 2011).
Quanto estimao dos efeitos fixos (efeitos de blocos completos, por
exemplo) e de efeitos aleatrios (valores genticos), tem-se que as mdias das
distribuies marginais a posteriori dos parmetros de locao (efeitos fixos e
aleatrios), dados os componentes de varincia ou parmetros de disperso
conhecidos, equivalem s solues das equaes do modelo misto do BLUP, desde
que: sejam atribudas prioris no informativas para os efeitos fixos, prioris normais
para os efeitos aleatrios e verossimilhana normal para o vetor de observaes.
Uma vez que a distribuio a posteriori resultante simtrica e unimodal
(normal), a moda, a mediana e a mdia so idnticas e uma grande classe de funes
de perda comum (funo de perda quadrtica, funo de perda absoluta ou funo de
perda uniforme) conduz ao mesmo estimador. Determinando a moda obtm-se o
vetor mdio da distribuio conjunta a posteriori, por maximizao e no integrao.
Obtm-se ento:
X ' R 1 X S 1

1
Z' R X

X ' R 1 Z
1
1 2
Z' R Z A g

E ( b y ) X ' R 1 y S 1 r1 ,

1
1 2
E ( g y ) Z ' R y ( A g ) 0

em que r1 = E(b) e 0 = E (g).

Essa derivao da metodologia BLUP, sob o enfoque bayesiano baseia-se na


combinao de dois estimadores (fontes de informao) independentes. Neste caso,
as equaes resultantes so denominadas equaes de modelo misto de Robertson
(Resende e Rosa-Perez, 1999).
Tomando a distribuio a priori sobre os efeitos fixos como no informativa
(expressa como S e ento S1 0 ), tem-se que esta equao resultante equivale s
equaes do modelo misto do BLUP:
X ' R 1 X

1
Z' R X

1
1 2
Z'R Z A g
X ' R 1 Z

b X ' R 1 y

1
g Z ' R y

Essa equao pode ser derivada tambm pela maximizao de f (y, ) para
variaes em (em que = b;g), sendo o estimador, neste caso, denominado mximo
a posteriori (MAP). Sendo P(gy) = probabilidade de g dado y, o mximo a posteriori
(MAP) de g dado pela maximizao de P(gy). Quando g e y seguem uma
distribuio normal multivariada, o MAP de g equivalente ao BLUP de g. A prova
disso apresentada a seguir.

28

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Se Y ~N (, V), ou seja, P (Y) =

1
( 2 ) n / 2 V

n/2

1
( y )'V 1 ( y )
2

em que n =

ordem de y, tem-se usando o teorema de Bayes:


P g y

P y g P( g )
P( y )

log P g y log P y g log P g P y


n
1
1
n
log R ( y X Zg )' R 1 ( y X Zg ) log G g ' A 1 g constante
2
2
2
2

X ' R 1 ( y X Z g ) 0
X ' R 1 X X ' R 1 Z g X ' R 1 y
B

Z ' R 1 ( y X Z g ) G 1 g 0
Z ' R 1 X ( Z ' R 1 Z G 1 ) g Z ' R 1 y
g

Esta ltima expresso equivalente ao BLUP de g.


Relao entre Estimadores de Mxima Verossimilhana (ML) e Bayesianos
O objetivo do mtodo ML encontrar um conjunto de parmetros que maximizam
a verossimilhana de um modelo, dado uma coleo de observaes. A
verossimilhana para um determinado modelo pode ser escrito como uma funo.
Segundo os fundamentos de clculo matemtico, para encontrar o mximo dessa
funo, deve-se tomar a primeira derivada ou diferencial dessa funo e igualar o
resultado a zero. Isto propicia o conjunto de parmetros que conduzem a funo a um
ponto crtico mximo, desde que no se tenha atingido um ponto de mnimo. Isto pode
ser verificado usando o sinal da derivada segunda. Sinal positivo da derivada segunda
indica concavidade para cima, ou seja, ponto de mnimo. Sinal negativo da derivada
segunda indica concavidade para baixo, ou seja, ponto de mximo.
Considerando como uniforme a distribuio a priori dos parmetros em b a
serem estimados e maximizando (obtendo a moda) a distribuio a posteriori, o
estimador resultante equivalente ao de mxima verossimilhana ML (Henderson,
1984; Gianola & Fernando, 1986). De fato, maximizando f (g,b) (mas considerando
uma priori no informativa para b) com respeito a g e b obtm-se um estimador
denominado de mxima verossimilhana, por Henderson et al. (1959), embora f(g,b)
no seja uma funo de verossimilhana e sim uma densidade a posteriori. Mesmo
assim, pode ser obtido a partir das equaes do modelo misto que
E (b y ) ( X 'V 1 X ) 1 X 'V 1 y b e E ( g y ) GZ 'V 1 [ y Xb ] g em que b um estimador
GLS e tambm ML de b e g um estimador ML de E(gb, y), equivalendo mdia
da distribuio condicional na qual b fixado.

29

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Implementao Prtica da Anlise Bayesiana


Os resultados de interesse gerados pela anlise Bayesiana so, em geral, as
distribuies marginais a posteriori dos parmetros de interesse. Posteriormente,
inferncias baseadas na mdia, mediana, moda e desvios padres destas
distribuies so realizadas na prtica.
O problema bsico da implementao da anlise Bayesiana refere-se
integrao numrica. A integrao (no espao do parmetro) da funo densidade
de probabilidade a posteriori, por exemplo:
E [ g ( ) y ] R g ( ) p( y) d , onde:
g ( ) ,

para obteno da mdia a posteriori e

g ( ) ( )2 , E ( y ) , para obteno da varincia a posteriori ou risco de

Bayes, pode ser realizada atravs dos mtodos (Gamerman, 1996): (i) analtico
para aproximao de integral; (ii) automticos ou de quadratura; (iii) simulao
estocstica para obteno de distribuies a posteriori, a qual descrita em tpico
seguinte.
1.7 Estimao de Componentes de Varincia

Embora o problema central da avaliao gentica seja a estimao de


componentes de mdias (valores genticos), os quais so obtidos via integrao
(clculo de esperana matemtica) de funes, os componentes de varincia so um
problema tangencial avaliao gentica e so tambm essenciais em outras etapas
do melhoramento gentico. Os componentes de varincia podem ser obtidos via
integrao ou derivao (maximizao) de funes. Na Tabela 8 so apresentados os
principais mtodos de estimao de componentes de varincia. Em cada linha da
tabela o primeiro autor citado refere-se ao trabalho mais influente e os demais referem-se
a trabalhos bsicos e/ou tericos que complementam o tema.
Tabela 8. Evoluo dos mtodos de estimao de componentes de mdias (valores genticos).
Mtodo
Autores
Modelo
Estrutura
de Distribuio das
Varincias
Varincias
ANOVA
Henderson (1953);
Fixo, funo para y
e ~ N (0, I e2 )
Fisher (1925)
2
e ~ N (0, R I e )
ML
Hartley e Rao (1967);
Aleatrio, funo para y
Fisher (1922)
g ~ N (0, A g2 )
REML

BAYES- MCMC

G-REML
ou
REML/G-BLUP

Patterson e Thompson
(1971); Thompson
(1969; 1973)
Geman
e
Geman
(1984); Gelfand e Smith
(1990)

Misto, funo para (y-Xb)

Van Raden (2008);


Misztal et al. (2010)

Misto, funo para (y-Xb)


com regresso em
covariveis (marcas)
aleatrias ou G como
matriz de parentesco
genmico

e ~ N (0, R I e2 )

g ~ N (0, A g2 )

Aleatrio, distribuio a
posteriori

e ~ N ( 0, I e2 )

e2 ~ 2 ( e , S e2 )

a ~ N ( 0, A )

a2 ~ 2 ( a , S a2 )
Uniforme se
i 2; Si2 0
-

2
a

e ~ N (0, R I e2 )

g ~ N (0, G g2 )

30

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A variao fenotpica devida a efeitos genticos e ambientais. Os efeitos


genticos podem ser decompostos em efeitos de um conjunto de genes de efeitos
menores (poligenes) e efeitos atribudos a genes maiores ou regies genmicas
especficas. A distino entre esses trs tipos de efeitos, bem como a decomposio da
variao fenotpica total de um carter em funo desses trs componentes, tem se
tornado essencial aos programas de melhoramento gentico de plantas e animais. Os
efeitos ambientais podem ser desmembrados em independentes e correlacionados.
Os mtodos padres para estimao desses componentes de varincia tm sido o
da mxima verossimilhana residual (REML) e o da estimao Bayesiana (MCMC).
Aplicados sobre dados fenotpicos combinados com informaes de marcadores
genticos e de genealogia, esses mtodos permitem a separao da varincia gentica
associada a todo genoma daquela associada a regies cromossmicas especficas,
conduzindo deteco de genes individuais. Quando aplicado usando apenas a
informao de ligao gnica em anlise dentro de famlia, geralmente no conduz a
mapeamento suficientemente preciso para permitir resoluo ao nvel molecular.
Entretanto, a inferncia sobre o parentesco gentico entre indivduos usando as
informaes sobre desequilbrio de ligao marcadores-QTL em toda a populao,
contribui para a melhoria da resoluo.
Mxima Verossimilhana (ML)
O mtodo da mxima verossimilhana baseia-se na obteno do ponto de
mximo de uma funo de verossimilhana (que a funo densidade de
probabilidade conjunta dos pontos amostrais). E este mximo obtido por derivao
da funo de verossimilhana (L) em relao ao parmetro de interesse. Assim, o
estimador ML maximiza a verossimilhana do parmetro dado a funo densidade
de probabilidade e o conjunto de dados. O ponto de mximo da funo de
verossimilhana mais facilmente encontrado quando se toma o logaritmo natural
dessa funo. Isto porque, com essa transformao, o produtrio em L= (;y)
transforma-se em somatrio, fato que torna os clculos mais tratveis. No presente
texto, as denominaes Log e Loge denotam a mesma coisa, ou seja, o logaritmo
natural ou na base e.
O mtodo ML foi desenvolvido por Fisher (1922), mas somente aps cerca de
45 anos, Hartley e Rao (1967) apresentaram a especificao matricial de um modelo
misto e a derivao de equaes ML para vrias classes de modelos. Os trabalhos de
Henderson (1953) usando quadrados mnimos tiveram grande impacto no
desenvolvimento dos mtodos de estimao de componentes de varincia a partir de
dados desbalanceados, estimulando principalmente os trabalhos de Hartley e Rao.
Embora viciado, o procedimento ML computacionalmente mais simples que o
mtodo REML (descrito a seguir) e, em determinadas situaes, apresenta eficincia
satisfatria. O vcio pode ser considervel se o nmero de equaes independentes
(posto de X, em que X a matriz de incidncia dos efeitos fixos), para os efeitos
fixos, for relativamente grande em relao ao nmero (N) de observaes. Quando o
posto de X pequeno em relao a N, os mtodos ML e REML conduzem a
resultados similares, conforme verificado por Resende et al. (1996) e Duarte e
Vencovsky (2001).

31

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Mxima Verossimilhana Restrita (REML)


O mtodo REML foi desenvolvido e melhorado pelo pesquisador Robin
Thompson e co-autores na Inglaterra. Tal mtodo (Patterson & Thompson, 1971)
surgiu a partir de esforos na obteno de melhores estimadores de componentes de
varincia para dados no ortogonais e desbalanceados (Thompson, 1969).
Posteriormente, foi estendido para modelos multivariados (Thompson,1973) e
melhorado em termos do algoritmo de estimao via informao mdia (AI-REML)
(Johnson & Thompson, 1995), visando a incorporao em softwares de excelncia
como o GENSTAT e o ASREML (Gilmour, Thompson e Cullis, 1995).
O mtodo REML propicia uma correo ao ML, eliminando o seu vcio. No
mtodo REML, somente a poro da verossimilhana que invariante aos efeitos
fixos (especificados no vetor ) maximizada. Assim, o REML mantm as demais
propriedades do ML, no viciado e permite tambm a imposio de restries de
no negatividade. Dessa forma, o REML o procedimento ideal de estimao de
componentes de varincia em modelos mistos. No mtodo REML, os componentes
de varincia so estimados sem serem afetados pelos efeitos fixos do modelo e os
graus de liberdade referentes estimao dos efeitos fixos so considerados,
produzindo estimativas no viciadas (Resende, 2007).
O mtodo REML divide os dados em duas partes: contrastes dos efeitos
fixos; e contrastes dos erros (isto , todos os contrastes com esperana zero) os quais
contm informaes somente sobre os componentes de varincia. Apenas os
contrastes dos erros so ento usados para estimar os componentes de varincia, uma
vez que eles contm todas as informaes disponveis sobre os parmetros de
varincia. Isto feito pela projeo dos dados no espao residual ou espao vetorial
dos contrastes dos erros. Os dados projetados tm Log L dado por
2RL [ N r( X )] log 2 log X X log XV 1 X log V ( y Xb)V 1 ( y Xb) , em que N
o nmero de dados e r(X) o posto da matriz de incidncia dos efeitos fixos. Os
componentes de varincia so ento estimados pela maximizao do logaritmo da
funo RL dos dados projetados.
O Log L dos dados originais dado por

2 L N log 2 log V ( y Xb)V 1 ( y Xb) .

A funo RL tem termos adicionais em relao a L. O nico termo adicional


relevante para a estimao de componentes de varincia log XV 1 X , o qual
efetivamente remove os graus de liberdade usados na estimao dos efeitos fixos.
Essa diferena entre RL e L reflete exatamente a diferena entre REML e ML
(Resende, 2007). Quando o modelo inclui tambm outros efeitos fixos, alm da
mdia geral, o mtodo REML deve ser usado em vez do ML.
Sob o enfoque frequentista o REML derivado por meio da marginalizao da
verossimilhana atravs dos efeitos fixos. Pelo enfoque Bayesiano o REML obtido
por meio da integrao atravs dos efeitos fixos e outros efeitos aleatrios.

32

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.8 Estimao Bayesiana de Componentes de Varincia e relao com


ML e REML

No contexto dos modelos lineares mistos, os valores genticos (1=g) so


preditos simultaneamente estimao dos efeitos fixos (2=b) e dos componentes de
varincia (3= i2 ). Na abordagem bayesiana, a avaliao gentica pode ser obtida, de
maneira geral, pela construo da densidade a posteriori f (1, 2, 3y) e, se
necessrio, pela integrao de f (1, 2, 3y) em relao a 2 e 3. Estes (2 e 3) so
denominados parmetros de nuisance e, por isso, devem ser integrados fora, exceto 2
em alguns casos, onde o mesmo constitui-se em uma parte integrante da funo de
mrito total (neste caso, a funo de mrito depende da combinao linear de 1 e 2).
A obteno de 1 requer a integrao ou o conhecimento de 2 e 3. Henderson
(1973) props o mtodo BLUP para situaes em que 3 conhecido e 2 no o . Para
situaes em que 3 no conhecido, este autor sugeriu que o procedimento de
mxima verossimilhana (ML) propiciaria estimativas razoveis. Conforme Gianola
& Fernando (1986), argumentos bayesianos, que no requerem normalidade e
linearidade, permitem validar a intuio de Henderson.
A distribuio de 1, 2, e 3, dado y proporcional a f (1, 2, 3y) f (y1, 2,
3) . f (1, 2, 3). Concentrando o interesse em 1 (o vetor de valores genticos), devese integrar 2 e 3 por meio de f (1 y ) R R f (1 2, 3, y ) f (2, 3 y ) d2 d3 .
2

Tomando a distribuio conjunta a posteriori de forma que a maioria da densidade


esteja na moda ( 2 , 3 ) , tem-se: f ( 1 y ) f ( 1 2 2 , 3 3 , y ) .
Usando prioris no informativas para 2 e 3, tem-se que 2 e 3 so
precisamente estimadores ML de 2 e 3, pois neste caso f(2, 3y) f(y2, 3), ou
seja a densidade de 2 e 3 dado y proporcional funo de verossimilhana, de
forma que a moda da posteriori conjunta corresponde ao mximo da funo de
verossimilhana, produzindo estimadores ML (Resende, 2000).
f (1,

Uma abordagem alternativa para inferncia sobre 1 consiste em obter

2 y ) f (1, 2 3 3 , y ), onde 3 refere-se moda da densidade marginal de 3,

dado y. Para obteno de 3 deve-se integrar 2 em

f ( 2 , 3 y ) f ( y 2 , 3 )

e ento

maximizar f(3y). Usando-se uma priori no informativa para 3, sob


normalidade 3 um estimador de mxima verossimilhana restrita (REML) para

3 (Harville, 1977). Assim, se o interesse reside na inferncia conjunta para 1 e 2


basta usar f (1, 2 y ) f (1, 2 3 3 , y) , que sob normalidade equivalente soluo

das equaes de modelo misto com 3 substitudo pelas estimativas REML de 3


(desde que se tenha usado prioris no informativas para 2 e 3) (Resende, 1999).
Utilizando-se distribuies a priori no informativas para os efeitos fixos e
componentes de varincia, as modas das distribuies marginais a posteriori dos
componentes de varincia correspondem s estimativas obtidas por REML.

33

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Inferncias sobre componentes de varincia devem ser baseadas em f(3y)


f(y3) . f(3), em que 3 contm varincias e, portanto, f(3y) definida na
amplitude (0, ) para cada um dos elementos de 3, de forma que nunca surgem
problemas de estimativas negativas de componentes de varincia (Box & Tiao, 1973).
f(3y) obtida integrando-se 1 em f(1, 2, 3y) produzindo f(2, 3y) e integrandose 2 nesta ltima. Neste caso, f(2, 3y) conduz aos estimadores ML de 2 e 3 e
f(3y) conduz a um estimador REML de 3. Segundo Gianola & Fernando (1986),
isto (eliminao das influncias de 2 ou dos efeitos fixos) mostra precisamente
porque REML deve ser preferido em relao a ML, ou seja, estes argumentos so
mais fortes do que os apresentados por Patterson & Thompson (1971), que
enfatizaram a propriedade de vcio do ML.
Alm da possibilidade do uso de informao a priori, eliminao de parmetros
de nuisance ou de distoro, a abordagem Bayesiana permite a integrada estimao
predio deciso e a anlise exata de amostras de tamanho finito (Resende, 1997).
Assim, uma maneira inteligente (clever) de fazer inferncia. Outros procedimentos
tradicionais de inferncia so considerados ingnuos (naive) por alguns autores.
1.9 Estimao Bayesiana via MCMC

Dentre as classes de algoritmos para aproximar as integrais, a simulao


estocstica baseada nos mtodos de Monte Carlo largamente indicada e utilizada
para integrao multivariada. Os mtodos de Monte Carlo referem-se a processos de
aproximao de valores esperados (integrais com respeito a uma distribuio de
probabilidade) por meio de amostras, podendo ser referidos tambm como um caso
especial de simulao de um processo estocstico.
Em gentica quantitativa, para implementao prtica da anlise Bayesiana,
uma das maiores dificuldades tcnicas a marginalizao. A obteno de
distribuies marginais por processos analticos praticamente impossvel (Sorensen
e Gianola, 2002). Assim, a obteno da distribuio marginal a posteriori
(marginalizao da distribuio conjunta a posteriori) tem sido obtida pelo mtodo
da amostragem de Gibbs (GS) atravs da amostragem e atualizao das distribuies
condicionais.
O mtodo da amostragem de Gibbs pertence classe de mtodos, denominada
Monte Carlo Cadeias de Markov, a qual sustentada em propriedades das Cadeias
de Markov. O nome Gibbs advm da distribuio de Gibbs, que muito utilizada na
rea de Fsica Estatstica ou Mecnica Estatstica. O amostrador de Gibbs explorando
as distribuies condicionais completas atravs de algoritmo iterativo foi proposto
inicialmente por Geman & Geman (1984) para aplicaes na rea de processamento
de imagens. Entretanto, somente em 1990, este trabalho foi divulgado para toda a
comunidade da rea de estatstica por Gelfand & Smith (1990) que publicaram em
peridico da rea de estatstica, trabalho comparando o amostrador de Gibbs com
outros processos de simulao estocstica.

34

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

De maneira genrica, na anlise bayesiana os seguintes passos devem ser


adotados: (i) especificao das distribuies a priori para os efeitos e componentes de
varincia; (ii) especificao da funo de verossimilhana para o vetor de observaes
(distribuio condicional dos dados): (iii) obteno da distribuio conjunta a
posteriori para os efeitos e componentes de varincia; (iv) obteno das distribuies
condicionais completas a posteriori para os efeitos e componentes de varincia; (v)
marginalizao das distribuies condicionais a posteriori para os efeitos e
componentes de varincia. A marginalizao analtica praticamente impossvel,
portanto, mtodos MCMC, como o amostrador de Gibbs, tm sido utilizados para
obter amostras das distribuies marginais a posteriori por meio das distribuies
condicionais completas a posteriori j citadas.
Geralmente so usadas distribuies a priori conjugadas pois, nesse caso, as
distribuies a posteriori resultantes pertencem as mesmas famlias de distribuies
das prioris. Assim, se a priori assume-se que os valores genticos g apresentam
distribuio normal, se ter na posteriori amostras de g tambm provenientes de uma
distribuio normal.
Para ilustrar a aplicao da tcnica da amostragem de Gibbs na avaliao
gentica ser considerado o modelo individual univariado, conforme Resende e RosaPerez (1999) e Resende (2000).
Modelo
y = Xb + Zg + e, onde:
y : vetor de dados, de ordem n.
b : vetor de efeitos fixos, de ordem p.
g : vetor de valores genticos aditivos, de ordem q.
e : vetor de erros, de ordem n.
X, Z : matrizes de incidncia que associam b e g aos dados (y).
Na inferncia bayesiana a formulao do modelo denominada hierrquica
ou em nveis. O primeiro nvel refere-se especificao da distribuio condicional
dos dados em relao aos parmetros, a denominada funo de verossimilhana. O
segundo nvel da hierarquia refere-se especificao das distribuies a priori dos
parmetros da distribuio condicional dos dados.
Definio da distribuio para a verossimilhana
Considera-se, inicialmente, que a distribuio condicional dos dados, dados b, g
e normal multivariada: y , g , e2 ~ N ( Xb Zg , I e2 ) , onde I a matriz
2
e

identidade e e2 a varincia residual. Essa igualdade advem do fato de que


e ~ N (0, I e2 ) e, fazendo-se e y Xb Zg , esse novo residuo tem distribuio
e2 ~ N ( Xb Zg , I e2 ) , decorrente da mudana na mdia de 0 para ( Xb Zg ) .

35

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Distribuies a priori
Considerando o modelo quantitativo infinitesimal, tem-se que a distribuio de
g tambm normal multivariada: g A, g2 ~ N (O, A g2 ) , onde A a matriz de
parentesco gentico aditivo e g2 a varincia gentica aditiva na populao base.
Os parmetros de interesse para inferncias so: b, g , g2 e e2 . Para conduzir a
anlise Bayesiana torna-se necessrio especificar as distribuies a priori para
b, g2 e e2 (a distribuio de g j foi especificada).
Como priori para b pode-se assumir p(b) constante, que especifica
aproximadamente a noo de conhecimento a priori vago para b. Esta distribuio a
priori imprpria, mas pode-se tornar prpria, desde que se especifique os limites
superior e inferior para p(b).
As distribuies a priori dos componentes de varincia ( e2 e g2 ) poderiam ser
uniforme da forma p (i2 ) constante, 0 i2 i2 max (i e, g ) , onde, de acordo com
o conhecimento acumulado sobre o carter, i2 max

seria o valor mximo que

i2 poderia assumir, a priori. Alternativamente, poderia ser especificada uma priori


mais informativa para os componentes de varincia, considerando uma distribuio
qui-quadrado
escalada
invertida,
da
2

forma: p ( i2 i , S i2 ) ( i2 ) (( / 2 ) 1) exp i S2i


(i e, g ) , onde so os graus de
2 i
i

liberdade da distribuio qui-quadrado e Si2 , o valor inicial da varincia. Esta


distribuio reduz-se a uma distribuio uniforme imprpria se i 2 e Si2 0 .
Uma distribuio a priori f() imprpria quando a integral sobre todos os
possveis valores de no converge: f () d . Entretanto, o interesse principal
reside na distribuio a posteriori e como esta , em geral, prpria mesmo quando a
priori no o , a eventual impropriedade das distribuies a priori no importante.
Distribuio conjunta a posteriori
Definidas estas distribuies, pode-se agora escrever a distribuio conjunta a
posteriori dos parmetros do modelo.
p ( b , g , g2 , e2 y ) p ( b , g , g2 , e2 ) p ( y b , g , g2 , e2 )

p ( b ) p ( g g2 ) p ( g2 ) p ( e2 ) p ( y b, g , g2 , e2 ) , em que se omitiu

o condicionamento nos hiperparmetros (parmetros que auxiliam na especificao


da priori) e na conhecida matriz de parentesco A.

36

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Considerando a distribuio a priori dos componentes de varincia como uma


qui-quadrado escalada invertida, tem-se que a distribuio conjunta a posteriori pode
ser rescrita:
p (b, g , g2 , e2 y ) e2

g2

n e

1
2

q a

1
2

( y Xb Zg )' ( y Xb Zg ) e S e2
exp

2 e2

( g ' A 1 g g S g2
exp

2 g2

Desejando atribuir distribuio a priori uniforme para g2 e e2 , basta fazer


i 2 e S i2 0 (i g , e) na expresso acima.
Distribuies condicionais a posteriori
Para implementao do GS, deve-se derivar todas as distribuies condicionais
a posteriori a partir da distribuio conjunta a posteriori apresentada acima.
Denominando-se Xb Zg W , onde W [ X Z ] e ' [b' g ' ] , tem-se que a matriz
dos coeficientes das equaes de modelo misto dada por C = W W + , onde
0
0

1 2 2 . A distribuio condicional a posteriori de :


0 A e / g

g2 , e2 , y ~ N ( , C 1 e2 ), em que dado por C W ' y , ou seja, pelas equaes

de modelo misto.
Como exemplo, a derivao da distribuio condicional a posteriori para bi ( o
i-simo elemento do vetor b) conduz a
bi b i , g , g2 , e2 , y ~ N ( bi , ( X ' X i ) 1 e2 ),
em que : bi ( X ' X i ) 1 X ' i ( y X i b i Zg )

X i e bi referem-se a X e b excluindo-se o elemento i.


E a distribuio condicional a posteriori de gi :
g i b, g i , g2 , e2 , y ~ N ( g i , ( z 'i zi Ai,i1 ) 1 e2 ) e pode ser escrita tambm como
g i b, g i , g2 , e2 , y ~ N ( g i , PEVi ) .

Marginalizao das distribuies condicionais por amostragem dos parmetros de


locao
Consiste em amostrar das condicionais a posteriori acima, para cada elemento de b e
g.
Marginalizao das distribuies condicionais por amostragem dos parmetros de
disperso
Tendo amostrado todos os parmetros de locao do modelo, deve-se computar:
SS

(1)
e

( y Xb (1) Zg (1) )' ( y Xb (1) Zg (1) )

SS g(1) ( g (1) )' A 1 g (1)


37

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A primeira iterao do amostrador completada, retirando-se os componentes


de varincia, usando SS g(1) e SS e(1) :
g2 b, g , e2 , y ~ SS g(1) q2 2

e2 b, g , g2 , y ~ SS e(1) n22

A segunda iterao inicia-se atravs de atualizaes das equaes de modelo


misto com e2 / g2 , onde e2 e g2 so os valores amostrados acima.
As bases para essas expresses vm da distribuio qui-quadrado dada por uma
razo entre varincias:
SS S 2
2 0 0 , em que 0 um hiperparmetro referente ao grau de confiana no
0

componente de varincia a priori S02 . Dessa expresso tem-se que SS S02 0 e que
S 2
2 0 0 , que a distribuio (qui-quadrado invertida escalada) ou densidade a priori
2

para o componente de varincia


derivado de

2
e

2.

Assim, 2 ~ SS 2 , conforme usado acima e


0

~
b , g , , y ~ ~e S e2 ~e2
2
g

2
g

~
b , g , e2 , y ~ ~ g S g2 ~2g .

Associado a uma varivel qui-quadrado invertida escalada tem-se as seguintes mdia


2
e varincia: E( 2 S02 0 ) = S0 0 e E( 2 S02 0 ) =

0 2

2( S02 0 ) 2
.
( 0 2) 2 ( 0 4)

Algoritmo GS
Em termos mais simples, o algoritmo GS pode ser apresentado de forma
resumida:
1. Fornecer os valores iniciais dos parmetros de locao e disperso do
modelo. Estes valores iniciais podem ser calculados atravs de
procedimentos padres tais como a estimao de componentes de varincia
por REML ou quadrados mnimos. Considerando a mdia geral y como
nico efeito fixo, pode-se calcular y como a mdia aritmtica das
observaes e g i h 2 yi y . Devem ser fornecidos os valores iniciais para
yi , g i , e2 , g2 e e2 / g2 .

2. Gerar valores para os efeitos fixos. Sendo o nico efeito fixo, a mdia geral,
tem-se: y y rnd e /(n)1 / 2
3. Gerar valores para os efeitos aleatrios: g g i rnd [(1 rg2g ) g2 ]1/ 2 , onde rgg
a acurcia dada por rg2g (1 PEVi / g2 )1 / 2 , onde PEVi o isimo elemento da
inversa da matriz dos coeficientes das EMM multiplicado por 2e .
4. Calcular a soma de quadrados do resduo (SSE) e a varincia residual 2e .
Considerando que a distribuio a priori para a varincia residual a inversa de
uma qui-quadrado, tem-se:
SSE ( yi y g i ) 2
e2

SSE
X n2

38

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

5. Gerar um valor para a varincia dos efeitos aleatrios de valores genticos.


g2

g ' A 1 g
X q2

6. Calcular o novo valor do parmetro

e2
g2

7. Repetir os passos de (2) a (6) at que se obtenha a convergncia da cadeia.


Diagnstico de Convergncia
Para a inferncia bayesiana sobre os parmetros de interesse pode empregar-se
a tcnica da amostragem de Gibbs. O principal aspecto deste procedimento refere-se
ao fato de as inferncias basearem-se na distribuio marginal a posteriori dos
parmetros, sendo que a marginalizao da distribuio conjunta a posteriori obtida
via o amostrador de Gibbs atravs de amostragens e atualizaes das distribuies
condicionais. A abordagem bayesiana baseia-se ento na construo da distribuio
marginal a posteriori de um parmetro de interesse tratando-o como uma varivel
aleatria e aplicando clculo de probabilidades. Este procedimento implica problemas
multidimensionais, uma vez que todos os outros parmetros do modelo devem ser
integrados (eliminados), fato que raramente possvel usando os mtodos numricos
padres.
O procedimento iterativo da amostragem de Gibbs refere-se a uma tcnica de
integrao estocstica que cria uma cadeia de Markov, que uma distribuio
(conjunta a posteriori) estacionria associada distribuio a posteriori de interesse.
Tomando-se amostras, iterativamente, das distribuies condicionais a posteriori,
com contnua atualizao, obtm-se a distribuio conjunta a posteriori em equilbrio
e, aps um nmero de iteraes suficientemente grande, a ltima amostra desta
seqncia e qualquer amostra subseqente uma amostra da distribuio marginal
requerida. Este resultado implica que cada coordenada do vetor de amostras retiradas,
n [ b n g n g2 ( n ) e2 ( n ) ] , uma amostra da distribuio marginal a posteriori
apropriada. Em resumo, antes do equilbrio amostra-se da distribuio condicional
completa e aps o equilbrio amostra-se da distribuio marginal f(iy).
As cadeias de Markov esto inseridas no contexto da teoria dos processos
estocsticos, teoria esta, definida como a parte dinmica da teoria de probabilidades,
onde se estuda uma coleo de variveis aleatrias, com respeito a sua
interdependncia e comportamento limite. Para a inferncia bayesiana, de maior
relevncia o estudo do comportamento assinttico da cadeia, quando o nmero de
iteraes tende a , uma vez que a inferncia deve ser baseada na distribuio (a
posteriori) estacionria, ou seja, em equilbrio.
medida em que o nmero de iteraes aumenta, a cadeia se aproxima da
condio de equilbrio. Dessa forma, necessrio considerar a convergncia em uma
determinada iterao cuja distribuio esteja prxima da distribuio em equilbrio
(atingido teoricamente quando n ), ou seja, aps um nmero suficientemente
grande de iteraes.

39

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A forma bsica de obter uma amostra de tamanho m da posteriori produzir m


cadeias independentes (geradas a partir de m valores iniciais diferentes) e, aps a
convergncia, retirar os valores da ltima iterao de cada cadeia. Outra opo
consiste em retirar m amostras da mesma cadeia aps a convergncia, visto que se
estar amostrando da distribuio a posteriori em equilbrio. Neste ltimo caso,
importante relatar que as amostras sucessivas no so independentes, de forma que
se torna necessrio descartar vrias iteraes entre cada duas amostras a serem
salvas. Como o processo markoviano, a dependncia diminui com o aumento da
distncia entre iteraes, obtendo-se, assim, independncia entre as amostras salvas.
Considerando a segunda opo, no contexto do diagnstico da convergncia,
tornam-se relevantes as quantidades: M = nmero de iteraes pr-convergncia ou
perodo de descarte ou perodo de aquecimento da cadeia (burn in); N = nmero de
iteraes aps a convergncia; K = nmero de iteraes entre amostras sucessivas ou
intervalo entre amostras (thin). O tamanho total da cadeia dado por T = M + N.
O valor de K pode ser determinado calculando as autocorrelaes na srie de
valores gerados e verificando a partir de qual ponto pode-se considerar as
autocorrelaes como nulas. Uma vez que o valor de K muito menor que o de M, os
mtodos baseados em uma nica cadeia (mais longa) so preferidos
computacionalmente.
Outra forma de anlise de convergncia refere-se estimao do erro de Monte
Carlo, que uma estatstica associada ao erro de estimao de determinado
parmetro devido ao nmero de amostras utilizadas na cadeia de Gibbs, sendo que
este erro inversamente proporcional ao tamanho da cadeia. Este erro pode ser
calculado pela varincia dos parmetros amostrados sucessivamente a cada intervalo
dividida pelo nmero de amostras salvas, sendo que a raiz quadrada deste erro
fornece uma aproximao para o desvio padro do erro associado ao comprimento da
cadeia.
Devido ao fato de que valores aleatrios so utilizados inicialmente como
realizao do conjunto de parmetros, necessrio um perodo de descarte de
amostras at que as amostras de GS possam ser consideradas como provenientes da
distribuio conjunta a posteriori, ou seja, da distribuio em equilbrio estacionrio.
Em geral, tem sido utilizado o esquema tradicional de cadeia longa (nica) de Gibbs,
onde o processo de reamostragem contnuo. Assim, de maneira geral, um grande
(da ordem de 10.000 a 1.000.000) nmero de ciclos tem sido utilizado, sendo
descartadas as primeiras amostras (da ordem de poucos milhares) e amostras de cada
parmetro so salvas a cada pequeno (da ordem de 50 a 100) nmero de iteraes. O
intervalo entre amostras salvas necessrio como forma de obteno de amostras
independentes, visto que amostras sucessivas apresentam correlao serial. O
nmero total de amostras salvas utilizado para cmputo das estimativas pontuais e
intervalares de interesse.

40

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.10 Mtodos numricos e softwares para REML/BLUP e MCMC

A implementao computacional da metodologia de modelos mistos baseia-se


fortemente em mtodos numricos, notadamente, em lgebra linear numrica,
visando obteno iterativa das solues das equaes de modelo misto (obteno do
BLUP) e, clculo numrico para a maximizao/ minimizao de funes de vrias
variveis, visando obteno das estimativas REML.
Vrios algoritmos computacionais para a obteno de componentes de
varincia por ML e REML tm sido desenvolvidos tais como o MS (Method of
Scoring de Fisher), o EM (Expectation-Maximization, de Dempster et al., 1977), o
DF-REML (Derivative-free Restricted Maximum Likelihood, de Graser et al., 1987 e
o AI-REML (Average Information-REML de Johnson & Thompson, 1995). Dentre
estes, os mais usados so o EM e o AI-REML. O algoritmo EM muito estvel,
numericamente, apresentando convergncia mesmo que os valores iniciais no
tenham sido totalmente adequados. Entretanto, uma inconvenincia do algoritmo
EM a lentido para as estimativas prximas ao limite do espao paramtrico (por
exemplo, quando uma varincia tende a zero). Se valores iniciais positivos forem
utilizados, a convergncia para valores no negativos garantida.
O algoritmo EM atua por meio da obteno da esperana (por integrao) e
maximizao (derivao) da funo de verossimilhana dos dados, sucessivamente.
Nos modelos ao nvel de indivduos, em que, freqentemente, a ordem das equaes
de modelo misto excedem o nmero de observaes, a obteno de estimativas por
meio de primeira derivada pelo mtodo EM requer a inverso da matriz dos
coeficientes das equaes de modelo misto, aumentando muito o esforo
computacional. Os mtodos de Newton-Raphson e de Fisher apresentam
convergncia quadrtica, ao passo que o algoritmo EM apresenta convergncia linear,
sendo, portanto, mais lento.
Os algoritmos para obteno de estimativas REML podem ser agrupados de
acordo com a ordem das derivadas usadas. Assim, tm-se: (i) no derivativo (DFREML); (ii) baseado em derivadas parciais de primeira ordem (EM-REML); (iii)
baseado em derivadas parciais de primeira e segunda ordens (AI-REML). O
algoritmo AI um procedimento derivativo melhorado, o qual fundamenta-se no uso
dos mtodos de Newton, que usam as derivadas primeira e segunda da funo de
verossimilhana. Tal algoritmo baseia-se na utilizao da informao advinda da
mdia das derivadas segundas observadas e esperadas da funo de verossimilhana,
de forma que o termo que contm os traos dos produtos da matriz inversa
cancelado, restando uma expresso mais simples para computao. Tcnicas de
matrizes esparsas so empregadas no clculo dos elementos da inversa da matriz dos
coeficientes, os quais so necessrios para as derivadas primeiras da funo de
verossimilhana. Este algoritmo tambm denominado Quasi-Newton (Gilmour et
al., 1995), o qual aproxima a matriz hessiano (matriz de derivadas segundas) pela
mdia das informaes observadas e esperadas. A informao observada uma
medida da curvatura da funo (ou do seu log) de verossimilhana e a informao
esperada a prpria informao de Fisher.

41

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Johnson e Thompson (1995) e Gilmour, Thompson e Cullis (1995)


apresentaram o algoritmo de Informao Mdia (AI), o qual baseia-se no uso de uma
matriz de informao alternativa. Visto que as matrizes de IO e IE so difcil
computao (pois envolvem a segunda derivada), tais autores propuseram o uso da
matriz de informao mdia, a qual contempla uma mdia das matrizes IO e IE. O
clculo da matriz AI muito mais simples do que o clculo de qualquer uma das duas
(IO e IE) isoladamente. Isto porque, quando feita a mdia das derivadas segunda
observadas e esperadas, o termo envolvendo traos de produtos da matriz inversa,
so cancelados, permanecendo uma expresso de simples computao.
O mtodo esperana - maximizao com parmetros estendidos (PX-EM)
mais recente (Foulley e Van Dyk, 2000) e tambm o mais eficiente juntamente com
o AI. Esse mtodo baseia-se na normalizao dos efeitos aleatrios e aumenta muito
a velocidade de convergncia quando comparado ao EM tradicional. Atualmente
utilizado na implementao dos softwares Wombat (antigo Dfreml), ASREML e
Selegen-REML/BLUP. No ASREML e Wombat usado em associao com o AI.
Os mtodos baseados em cadeias de Markov/mtodo Monte Carlo (MCMC),
muito usados em inferncia bayesiana, podem tambm ser usados no contexto da
inferncia verossimilhana. O mtodo estatstico REML e os mtodos numricos
(NR, FS, EM, DF, AI e PX-EM) at aqui apresentados so denominados mtodos
exatos. Esses mtodos so exatos no sentido de que no so baseados em amostragens
de distribuies de probabilidade. Os mtodos estatsticos bayesianos baseiam-se em
amostragem e, nesse sentido, no so denominados mtodos exatos. Os mtodos
numricos empregados na abordagem bayesiana como a amostragem de Gibbs
pertencem a uma classe de mtodos denominada cadeias de Markov e Monte Carlo
(MCMC). No entanto, para usar os mtodos MCMC, no h necessidade de se
empregar os fundamentos bayesianos. O fundamento dos mtodos MCMC de que,
devido s dificuldades para se calcular as PEV associadas aos efeitos dos fatores
aleatrios, essas so substitudas por amostragens. Assim, podem ser usados tambm
associados ao algoritmo EM. Segundo Thompson (2002), nem sempre claro qual
abordagem computacional mais eficiente: exata, amostragem de Gibbs bayesiana
ou algo intermedirio. A dependncia da PEV na estimao de componentes de
varincia ilustrada a seguir.
Henderson (1986) apresentou equaes para a estimao de componentes de
varincia por EM. Essas equaes envolvem a computao de formas quadrticas para
os fatores aleatrios e sub-equaes para as varincias dos erros de predio (PEV) dos
efeitos de todos os fatores aleatrios. Tomando os traos dos produtos das formas
quadrticas pelas PEV obtm-se p+1 equaes para p parmetros ou componentes de
varincia. Somando-se as duas equaes referentes ao fator aleatrio dos efeitos
genticos aditivos, o sistema de equaes pode ser resolvido para os p componentes de
varincia associados aos p fatores aleatrios. A seguir maiores detalhes so
apresentados.

42

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Para a estimao dos componentes de varincia so necessrias duas formas


quadrticas para o vetor de erros preditos ( e ) e uma forma quadrtica para o vetor de
valores genticos preditos ( g ). A forma quadrtica para g dada por g Q g , sendo a
matriz associada igual a Q A 1 g4 . As duas formas quadrticas para e so dadas
por e Pg e e e Pe e . As duas matrizes associadas so iguais a Pg R 1 DR 1 e
Pe R 1 R e R 1 . A matriz R pode ser rescrita como R D g2 R e e2 em que

Re I .

Essas formas quadrticas devem ser igualadas s suas esperanas


matemticas para que se obtenha equaes resultantes para g2 e e2 . Para encontrar
essas esperanas deve-se observar que:
E ( g Q g ) tr [Q var( g )] ,
E ( e Pg e ) tr [ Pg var( e )] e
E ( e Pe e ) tr [ Pe var( e )] .

Verifica-se assim que, para encontrar os valores esperados necessitam-se das


PEV dos efeitos aleatrios, aqui denominadas Var( g ) e Var( e ) e essas so funes
lineares de g2 e e2 .
Segundo Schaeffer (1999), a amostragem de Gibbs muito similar ao mtodo
iterativo de Gauss-Seidel, exceto que quando cada soluo para os efeitos so obtidas,
adiciona-se uma quantidade aleatria baseada na distribuio condicional a posteriori de
sua varincia. Para usar a amostragem de Gibbs, h necessidade apenas de um
programa de resoluo das equaes de modelo misto, um bom gerador de nmeros
aleatrios e tempo computacional para processar um imenso nmero de amostras.
Thompson (2002) relata um procedimento de aumento de dados para reduzir o esforo
computacional na estimao de componentes de varincia, porm sem adicionar tanto
noise em a. O procedimento envolve o ajuste de dois modelos y Z g~ Xb e e
~
~
y X b Zg e . No primeiro modelo ajusta-se b e se obtm b b amostragem .
~
No segundo modelo, ajusta-se y para b , estima-se g2 e e2 , ajusta-se g e obtm-se
g~ g amostragem . Ento ajusta-se y para Z g~ e o procedimento repetido. Aps
um perodo de aquecimento, as mdias g2 e e2 fornecem estimativas para g2 e e2 ,
assim como no procedimento de amostragem de Gibbs. Isto evita adicionar tanto noise
em g~ quando g2 e e2 so estimados. A amostragem de Gibbs uma forma de
tornar o REML computacionalmente possvel para grande conjuntos de dados e
modelos complexos.

43

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O mtodo numrico de Gauss-Seidel para a resoluo iterativa de sistemas de


equaes lineares descrito a seguir empregando um pequeno exemplo.
Seja o sistema de equaes lineares:
4X1 + X2 + X3 = 5
-2X1 + 5X2 + X3 = 0
3X1 + X2 + 6X3 = -6,5
As solues para as trs incgnitas X1, X2 e X3 so dadas por:
X1k

(5 X 2k 1 X 3k 1 )
;
4

X 2k

(0 2 X1k X 3k 1 )
;
5

X 3k

(6,5 3X1k X 2k )
,
6

em que k, refere-se k-sima iterao.


Partindo-se de um vetor inicial X0 = (0, 0, 0), tem-se a 1a iterao:
X 11

(5 0 0) 5
;
4
4

X 21

Na 2a iterao, tem-se:
X12

(0 2 5 / 4 0) 1
;
5
2

X 31

(6,5 3 5 / 4 1 / 2)
1,7967.
6

(5 1/ 2 1,7967)
(0 2 1,58 (1,7967))
(6,5 3 1,58 0,992)
0,992; X 32
2,03
1,58; X 22
4
5
6

O procedimento prossegue at que o menor valor de


o erro desejado (geralmente

X k X k 1

, em que

105 ).

O algoritmo esperana maximizao com aproximao estocstica


(SAEM) foi apresentado por Jaffrezic et al. (2007) como uma forma eficiente de
computao e inferncia em modelos no lineares mistos. Nessa situao complexa,
geralmente so usados procedimentos aproximados de mxima verossimilhana e
tambm mtodos bayesianos. O mtodo SAEM surge como uma opo de rpida
convergncia em relao aos algoritmos EM Monte Carlo e bayesiano. Outra
vantagem que o mesmo no requer a especificao de distribuies a priori e
bastante robusto escolha dos valores iniciais no processo iterativo. A idia reciclar
os valores simulados de uma iterao, na prxima iterao do algoritmo EM, fato que
acelera consideravelmente a convergncia.
A escolha dos algoritmos matriciais quanto a esparsidade das matrizes
depende da situao, e os principais mtodos para clculo da inversa de matrizes
esparsas foram descritos por Takahashi et al. (1973), Zollenkof (1971). Esses mtodos
calculam somente os elementos da inversa que pertencem ao padro de esparsidade
da matriz original. Mesmo assim, o custo computacional para o clculo da inversa
esparsa de duas a trs vezes maior do que para clculo de determinantes. O clculo
de uma inversa esparsa aumenta os requerimentos computacionais para avaliao de
verossimilhanas. Thompson et al. (1994) apresentaram mtodos para encontrar os
elementos da matriz esparsa, os quais reduzem esses requerimentos. Um resumo dos
Mtodos Numricos para REML apresentado na Tabela 9.

44

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Tabela 9. Mtodos numricos para REML.


Mtodo Numrico para REML
Newton-Raphson (NR)

Autores
Newton

Ordem da Derivao
Derivadas parciais de primeira e segunda ordens

Escores de Fisher (FS)

Fisher

Derivadas parciais de primeira ordem

Esperana - Maximizao (EM)

Dempster et al.
(1977)
Graser et al. (1987)

Derivadas parciais de primeira ordem

Livre de Derivadas (DF)


Informao Mdia (AI)
Esperana - Maximizao com
Parmetros Estendidos (PX-EM)
Cadeias de Markov e Monte Carlo
(MCMC)
Esperana - Maximizao Estocstico
(SAEM)

Gilmour, Cullis e
Thompson (1995)

No derivativo
Derivadas parciais de primeira e segunda ordens

Foulley e Van Dyk


(2000)

Derivadas parciais de primeira ordem

Gelfand e Smith
(1990)

Jaffrezic et al.
(2007)

Os softwares para REML/BLUP fenotpico e genmico mais utilizados no


Brasil so apresentados na Tabela 10. Cdigos para ajustes de alguns modelos lineares
generalizados mistos para variveis normais e binomiais pelo ASREML so
apresentados por Resende (2000).
Tabela 10. Softwares para REML/BLUP e MCMC.
Software

Autores

Mtodo Numrico
para REML
Informao Mdia (AI)

Inverso
Esparsa
AS

Procedimentos
REML e BLUP

ASREML e GENSTAT

Gilmour, Cullis e
Thompson (1995)

DFREML/WOMBAT

Meyer (1991)

Esperana
Maximizao (EM) e AI

REML e BLUP

REMLF90 e BLUPF90

Misztal (1995)

EM Acelerado

Takahashi

REML e BLUP
Blup Genmico

SELEGEN-REML/BLUP

Resende (1994)

EM Acelerado

Zollenkopf

REML e BLUP

SAS

Littell et al. (1996)

REML e BLUP

SELEGEN GENMICA

Resende (2007)

Zollenkopf

Blup Genmico

QxPack

Perez-Enciso e
Misztal (2004)

Anlise de QTL
REML e BLUP
Blup Genmico

ASREML

Blup Genmico

GS3

Legarra et al. (2011)

Blup Genmico
IBLASSO
Bayes Cpi
MCMC

GENOME WIDE PREDICTION

Meuwissen (2009)

Blup Genmico
BayesA
BayesB

BLR

Perez et al. (2010)

Blasso

rr-BLUP

Endelman (2011)

REML e BLUP
Blup Genmico

45

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.11 Testes de Hipteses e Parcimnia de Modelos

Os testes de hipteses referentes aos efeitos fixos e aleatrios no contexto dos


modelos mistos bem como os critrios para a comparao de modelos so apresentados
na Tabela 11.
Tabela 11. Testes de hipteses referentes aos efeitos fixos e aleatrios e critrios para a
comparao de modelos.
Testes de Hipteses

Efeitos

Fixos

Distribuio
Assinttica
t

Fixos e Aleatrios

F =[ Var(trat) + Var(Residual)]
/ Var(Residual)

LRT

Aleatrios

Quiquadrado

LRT = (-2Log L)p+1 - (-2Log L)p

t =F

Fixos

F = [Var(trat) + Var(Residual)]
/ Var(Residual)

WALD n pequeno = F

Fixos

W = / Var()

WALD n grande = LRT

Aleatrios

W = / Var()

AIC

Aleatrios

Quiquadrado
-

BIC

Aleatrios

AICc

Aleatrios

Calculo

t (Yi Y j ) /( / n 1 / 2 )

AIC = -2 log L + 2 p
BIC = -2 log L + p log v
v = N r(x)
AIC = -2 log L + 2 p + [2p(p+1)/(n-p-1)]

A significncia da diferena no ajuste de diferentes modelos aos dados pode


ser testada usando o Teste da Razo de Verossimilhana de Wilks (LRT), definido
por: 2[ Log e L p 1 Log e L p ] . Assim, basta comparar [2 vezes a diferena (modelo
com maior nmero de parmetros modelo com menor nmero p de parmetros) de
Loge L associados a dois modelos ajustados] com o valor da funo densidade de
probabilidade (Tabela de 2) para determinado nmero de graus de liberdade e
probabilidade de erro. O nmero de graus de liberdade definido pela diferena no
nmero de parmetros ou componentes de varincia entre modelos.
Tal teste envolve duas vezes a reduo no Log L resultante da retirada de t
termos aleatrios, quantidade esta distribuda como uma 2t . Assim, para a
verificao da significncia de um efeito aleatrio, tem-se que LRT ~ 12 . Entretanto,
Stram e Lee (1994) sugerem uma correo por meio da multiplicao do P valor
associado a 12 por 0,5, ou seja, sugerem o uso de uma distribuio 02, 5 . Esta correo
, sobretudo, indicada para teste no limite do espao paramtrico, quando o P valor
aproximado para a estatstica de teste d (duas vezes a reduo no Log L)
0 ,5 (1 P ( 12 d )) , em que P denota probabilidade. Nesse caso (mistura de
distribuies com 1 e 0 graus de liberdade), o valor tabelado de qui-quadrado para o
nvel de significncia de 5 % 2.79.

46

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Quando dois modelos aninhados so ajustados, aquele com mais parmetros


apresenta maior log L. Entretanto, esse no necessariamente o melhor modelo. Isto
significa que no se pode comparar diretamente os Log L quando o nmero de
parmetros varia entre modelos. Alm do LRT, outro critrio para a seleo de
modelos o Critrio de Informao de Akaike (AIC), o qual penaliza a
verossimilhana pelo nmero de parmetros independentes ajustados. Por esse critrio,
qualquer parmetro extra deve aumentar a verossimilhana por ao menos uma unidade
para que o mesmo entre no modelo. O AIC dado por AIC = -2 log L + 2 p, em que p
o nmero de parmetros estimados. Menores valores de AIC refletem um melhor
ajuste global (Akaike, 1974). Assim, os valores de AIC so calculados para cada modelo
e aquele com menor valor de AIC escolhido como melhor modelo. H uma
equivalncia assinttica entre a escolha de modelos pelo critrios AIC e validao
cruzada (Stone, 1977; Fang, 2011).
A comparao de modelos hierrquicos, mas com mesma estrutura de efeitos
fixos, realizada pelo LRT ou (anlise de deviance), AIC, BIC e AICc. A comparao
de modelos no hierrquicos, mas com mesma estrutura de efeitos fixos, deve ser
feita por meio dos procedimentos AIC e BIC. O AIC est relacionado aos conceitos
de informao de Kullback-Leibler e mxima verossimilhana. Informao de
Kullback-Leibler um conceito da fsica para medir a diferena entre o modelo
(aproximao da realidade) e a realidade. Akaike (1974) percebeu que o log da
verossimilhana de um modelo um estimador da informao de Kullback-Leibler,
porm viesado. E esse vis igual ao nmero de parmetros do modelo. Ento,
definiu o AIC como a deviance mais duas vezes o nmero de parmetros do modelo.
Como o objetivo minimizar a perda de informao, o modelo com o menor AIC
tem o maior suporte nos dados.
O primeiro termo do AIC pode ser interpretado como uma medida de ajuste
do modelo e o segundo termo como uma penalizao. Desse modo, no caso em que se
compara modelos com o mesmo nmero de parmetros, necessita-se comparar
apenas o Log L. A vantagem do AIC que as comparaes no se limitam a modelos
com estrutura hierrquica de fatores, fato que faz do AIC uma ferramenta genrica
para a seleo de modelos. Pode ser usado, por exemplo, para a comparao entre
modelos com erros apresentando diferentes distribuies. O AICc uma
modificao que penaliza mais a adio de parmetros quando o tamanho n da
amostra pequeno.
Outra abordagem o Critrio de Informao Bayesiano (BIC) de Schwarz
(1978), o qual dado por BIC = -2 log L + p log v, em que v = N r(x) o nmero de
graus de liberdade do resduo. O BIC calculado para cada modelo e aquele com
menor valor escolhido como melhor modelo. Pode ser usado quando os modelos
no possuem estrutura hierrquica. No entanto, os modelos devem ter a mesma
estrutura de efeitos fixos. Logicamente, tanto o LRT, o AIC e o BIC dependem da
mesma quantidade bsica -2 log L.
A diferena entre as deviances de dois modelos com efeitos fixos diferentes
no propicia um teste estatstico adequado. Isto deve-se ao fato de que a
verossimilhana residual (funo de y Xb) que maximizada e no a

47

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

verossimilhana dos dados originais (funo de y). A verossimilhana residual


refere-se verossimilhana dos dados aps projeo no espao residual e, portanto,
dois diferentes modelos quanto aos efeitos fixos referem-se a duas diferentes
projees e, conseqentemente, correspondem a diferentes conjuntos de dados nos
quais os mesmos fatores aleatrios so estimados.
No contexto da estimao por mxima verossimilhana existem trs testes
~
assintoticamente equivalentes, dado a estimao do modelo, restrito ou reduzido ( )
e sem restrio ou sem reduo ( ):
~

Teste de Wald: procura medir a distncia entre e .


Teste LRT: ocupa-se da distncia entre log L(~ ) e log L() .
Teste do Multiplicador de Lagrange (LM) ou Escore Eficiente: compara as tangentes
~
nos pontos e . O Multiplicador de Lagrange visa solucionar um problema de
maximizao (otimizao) condicionada.
~
L( ) e L( ) so valores da funo de verossimilhana no ponto de mximo

com e sem restrio. Se a restrio for verdadeira os valores da funo de


~
verossimilhana avaliada em e so prximos, revelando que os dados do
suporte restrio ou reduo.
1.12 Modelos Computacionais BLUP

Considerando um vetor y de observaes individuais, os seguintes modelos


estatsticos equivalentes podem ser especificados:
(1) y = Xb + e1 : modelo com interesse apenas nos efeitos fixos (MEF).

e y Xb : resduos cheios = genticos + ambientais aleatrios; equivalem aos


valores genticos desregressados.
(2) y = Xb + Z(gp/2 + gm/2 + gd) + e2 : modelo reduzido de valores genticos aditivos
ou modelo individual reduzido (MIR).
e ( y X b 0 ,5 g p 0 ,5 g m ) : muita utilidade na seleo genmica ampla (GWS) =

resduo do MIR: corrigido para os genitores e desregressado.


(3) y = Xb + Zg + e2 : modelo de valores genticos aditivos individuais ou modelo
individual (MI).
g : pouca utilidade direta na GWS.
g d ( g 0 ,5 g p 0 ,5 g m ) : muita utilidade na GWS = valor gentico corrigido

para os genitores.
g d / h d2 : valor gentico desregressado e corrigido para os genitores, em que
2
hd2 (1 / 2 h 2 ) /(1 / 2 h 2 (1 h 2 )) a herdabilidade da segregao mendeliana e h a
herdabilidade individual.

48

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(4) y = Xb + Zm(gm/2) + e4 = Xb + Zmf + e4 : modelo de genitores femininos ou modelo


gamtico (MG).
e ( y X b 0 ,5 g p ) : resduo do MG: corrigido para um genitor e desregressado.

(5) y = Xb + Xm(gm/2) + Xp(gp/2) + Zg + e5: modelo ajustando genitores como de


efeitos fixos. (Igual ao (3) se rg2g 1 ).
g g d
g / h d2 : valor gentico desregressado e corrigido para os genitores.

No modelo (1), o interesse reside apenas sobre os efeitos fixos (b) e todos os
efeitos aleatrios (gentico aditivo, gentico de dominncia, episttico e ambientais)
so agrupados no resduo aleatrio e1. O modelo (3) o prprio modelo de valores
genticos aditivos individuais (g) e, o resduo e2 contempla os efeitos aleatrios de
dominncia allica, epistasia e ambientais. No modelo (2), o valor gentico aditivo
individual (a) dividido em 3 partes: (i) metade do valor gentico aditivo da me =
gm/2; (ii) metade do valor gentico aditivo do pai = gp/2; (iii) segregao mendeliana
ou desvio gentico em relao mdia dos valores genticos aditivos dos genitores =
gd. O modelo (4) expresso em termos da metade do valor gentico aditivo dos
genitores femininos ou do efeito de famlias f, sendo que e4 compreende o somatrio
de gp/2, gd e e2 . Nestes modelos, X, Z e Zm so matrizes de incidncia para b, a e gm/2,
respectivamente.
O modelo de interesse prtico ao melhoramento refere-se ao (3) ou modelo
individual (MI). Entretanto, tal modelo o mais complexo computacionalmente,
com nmero de equaes para g igual ao nmero de descendentes mais o nmero de
genitores em avaliao. O modelo individual reduzido - MIR- produz resultados
idnticos ao MI, porm com um menor esforo computacional, podendo-se trabalhar
com um nmero de equaes igual ao nmero de genitores, obtendo-se as predies
para gp e gm e, posteriormente, as predies para gd e, conseqentemente, para g. Um
resumo dos modelos computacionais BLUP apresentado na Tabela 12.
Tabela 12. Modelos Computacionais BLUP.
Nome
Modelo Individual (Animal)
Modelo de Genitor (Reprodutor)
Modelo Individual (Animal) Reduzido
Modelo Individual (Animal) com Grupos Genticos (r)

Modelo
y = Xb + Zg + e2
y = Xb + Zm(gm/2) + e4
y = Xb + Z(gp/2 + gm/2 + gd) + e2
y = Xb + Pr + Zg + e2

49

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.13 Modelos BLUP Univariados Multi-Efeitos

O BLUP univariado pode ser ajustado incluindo diferentes fatores de efeitos.


Um resumo dos modelos computacionais univariados multi-efeitos para o BLUP
apresentado na Tabela 13.
Tabela 13. Modelos BLUP univariados multi-efeitos.
Nome
Modelo
Modelo de Repetibilidade com Ambiente Permanente (p)
y Xb Zg Tp e
Modelo com Efeito de Ambiente Comum (c)
y Xb Zg Tc e
Modelo com Interao Gentipos x Ambientes(ge)
y Xb Zg Tge e
Modelo com Efeito Materno (m)
y Xb Zg Zm Tp e
Modelo com Efeito de Dominncia (d)
y Xb Zg Td e
Modelo com Efeito de Heterose (h)
y Xb Zg Th e
Modelo com Efeitos Epistticos (gg)
y Xb Zg Zgg e
* X, Z e T so matrizes de incidncia.

1.14 Modelos BLUP Multivariados

O BLUP multivariado pode ser ajustado usando diferentes parametrizaes e


tcnicas. Um resumo dos modelos multivariados para o BLUP apresentado na
Tabela 14.
Tabela 14. Modelos BLUP multivariados.
Modelo
Modelo Multivariado

Objetivo
Anlise Simultnea de Variveis, posto completo.

Componentes Principais sob Modelos Mistos (PCAM)

Anlise Simultnea de Variveis, posto reduzido.

Modelos Fator Analticos Mistos (FAMM)

Anlise Simultnea de Variveis, posto reduzido.


Interao Gentipos x Ambientes

Modelos de Normas de Reao via Regresso Aleatria

Interao Gentipos x Ambientes

A anlise multivariada apresenta grande utilidade na formulao de ndices


de seleo (Resende et al., 1990; Lopes, 2005). A associao das tcnicas de anlise
multivariada e de modelos mistos importante para a anlise de mltiplos caracteres,
mltiplos experimentos e, em alguns casos, medidas repetidas. Para o caso de
mltiplos caracteres, o uso da PCAM mais adequado. Para mltiplos experimentos,
a tcnica FAMM mais indicada. Isto porque a anlise de componentes principais
enfatiza a identificao de variveis que explicam o mximo da variao total
multivariada, fato que relevante para o caso de mltiplos caracteres. Por outro lado,
a anlise de fatores enfatiza a atribuio da covarincia entre variveis a fatores
comuns. Isto relevante quando as variveis referem-se a ambientes ou
experimentos e todos os ambientes so alvo da anlise e no apenas aqueles que mais
contribuem para a variao total. Tambm, a covarincia ou correlao entre
ambientes atribudas a fatores comuns automaticamente considera a similaridade e
dissimilaridade entre ambientes, o que uma propriedade interessante nesse
contexto. Uma descrio detalhada e exemplo de aplicao da tcnica FAMM na
anlise de mltiplos experimentos com interao g x e apresentada por Resende e
Thompson (2004).

50

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Componentes principais sob modelos mistos (PCAM)


O mtodo PCAM reuni as tcnicas de anlise multivariada e de modelos
mistos e produz uma anlise direta e em um s passo, no nvel gentico. Esta anlise
simultnea tem grande aplicao na anlise de mltiplos caracteres e de medidas
repetidas. A metodologia de modelos mistos padro pode ser usada para estimar
autovalores e autovetores diretamente sem a necessidade de se estimar a matriz de
covarincia () completa. A principal diferena para o modelo multivariado misto
tradicional refere-se ao fato de que os parmetros a serem estimados fazem parte da
matriz de incidncia dos efeitos genticos aleatrios, conduzindo estimao sob
posto reduzido.
Outra vantagem dessa abordagem refere-se ao fato de que a estimao direta
da estrutura de covarincia garante que a matriz de covarincia ser positiva
definida, fato que no garantido por outros mtodos de estimao de . Assim, a
incluso de caracteres adicionais na anlise contribui para aumentar a preciso na
estimao ao invs de desestabilizar as estimativas. Tambm PCAs podem ser
estimados tanto no nvel gentico quanto ambiental, desdobrando a tradicional PCA
fenotpica. A seguir, apresentada uma extenso dos modelos mistos para incorporar
a anlise de componentes principais.
Modelo Misto Tradicional
y = Xb + Zg + e
PCA sob Modelo Misto (PCAM)
y Xb Z (Q I g )(Q 1 I g ) g Xb Z * g * , em que: Q V p e g *j Q ' g j .

Os valores genticos do indivduo j para os caracteres originais dado por g j Qg *j .


I g a matriz identidade com ordem igual ao nmero g de gentipos. Sob esse
modelo, a matriz de covarincia gentica dada por

, em que = VD

V , D a matriz diagonal dos p autovalores e V a matriz dos autovetores.


Escolhendo-se V e D referentes apenas dimenso p, esse modelo misto reduzido
e ajusta somente os primeiros componentes principais. Assim, na tcnica PCAM, a
estrutura de covarincia simplificada para * p p V p DpV p ' em que p indica
uma das dimenses dessas matrizes (nmero de colunas).
Anlise de fatores sob modelos multiplicativos mistos (FAMM)
A estrutura da matriz de covarincia ou correlao envolvendo v caracteres est
associada a v(v+1)/2 elementos. Visando simplificar a estrutura dessa matriz,
sumarizar a informao multivariada e reduzir a dimensionalidade do problema,
decomposies dessas matrizes, baseadas em seus autovalores e autovetores, so
usadas com base em diferentes parametrizaes produzindo as tcnicas de
componentes principais e da anlise de fatores.

51

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Entretanto, tais procedimentos so baseados na estimao completa da matriz de


covarincia ou de correlao com todos os seus v(v+1)/2 elementos. Um
procedimento estatstico mais atrativo refere-se a estimar os componentes principais
e os fatores diretamente, restringindo a estimao apenas queles mais importantes.
Esse procedimento no requer a estimao prvia da matriz de covarincia e de
correlao e sobretudo relevante no contexto dos modelos mistos e de dados
desbalanceados. Nesse caso, torna-se necessria uma reparametrizao dos modelos
mistos tradicionais (Resende e Thompson, 2004). A seguir apresentada uma
extenso dos modelos mistos para incorporar a anlise de fatores.
Modelo misto tradicional
y = Xb + Zg + e
Modelo misto fator analtico (FAMM)
y Xb Z [( I g ) f ] e , em que: a [( I g ) f ]
Sob esse modelo, a matriz de covarincia gentica dada por

em que = VD V , D a matriz diagonal dos m autovalores e V a matriz dos


autovetores. Escolhendo-se V e D referentes apenas dimenso p, esse modelo
misto reduzido e ajusta somente os p fatores. Na tcnica FAMM, a estrutura de
covarincia simplificada para p p . Definem-se as seguintes quantidades:
f o vetor de escores fatoriais para os indivduos nos fatores; o vetor de erros
representando a falta de ajuste do modelo fatorial; a matriz dos carregamentos
dos fatores nas variveis; a matriz diagonal de varincias especficas Var ( i )
(Resende e Thompson, 2004).
A metodologia de modelos mistos padro pode ser usada para estimar
autovalores e autovetores diretamente sem a necessidade de se estimar completa. A
principal diferena para o modelo multivariado misto tradicional refere-se ao fato de
que os parmetros a serem estimados fazem parte da matriz de incidncia dos efeitos
genticos aleatrios. Como a distribuio de [( I g ) f singular, isto conduz
estimao sob posto reduzido, restries devem ser impostas aos parmetros do
modelo fator analtico (Thompson et al., 2003).

52

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.15 Modelos BLUP Espaciais e de Competio (Efeitos Associativos) (SCM)

O BLUP sob modelos espaciais e de competio (SCM) pode ser ajustado usando
diferentes parametrizaes. Um resumo desses modelos apresentado na Tabela 15.
Tabela 15. Modelos espaciais e de competio para o BLUP.
Nome
Modelo Geoestatstico (Exponencial)

Modelo

y Xb Zg e

e ~ N ( 0, )

Estrutura de Varincias
e2 [ ( c ) ( r )]
c

g ~ N (0, A g2 )

Modelos Autoregressivos
Modelos Ante-Dependncia
Modelos ARIMA
Modelos Associativos de Competio

Idem acima
Ver texto
Ver texto

Modelos Associativos e Espaciais de


Competio

y Xb Z NZ

y Xb Z NZ e

1 1 2 3
1

1 1 2
c (c ) 2 1 1 1

3
2
1
1

Idem acima
Ver texto
Ver texto
g
G*
g
g
G*
g

g
2 [ (c ) (r )] I2
g
c
r
g
g

Modelos Espaciais
As variveis com comportamento espacial so denominadas variveis
regionalizadas e mostram caractersticas intermedirias entre as variveis
verdadeiramente casuais ou aleatrias e aquelas completamente determinsticas,
exatas ou matemticas. A estatstica clssica trata de variveis aleatrias ao passo que
a estatstica espacial aborda estas variveis mistas.
Tais variveis regionalizadas apresentam uma aparente continuidade no espao. A
continuidade geogrfica se manifesta pela tendncia de a varivel apresentar valores
muito prximos (dependentes) em dois pontos vizinhos e muito diferentes em
pontos distantes. Assim, no so realizaes de uma varivel aleatria, pois so
correlacionadas. Grficos contemplando a variabilidade espacial dos experimentos,
denominados variogramas, ilustram o padro de dependncia espacial.
Algumas estatsticas permitem sumarizar as informaes contidas nos diagramas
e descrever a continuidade espacial. Estas estatsticas so: (i) o coeficiente de
correlao entre valores separados por uma dada distncia, ou seja, o coeficiente de
autocorrelao, tambm denominado autocorrelao serial ou autocorrelao espacial;
(ii) a covarincia entre valores separados por uma distncia (autocovarincia); (iii)
momento de inrcia ou semivarincia. Variogramas, correlogramas e covariograma
para a descrio da continuidade espacial podem ser obtidos a partir da
semivarincia, autocorrelao e autocovarincia, respectivamente, associados a
diferentes distncias em uma determinada direo.
A variabilidade espacial pode ser estudada basicamente por meio de duas classes
de mtodos: os mtodos de anlise de sries temporais e os mtodos geoestatsticos.
Por meio dos mtodos de anlise de sries temporais, tem sido usado de um modelo
auto-regressivo de primeira ordem (AR1) para modelar os resduos em uma
dimenso do espao e o uso do mtodo REML para estimar os parmetros do modelo.
Em um modelo AR1, a autocorrelao [(Yi , Yj)] entre as observaes Yi e Yj uma
funo potncia da distncia entre as observaes, de forma que (Yi , Yj) = i-j,
em que i e j referem-se s coordenadas espaciais e o coeficiente de autocorrelao.

53

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Um modelo auto-regressivo de primeira ordem indica que somente a correlao entre


observaes imediatamente vizinhas so diretamente especificadas. Correlaes
entre vizinhos mais distantes surgem somente como consequncias dessas
correlaes de primeira ordem. Modelos de ordem mais elevada (por exemplo um
AR2) podem ser especificados, nos quais observaes no adjascentes podem
apresentar dependncia direta, alm daquela indireta contemplada pelo modelo AR1
(Resende e Sturion, 2001).
O modelo AR1 pode ser estendido para considerar a variabilidade em duas
dimenses do espao considerando processos (AR1AR1) separveis em duas
direes: linhas e colunas. Neste modelo, a autocorrelao dada por:

[ik ]
[ j ]
para observaes com coordenadas i, j e k, referentes a
Yi , j , Y k , lin
col
linhas e colunas, respectivamente (Cullis e Gleeson, 1991; Cullis et al., 1998).

Estes ltimos modelos consideram os erros por meio de um processo autoregressivo integrado de mdias mveis (ARIMA (p, q, d)) que pode ser aplicado a
duas dimenses: linhas e colunas. Tal modelo estendido da forma ARIMA (p1, d1,
q1) x ARIMA (p2, d2, q2). Estes modelos so denominados modelos com erros nas
variveis e consideram um efeito de tendncia () mais um erro independente ou
efeito pepita. Assim, o vetor de erros particionado em e = + . Os modelos de
anlise tradicionais no incluem o componente .
O modelo da forma y Xb Zg , em que o vetor aleatrio de
erros correlacionados e o vetor aleatrio de erros no correlacionados. A
varincia dos resduos dada por Var(e) = Var ( + )= , em que
2 [(c ) (r )] I2 , sendo 2 a varincia devida a tendncia e 2 a
c

varincia dos resduos no correlacionados (Resende e Sturion, 2003). As matrizes

(
c

) e

) referem-se a matrizes de correlao auto-regressivas de primeira

ordem com parmetros de autocorrelao c e r e ordem igual ao nmero de


colunas e nmero de linhas, respectivamente. Assim, modelado como um
processo auto-regressivo separvel de primeira ordem (AR1 x AR1) com matriz de
covarincia Var( ) 2 [( c ) ( r )] . As matrizes de correlao auto-regressivas
c

so da forma:
1 1 2 3
1
1
2
1

(
)
c c 2 1 1 1

3 2 1 1 .

54

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Em um modelo com efeito de ambiente comum, as equaes de modelo


misto para o BLUP so dadas por:
X ' X
Z' X

W ' X

I' X

X'Z
Z ' Z A11

2
1 2 ;
g

W' Z*
I' Z*

X 'W
Z 'W
W 'W I2
I 'W

2
2 2
c

X'I

Z' I

W' I

1
I ' I H 3

b X ' y
~

g Z ' y , em que:
c~ W ' y
~

I ' y

2
3 2 .

A e H so as matrizes de correlao para os efeitos g e , respectivamente.


A inverso de H dada por H 1 [ 1 (c ) 1 (r )] . A estimao da varincia do
c

erro correlacionado via REML pode ser dada por 2 [~ ' H 1~ 2 tr ( H 1C 44 )] / N ,


em que C44 advm da inversa da matriz dos coeficientes e N o nmero total de
dados.
Comparando-se as magnitudes de e pode-se inferir se a varivel
~
~
predominantemente determinstica ( > ~ ) ou aleatria ( ~ > ). Para o LRT, a
comparao entre um modelo espacial e um no espacial deve considerar 3 graus
de liberdade, referentes s estimativas dos parmetros de varincia e
parmetros de autocorrelao c e r ( c e r ).
A geoestatstica consiste basicamente de variografia e krigagem. A variografia
usa variogramas para caracterizar e modelar a variao espacial. A krigagem usa a
variao modelada para predizer valores, tais quais os BLUPs de erros ou pontos
correlacionados. O variograma usa semivarincias e pode ser usado em ambos os
mtodos de anlise espacial: geoestatstica e modelos de sries temporais. Pela
geoestatstica, o modelo padro para ajuste de uma funo ao variograma
experimental em ensaios de campo o exponencial.
Os procedimentos geoestatsticos consideram a heterogeneidade espacial de forma
direta por meio da incluso dos efeitos de tendncia e correlao residual na
modelagem da matriz de covarincia residual. Como o modelo associado ao
variograma exponencial, os resduos podem ser interpretados como uma realizao
de um processo auto-regressivo de primeira ordem (AR1). Isto faz sentido uma vez
que o modelo AR1 projeta a auto-correlao para lags distantes, como uma funo
potncia da distncia entre plantas. O modelo exponencial faz o mesmo. Entretanto,
os modelos geoestatsticos muitas vezes assumem isotropia (mesmo padro de
variao nas duas dimenses), o que pode ser inadequado para modelar a estrutura de
varincias nos experimentos de campo. H equivalncia entre a modelagem
geoestatstica exponencial e o modelo separvel AR1 x AR1 para experimentos de
campo. Em funo desta equivalncia e da facilidade em ajustar modelos
anisotrpicos (variao diferenciada em duas dimenses) pela modelagem ARIMA,
esta tem sido preferida. Adicionalmente, a separabilidade resulta em maior eficincia
computacional em termos de tempo.

55

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Modelos Espaciais na Anlise de SNPs


Com a disponibilidade de marcadores SNPs a predio de valores genticos por
meio da seleo genmica ampla (GWS) consiste na substituio da matriz de
correlao gentica A entre indivduos, obtida via pedigree pela matriz de correlao
gentica G entre indivduos, obtida via marcadores. No caso, a matriz W de
incidncia dos marcadores nos indivduos tem elementos dados por 2pi, (1 - 2pi) e (2 2pi) ou -1, 0 e 1, para os gentipos marcadores mm, Mm e MM, respectivamente, em que
pi a frequncia de um dos alelos do loco marcador i. A seguir demonstrada a
equivalncia entre os modelos A-BLUP e G-BLUP.
Modelo A-BLUP
y Xb Zg ; Var ( g ) A g2
Modelo Equivalente G-BLUP
g Wm
y Xb ZWm ; Var (Wm ) WI m2 W ' WW ' m2

, em que m o vetor de efeitos genticos (substituio allica) dos marcadores.


Assim, Var ( g ) Var (Wm) e, portanto, A g2 WW ' m2 . Desenvolvendo temse:
n

A WW ' m2 / g2 WW ' m2 /[ 2 pi (1 pi ) m2 ] WW ' /[2 pi (1 pi )] e


i

2
A WW ' /[ 2 pi (1 pi )] , pois g [2
i

p (1 p )]

Uma prova da validade da expresso

2
m

(Falconer, 1989).

G A WW ' /[ 2 pi (1 pi )]

apresentada a seguir:

Cdigos na matriz W

Cdigos

Cdigos Centrados

Cdigos Centrados
com pi = 0.5

Numerador do coeficiente de
parentesco de Wright entre Irmos
Completos

0
1
2

0 2pi
1 2pi
2 2pi

-1
0
1

0.0
0.5
1.0

Clculo da matriz G = A

Matriz W
Individuo

Matriz WW

Marca 1

Marca 2

Marca 3

Marca 4

-1
-1

0
0

0
0

1
1

Matriz G
n

2 pi (1 pi ) 2
i

Individuo 1
Individuo 2

2
2

2
2

1
1

1
1

Numerador do coeficiente de parentesco de Wright entre clones = 1

Verifica-se que os dois indivduos so idnticos (clones) considerando os 4 locos


marcadores, apresentando correlao gentica igual a 1 na matriz G. Com infinitos locos
marcadores, G tende a A. G tambm contempla o parentesco mdio nos vrios locos
mas, sob GWS com seleo de marcadores, so considerados especificamente os locos
que controlam o carter em questo. E se o numero de locos que controlam o carter
finito, G muito diferente de A.

56

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Com heterogeneidade de varincia entre SNPs e sendo D uma matriz diagonal


( diag ( D ) i , sendo i o componente de varincia associado ao loco marcador i)
contemplando essa heterogeneidade, a modelagem da estrutura de varincia torna-se (se
m ~ (0, D m2 ) ):
Var ( g ) Var (Wm ) WD m2 W ' WDW ' m2 ,

em que WDW ' uma matriz de incidncia ponderada quadrtica.


E a igualdade entre as matrizes de correlao gentica entre indivduos torna-se
A g2 WDW ' m2
A WDW ' m2 / g2
n

A G WDW ' /[2 pi (1 pi )] .


i

Se

for

parametrizado
como
tem-se
m ~ (0, D ) ,
G WDW ' / g2 WDW ' /{[2 pi (1 pi )] m2 } . Em ambos os casos, a matriz G substitui a
n
i

matriz A nas equaes de modelo misto.


Com m ~ (0, D ) e quando W p contm elementos centrados e padronizados
dados por wij
p

(wij 2p i )
[2p i ( 1 pi )]1 / 2

, tem-se G WDW ' / g2 WDW ' /( n m2 ) .

Essa modelagem gera um mtodo G-BLUP com heterogeneidade de varincia e


produz resultados similares aos obtidos pelo mtodo BayesA (ver tpico 1.18 e
captulo 6).
Com heterogeneidade de frequncias allicas entre SNPs (contemplada em uma
matriz diagonal Dp), a parametrizao torna-se G WD *W ' , em que D* DDP , sendo
diag ( DP ) 1 /[n 2 pi (1 pi )] .
Considerando a correlao entre efeitos de SNPs dentro de cromossomos
devido ao desequilbrio de ligao entre eles, modelos espaciais podem ser adotados.
Nesse caso, a matriz D deve ser substituda por uma matriz de correlao
autoregressiva (AR1) contemplando essa covarincia espacial.
Assim, Var ( g ) Var (Wm ) WD m2W ' WDW ' m2
2
2
em que
Var ( g ) Var (Wm ) W mc mc
W ' W mcW ' mc

deve ser rescrita como

2
mc

a varincia correlacionada
de marcadores e mc uma matriz de correlao autoregressiva de primeira ordem
com parmetro de autocorrelao . Para o caso de 4 marcas, mc dada por
1 1 2 3
1

1 1 2
mc 2 1
1 1

3 2 1 1
.

57

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Um modelo autorregressivo com varincias heterogneas (ARH) tambm


pode ser ajustado. Nesse caso, tem-se Var ( g ) Var (Wm ) W mch W ' e para 3 marcas a
estrutura de covarincia :
m21 m1 m 2 1 m1 m 3 2

mch Sim.
m2 2
m 2 m 3 1 .

m2 3

Se parte da varincia entre SNPs correlacionada e parte independente ou


no correlacionada, tem-se a estrutura Var(m) = Var (mc + mnc)= , em que
2
2
2
mc mc
I mnc
, em que mnc
a varincia de marcadores no correlacionada. No
caso, tem-se Var ( g ) Var (Wm ) W W ' . Para o caso de 4 marcas, dada por
2
2
2
2
2
( mc

2 mc
3 mc
mnc
) 1 mc
1 2
2
2
1 2
2 2
mc ( mc mnc ) mc mc
2 2 1 2
2
2
2
mc mc ( mc
mnc
) 1 mc

2
2
2
2
2
3 mc
2 mc
1 mc
mnc
( mc
)
.

Outra estrutura de correlao que pode ser usada associada a modelos antedependncia estruturados (SAD), em que a estrutura da matriz de covarincia :
m2 m1 m 2 1 m1 m 3 1 2

m2
m 2 m 3 2
mSAD Sim.

m2

Modelos SAD nos mtodos BayesA e BayesB foram aplicados por Yang e
Tempelman (2012). Maiores detalhes sobre modelos espaciais na anlise genmica
so apresentados no tpico 6.26.
Modelos de Competio (Associativos ou de Interao Social)
Em um modelo de interferncia ou de interao social, a parcela ou individuo
i tem um efeito direto i nele e um efeito indireto i no individuo vizinho. A
competio genotpica pode ser considerada sob a tica desse modelo. Esse modelo
da forma: y Xb Zg e Xb Z NZ e , em que:
Zg Z NZ .

: vetor dos efeitos genticos diretos dos indivduos (gentipos).


: vetor dos efeitos centrados de tratamentos (gentipos) sobre os vizinhos

(efeitos indiretos ou associativos), os quais so genticos e no


fenotpicos. So tambm denominados efeitos genticos sociais.
N: matriz de incidncia de vizinhana, de dimenso n x n, composta por 0 e 1.
Pode ser visto explicitamente no modelo gentico social que os efeitos de
competio referem-se a efeitos genticos (dependem da matriz Z) e no a efeitos
residuais. Devido a essa razo, o uso somente da abordagem auto-regressiva para os
resduos pode ser inapropriada para contemplar a competio entre indivduos ou
entre parcelas.

58

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O componente i pode ser positivo ou negativo, dependendo da


agressividade do gentipo. Se negativo (para gentipos agressivos), o valor absoluto
de i deve ser subtrado de i por meio de i* i vi , propiciando os efeitos de
gentipos para uso em plantios ou planteis puros, em que v o nmero de vizinhos
considerados. Se positivo (gentipos sensveis), i ser somado na expresso
i* i vi .
A competio e a tendncia espacial podem ser includas em um modelo
espacial. O modelo da forma: y Xb Z NZ . A competio modelada
como parte da estrutura de tratamentos e a tendncia em uma ou duas dimenses
modelada como parte da estrutura dos erros.
Resende e Thompson (2003) e Resende et al. (2005) usaram esse mesmo
modelo e assumiram i e i como efeitos aleatrios. Nesse caso, existe uma
covarincia entre i e i . A matriz de covarincia entre eles equivale a:
g
G
g

g
, em que
g

g o componente de varincia para os efeitos genotpicos

diretos, g o componente de varincia associado aos efeitos genotpicos indiretos


sobre os vizinhos (numerador da herdabilidade dos efeitos de competio) e g a
covarincia entre os efeitos diretos no prprio indivduo e indiretos sobre os vizinhos
e tambm o numerador da correlao gentica entre a produtividade e a
agressividade das indivduos, dada por r g /( g g ) 1 / 2 .
Esta correlao , em geral, negativa, evidenciando que os melhores
indivduos so beneficiados nos experimentos e criaes comunitrias. A seleo
deve ento ser baseada em , em que negativo nas indivduos mais
agressivos. A seleo pode basear-se tambm em visando a identificao de
gentipos adequados a plantios adensados como, por exemplo, no melhoramento do
cafeeiro e do dendezeiro.
Modelo idntico ao apresentado passou a ser usado tambm no
melhoramento animal (Van Vleck e Cassady, 2005; Arango et al., 2005; Muir, 2005).
Atualmente, esses mesmos modelos vem sendo enfatizados novamente no
melhoramento florestal (Brotherstone et al., 2011; Bijima, 2011; Costa e Silva et al.,
2012).

59

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.16 Modelos BLUP Longitudinais (Regresso Aleatria Multivariada e Normas


de Reao)

Dados longitudinais ou medidas repetidas ao longo do tempo so a regra no


melhoramento de animais e plantas perenes. O BLUP sob modelos com medidas
repetidas pode ser ajustado usando diferentes parametrizaes da estrutura de
correlao dos fentipos ao longo do tempo. Esse assunto tratado por Meyer (2005)
e Mrode (2005), dentre outros. Um resumo desses modelos apresentado na Tabela
16.
Tabela 16. Modelos BLUP Longitudinais.
Modelo
Modelos de Regresso Aleatria via Polinmios
Ortogonais de Legendre
Modelos de Regresso Aleatria via Splines
Modelos Processo Carter e Autoregressivos
Modelos Ante-Dependncia Estruturados (SAD)
Modelos de Simetria Composta

Objetivo
Modelagem de medidas repetidas no tempo

Modelos
Ver texto

Modelagem de medidas repetidas no tempo


Modelagem de medidas repetidas no tempo
Modelagem de medidas repetidas no tempo
Modelagem de medidas repetidas no tempo

Ver texto
Ver texto
Ver texto
Ver texto

Regresso Aleatria Multivariada

Para caracteres associados a curvas de crescimento em funo do tempo ou da


idade de avaliao, os modelos de regresso aleatria multivariados (RRM) devem
ser adotados considerando dois conjuntos de regresso dos fentipos do carter em
funo das idades mensuradas. O primeiro conjunto diz respeito regresso fixa para
os indivduos pertencentes mesma classe de efeitos fixos e o segundo contempla
efeitos aleatrios que descrevem os desvios de cada indivduo em relao regresso
fixa. As regresses fixas e aleatrias so representadas por funes contnuas.
Um modelo de regresso aleatria multivariado pode ser ajustado para os
efeitos aleatrios gentico aditivo e ambiente permanente cujas covariveis
relacionadas aos tempos ou idades podem ser descritas por polinmios de Legendre.
Esse modelo dado por y = Xb + Zg + Tp + e, em que p o vetor dos efeitos de
ambiente permanente com matriz de incidncia T. Expresso de outra forma, o
modelo dado por y Xb g g p p e , em que g e p so matrizes de
incidncia (de covariveis) para os coeficientes polinomiais dos efeitos gentico
aditivo e de ambiente permanente, respectivamente.
As distribuies dos coeficientes de regresso aleatria so dadas por:
g ~ N (0, A K g ) , sendo A a matriz de parentesco entre os indivduos e K g uma matriz
de dimenso (kg +1) x (kg+1) de covarincias entre coeficientes de regresso aleatria
para os efeitos genticos aditivos; p ~ N(0,I n K P ) , sendo I n uma matriz identidade
de ordem n e K P uma matriz de dimenso (kp+1) x (kp+1) de covarincias entre
coeficientes de regresso aleatria para os efeitos de ambiente permanente. Com
seleo genmica, os modelos de regresso aleatria multivariados devem usar, em
lugar
de
A,
a
matriz
de
parentesco
genmico,
dada
por
n

G = (WW' ) / k = (WW' ) / [ 2 pi ( 1 pi ) ] .
i

60

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O modelo de regresso aleatria pode ser dado por:

em que:
varivel observada no jsima idade do isimo indivduo;
Fij conjunto de efeitos fixos;
: msimo coeficiente de regresso de efeito fixo da curva mdia da varivel na
populao;
e
: msimos coeficientes de regresso aleatria referentes aos efeitos gentico
aditivo e de ambiente permanente, respectivamente, para o isimo indivduo;
e
: ordens das funes de covarincias utilizadas para descrever,
respectivamente, os efeitos gentico aditivo e de ambiente permanente;
: idade j do indivduo i;
: polinmios de Legendre avaliados para , referentes a regresso de efeito
fixo e aos efeitos aleatrios gentico e de ambiente permanente, considerando as
ordens das funes de covarincias e , respectivamente;
: efeito aleatrio residual.
O modelo matricial equivalente y Xb g g p p e caracterizado a
seguir:
, em que g e p so os vetores dos coeficientes de regresso
aleatria referentes aos efeitos gentico aditivo e de ambiente permanente,
respectivamente.
para o indivduo j contm os elementos
ou polinmios de
A matriz
Legendre avaliados para
(idade padronizada i para o individuo j) e dada por
= M. A matriz apresenta dimenso kg x kg , em que kg refere-se ordem da
funo de covarincia utilizada. A matriz M (de dimenso t x kg, em que t o
nmero de idades avaliadas no indivduo j) contm os valores de idade padronizados.
Os polinmios de Legendre so denotados por Pn x . Definindo P0 x 1 , o
polinmio n+1 descrito pela frmula de recorrncia:
.
Assim,
,
P3 x

P4 x

5 3
x
3 5 x3 3 x
2
2
2

1
35 x 4 30 x 2 3 e assim sucessivamente.
8

61

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Na forma normalizada tem-se:

e ento tem-se a srie

de polinmios ortogonais:

e assim por diante.


Em resumo podem ser apresentados da seguinte maneira:
n
0
1
2
3
4
5
6
7
8
9
10

Empregando polinmios na forma normalizada, tem-se que os elementos de


0,5

2n 1
so dados por n x
Pn x . Considerando kg = 6 a ordem da funo de
2
covarincia utilizada, a matriz (de dimenso kg x kg ) dos coeficientes dos
polinmios de Legendre definida da seguinte forma:
0
0,7955 0
0,7906
0,7071 0

0
1,2247 0
4,3973
2,8062 0

0
2,3717
0
7,9550 0

0
0
4,6771 0
20,5206
0
0

0
0
0
9,2808 0

0
0
0
0
18,4685
0
A matriz M, considerando a avaliao de 6 idades no indivduo j dada por

1
1
M
1

1
1

a12

a13

a14

a 2 a 22

a 23

a 24

a3

a 32

a33

a34

a4

a 42

a 43

a 44

a5

a52

a53

a54

a6

a 62

a63

a64

a1

a15

a 25
a 35

a 45 .

a55
a 65
62

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A quantidade at refere-se idade padronizada para o intervalo -1 ; 1 e dada


por a t 1 2 ( a t a min ) /( a max a min )

Para o caso das idades 60, 150, 300, 420, 500 e 620 dias, o vetor a das idades
padronizadas dado por a=
[-1.0000

-0.6786

-0.1429

0.2857

0.5714

1.0000].

A matriz M equivale ento a M =


1

-1

-1

-1

-0.6786

0.4605

-0.3125

0.2120

-0.1439

-0.1429

0.0204

-0.0029

0.0004

-0.0001

0.2857

0.0816

0.0233

0.0067

0.0019

0.5714

0.3265

0.1866

0.1066

0.0609

Finalmente a matriz

para o indivduo j dada por

= M.

=
0.7071 -1.2247 1.5811 -1.8709 2.1213 -2.3452
0.7071 -0.8311 0.3016 0.4427 -0.9002 0.7711
0.7071 -0.1750 -0.7422 0.3874 0.6369 -0.5707
0.7071 0.3499 -0.5971 -0.6928 0.2086 0.8133
0.7071 0.6998 -0.0162 -0.7307 -0.8125 -0.1918
0.7071 1.2247 1.5811 1.8709 2.1213 2.3452

Com t = k tem-se o caso de ajuste completo (full fit) e o modelo de regresso


aleatria reproduz exatamente o modelo multicaracterstico. Assim, a matriz de
covarincia gentica ( g ) do modelo multicaracterstico exatamente reconstituda
por g g K g g ' . Em um modelo multivariado tem-se y Xb Zg , com
Var ( y ) Z g Z ' R , em que

g A g0 e

R I R 0 , sendo

g0 g K g g ' ,

Var ( Zg ) Var ( g g ) . E sendo R0 p K p p ' I , tem-se que Var ( ) Var ( p p e ) .


2
e

Na prtica, usa-se um modelo com ajuste reduzido, ou seja, tem-se k < t e


g K g , em que um desvio em relao ao modelo multivariado total com
as t idades. Bons ajustes conduzem a desprezveis.
As equaes de modelo misto so dadas por
X ' R1 X
X ' R1g

1
1
1
1
g ' R X g R g A K g
' R1 X
p ' R1g
p

1
1
1
pR p I K p

X ' R1 p
g R1 p

1
b X ' R y
g g R1 y

p ' R y

A matriz de covarincia ( K g ) entre os efeitos genticos aleatrios,


desconsiderando as relaes de parentesco e para o caso de um ajuste linear equivale
a:

63

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

0 Var ( 0 )
K g Var
1 Cov ( 0 , 1 )

Cov ( 0 , 1 ) g 0 0

Var ( 1 ) g 0 1

g 0 1
,
g 1 1

em

que

para

individuo j o vetor g dado por g j [ 0 j 1 j ]' e 0 j e 1 j so o intercepto e a


inclinao do individuo em funo da idade. E o vetor no tempo t dado por i 1 .
t

Voltando ao modelo inicial tem-se:


y t Xb g t p t e t

y t Xb ( g g ) t ( p p ) t e t
y t Xb ( g g ) t ( p p ) t e t

Para o caso de um ajuste linear, o efeito aleatrio do valor gentico no tempo t dado
0 .
por: g t 0 1 t . Matricialmente, tem-se: g 0 1
t
t

De acordo com a ordem k do ajuste os efeitos genticos aditivos so dados por:


Ordem k do Ajuste

gt
0

0 1 t ;

2
3

0 1 t 2 t2

Com k = 3, 0 1 t 2 t 2 e

1
.
i t
t 2

As varincias gentica e fenotpica so dependentes da idade, ou seja, podem


aumentar ou diminuir com a idade. Tem-se que:
g2(i ) i' K gi g 2ti g ti2 g : varincia gentica na idade i.
0 0

g ( ij )

0 1

1 1


: varincia fenotpica na idade i.
i' K g j g 0 0 ( t i t j ) g 01 ti t j g 11 : covarincia gentica entre as idades i

2
y (i)

e j.

rg ( ij )

2
g (i)

2
e

g ( ij )
: a correlao gentica entre as idades i e j.
g ( i ) g ( j )

Para o caso de um ajuste linear, um modelo sem efeito de ambiente permanente pode
ser escrito como (Resende e Rosa-Perez, 1999; Resende et al, 2001):
y = Xb + Z0 0 +Z1 1 + e, em que:
Z0 :
matriz de incidncia para 0 , contendo 0 e 1s.
Z1 :
matriz associando 1 a y, contendo zero e valores de idade.
As equaes de modelo misto podem ser formuladas:

64

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

X X
Z ' X
0
Z1X

X Z 0
Z 0 Z 0 A100
Z1Z 0 A101

K g1 e2 00
01

X Z1

1
Z 0 Z1 A 01

Z1Z1 A111

b X y

0 Z 0 y , em que:

1 Z1 y

01
g
, sendo K g
11
g
0

g 0 1
.
g 1 1

Modelos de Normas de Reao


O modelo de normas de reao refere-se ao estudo da interao gentipos x
ambientes em termos de resposta fenotpica variao em um gradiente ambiental
representado por diferentes locais. Tm-se os seguintes modelos equivalentes:
y Xb Z 0 g g e
y Xb Z 0 Z 1 e
em que e g so os efeitos de ambientes ou locais e da interao gentipos x locais,
com matrizes de incidncia e , respectivamente.
No segundo modelo os efeitos de gentipos e da interao gentipos x locais
so expressos como combinao gentipos-locais ( Z 0 g g Z 0 Z1 ), permitindo
inferir sobre o desempenho de cada gentipo em cada local. Para isso define-se e
como vetores dos coeficientes de regresso aleatria referentes aos efeitos genticos
de intercepto para cada gentipo e da inclinao para cada gentipo em funo da
ambiente. Define-se ainda:
Z0 : matriz de incidncia para , contendo 0 e 1s.
Z1 : matriz associando a y, contendo zero e valores de mdias por local.
As equaes de modelo misto so:
X X
Z ' X
0
Z1X

X Z 0

X Z1

Z 0 Z 0 A100
Z1Z 0 A101

N r1 e2 00
01

1
Z 0 Z1 A 01

Z1Z1 A111

b X y

Z 0 y , em que:

Z1 y

01
2

, sendo N r Var

11

Os efeitos aleatrios, e , correspondentes a cada gentipo so


assumidos com distribuio normal de mdia nula e matriz de covarincia dada por:
2

N r Var

em que 2 , 2 e so a varincia gentica do

intercepto, componente de varincia da inclinao da norma de reao e covarincia


entre efeitos genticos de intercepto e de inclinao, respectivamente.

65

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A herdabilidade em funo do gradiente ambiental estimada por:


hg2 |

g2 |
g2 |
, pois g2 | Var ( ) 2 2 2 2 , .

g2 | e2 2 2 2 2 , e2

No ambiente mdio ( 0 ): hg2

2
o coeficiente de herdabilidade e e2 a
2
e
2

varincia residual.
A correlao entre intercepto e inclinao das normas de reao so dadas
por: r , , . Essa correlao, quando tende a 1, indica que os indivduos de
2 2

maior valor gentico so tambm mais responsivos (com grande adaptabilidade)


melhoria do ambiente. Essa uma situao favorvel.
O valor gentico dos gentipos no ambiente dado pela soma do
intercepto com o produto do coeficiente de inclinao pelo valor do nvel
ambiental , da seguinte maneira: g i | i i . De maneira genrica, para todo o
vetor g, tem-se g | Z 0 i Z 1
.

As correlaes entre valores genticos em dois ambientes i e k so dadas


por:

rg | i , g | k

g| i , g| k

2
g | i

2
g | k

em

que

g| i , g| k

2 2 i k , ( i k )

g2 | i Var ( i ) 2 2 2i 2 , i .
Os modelos de normas de reao podem ser ajustados via modelos de regresso
aleatria por REML ou por via Bayesiana usando MCMC. Inclusive, modelos de
regresso quadrtica, cbica e de maiores graus podem tambm ser avaliados. E pela
abordagem Bayesiana, comparaes entre modelos podem ser realizadas via AIC ou
BIC usando uma deviance a posteriori. O mtodo BIC usa o nmero efetivo de
parmetros, o qual menor do que o numero bruto, devido ao parentesco.

66

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.17 Casos Especiais: GLMM, GEE, HGLMM, PL, PLS e SALP

A seguir so descritos casos especiais de modelos mistos envolvendo: analise de


dados categricos (GLMM), dados categricos multivariados (GEE), modelos lineares
mistos generalizados hierrquicos (HGLMM), perfil de verossimilhana (PL) e
anlise de sobrevivncia para longevidade e precocidade (SALP). Um resumo sobre
GLMM e GEE apresentado na Tabela 17.
Tabela 17. Caracterizao de modelos lineares generalizados mistos (GLMM) e
equaes de estimao generalizada (GEE) .
Classe de Modelos

Dimenso do
Modelo

Funo Associada
Varivel
Aleatria Discreta

Classificao do
Modelo quanto
aos Efeitos

Mtodo de
Estimao

Algoritmo
Numrico

Modelos Lineares
Generalizados (GLM)

Univariada

Verossimilhana

Fixo

Mxima
Verossimilhana
(ML)

Quadrados
Mnimos
Ponderados
Iterativos
(IWLS)

Modelos Lineares
Generalizados (GLM)

Multivariada

QuaseVerossimilhana

Fixo

Equaes de
Estimao
Generalizada (GEE)

Quadrados
Mnimos
Ponderados
Iterativos
(IWLS)

Modelos Lineares
Generalizados Mistos
(GLMM)

Univariada

Verossimilhana
Residual

Misto

Mxima
Verossimilhana
Residual (REML)

Vrios

Modelos Lineares
Generalizados Mistos
(GLMM)

Multivariada

QuaseVerossimilhana

Misto

Pseudo Mxima
Verossimilhana ou
REML Condicional

Vrios

Modelos Lineares Generalizados Mistos (GLMM)


Variveis no normais e no contnuas, como aquelas com distribuio binomial e
outras variveis categricas, no so bem descritas por modelos estatsticos lineares.
Para estas variveis discretas, os modelos no lineares podem ser mais apropriados.
A classe de modelos lineares generalizados permite a generalizao ou flexibilizao
dos modelos lineares clssicos de variveis contnuas, de forma que toda a estrutura
para a estimao e predio em modelos lineares normais pode ser estendida para os
modelos no lineares. Os modelos lineares clssicos so casos especiais de modelos
lineares generalizados.
Estes modelos generalizados foram desenvolvidos para anlise de dados
associados a distribuies pertencentes famlia exponencial com um parmetro. A
idia de modelos lineares generalizados permitir maior flexibilidade de anlise. Tal
idia relaxa a suposio de que Y segue distribuio normal e permite que esta siga
qualquer distribuio que pertena famlia exponencial na forma cannica. As
generalizaes ocorrem em duas direes: (i) permitem que a esperana , de Y seja
uma funo monotonicamente diferenvel do preditor linear = xii de forma que
= f() = f (xii); (ii) ou, por inverso, g() = , em que g a funo de ligao, a
qual liga a mdia ao preditor linear. A incorporao da funo de ligao nas
equaes de modelos lineares mistos para e estimao de componentes de varincia e
de efeitos fixos e predio de variveis aleatrias gera a denominao de modelo no

67

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

linear devido relao no linear que existe entre a escala latente e a probabilidade de
um indivduo pertencer a uma determinada categoria da varivel discreta.
Para dados binomiais, 0 1, funes de ligao tal qual a logito so utilizadas
para satisfazer esta restrio natural. As transformaes so importantes para: (i)
estender a amplitude da varivel analisada de (0,1) para a reta real; (ii) fazer a
varincia constante atravs da amplitude dos efeitos fixos (na escala da varivel
latente contnua). A funo de ligao descreve, ento, a relao existente entre o
preditor linear () e o valor esperado de Y . No modelo linear clssico, tem-se =
que chamada de ligao identidade, e esta ligao adequada no sentido em que
ambos e podem assumir valores na reta real.
As distribuies a serem assumidas para a escala da varivel latente e
correspondentes funes de ligao devem ser capazes de transformar o intervalo
(0,1) em (- , ). Neste sentido, as distribuies logstica, normal padro e Gumbel
(ou distribuio de valor extremo) para a varivel latente e suas correspondentes
funes de ligao denominadas logito, probito e complemento log-log so
apropriadas para o modelo binomial. Maiores detalhes sobre a estimao e predio
em modelos lineares generalizados mistos via REML/BLUP so apresentados por
Resende e Biele (2002).
Equaes de Estimao Generalizada (GEE)
Anlises estatsticas univariadas de variveis discretas so realizadas
eficientemente via a classe de modelos lineares generalizados. Nesse caso, uma funo
de verossimilhana maximizada iterativamente analisando uma varivel linearizada
(transformao de y para a escala linear), usando modelos lineares normais ponderados.
Modelos mistos normais ponderados podem ser ajustados via REML.
Para o caso multivariado, a estatstica clssica tem se limitado a tcnicas
descritivas no paramtricas tal qual a anlise de componentes principais ou a modelos
paramtricos baseados em normalidade. Em muitas aplicaes, principalmente na rea
de estatstica mdica, muitos problemas de estimao associados a variveis discretas
no podem ser abordados usando a estatstica multivariada tradicional. Para o caso de
variveis no normais, uma forma geral para a distribuio multivariada no existe.
Isto conduz ao fato de que uma verdadeira funo de verossimilhana, que baseia-se
em normalidade, no est disponvel. Uma funo alternativa a quaseverossimilhana, a qual tem propriedades similares s da verossimilhana verdadeira.
Essa funo de quase-verossimilhana pode ser maximizada usando a tcnica das
equaes de estimao generalizada (GEE) criada por Zeger et al. (1988). Por essa
tcnica, a estimao pode ser realizada por meio do mtodo numrico ou algoritmo de
quadrados mnimos ponderados iterativos (IWLS). Ento, a tcnica GEE encontra seu
principal uso na anlise multivariada de variveis discretas. ento um
desdobramento da classe de modelos lineares generalizados (GLM) em que se
incorporam as correlaes entre variveis ou entre medidas repetidas. Pode ser aplicada
a modelos de efeitos fixos e a modelos de efeitos mistos.

68

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Uma diferena fundamental entre uma verossimilhana verdadeira e uma


quase-verossimilhana abordada via equaes de estimao referente aos modelos
de trabalho. Esses, no primeiro caso, tratam a verossimilhana como uma funo
objetivo para estimao e comparao de modelos. E no caso da quaseverossimilhana somente uma equao escore especificada e resolvida para
produzir uma estimativa. Essa abordagem da equao de estimao (EE) focaliza
apenas o parmetro de interesse e no toda a estrutura de probabilidade das
observaes. Uma vantagem da verossimilhana verdadeira refere-se possibilidade
de comparao de modelos via deviance e AIC. Uma abordagem alternativa de
estimao associada quase verossimilhana refere-se ao procedimento da pseudoverossimilhana, o qual permite a comparao de modelos via LRT e AIC.
A anlise de modelos lineares generalizados pode ser gerada via equaes de
estimao, via pseudo verossimilhana ou via REML ou IWLS (abordagem de
verossimilhana verdadeira), mas as filosofias subjacentes so diferentes. Uma
distino essencial que o teste da razo de verossimilhana no est disponvel na
abordagem EE (Resende, 2007).
A funo objetivo denominada quase-verossimilhana apresenta duas
caractersticas marcantes:
(i) Em contraste com a verossimilhana completa ou verdadeira, nenhuma
estrutura de probabilidade especificada, mas somente as funes da
mdia e varincia. Assim, essa abordagem pode ser denominada semiparamtrica, em que os demais parmetros, exceto aqueles de interesse,
so deixados livres. Especificando apenas a mdia e a varincia, a forma
da distribuio permanece totalmente livre.
(ii) Com essa modelagem limitada, a amplitude de inferncias possveis
tambm limitada. Basicamente, apenas uma estimativa pontual do
parmetro obtida. A construo de intervalos de confiana e a
realizao de testes de hipteses assumem normalidade assinttica das
estimativas, produzindo uma inferncia do tipo Wald. Tambm, a
comparao de modelos limitada.
Modelos Lineares Mistos Generalizados Hierrquicos (HGLMM)
Nos modelos lineares mistos generalizados tradicionais assume-se que os
resduos podem no apresentar distribuio normal, mas, os demais efeitos aleatrios
do modelo seguem a distribuio normal. Entretanto, essa suposio nem sempre
adequada. Um exemplo a situao em que os dados seguem distribuio de Poisson
e a funo de ligao especificada para os resduos a logartmica. Nesse caso, uma
suposio mais apropriada para os demais fatores aleatrios uma distribuio gama
com funo de ligao logartmica. Modelos em que uma distribuio de
probabilidade e uma funo de ligao podem ser especificados para cada fator
aleatrio so denominados modelos lineares mistos generalizados hierrquicos
(HGLMM). Como os fatores aleatrios nem sempre so de classificao hierrquica,
uma denominao alternativa modelos lineares mistos generalizados estratificados.
HGLMMs so bem descritos por Lee et al. (2007). Um preditor BLUP para
HGLMMs foi apresentado por Lee e Ha (2010). Para HGLMMs no normais o

69

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

BLUP linear pode no ser eficiente. Os autores apresentaram uma combinao do


BLUP com modelos Tweedie de disperso baseados em distribuio exponencial.
Verossimilhana Perfilada (PL)
A definio de verossimilhana contempla modelos multi-paramtricos.
Entretanto, muitas vezes o interesse reside em apenas um subconjunto de
parmetros, sendo os demais denominados parmetros de perturbao (nuisance) e
participam do modelo apenas para ajudar a descrever melhor a variabilidade. Um
caso tpico quando o interesse reside nos componentes de varincia e os efeitos
fixos so considerados nuisance. Nesse caso, necessrio um mtodo para concentrar
a verossimilhana em um s parmetro ou grupo de parmetros por meio da
eliminao do parmetro de nuisance.
A abordagem de verossimilhana para eliminar parmetros de nuisance
refere-se a substituir tais parmetros por suas estimativas de mxima
verossimilhana para cada valor fixo do parmetro de interesse. A verossimilhana
resultante ento denominada verossimilhana perfilada ou concentrada. A abordagem
bayesiana elimina todos os parmetros no interessantes, integrando-os fora da
distribuio. Entretanto, a funo de verossimilhana no uma funo densidade de
probabilidade (ou seja, no integra 1) e no obedece leis de probabilidade. Assim,
integrar um parmetro em uma funo de verossimilhana no tem sentido. No
entanto, existe uma analogia entre integrao na abordagem bayesiana e o conceito
de perfil de verossimilhana modificado relatado na seqncia.
Existe um mtodo genrico de transformao de dados y para (v, w) de
forma que a distribuio marginal de v e a distribuio condicional de v dado w
depende apenas do parmetro de interesse. Isso caracteriza o que denominado
verossimilhana marginal e verossimilhana condicional, respectivamente. No entanto,
verossimilhanas marginais e condicionais exatas nem sempre esto disponveis ou
so difceis de derivar. Uma aproximao para essas pode ser obtida modificando-se
o perfil de verossimilhana tradicional para se obter o perfil de verossimilhana
modificado.
No possvel usar o mtodo REML ordinrio para o modelo de competio
por exemplo, uma vez que o coeficiente de competio aparece em ambos, na mdia e
varincia de y (pois ambos, tanto a varivel quanto a covarivel so o mesmo
carter). Entretanto, uma generalizao do REML pode ser aplicada para estimao
dos parmetros do modelo. Essa generalizao envolve o ajustamento da
verossimilhana perfilada (por meio do escore perfilado ajustado) para o parmetro
de interesse em uma classe geral de modelos. Tal ajustamento pode ser feito pelo
mtodo de McCullagh e Tibshirani (1990), o qual remove o vcio das estimativas de
mxima verossimilhana, conforme realizado por Resende e Thompson (2003).
A inferncia na presena de parmetros de nuisance um problema difcil em
estatstica. Sob a perspectiva da verossimilhana, a abordagem mais simples refere-se
eliminao (via maximizao) dos referidos parmetros para valores fixos dos
parmetros de interesse e ento construir o que denominado verossimilhana

70

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

perfilada. Em outras palavras, tal soluo refere-se substituio dos parmetros de


nuisance na funo de verossimilhana por suas estimativas de mxima
verossimilhana obtidas sob valores fixados dos parmetros de interesse. Isto produz
a verossimilhana perfilada. Essa ento tratada como uma funo de
verossimilhana ordinria para estimao e inferncia sobre os parmetros de
interesse. Infelizmente, com grande nmero de parmetros de nuisance, esse
procedimento pode produzir estimativas ineficientes e inconsistentes. Os problemas
inerentes ao uso de verossimilhanas perfiladas so a gerao de estimativas viciadas
dos parmetros e otimistas dos desvios padres.
Modificaes na verossimilhana perfilada com o objetivo de aliviar esses
problemas foram propostas. A verossimilhana perfilada modificada intimamente
relacionada verossimilhana perfilada condicional na qual sugerido um teste de
razo de verossimilhana construdo a partir da distribuio condicional das
observaes dadas as estimativas de mxima verossimilhana dos parmetros de
nuisance.
Mxima Parcimnia (MP)
Parcimnia um princpio filosfico proposto pelo ingls William Ockam no
sculo XIV e pode ser enunciado como: se existe mais de uma explicao para uma
dado fenmeno, deve-se adotar aquela mais simples. O mtodo de mxima
parcimnia muito empregado em anlises de seqncias moleculares com o
propsito de reconstruo de rvores filogenticas como uma alternativa ao mtodo
de mxima verossimilhana.
O princpio da MP que a hiptese mais simples deve ser a escolhida dentre
todas as hipteses possveis de reconstruo filogentica. Em outras palavras, a
rvore que apresentar o menor nmero de passos (mudanas de estado de carter ou
mutao) ser a rvore mais parcimoniosa e deve ser escolhida para inferncia.
Em termos estatsticos, esse princpio da simplificao de modelos indica que:
modelos devem ter o mnimo possvel de parmetros; modelos lineares devem ser
preferidos em relao aos no lineares; modelos baseados em poucas suposies
devem ser preferidos em relao aos baseados em muitas suposies; modelos de
simples explicao devem ser preferidos em relao aos de explicao complexa.
Einstein modificou ligeiramente o princpio de Occam e afirmou: um modelo
deve ser to simples quanto possvel, mas no o mais simples. Tambm Oscar Wilde
(escritor e poeta Irlands) disse: a verdade raramente pura, e nunca simples.
Quadrados Mnimos Parciais (PLS)
A regresso via quadrados mnimos parciais (PLSR) um mtodo de reduo
dimensional que pode ser aplicado seleo de marcadores com efeitos significativos
em um carter. um mtodo muito usado em quimiometria na situao em que se
tem um grande nmero de variveis com relaes desconhecidas e o objetivo a
construo de um bom modelo preditivo para a varivel resposta. No PLS variveis

71

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

latentes so extradas como combinaes lineares das variveis originais e so usadas


para a predio da varivel resposta, conforme descrito a seguir.
As variveis latentes so componentes ortogonais, o que elimina o problema
de multicolinearidade e a PLSR similar regresso via componentes principais
(PCR). Ambos os mtodos constroem a matriz T de componentes latentes, como
transformao linear da matriz X das variveis originais por meio de T = XW, em
que W uma matriz de pesos. A diferena que a PCR extrai componentes que
explicam a varincia de X e a PLSR extrai componentes que tm maior covarincia
com y. Na PLSR as colunas de pesos na matriz W so definidas de forma que o
quadrado da matriz de covarincia amostral entre y e os componentes latentes
maximizado sob a restrio de que os componentes latentes sejam no
correlacionados.
Existem diferentes tcnicas para extrao dos componentes latentes. A
complexidade tima do modelo, ou seja, o nmero de componentes latentes, pode ser
determinada por validao cruzada.
Anlise de Sobrevivncia para Longevidade e Precocidade (SALP)
Na prtica do melhoramento gentico muitas vezes o carter de interesse
refere-se ao tempo ou nmero de dias ou meses para que determinado indivduo
atinja a produtidade ou peso desejvel. Nesse caso, a seleo objetiva precocidade
(menor tempo para atingir o valor desejvel) ou longevidade (maior tempo ou vida
produtiva). A seleo para longevidade e precocidade de interesse em animais e
fruteiras e para precocidade interessante para espcies florestais.
Modelos de anlise de sobrevivncia para longevidade e precocidade (SALP)
tm sido aplicados nessas espcies. Como o tempo uma varivel discreta e alguns
indivduos no atingem a produtividade desejada no perodo avaliado ou so
descartados antes, os modelos usados em anlise de sobrevivncia para dados
censurados tm sido empregados. O modelo em que os tempos t so independentes e
seguem a distribuio de Weibull tem sido utilizados. Esse modelo da forma
P ( t xi , g j ) exp{ g j [ b' xi ]t em que: P (t xi , g j ) a probabilidade de um
individuo j com vetor de efeitos fixos especificados por uma matriz de incidncia X
atingir a produtividade desejada aps o o tempo t; u uma constante; b o vetor de
coeficientes desconhecidos associados aos efeitos fixos x; gj o efeito gentico
aleatrio associado ao genitor j; o parmetro de forma da distribuio Weibull.
Em
termos
de
risco
( )
o
modelo

dado
por
1
( t xi , g j ) g j exp[ b' xi ] t . Risco no caso refere-se propenso em atingir a
produtividade desejada. Uma funo de risco (t xi , g j ) que cresce rapidamente e
funo de sobrevivncia P(t xi , g j ) que decresce rapidamente (menor tempo) atravs
do tempo identifica um individuo precoce e interessante ao melhoramento.

72

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Usando a denominao da rea de anlise de sobrevivncia gj um efeito


aleatrio denominado fragilidade. Sob um modelo de sobrevivncia Weibull com
fragilidade gama tem-se que gj segue uma distribuio gama com parmetros (1 /
Var(g), 1 / Var(g)), donde E(g)=1 e Var ( g ) I g2 . O modelo pode ser implementado
via MCMC em que uma cadeia estocstica de valores dos parmetros assumida
como contenedora de amostras da especfica distribuio de probabilidade j em
equilbrio aps perodos de descarte de amostras.
Outra abordagem aplicvel nessa rea so os modelos semiparamtricos como
o modelo de riscos proporcionais de Cox.
1.18 Mtodos Estatsticos para GWS

Os Mtodos Estatsticos para GWS so apresentados na Tabela 18.


Tabela 18. Classificao dos Mtodos para GWS
Classe
Regresso explcita

Famlia
Mtodos de estimao
penalizada
(Regresso
linear)

Mtodo
RR-BLUP/GWS

LASSO

EN

RR-BLUP-Het/GWS

Mtodos de estimao
bayesiana (Regresso no
linear)

BayesA

BayesB

Fast BayesB

BayesC

BayesD

BLASSO

IBLASSO

Regresso implcita

Regresso
com
reduo dimensional

Atributos

Regularizao
Arquitetura gentica homognea
Seleo indireta de covariveis
Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis

Regresso Kernel
RKHS
Redes neurais
Quadrados mnimos parciais
Componentes principais
Componentes Independentes

73

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Detalhes desses mtodos so apresentados por Resende et al. (2011) e tambm no


tpico 6.22. A seguir ilustra-se a questo dos mtodos de regresso linear e no linear
usando para isso o mtodo BayesA.
O mtodo BayesA proposto por Meuwissen et. al. (2001) produz resultados
similares ao mtodo BLUP com varincias heterogneas, pois as varincias dos
segmentos cromossmicos diferem para cada segmento e so estimadas sob esse
modelo, considerando a informao combinada dos dados (funo de
verossimilhana) e da distribuio a priori para estas varincias. Neste caso, o modelo
ajustado por meio de uma abordagem Bayesiana com estrutura hierrquica em dois
nveis. Os efeitos dos marcadores so assumidos como amostras de uma distribuio
normal com mdia zero e varincia de cada marcador dada por uma distribuio quiquadrada inversa e escalonada conforme a seguir:
i 2i ~ N (0, 2i )
2i ~ 2 ( , S 2 )

em que o nmero de graus de liberdades e S 2 o parmetro de escala da


distribuio. Assim, tem-se que a distribuio marginal a priori dos efeitos genticos
dos marcadores, i , S 2 , tem distribuio t de Student univariada, ou seja,
i , S 2 ~ t (0, , S 2 ) . Assim, esta formulao resulta na modelagem dos efeitos dos

marcadores como amostras de uma distribuio t de student.


em que i tomado de uma distribuio quiquadrado invertida, segundo o enfoque Bayesiano, isso implica que grande nmero
de marcadores apresenta efeitos pequenos e poucos marcadores apresentam efeitos
grandes. O uso de uma mistura de distribuies normal e qui-quadrado invertida
Assumido

i ~ N ( 0 , 2 ) ,

conduz a uma distribuio t para , e portanto, com uma cauda mais longa que a
distribuio normal. Este mtodo pode ser implementado via amostragem de Gibbs,
para obteno dessa informao combinada ou da distribuio a posteriori das
varincias.
Os mtodos associados a modelos hierrquicos bayesianos (BayesA e B) por
meio de suas formulaes em termos dos hiperparmetros propiciam varincias
especficas para cada marcador. O mtodo RR-BLUP so funes lineares dos dados
e regressam as estimativas com o mesmo erro padro (mesmas freqncias allicas e
tamanho amostral) pela mesma quantidade. Prioris Gaussianas conduzem a
shrinkage homogneo atravs dos marcadores. Os mtodos Bayesianos so funes
no lineares dos dados e regressam efeitos menores mais do que os maiores, ou seja,
admitem maiores herdabilidades para os maiores efeitos.
O shrinkage homogneo no desejvel, pois alguns marcadores esto ligados a
QTLs e outros no esto. Mas assumindo distribuio a priori t escalada ou dupla
exponencial para os efeitos de marcadores tem-se os mtodos BayesA e BLASSO,
respectivamente, os quais produzem shrinkage especficos de acordo com o tamanho
do efeito e da varincia do marcador.
Em resumo, no modelo linear os efeitos de marcas so assumidos com distribuio
normal e regressam as marcas de mesmas freqncias allicas pela mesma
quantidade. O modelo Bayesiano no linear e os efeitos menores so regressados
mais do que os maiores efeitos usando para isso informao a priori sobre a esperada
distribuio dos efeitos de QTL (distribuio t no caso do BayesA).

74

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.19 Procedimento Estatstico para Comparao de Duas Metodologias

Conforme visto no tpico 1.1, um mtodo timo de estimao/predio deve


apresentar mnimo erro quadrtico mdio (EQM), o qual dado por EQM = Vcio2 +
Preciso = Vcio2 + PEV. Assim, um estimador de mnimo EQM apresenta vcio
nulo ou baixo e alta preciso (baixa varincia do erro de predio PEV ou
Var ( g g ) ). Em ausncia de vcio, EQM = PEV (Resende, 2008).
Algebricamente tem-se:

E ( g g ) 2 E g 2 2 E g g g 2 , em que g tratada como uma

EQM

constante determinstica;
2
PEV E g 2 E g ;

b 2 ( E g g ) 2 EQM PEV E g 2 E g g g 2 ;
Vcio b ( E g g ) ;
1 n
Vcio i b i
( g ij g i ) se pelo menos n = 2 repeties forem
n j 1
Vcio

empregadas para a obteno de g i .


O erro quadrtico mdio de estimao ou predio equivale distncia
Euclideana mdia entre os estimadores e os correspondentes parmetros. Minimizar
o erro quadrtico mdio significa maximizar a acurcia. Um estimador acurado
apresenta menor diferena quadrtica entre valores verdadeiros ( g ) e estimados ( g ).
A acurcia ( rgg ) definida como correlao entre g e g e seu quadrado ( rg2g ) um
coeficiente de determinao denominado confiabilidade. O valor estimado equivale
ao verdadeiro mais o erro de predio ( g g ) , ou seja, g g ( g g ) .
A acurcia e a preciso guardam entre si as seguintes relaes, na classe de
estimadores no viesados:
- Acurcia ( rgg )
r g g [1 PEV / g2 ]1 / 2

- Preciso (PEV)
PEV Var ( g g ) (1 rg2g ) g2 , em que

g2 a varincia de g.

Assim, o mtodo ideal de estimao pode ser viciado em pequeno grau, pois o que
importa minimizar a soma (Vcio ) 2 PEV . Na classe dos estimadores/preditores
no viciados, a preciso dada pelo parmetro varincia do erro de predio (PEV) e
a estratgia de minimizar PEV conduz tambm maximizao da acurcia. Mas, de
maneira geral (relaxando a necessidade de no vcio), o que deve ser minimizado o
EQM, buscando a admissibilidade.
A comparao entre duas metodologias estatsticas ou dois vetores contendo
variveis quantitativas pode ser realizada por meio da comparao de seus EQMs e a

75

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

identidade entre as duas pode ser inferida com base na identidade de seus EQMs.
Geralmente um modelo ( g ) comparado com a distribuio paramtrica ( g ). Mas,
em muitas situaes prticas, uma metodologia alternativa ( g ) comparada com
uma metodologia padro ou de referncia ( g ) por meio de seu erro em relao essa
referncia. Sendo EQM (Vcio ) 2 PEV , seus componentes devem ser testados
estatisticamente visando inferir sobre a identidade entre duas metodologias. Uma
abordagem para isso foi apresentada por Leite e Oliveira (2002). Esses autores
propem os seguintes testes para os trs componentes:
n
( g g i )
/ n contra zero:
(i) teste t para o erro mdio e i
gi
i 1

( e 0)
, em que se se / n e se a estimativa do desvio
Estatstica de teste: t e
se

( g g i )
;
padro do erro, ou seja, s i
gi

Hiptese H0 sob normalidade: H 0 : e 0 .


Regra de Deciso: se t e t ( n 1) , rejeita-se H0, em que (n-1) so o nmero de graus
de liberdade.

(ii) teste simultneo de 0 0 e 1 1 para avaliar a significncia do vcio:


Segundo o modelo g 0 1 g e , tem-se:
Estatstica de teste: F
1
1

.
g*
.
.

g1
g2

. e

.
.

gn


0
( )( g*' g*)( )
, em que 0 ; ;
2QM Re siduo
1
1

n
( g*' g *)
g i

g
g

.
2
i

Hiptese H0 sob normalidade: H 0 : [0 1] .


Regra de Deciso: se F ( H 0 ) F ( 2, n 2) , rejeita-se H0, em que (n-2) so o nmero
de graus de liberdade.
(iii) teste se a correlao difere de 1:
Sob H 0 : e 0 verdadeira, se rgg (1 e ) , a correlao entre as duas metodologias no
difere de um. A correlao pode tambm ser testada pelo teste t diretamente contra 1. Mas
isso envolveria a necessidade de um teste de hiptese a mais.

76

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

n
Um erro mdio e ( g i g i ) / n pode no ser significativamente diferente de

i 1

gi

zero mas, o estimador pode ser viesado. Em estudos de simulao, o vis pode ser calculado
pela expresso (Vcio ) 2 EQM PEV . Na prtica, os valores paramtricos so
desconhecidos mas, a significncia do vis pode ser avaliada pelo teste simultneo de 0 0

e 1 1 na expresso g 0 1 g e . Mesmo com alta correlao ou determinao


(baixa PEV devida ao alto rg2g ) possvel obter 0 0 e 1 1 . 0 0 indica
diferena sistemtica ou vcio envolvendo dois vetores a serem comparados. 1 1
indica erro ou diferena proporcional entre os dois vetores, conforme pode ser visto
na expresso 1 Cov( g , g ) rgg Var( g ) , a qual revela que o coeficiente de regresso
Var( g )

Var( g )

funo da correlao e tambm da diferena proporcional entre as varincias


associadas aos dois mtodos.
Coeficientes de regresso abaixo de 1 indicam que os valores preditos so
subestimados e apresentam variabilidade aqum da esperada e, acima de 1, indicam
que os valores preditos apresentam variabilidade alm da esperada. Coeficientes de
regresso prximos de 1 indicam que as predies so no viesadas e so efetivas em
predizer as reais magnitudes das diferenas entre os indivduos em avaliao.
No vcio importante quando se testa identidade entre modelos. Na classe
dos estimadores/preditores no viciados no h necessidade de se testar 0 0 e
1 1 . As regras de deciso so apresentadas no Quadro a seguir, conforme Leite e
Oliveira (2002).
Regras de deciso na Comparao entre Duas Metodologias.
Situao F(H0): vis
te : erro mdio
r : componente da PEV Deciso
gg

no significativo

no significativo

rgg (1 e )

g g

no significativo

no significativo

rgg (1 e )

g g

no significativo

significativo

rgg (1 e )

g g

no significativo

significativo

rgg (1 e )

g g

significativo

no significativo

rgg (1 e )

g g

significativo

no significativo

rgg (1 e )

g g

significativo

significativo

rgg (1 e )

g g

significativo

significativo

rgg (1 e )

g g

Fonte: Leite e Oliveira (2002).

77

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Acurcia Seletiva via Inferncia Bayesiana


No enfoque frequentista a acurcia dada por r [1 PEV / g2 ]1 / 2 em que
PEV relacionado varincia do estimador g . Em inferncia bayesiana computa-se
a varincia do prprio parmetro que assumido como uma varivel aleatria.
Assim, essa frmula no vlida no contexto bayesiano. Prope-se aqui usar a
seguinte expresso para o cmputo da acurcia via estimao bayesiana:
~ ) o desvio padro do valor gentico estimado ( g~ ).
~
r [1 s ( g~ ) / g~ ] , em que s ( g
Nota-se uma similaridade entre r e ~
r , sendo que r envolve componentes
g g

g g

gg

gg

gg

por isso existe a raiz quadrada na frmula) e ~


rgg envolve
componentes lineares ( s( g~ ) / g~ , por isso no existe a raiz quadrada na frmula).
quadrticos ( PEV /

2
g,

Em rgg computada a reduo proporcional na correlao perfeita (igual a 1)


dada pela razo entre a variao dos valores estimados em torno do valor verdadeiro
(PEV) e a prpria variao entre os valores verdadeiros ( g2 ). Em ~
rgg a reduo
proporcional na correlao perfeita (igual a 1) dada pela razo entre o erro padro do
valor verdadeiro realizado ( s( g~ ) ) e o prprio valor verdadeiro realizado ( g~ ). Se
s ( g~ ) como proporo de g~ tende a zero, a acurcia tende a 1. Se essa proporo
afasta-se de zero, a acurcia afasta-se de 1. Por g~ tratar-se do prprio parmetro,
deveria apresentar s( g~ ) igual a zero. A medida que este afasta-se de zero penaliza-se
~
rgg .
As duas abordagens podem ser comparadas por meio de r e ~
r . Se ~
r >r ,
gg

gg

gg

gg

isso indica que provavelmente as distribuies dos parmetros atribudas pela


abordagem Bayesiana foram mais adequadas do que aquelas associadas ao modelo
tradicional.

78

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

1.20 Procedimento BLUP Melhorado: I-BAYES-BLUP

O BLUP tradicional adequado quando: no existem genes maiores


segregando na populao; uma populao base ideal foi formada (em equilbrio, com
endogamia F = 0 e sem indivduos aparentados); toda a genealogia e conjunto
completo de dados so usados, desde a populao base; no existem erros no pedigree.
Se a populao base ideal no foi formada e/ou o pedigree no est completo e livre
de erros e/ou nem todo o conjunto de dados usado, surgem problemas tais quais: a
variao em F entre genitores (os quais diferem em heterozigose) e desequilbrio de
ligao em fase gamtica dentro de famlia no so levados em considerao; as
predies de valores genticos obtidas so viesadas pelos efeitos da seleo; os
componentes de varincia da populao base so pobremente estimadas; o parentesco
entre os indivduos no estimado corretamente. Segundo Endelman e Jannink
(2012), as suposies sobre a populao base ideal raramente se verificam na prtica.
Um mtodo para a estimao de componentes de varincia e valores genticos
delineado para aumentar a eficincia do REML/BLUP fenotpico foi introduzido por
Resende, Silva e Viana (2012). O mtodo denominado I-BAYES-BLUP (Improved
Bayesian BLUP) ou BBM (BLUP Bayesiano Melhorado) e visa capturar os
diferentes graus de variao dentro de famlias da gerao atual e a correlao
gentica entre famlias, devidos esses fatores.
Tais fatores produzem diferentes nveis de variao nas relaes de
parentesco entre pares de indivduos dentro de diferentes famlias e ento diferentes
parentescos mdios dentro de cada famlia. A captura dessa variabilidade possibilita a
estimao da variao gentica contribuda especificamente por cada famlia da
gerao atual e propicia uma melhor partio da variabilidade gentica entre e dentro
de famlias, permitindo estimar uma variao gentica especfica para cada famlia.
Como consequncia, uma melhor estimativa do componente do valor gentico,
denominado efeito da segregao mendeliana, obtida.
O procedimento geral e equivale ao prprio BLUP tradicional quando no
existe heterogeneidade de varincia genetica dentro de famlias. Ento,
recomendado para uso amplo, quando os tamanhos de famlia so grandes o
suficiente (no mnimo 10 indivduos por famlia) para obteno de estimativas
precisas. O mtodo superior quando ocorre pelo menos um dos seguintes fatos: o
modelo infinitesimal (genes de iguais efeitos) no se aplica; o pedigree incompleto
e/ou com presena de erros; uma populao base ideal no foi formada; o conjunto de
dados incompleto (no contempla todas as medies desde a populao base); existe
grau diferencial de varincia genetica dentro de famlia.
O mtodo proposto ameniza o caso do uso do BLUP considerando apenas
dados da gerao atual e genealogia contemplando apenas as duas ltimas geraes,
por meio do uso da identidade em estado (IBS) e no por descendncia (IBD). O
procedimento considera tambm (pelo menos em parte) a variao no sistema
reprodutivo entre genitores (sistema misto de reproduo, envolvendo
simultaneamente autogamia e alogamia).

79

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O procedimento envolve os seguintes passos: (1) ajuste apenas dos efeitos de


genitores (aqueles indivduos com prognie) como covariveis aleatrias, de maneira
similar ao modelo animal reduzido, entretanto, usando uma abordagem Bayesiana
que admite variancias genticas aditivas especficas ( gi2 ) para cada famlia i; (2)
clculo das variancias genticas aditivas dentro de famlia ( g2 w i (1 gi ) gi2 ),
especficas para cada famlia i; (3) clculo das variancias fenotpicas dentro de famlia
( y2 w i g2 w i e2 ), especficas para cada famlia i; (4) clculo das herdabilidades

g2 w i
individuais dentro de famlia ( h 2 ), especficas para cada famlia i; (5)
y w i
estimao do efeito da segregao mendeliana usando uma formula especfica para
cada famlia i ( g wij ( yij Xbij 0.5g pi )hw2 i ), em que b um vetor de efeitos fixos;
2
wi

(6) soma dos efeitos dos genitores ( g pi ) com os efeitos da segregao mendeliana de
cada individuo por meio de g 0.5g g 0.5g ( y Xb 0.5g )h 2 .
ij

pi

wij

pi

ij

ij

pi

wi

O mtodo um modelo animal reduzido, melhorado por meio de uma


combinao ou mistura das abordagens Bayesiana e BLUP tradicional. Pelo BLUP
tem-se a estrutura de covarincia para os efeitos genticos
g:
g ~ N (0, ) = g ~ N (0, A g2 ) . Pela abordagem Bayesiana tem-se g ~ N (0, G BAYES ) , em que
GBAYES estimada diretamente como uma matriz de covarincia no estruturada,
contempland0 a heterogeneidade de varincia gentica dentro de famlia (e diferentes
endogamias F dos genitores) em sua diagonal e o parentesco entre os genitores fora
da diagonal. Alternativamente, GBAYES pode ser ajustada como uma matriz diagonal
G BAYES G BAYES Diag , usando a matriz de parentesco entre os genitores (A)
simultaneamente via modelagem de g como g ~ N (0, A G BAYES ) . As varincias e
covarincias genticas componentes de GBAYES so assumidas como provenientes de
uma distribuio Whishart e estimadas por meio do pacote bayesm do R via funo
rhierLinearModel (Rossi et al., 2005; 2012).
O I-BAYES-BLUP modela uma estrutura de varincia similar a A gi2 ,
porm, usa a identidade em estado (IBS), de forma que semelhante a G gi2 , em
que G a matriz de parentesco genmico baseada em IBS e no em IBD como a A.
Assim, GBAYES se aproxima de GBAYES G gi2 , tendendo a captar intrinsecamente IBS,
via uma regresso implcita, porm paramtrica. Essa equivalncia razovel uma
vez que a matriz de parentesco IBS usa a populao corrente como populao base,
ou seja, est associada estimao da variao gentica na populao corrente
(Endelman e Jannink, 2012).
Conforme Powell et al. (2010) e Endelman e Jannink (2012), a meta do
geneticista no estimar probabilidades IBD e sim estimar covarincia gentica
entre indivduos, a qual fundamentalmente uma propriedade de estado (IBS) e no
IBD. Assim, depende de probabilidades IBS, as quais no invocam uma populao
base ideal. Dessa forma, o mtodo I-BAYES-BLUP uma boa alternativa para fazer
uso desse novo conceito, usando apenas dados fenotpicos.

80

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

81

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

2 Anlise Genmica
Esforos na rea de pesquisa com marcadores genticos em prol do
melhoramento tm se dividido em duas linhas: a deteco de marcadores associados a
QTL e mapeamento desses; uso dos marcadores nos programas de seleo gentica
via seleo auxiliada por marcadores (MAS) e seleo genmica ampla (GWS),
tambm denominada seleo genmica (GS). Esse captulo aborda ambas as linhas,
enfatizando a seleo gentica via uso das informaes genmicas. Contempla o
estudo de QTLs baseado em anlise de anlise de ligao e de desequilbrio de ligao
(gentica de associao - GWAS) e a seleo genmica ampla (GWS). A abordagem
apresentada nesse documento baseia-se no livro publicado por Resende (2008).
2.1 Fundamentos da Anlise de QTLs e da Seleo Genmica

O uso de marcadores genticos moleculares para fins de seleo e


melhoramento gentico fundamenta-se na ligao gnica entre tais marcadores e os
locos que governam as caractersticas quantitativas (QTLs) de interesse do
melhoramento. Assim, os estudos de ligao entre marcador e QTL e tambm entre
os prprios marcadores so essenciais no contexto da seleo gentica empregando-se
informaes genmicas. importante relatar que a definio de QTL refere-se
apenas a uma associao estatstica entre uma regio do genoma e um carter.
No contexto da gentica clssica, a ligao entre fatores genticos ou genes
tem sido relatada desde 1906, e denota que genes ligados proximamente no
cromossomo so herdados em conjunto. Em outras palavras, tais genes, em conjunto,
no segregam de forma independente, no obedecendo a Segunda Lei de Mendel ou
Lei da Segregao Independente. Quando os genes esto prximos no cromossomo
ou grupo de ligao, essa completa. Quando esto no mesmo grupo de ligao,
porm com grande distncia entre eles, a ligao parcial.
A distncia calculada entre dois genes funo da freqncia de
recombinao entre eles e fundamental na construo de mapas de ligao. Para que
a ligao entre locos seja detectada e usada na seleo, necessrio que haja
desequilbrio de ligao na populao ou famlia estudada. O desequilbrio de ligao
ou desequilbrio de fase gamtica uma medida da dependncia ou no entre alelos
de dois ou mais locos. Em um grupo de indivduos, se dois alelos de locos diferentes
so encontrados juntos com freqncia maior do que aquela esperada com base no
produto de suas freqncias, infere-se que tais alelos esto em desequilbrio de
ligao. Valores de desequilbrio de ligao prximos de zero indicam equilbrio ou
independncia (freqncia de recombinao igual a 0,5, ou seja, com valor mximo)
entre os alelos de diferentes genes, e valores prximos de um, indicam desequilbrio
ou ligao entre alelos de diferentes genes.
O desequilbrio de ligao (LD) entre marcadores e QTLs crucial para a
deteco de QTL, para a seleo auxiliada por marcadores e para a seleo genmica
ampla. Especialmente relevante a extenso desse desequilbrio no cromossomo em
uma populao de seleo. Se um marcador e um QTL esto em equilbrio na
populao, o conhecimento do gentipo do marcador em um indivduo no apresenta

82

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

qualquer valor para a seleo. A permanncia do desequilbrio de ligao na


populao depende da distncia entre os locos, ou seja, depende da taxa de
recombinao entre os dois locos. Para locos intimamente ligados, qualquer LD que
tenha sido criado permanecer por muitas geraes. Mas, para locos fracamente
(freqncia de recombinao maior que 0,1) ligados, o LD decrescer rapidamente.
Embora um marcador (loco m) e QTL (loco q) ligado a ele possam estar em
equilbrio de ligao na populao, sempre existir o desequilbrio de ligao dentro
de uma famlia ou cruzamento, mesmo para locos fracamente ligados. E esse
desequilbrio de ligao poder se estender a uma grande distncia, pois, para a
produo da descendncia de um indivduo F1 heterozigoto, ter ocorrido apenas uma
gerao de recombinao.
Considere dois locos m e q ligados e quatro indivduos heterozigotos para o
marcador e com gentipos MQ/mq, Mq/mQ, MQ/mQ e Mq/mq. As famlias
originrias dos dois primeiros indivduos estaro em LD (pois, para locos ligados,
gametas parentais so mais freqentes que gametas recombinantes), porm em
direes opostas, pois, a fase de ligao marcador-QTL difere entre os dois genitores.
As famlias originrias dos dois ltimos indivduos no estaro em LD pois o QTL
no est segregando nessas famlias. Quando ponderados entre famlias, os quatro
tipos de desequilbrio cancelaro, produzindo equilbrio de ligao na populao.
Assim, o LD dentro de famlias til na anlise de QTL desde que as diferentes
fases de ligao sejam levadas em considerao.
De maneira genrica, em Gentica de Populaes, desequilbrio refere-se
discrepncia da freqncia conjunta de alelos em relao ao produto de suas
freqncias individuais. O termo usualmente refere-se a alelos de diferentes locos em
um mesmo gameta, mas pode referir-se tambm a pares de alelos do mesmo loco,
caracterizando a falta de equilbrio de Hardy-Weinberg.
O mapeamento de QTLs, a seleo auxiliada por marcadores (MAS) proposta
por Lande & Thompson (1990) e a seleo genmica ampla (GWS) proposta por
Meuwissen et al. (2001), so fundamentadas na ocorrncia de desequilbrio de ligao
na populao (ou cruzamento) estudada. Nesse caso, os alelos dos marcadores
informam sobre a presena e efeitos dos locos que governam os caracteres
quantitativos, fornecendo meios para estimao dos efeitos dos locos dos QTLs e
para o seu eficiente uso na seleo gentica. As causas do desequilbrio de ligao nas
populaes so: mutao, migrao, seleo e tamanho efetivo populacional reduzido
(deriva gentica devida amostragem). Ou seja, todos os fatores que afetam o
equilbrio de Hardy-Weinberg nas populaes afetam tambm o equilbrio de
ligao.
Atualmente, marcadores genticos moleculares do tipo SNP (polimorfismo
de um nico nucleotdeo), os quais baseiam-se na deteco de polimorfismos
resultantes da alterao de uma nica base no genoma, tm sido usados. E para que
uma variao seja considerada SNP, essa deve ocorrer em pelo menos 1 % da
populao. Os SNPs so a forma mais abundante de variao do DNA em genomas,
e so preferidos em relao a outros marcadores genticos devido sua baixa taxa de
mutao e facilidade de genotipagem, aliados ao baixo custo. Milhares de SNPs

83

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

podem ser usados para cobrir o genoma de um organismo com marcadores que no
esto a mais de 1 cM (1 milho de bases) um do outro no genoma inteiro. Os
marcadores moleculares do tipo microssatlites tambm so usados. Tais marcadores
so eficientes por serem co-dominantes, multi-allicos, abundantes e apresentarem
alta transferibilidade entre indivduos e espcies.
Os marcadores SNPs apresentam natureza biallica, conforme ilustrado a
seguir:
Indivduo 1: TCACCGCG
Indivduo 2: TCATCGCG
Verifica-se polimorfismo de SNPs entre os dois indivduos. Na seqncia
especificada na fita simples de DNA ocorre troca de uma nica base, caracterizando
o referido polimorfismo. Mais de 1,5 milho de SNPs foram identificados no genoma
humano. Suas posies esto localizadas em um espaamento mdio de 2 x 10-3 cM
(Hartl e Jones, 2002).
Marcadores DArT (Diversity Array Technology) so tambm bi-allicos e
adequados GWS pois so abundantes tais quais os SNPs, e podem ser obtidos com
alta velocidade e rendimento. No entanto, tais marcadores so dominantes e essa
pode ser uma desvantagem em relao aos SNPs, que so codominantes. Entretanto,
podem comportar-se de duas maneiras: dominante (presena vs ausncia) ou
codominante (2 doses vs 1 dose vs ausncia).
A seleo genmica ampla (GWS) ou seleo genmica (GS) foi proposta por
Meuwissen et al. (2001) como uma forma de aumentar a eficincia e acelerar o
melhoramento gentico. A GWS enfatiza a predio simultnea (sem o uso de testes
de significncia para marcas individuais) dos efeitos genticos de milhares de
marcadores genticos de DNA (SNP, DArT, Microssatlites) dispersos em todo o
genoma de um organismo, de forma a capturar os efeitos de todos os locos (tanto de
pequenos quanto de grandes efeitos) e explicar toda a variao gentica de um carter
quantitativo. A condio fundamental para isso que haja desequilbrio de ligao,
em nvel populacional, entre alelos dos marcadores e alelos dos genes que controlam
o carter. A predio dos efeitos genticos realizada com base em dados genotpicos
e fenotpicos de indivduos pertencentes a uma amostra da populao de seleo.
Esses efeitos genticos dos marcadores sobre fentipos de caracteres
quantitativos so somados e usados na predio de valores genticos de indivduos
apenas genotipados, candidatos seleo em programas de melhoramento gentico.
A predio e a seleo podem ser realizadas em fases muito juvenis de plantas e
animais, acelerando assim o processo de melhoramento gentico. Adicionalmente, a
prpria predio tende a ser mais acurada por considerar o real parentesco gentico
dos indivduos em avaliao, em detrimento do parentesco mdio esperado
matematicamente (Resende, 2007). A GWS propicia uma forma de seleo precoce
direta (SPD), pois, atua precocemente sobre genes expressos na idade adulta. Ao
contrrio a seleo precoce tradicional indireta, pois, atua (via avaliao fenotpica)

84

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

sobre genes ativados na idade precoce, esperando que esses informem parcialmente
sobre genes expressos na idade adulta. Assim, a SPD propiciada pela GWS
especialmente importante para o melhoramento de organismos perenes como
animais, espcies florestais, fruteiras (e outras frutferas), forrageiras, cana-deacar, caf, dentre outras.
Em resumo, a superioridade da GWS sobre a seleo baseada em fentipos
pode ser atribuda a quatro fatores: uso da matriz de parentesco real e prpria de cada
carter, fato que aumenta a acurcia seletiva; (ii) viabilizao da SPD, que aumenta o
ganho gentico por unidade de tempo; (iii) permisso da avaliao repetida de cada
alelo (propicia repetio experimental) sem o uso de testes clonais e de prognies,
fato que aumenta a acurcia seletiva; (iv) uso de maior nmero de informaes,
combinando trs tipos de informao (fenotpica, genotpica e genealgica) para
corrigir e desregressar os dados e fazer a anlise genmica, fato que aumenta a
acurcia.
A MAS surgiu basicamente na dcada de 1990. Os primeiros trabalhos relativos
a organismos perenes foram os de Fernando e Grossman (1989), Lande e Thompson
(1990), Goddard (1991) e Kennedy et al. (1992). A GWS um produto do terceiro
milnio. Aps a proposio da GWS em 2001 o procedimento permaneceu discreto
at 2007, quando vrios trabalhos abordaram o mtodo e sua acurcia no
melhoramento animal e vegetal (Fernando et al., 2007; Goddard e Hayes, 2007;
Meuwissen, 2007; Bernardo e Yu, 2007; Resende 2007). Outros trabalhos relatam que
a GWS o novo paradigma em gentica quantitativa (Resende, 2008; Gianola et al.,
2009), melhoramento de gado de leite (Hayes et al., 2009; Van Raden, 2008;
VanRaden et al., 2009), de corte (Ferraz e Rezende, 2011), de aves (Gonzales-Recio et
al., 2009), de plantas anuais (Heffner et al., 2009) e de espcies florestais (Resende et
al. 2008; Grattapaglia e Resende, 2011).
Atualmente resultados prticos j existem para eucalipto (Resende et al., 2012),
pinus (Resende Jnior et al., 2012), sunos (Rocha et al., 2012; Azevedo et al., 2012),
milho (Fritsche Neto et al., 2012) e caju (Cavalcanti et al., 2012). Acredita-se que a
GWS propiciar um impacto positivo nos mtodos de seleo e nas estratgias de
melhoramento de plantas e animais. No entanto, preciso adquirir experincia
prtica com a GWS, visando inferir sobre sua efetividade.
2.2 Anlise de Ligao (LA) e Anlise de Desequilbrio de Ligao (LDA)

A quantidade de material gentico herdvel de um indivduo finita e referese ao tamanho do genoma. Em humanos, o genoma composto de cerca de 35 mil
genes (Ewing e Green, 2000). Assim, um nmero finito de genes deve controlar cada
um dos caracteres quantitativos e isso torna possvel a avaliao de todos os locos
associados ao controle gentico de um carter.
Existem basicamente trs abordagens para a descoberta de um QTL: (i)
abordagem de genes candidatos; (ii) abordagem de mapeamento via anlise de
ligao ou linkage analysis (LA); (iii) abordagem de mapeamento via anlise de
desequilbrio de ligao ou linkage disequilibrium analysis (LDA). A estratgia de genes

85

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

candidatos considera que um gene envolvido na fisiologia do carter abriga uma


mutao causadora de variao no carter. Esse gene ento seqenciado em
diferentes indivduos e as variaes encontradas nas seqncias de DNA so
avaliadas em termos de associao com variaes encontradas nos fentipos do
carter (Anderson e Georges, 2004). Essa abordagem apresenta problemas tais quais
o grande nmero possvel de genes candidatos e a possibilidade de que a mutao
causadora da variao esteja em um gene no tomado a priori como candidato.
As abordagens de mapeamento visam identificar regies cromossmicas
associadas a variaes fenotpicas nos caracteres de interesse, e assumem que os
genes no so conhecidos mas apenas marcados por genes de efeitos nulos. Baseiamse ento em associaes entre alelos dos genes marcadores e variaes nos caracteres
quantitativos. Um marcador molecular de DNA uma regio fsica identificvel no
cromossomo cuja herana pode ser monitorada e que geralmente no apresenta
funo codificadora.
Um marcador considerado informativo quando se pode determinar sem erro,
qual alelo parental foi transmitido para a prognie. Assim, se um genitor genotipado
homozigoto para o marcador, este no ser informativo em qualquer dos indivduos
da prognie, pois no ser possvel determinar qual alelo parental foi transmitido.
Mesmo se ambos, genitor e prognie, so heterozigotos, o marcador pode ainda ser
no informativo. Se somente um genitor genotipado, e a prognie tem o mesmo
gentipo que seu genitor, a prognie pode ter recebido determinado alelo do pai ou da
me. A freqncia esperada de indivduos para os quais a origem do alelo pode ser
determinada ser 1 (p + q)/2, em que p e q so as freqncias dos dois alelos
marcadores parentais. Assim, se somente dois alelos marcadores esto presentes na
populao, metade dos filhos tero o mesmo gentipo que o genitor. Para locos
multi-allicos como os microssatlites, (p + q) pode ser muito menor do que 1
(Weller, 2001).
A estratgia da anlise de ligao (LA) considera apenas o desequilbrio de
ligao que existe dentro de famlias ou cruzamentos, que estende-se por dezenas de
cM e quebrado por recombinao aps algumas poucas geraes. Essa abordagem
usa um limitado nmero de marcadores por cromossomo e, ento, devido
recombinao entre distantes marcador e QTL, a associao entre marcadores e
QTLs permanecer apenas dentro de famlias e por um limitado nmero de geraes.
Essa estratgia conduz ao mapeamento de QTL em um grande intervalo de
confiana no cromossomo, exceto se um enorme nmero de indivduos por famlia
for usado. A frmula de Darvasi e Soller (1997) pode ilustrar isso. No caso de um
mapa gentico de alta densidade, o intervalo de confiana (IC) dado por IC =
3000/(kns2), em que k o nmero de genitores informativos por indivduo (1 para
famlias de meios irmos e 2 para famlias de irmos germanos e populaes F2), n o
nmero de indivduos genotipados, s o efeito de substituio allica associado ao
alelo favorvel do QTL e 3.000 cM o tamanho do genoma de gado bovino (nessa
espcie cada cM contempla aproximadamente 8 genes).
Com base nessa expresso e considerando um QTL segregante com s igual a 0,5
desvios padres residuais, em uma famlia de meios irmos de 1,000 indivduos, tem

86

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

se que o IC a 95 % de probabilidade ser de 12 cM. Os reflexos desse grande IC so:


(i) se o objetivo for a adoo da abordagem de genes candidatos dentro desse
intervalo, um grande nmero de genes deve ser seqenciado e estudado (80 genes
considerando um total de 20 mil genes em um genoma de 3.000 cM); (ii) se o objetivo
for a MAS, a ligao entre marcador e QTL no suficientemente prxima para
garantir que a associao marcador-QTL persista atravs de toda uma populao e,
nesse caso, a fase de ligao marcador-QTL dentro de cada famlia deve ser
estabelecida para aplicao da MAS (Hayes, 2008). Por exemplo, um indivduo da
populao poder apresentar o alelo M do marcador associado ao alelo favorvel do
QTL e outro indivduo, da mesma populao, mas de famlia diferente, poder
apresentar o alelo m do marcador associado a esse mesmo alelo favorvel do QTL.
A abordagem LA baseia-se na associao entre alelos do marcador e classes
fenotpicas do QTL e foi muito usada at recentemente devido ao fato de que o
nmero de marcadores identificados nas vrias espcies era baixo e o custo de
genotipagem muito alto. Com o recente advento dos marcadores SNPs, os quais so
em grande nmero e baratos, uma alta densidade de marcadores no genoma tornouse possvel e a marcao prxima dos prprios QTLs tambm. Nesse caso, a adoo
da abordagem LDA tornou-se possvel e vantajosa sobre a LA.
A estratgia LDA baseia-se no desequilbrio de ligao entre marcador e QTL
na populao inteira e no apenas dentro de famlia como na LA. Para que isso
ocorra, marcador e QTL devem estar em ligao muito prxima. E, nesse caso, a
associao entre eles uma propriedade da populao inteira e persistir por um
grande nmero de geraes.
Meuwissen e Goddard (2000) revelaram que o intervalo de confiana poderia
ser reduzido para 1 cM pela aplicao do mapeamento via LDA. Se o polimorfismo
de um QTL devido a uma mutao recente ou devido a uma recente introduo de
uma outra populao, ento torna-se possvel detectar LD em nvel populacional
entre QTL e genes marcadores proximamente ligados. Quanto mais perto o
marcador do QTL, maior ser o desequilbrio de ligao. O intervalo de confiana
pode ser reduzido ainda mais pela combinao das estratgias de anlise LA e LDA e
por uma anlise multi-caracterstica (Meuwissen e Goddard, 2004).
A anlise de associao usada no mapeamento fino e fundamenta-se no
desequilbrio de ligao em nvel populacional. A associao pode ocorrer em duas
situaes: (i) devida ao efeito direto do gene em uma caracterstica; (ii) devida ao
desequilbrio de ligao entre o marcador e o gene que controla a caracterstica. No
primeiro caso, o efeito do gene medido diretamente e o marcador funcional. No
segundo caso, o teste de associao requer o desequilbrio de ligaco entre o marcador
e o QTL. Quando uma mutao ocorre no cromossomo, forma-se uma combinao
haplotpica com os locos adjascentes no cromossomo. Na gerao seguinte existe a
tendncia de que essa mutao ocorra no mesmo hapltipo original, a menos que
ocorra recombinao. Isso caracteriza o desequilbrio de ligao usado no
mapeamento de associao.

87

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

88

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

3 Anlise de QTL e da Expresso Gnica


3.1 Mtodos de Anlise de QTL

QTL (quantitative trait loci) so locos ou segmentos cromossmicos que


governam as caractersticas quantitativas, mas essa definio refere-se apenas a uma
associao estatstica entre uma regio do genoma e um carter fenotpico.
Marcadores genticos em ligao prxima com QTL so usados para mapea-los e
tambm para a seleo auxiliada por marcadores (MAS) em conjunto com
informaes fenotpicas. A disponibilidade de marcadores moleculares foi
aumentada recentemente com o advento dos microssatlites, dos SNPs e dos DArTs
e os genes a eles ligados podem ser mapeados em grupos de ligao.
Os procedimentos de mapeamento so baseados no desequilbrio de ligao
entre alelos de diferentes genes. Mapas de ligao entre marcadores polimrficos
cobrindo todo o genoma so necessrios no mapeamento de QTLs. Tais mapas esto
agora disponveis para um grande nmero de organismos e informaes desses
mapas juntamente com medidas fenotpicas obtidas de acordo com algum
delineamento de cruzamento e experimental so usados para mapear e estimar
efeitos de QTLs. O mapeamento de QTLs envolve a deteco, localizao
(determinao da posio) e estimao dos efeitos de QTLs.
Diferentes abordagens estatsticas so usadas no mapeamento de QTLs,
dependendo da estrutura da populao de mapeamento e do nmero (densidade) e
tipo de marcadores usados. Com limitado nmero de marcadores por cromossomo e
desequilbrio de ligao apenas dentro de famlias ou cruzamentos, a estratgia da
anlise de ligao (LA) deve ser usada. Com grande nmero e alta densidade de
marcadores no genoma torna-se possvel a marcao mais prxima dos QTLs e a
abordagem LDA (anlise de desequilbrio de ligao) deve ser usada. Nesse caso, a
LDA tornou-se possvel e vantajosa sobre a LA.
Para a LA, em plantas anuais, cruzamentos entre linhagens endogmicas so
geralmente realizados e anlises so conduzidas nas populaes das geraes F2, F3,
retrocruzamentos e de haplides duplicados. Em plantas perenes tais quais espcies
florestais, fruteiras, forrageiras e cana-de-acar, famlias de irmos completos ou
grandes famlias de meios irmos, obtidas do cruzamento entre indivduos
heterozigotos, so usadas. Em humanos e em animais domsticos, alm das referidas
famlias, populaes associadas a pedigrees complexos e multi-geraes so tambm
usados nos estudos de QTLs. Em cada caso, as referidas populaes so fenotipadas e
pelo menos as populaes e os genitores so genotipados, ou seja, a genotipagem
envolve pelo menos duas geraes.
O mapeamento de QTL envolve quatro etapas: escolha da populao de
mapeamento; obteno dos dados de marcadores em cada individuo; obteno dos
dados fenotpicos em cada individuo; aplicao de mtodos estatsticos na analise
simultnea dos dados fenotpicos e de marcadores. Indivduos pertencentes a essas
populaes de mapeamento so genotipados para um nmero de marcadores
moleculares distribudos a intervalos regulares no genoma e avaliados para os

89

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

caracteres quantitativos de interesse. Se existirem diferenas significativas nas


mdias fenotpicas entre classes genotpicas de um marcador, pode-se inferir que
existe um QTL ligado quele marcador. A associao entre QTL e marcador pode ser
avaliada usando um, dois ou vrios marcadores simultaneamente.
Dentre os mtodos gerais de anlise e mapeamento de QTLs destacam-se: (i)
a anlise de marcas nicas (um marcador de cada vez), que til quando o objetivo
somente a deteco de QTL ligado ao marcador, mas no a estimao da posio e
dos efeitos do QTL; (ii) o mapeamento por intervalo simples, proposto por Lander e
Botstein (1989), que considera marcadores adjacentes e ento propicia um aumento
no poder de deteco e estimativas mais precisas da posio e efeitos dos QTLs; (iii)
o mapeamento por intervalo composto apresentado por Zeng (1994), que considera
vrios marcadores simultaneamente e uma abordagem ainda melhor quando
mltiplos QTLs esto ligados no intervalo ou marcadores considerados; (iv)
mapeamento por intervalos mltiplos, que considera vrios QTLs simultaneamente
e permite incluir os efeitos epistticos no modelo.
Os mtodos baseados em intervalo so superiores pois a anlise de marcas
simples apresenta duas grandes limitaes: (i) o confundimento dos efeitos de um
QTL com os de outros QTLs que influenciam o mesmo carter; (ii) a no distino
entre um QTL de grande efeito mas em ligao distante com o marcador, de um
QTL de pequeno efeito mas em ligao prxima com o marcador. Por essa
abordagem, a localizao do QTL em relao ao marcador no pode ser determinada
pois a frequncia de recombinao confundida com o efeito gentico. Os mtodos
de mapeamento por intervalo demandam mapas de ligao entre marcadores
polimrficos cobrindo todo o genoma e permitem a verificao da presena de QTL
em cada intervalo, determinado por dois marcadores flanqueadores. Para que um
QTL se separe de dois marcadores flanqueadores so necessrios dois eventos de
recombinao, fato que mais raro. Assim, o uso do intervalo conduz a melhores
resultados.
Quanto aos mtodos de estimao, a anlise de marcas nicas pode ser feita
usando mtodos estatsticos comuns tais quais a estatstica t de Student, regresso
linear simples, anlise de varincia e mxima verossimilhana (LOD escore). Para a
anlise de QTL baseada em dois marcadores flanqueadores (mapeamento por
intervalo), os principais mtodos usados so o mtodo de regresso proposto por
Haley e Knott (1992) e o mtodo de mxima verossimilhana proposto por Lander e
Botstein (1989).
Se um marcador apresenta um efeito significativo sobre um QTL, a diferena
entre as mdias das classes dos gentipos marcadores para o referido carter um
estimador viciado do efeito do QTL, devido possvel recombinao entre o
marcador e o QTL. Weller (1986) mostrou que o mtodo de mxima verossimilhana
poderia ser usado para obter estimativas da posio e efeito do QTL no viciadas pela
recombinao.

90

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O mapeamento por intervalo composto usa vrios marcadores


simultaneamente e tambm ambos os mtodos, mxima verossimilhana e regresso.
A seleo de marcadores a serem includos na regresso baseada nos procedimentos
stepwise. Outro mtodo a mxima verossimilhana residual (REML) baseada em
um modelo linear misto incorporando efeitos allicos do QTL com distribuio
normal e com uma matriz de covarincia condicional aos dados observados dos
marcadores. Mtodos bayesianos so tambm usados.
As abordagens estatsticas para anlise de QTL diferem em relao s
suposies de efeitos fixos ou aleatrios de QTL. Alguns mtodos assumem o QTL
como efeito fixo e com nmero finito de alelos (geralmente 2). Outros o assumem
como efeito aleatrio com um infinito nmero de alelos. Os mtodos estatsticos que
tratam o QTL com nmero finito de alelos variam desde modelos simples de
regresso (Knott et al., 1996) a abordagens Bayesianas. Os modelos estatsticos de
efeitos fixos so misturas de distribuies, em que o nmero de densidades
componentes determinado pelo nmero de gentipos do QTL. As suposies
relativas ao nmero de alelos segregantes tem um grande efeito na formulao do
modelo estatstico (George et al., 2000). Modelos de efeitos aleatrios, baseados na
simples premissa de que indivduos com fentipos parecidos provavelmente
compartilham alelos idnticos por descendncia, oferecem uma abordagem menos
parametrizada para o mapeamento.
Weller (2001) relata a simulao de um genoma com 100 locos e o uso dos 20
com maiores efeitos em um programa de seleo assistida por marcadores. O ganho
com seleo mostrou-se o dobro quando os efeitos de QTL foram tratados como
aleatrios, em relao situao em que foram tratados como fixos. Embora os
modelos aleatrios assumam um nmero infinito de possveis alelos do QTL, as
estimativas das varincias dos QTLs so robustas desvios dessa suposio e
estimativas fidedignas podem ser obtidas mesmo quando apenas dois alelos por QTL
so simulados.
Antes da anlise de QTL propriamente dita, uma anlise criteriosa dos
marcadores deve ser realizada. Assim, deve ser realizada uma anlise de segregao
de marcas, verificando se a proporo de segregao esperada (3:1 em F2 e 1:1 em
retrocruzamentos, por exemplo) se concretiza. Nesse caso, verifica-se se existe
distoro de segregao e, em caso positivo, esses marcadores devem ser descartados
da subseqente anlise de QTL. Tambm, os dados fenotpicos devem ser analisados
previamente quanto normalidade. Assim, os seguintes passos devem ser adotados
em um estudo de QTL: avaliao de uma populao segregante para o carter; anlise
de DNA por uma tcnica de marcadores (microssatlites ou SNPs); anlise de
segregao de marcas; anlise de QTL ou de co-segregao entre marcador e QTL. A
anlise de co-segregao permite o estabelecimento de grupos de ligao de acordo
com a porcentagem de recombinao entre os vrios locos.
Em um procedimento de mapeamento de QTL, inicialmente, anlises de
marcadores nicos so realizadas por meio de mtodos estatsticos simples como a
ANOVA, a ANOVA no paramtrica de Kruskal-Wallis, a estatstica t de Student,
a regresso linear simples, a mxima verossimilhana (LOD score). Estes

91

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

procedimentos permitem a deteco de associao entre os marcadores e o carter de


interesse, sem usar informao de mapa gentico. Isto feito para cada marcador,
contrastando as observaes fenotpicas entre as classes de cada marcador. Tais
classes so tomadas como se fossem tratamentos a serem comparados.
Posteriormente, o mapeamento por intervalo (Lander e Botstein, 1989), considerando
dois marcadores, pode ser feito visando seleo de marcadores a serem usados como
potenciais cofatores em uma anlise de regresso mltipla do tipo stepwise. Tambm,
o mapeamento por intervalo composto pode ser efetuado quando mltiplos QTLs
esto ligados ao intervalo ou marcador considerados.
Em geral, os procedimentos de mapeamento tm usado diretamente os dados
de campo para anlise. Tais dados, em conjunto com a informao molecular so
usados nos softwares padres para mapeamento de QTL tais quais o MapMaker-QTL
(Lander e Botstein, 1989). Ou seja, no so rotineiramente usados valores genticos
preditos aps a eliminao dos efeitos ambientais. Entretanto, recomendvel que o
mapeamento seja baseado em valores genticos preditos sob um modelo que
contemple tambm os efeitos ambientais de escala global (locais, blocos), os efeitos
ambientais de escala localizada (resduo correlacionado ou espacial) e os efeitos de
competio (se houverem). Tambm, em caso de experimentos envolvendo
mltiplos locais, os efeitos da interao gentipo x ambiente devem tambm ser
includos no modelo.
No entanto, o procedimento ideal refere-se incluso simultnea dos efeitos
dos marcadores no modelo de predio dos valores genticos, de forma que o
mapeamento seja realizado simultaneamente predio. A superioridade dessa
abordagem foi comprovada por Moreau et al. (1999) no contexto da anlise espacial
de experimentos. Este procedimento superior devido ao fato de que os valores ou
efeitos genticos so preditos com diferentes precises e tambm podem ser
correlacionados devido predio. Essas diferentes precises e a correlao no so
levadas em considerao quando no se adota a anlise simultnea.
O ajuste dos dados fenotpicos antes da anlise de QTL, visando eliminar
efeitos ambientais desejvel. No entanto, no devem ser usados valores genticos
preditos sob o modelo gentico polignico infinitesimal. Podem ser usados valores
genotpicos totais preditos. O uso do modelo infinitesimal supe a ausncia de QTL
de grande efeito, que exatamente o que se procura com a anlise de QTL. E a
consequncia principal do uso do modelo infinitesimal o incorreto uso da
informao referente segregao mendeliana, por ocasio da composio da matriz
de parentesco. Maiores detalhes so apresentados no captulo sobre GWS.
Mas relevante enfatizar a necessidade de correo para os efeitos
ambientais antes ou durante a anlise de QTL. Com a correo h uma reduo na
amplitude de variao da populao de mapeamento e torna-se mais difcil a deteco
de QTL. Mas os resultados so mais realistas. Sem a correo para os efeitos
ambientais, muitas vezes esses so mapeados como se fossem QTLs.

92

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

3.2 Anlise de QTL como Efeito Aleatrio via Modelos Lineares Mistos

O tradicional mapeamento de QTL baseia-se em anlise de ligao, sendo que


existem duas estratgias principais de modelagem: (i) tratamento dos efeitos de QTL
como fixos e designao das origens dos alelos a cada fundador; (ii) tratamento dos
efeitos de QTL como aleatrios e cmputo das matrizes de covarincia IBD,
condicionais informao de marcadores. Perez-Enciso e Varona (2000)
demonstraram que ambas abordagens so os extremos de uma modelagem genrica
de modelos mistos. A opo de QTL como efeito fixo apropriada quando a origem
dos alelos pode ser identificada e o seu nmero pequeno, como no cruzamento entre
linhagens endogmicas. A abordagem de QTL como efeito aleatrio mais flexvel e
encaixa na metodologia de modelos mistos, a qual apresenta inmeras vantagens.
Assumindo QTLs como efeitos aleatrios, a significncia dos efeitos dos
locos marcados pode ser testada por meio do REMLRT no contexto dos modelos
lineares mistos. Um modelo incluindo o efeito do suposto QTL, os efeitos
polignicos residuais (g*), os efeitos ambientais identificveis (b) e os efeitos
ambientais residuais da forma y Xb Qq Zg * e , em que q um vetor de efeitos
genticos associados ao QTL marcado, com distribuio q ~ N (0, Gq q2 ) , em que q2
a varincia gentica do QTL marcado e Gq a matriz de covarincia para q,
condicional informao do marcador. Todos os efeitos aleatrios so assumidos
como no correlacionados e com distribuio normal multivariada, conforme a
seguir: g ~ N (0, A g2 ) , q ~ N (0, Gq q2 ) e e ~ N (0, R e2 ) , em que g2 a varincia gentica
aditiva polignica, e2 a varincia residual, R uma matriz diagonal conhecida e A
a matriz dos numeradores do coeficiente de parentesco gentico aditivo de Wright.
X e Z so as matrizes de incidncia para os respectivos efeitos especificados. Para
indivduos no endgamos, G representa a proporo de alelos idnticos por
descendncia no QTL marcado.
Quando se assume que nenhum QTL marcado est segregando na populao, o
modelo misto da forma y Xb Zg e , o qual hierrquico ao anterior. Assim, a
presena de um QTL em uma particular posio no cromossomo pode ser testada
pelo REMLRT envolvendo estes dois modelos. Estes modelos podem ser estendidos
pela incorporao de efeitos espaciais, competio e interao gentipo x ambiente.
Esses modelos podem ser ajustados no software ASREML desde que a matriz G seja
informada pelo usurio.
Outro eficiente mtodo de anlise de QTL foi apresentado por Gilmour
(2007). denominado mapeamento via regresso sob modelos mistos (MMRM) e
adequado para populaes de retrocruzamento e F2. Relaciona-se ao mapeamento por
intervalo e por intervalo composto, mas difere no sentido em que se testa a presena
de QTLs em cada grupo de ligao, antes de fazer a regresso. Para isso, o mtodo
MMRM inicialmente ajusta todos os marcadores como efeitos aleatrios com
varincia comum dentro de cada grupo de ligao. A significncia dos efeitos dos
marcadores avaliada via REMLRT e, se existir um componente de varincia
significativo associado com um grupo de ligao, a anlise de QTL via regresso
prossegue.

93

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

3.3 Anlise de QTL em Famlias de Irmos Germanos

O mapeamento de QTL em famlias de irmos germanos comum em plantas


perenes, animais e humanos. Um mtodo que tem sido aplicado nessas espcies a
anlise por intervalo simples por meio da regresso de pares de irmos. Esse mtodo
foi apresentado por Fulker e Cardon (1994) e deriva do mtodo de Haseman e Elston
(1972). O mtodo de Haseman e Elston fundamentado na regresso linear dos
quadrados das diferenas fenotpicas entre dois irmos dentro de uma famlia, em
funo da proporo de genes idnticos por descendncia (IBD) compartilhados
entre eles, ou seja, entre pares de indivduos que possuem o mesmo QTL marcado.
Esse mtodo tem a limitao de confundir o efeito gentico do QTL com a taxa de
recombinao entre o QTL e o marcador. O mtodo de Fulker e Cardon foi
desenvolvido visando isolar a varincia do QTL da taxa de recombinao, bem como
localizar o QTL no cromossomo. uma extenso do mtodo de Haseman e Elston e
trata-se de procedimento de mapeamento por intervalo, apresentando maior poder.
Tal procedimento utiliza dois marcadores flanqueando o QTL para estimar
separadamente a posio e o efeito do QTL sobre o carter.
O mtodo da regresso de pares de irmos baseia-se na similaridade entre
indivduos aparentados. O seguinte modelo pode ser especificado:
y Xb Zg q e , em que y o vetor de dados fenotpicos, b o vetor de efeitos
ambientais identificveis (efeitos fixos), g o vetor dos efeitos genticos devidos aos
poligenes, q o efeito gentico devido ao QTL e e o efeito ambiental residual. X e Z
so matrizes de incidncia que associam b e g aos dados fenotpicos. Os efeitos g so
considerados aleatrios e o efeito do QTL pode ser considerado como fixo ou
aleatrio.
O componente polignico g dependente do parentesco gentico entre os
indivduos em avaliao e o componente do QTL depende da proporo de alelos
idnticos por descendncia (IBD) entre pares de indivduos que possuem o mesmo
QTL. O componente polignico est associado a muitos genes de pequenos efeitos, e
assumido que a mdia (sobre os vrios poligenes) da proporo de alelos IBD entre
dois indivduos equivalente ao parentesco gentico mdio entre dois irmos. No
caso do QTL, a proporo IBD varia entre pares de irmos e estimada atravs dos
gentipos observados nos locos dos marcadores. Logicamente, a proporo de alelos
IBD do QTL no observada diretamente. Os IBDs do QTL so avaliados em cada
segregao em nvel individual e no em nvel mdio, permitindo conhecer
exatamente cada segregao.
A proporo m de alelos IBD entre irmos em um loco marcador informativo
pode ser 0; 0,5 ou 1, quando os indivduos tem 0; 1 ou 2 alelos parentais em comum,
respectivamente. De acordo com Haseman e Elston (1972), o cmputo de m pode
ser dado por m f 2 (1 / 2 ) f 1 , em que fi a probabilidade de que dois indivduos
possuam i (= 0, 1 ou 2) alelos IBD, ou seja, alelos que so cpia de um mesmo alelo
ancestral. Essas probabilidades so dadas pela anlise dos gentipos marcadores
observados nos irmos e em seus pais. Um par de irmos completos pode possuir

94

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

zero, um ou dois alelos IBD com probabilidades (1/4), (1/2) e (1/4), respectivamente.
Assim, nesse caso, m f 2 (1 / 2 ) f 1 (1 / 4 ) (1 / 2 )(1 / 2 ) 1 / 2 .
Fulker e Cardon (1994) apresentaram uma expresso para o cmputo da mdia
condicional da proporo de alelos IBD do QTL como funo linear dos m nos dois
marcadores
de
um
intervalo.
Essa
expresso

dada
por
,
em
que
e
so
as
propores
IBD
para
os

q E [ q m 1 m 2 ] 1 m 1 2 m 2
m1
m2
dois marcadores. Os
equaes: Cov ( m1 , q )
Cov ( m 2 , q )

valores

Var ( m 1 )
Cov ( , )
m1
m2

de

so

dados

pelo

sistema

de

Cov ( m1 , m 2 ) 1 .
Var ( m 2 ) 2

Define-se r12 , r1q e rq 2 como as taxas de recombinao entre os dois


marcadores, entre marcador 1 e QTL e entre marcador 2 e QTL, respectivamente.
Var ( mi ) 1 / 8 ,
Para
irmos
germanos,
tm-se
as
equivalncias
Cov ( i , j ) (1 2rij ) 2 / 8 e m (1 / 2 ) . Resolvendo-se o sistema matricial, obtm-se

os estimadores de para famlias de irmos completos:


1 [(1 2 r1q ) 2 (1 2 rq 2 ) 2 (1 2 r12 ) 2 ] /[1 (1 2 r12 ) 4

2 [(1 2 rq 2 ) 2 (1 2 r1q ) 2 (1 2 r12 ) 2 ] /[1 (1 2 r12 ) 4 .

O componente dado por (1 1 2 ) / 2 . De posse das estimativas de e


, obtm-se a proporo IBD ( m ) para o QTL. Essa proporo depende
essencialmente da frao de recombinao entre os locos. As freqncias de
recombinao podem ser computadas a partir da freqncia gamtica de cada genitor
ou a partir da freqncia genotpica da prognie. Informaes multilocos entre pares
de marcas adjacentes so usadas na estimao.
O algoritmo proposto por Fulker e Cardon (1994) atua da seguinte forma: (i) para
qualquer intervalo entre dois marcadores flanqueadores, divida o intervalo 12 em N
intervalos de 1 e 2 tal que 12 1 2 ; (ii) converta os valores de em rij , usando
para isso uma funo de mapeamento como a de Haldane; (iii) estime q usando as
expresses para e ; (iv) regresse os quadrados das diferenas fenotpicas entre dois
irmos dentro de uma famlia nas N estimativas q ; (v) selecione o coeficiente de
regresso q que corresponde mnima soma de quadrados dos resduos e calcule

q2 (via , conforme relao apresentada abaixo), a estatstica t para e


obtenha a localizao do QTL. Cruz et al. (2009) apresentam detalhes desse mtodo.
q

Segundo o modelo y Xb Zg q e , tem-se que Var ( y ) g2 q2 e2 e a


covarincia entre pares de irmos dada por Cov (Yij , Yij ) (1 / 2 ) g2 q q2 , onde q
substitudo por q . No caso, a varincia aditiva contribuda por todos os locos
equivale a a2 g2 q2 .

95

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A anlise de famlias de irmos germanos pode basear-se tambm em ANOVA


(Lynch e Walsh, 1998), por meio do quadrado mdio entre classes de gentipos dos
marcadores e cmputo de uma estatstica F (razo entre o referido quadrado mdio e
a varincia residual) para cada loco marcador por vez. Dessa forma, possvel
estimar o efeito de substituio allica para cada genitor, ou seja, para o feminino e
masculino, que representam duas populaes distintas quando o cruzamento
completamente informativo (do tipo MiMj x MkMl, conforme Tabela 19). Pode-se
tambm estimar a varincia gentica total associada com o marcador. A ANOVA
ter duas fontes de informao: (i) entre gentipos marcadores (MiMk, MiMl, MjMk
e MjMl, com 3 graus de liberdade para o caso de cruzamento completamente
informativo); (ii) resduo.
Tabela 19. Constituio genotpica dos genitores e nvel de informatividade
Tipo de Cruzamento
Constituio
Grau de Informao
Genotpica

Proporo de
Segregao

Cruzamento
entre F1
Divergentes

MiMj x MkMl

Toda a prognie
informativa para ambos
os genitores

1:1:1:1

Retrocruzamento

MiMj x MkMk

A prognie informativa
somente para o genitor
heterozigoto

1:1

Cruzamento
entre F1 Idnticos
(Gerao de F2)

MiMj x MiMj

Somente indivduos
homozigotos da prognie
so informativos

1:2:1

Quando vrias famlias existem, pode-se tambm realizar uma ANOVA com
efeito de marcador hierrquico dentro de cada famlia. A ANOVA ter trs fontes de
informao: (i) entre famlias (com f-1 graus de liberdade); (ii) entre gentipos
marcadores (com 3f graus de liberdade para o caso de cruzamento completamente
informativo); (iii) resduo.
Contrastes de mdias para os efeitos allicos dentro de cada genitor da famlia
de irmos completos podem ser realizados. Para o genitor MiMj a diferena entre a
mdia fenotpica dos indivduos com o alelo Mi no loco marcador e a mdia
fenotpica dos indivduos com o alelo Mj fornece a seguinte quantidade Mif Mjf =
(1-2r) (ai aj), em ausncia de dominncia. As quantidades r, ai e aj referem-se taxa
de recombinao, efeito mdio do alelo i e efeito mdio do alelo j, respectivamente.
Com ligao completa entre o loco do QTL (Q) e o loco do marcador (M) tem-se r =
0 e a quantidade aij = (ai aj) fornece o efeito mdio de substituio gnica. Esse
efeito refere-se conseqncia mdia de se substituir o alelo Qj por Qi no
heterozigoto QiQj (tornando-o QiQi) e no homozigoto QjQj (tornando-o QiQj). De
maneira similar, pode-se obter a quantidade akl = (ak al), que fornece o efeito mdio
de substituio gnica de Ql por Qk. Comparando-se aij com akl, pode-se inferir qual
dos quatro alelos mais favorvel. A Tabela 20 ilustra essa questo. Verifica-se que o
alelo mais favorvel Mi, seguido por Ml.

96

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Tabela 20. Efeitos allicos comparativos no cruzamento MiMj x MkMl, dados as mdias
fenotpicas.
Mdia Fenotpica
Mdia Fenotpica
Efeito do Alelo no
Diferena Allica
dos Alelos Mi e Mk
dos Alelos Mj e Ml
Genitor

Mi-Mj
Mk-Ml

17.7 (Mi)
14.5 (Mk)

12.03 (Mj)
15.64 (Ml)

5.67
-1.14

Mi: mdia de (MiMk + MiMl); Mj: mdia de (MjMk + MjMl); Mk: mdia de (MiMk + MjMk) ; Ml: mdia de (MiMl + MjMl).

3.4 Estimao da Herdabilidade via Parentesco Genmico

Conforme Lynch e Walsh (1998), o modelo para o valor fenotpico de um (j) dos
membros do par i de irmos completos dado por Yij u qij eij , em que q o
efeito aditivo do QTL e e o efeito residual, o qual inclui efeito ambiental e
polignico residual. A diferena entre efeitos residuais dos dois indivduos do par,
ei ei1 ei 2 , assumida com mdia zero e varincia e2 , e no correlacionada com
qi qi1 qi 2 . Constata-se que a diferena entre os valores fenotpicos dos irmos
desejvel pois, cancelam os efeitos de ambiente comum que afetam os membros da
famlia.
O quadrado da diferena entre os valores fenotpicos dos irmos tem valor
esperado dado por
E (Y j ) E [( qi1 qi 2 ei1 ei 2 ) 2 ]
E [( qi1 qi 2 ) 2 ] e2
2[ q2 ( qi1 , qi 2 )] e2

A expresso para a covarincia equivale a ( qi1 , qi 2 )] q2 q . A esperana de Y


condicional proporo de alelos IBD no QTL dada por
E (Yi q ) q ( 2 q2 e2 ) ( 2 q2 ) q em que a inclinao () da regresso tem
sinal negativo. Genericamente (r diferente de zero), considerando a frao de
recombinao entre marcador e QTL tem-se, conforme Haseman e Elston (1972):
2[1 2(1 r ) r ] q2 e2 e 2(1 2 r ) 2 q2 . Uma inclinao significativa propicia
evidncia de um QTL ligado ao marcador. E o poder do teste estatstico dependente
das magnitudes de r e de q2 . Em ausncia de dominncia, porm com ligao
incompleta, E ( ) 2(1 2 r ) 2 q2 .
Pelo mtodo de Fulker e Cardon, o coeficiente de regresso q relacionado
herdabilidade do loco e permite estim-la. A regresso dos quadrados das diferenas
fenotpicas entre dois irmos dentro de uma famlia na estimativa da proporo IBD
q obedece a seguinte equao: (Yi1 Yi 2 ) 2 q q , em que Yi1 e Yi 2 referem-se
aos fentipos dos indivduos 1 e 2 da famlia i. O coeficiente de regresso
proporcional varincia gentica aditiva contribuda pelo loco ( q2 ) e quando os
genitores so no endgamos e a ligao completa, em ausncia de dominncia,
equivale a 2 q2 , ou seja q2 / 2 .

97

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Assim, a herdabilidade aditiva do loco dada por haq2 /( 2 y2 ) , em que y2


a varincia fenotpica individual da populao (no apenas dentro da famlia de
irmos completos). Quando apenas a varincia fenotpica individual dentro de
2
famlia de irmos completos ( ydfic
) computada, a herdabilidade do QTL dentro de
famlia deve ser calculada como h 2 [(1 / 2 ) 2 ] / 2 /( 4 2 ) e a
aqd

ydfic

ydfic

herdabilidade
do
QTL
na
populao
deve
ser
calculada
como
h 2 2 /[ 2 (1 / 2 ) 2 ] ( / 2 ) /( 2 / 4 ) . Se a varincia fenotpica
aq
q
ydfic
q
ydfic
individual da populao for computada, a herdabilidade do QTL dentro de famlia
2
2
deve ser calculada por haqd
[(1 / 2 ) q2 ] /[ ydfic
(1 / 2 ) q2 ] ( / 4 ) /( y2 / 4 ) .
A herdabilidade de todo o carter (sobre todos os locos) pode ser calculada por
meio da regresso ( * ) dos quadrados das diferenas fenotpicas entre dois irmos
dentro de uma famlia na estimativa da proporo IBD ampla em todo o genoma.
Nesse caso, * 2 g2 e h 2 * /( 2 y2 ) . Maiores detalhes so apresentados por
Visscher et al. (2006) e Odegard e Meuwissen (2012).
Para a estimao de parmetros genticos tais como a herdabilidade, so
necessrias informaes fenotpicas e de parentesco entre os indivduos avaliados. As
anlises genticas de dados moleculares fornecem informaes sobre o parentesco
entre os indivduos. Resende (2008) apresenta estimadores para a herdabilidade
nestas condies.
Definindo Z ij

( yi y ) ( y j y )
Var ( y )

, como a similaridade fenotpica entre dois

indivduos na populao, em que yi e yj referem-se a observaes fenotpicas nos


indivduos i e j, y e Var (y) so relativos mdia e varincia do carter y na
populao, tem-se: Zi

2rij g2 eij

2
y

2rij h2

eij

y2

Malecot entre os indivduos i e j; h2


restrito; eij'
aditiva;

eij

2
y

g2
: herdabilidade individual no sentido
y2

: resduo devido aos efeitos ambientais; g2 : varincia gentica

Var ( y) .
2
y

, em que: rij: coeficiente de parentesco de

estimador

da

herdabilidade

dado

por

cov ( Zij , rij ) cov [(2 rij h2 eij ' ), rij ] 2 Var (rij ) h2
h2 cov ( Zij , rij ) /[2 Var(rij )] , pois h2

h2 .
2 Var (rij )
2 Var (rij )
2 Var (rij )

98

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

3.5 Funes de Mapeamento

Para a construo de um mapa de ligao preciso que os marcadores ou


genes sejam de herana simples. Os seguintes passos so adotados (Schuster e Cruz,
2004): (i) estimao da frequncia de recombinao (distncia) entre pares de
marcadores; (ii) agrupamento dos marcadores em diferentes grupos de ligao; (iii)
definio da ordem dos marcadores em cada grupo de ligao; (iv) estimao da
frequncia de recombinao multiponto entre marcadores adjacentes.
Genericamente, a frequncia de recombinao entre dois locos pode ser estimada
como a razo entre o nmero de indivduos com gametas recombinantes e o nmero
total de indivduos analisados. A frequncia de recombinao expressa tambm a
distncia entre os locos. A partir da verificao da existncia de ligao entre genes e
do clculo da distncia entre eles, os mesmos podem ser ordenados e classificados em
grupos de ligao.
A base do mapeamento decorrente do fato de que a probabilidade de
recombinao maior para locos mais distantes do que para locos prximos. Por
meio do conhecimento das frequncias de recombinao entre diversos locos de um
grupo de ligao, torna-se possvel a estimao da ordem desses locos no grupo de
ligao. Grupo de ligao definido como um conjunto de marcadores genticos que
possuem menos de 50% de recombinao entre marcadores consecutivos (Schuster e
Cruz, 2004). Alm dos mapas genticos, mapas fsicos podem ser construdos por
meio de tcnicas citogenticas, fragmentos de restrio e tambm pelo
sequenciamento do genoma. As informaes desses dois tipos de mapa so
fundamentais para a clonagem de genes. Nesse caso, o mapeamento fino
necessrio, visando a obteno de mapas genticos bastante saturados.
Para estimar a localizao de um novo loco no genoma, necessrio assumir
uma relao funcional entre frao de recombinao e distncia gentica entre pares
de locos. Essa distncia equivale ao nmero esperado de permutas que ocorre entre
esses dois locos por ocasio da meiose. Uma vez que essas esperanas matemticas
so aditivas, essa definio propicia uma medida estatstica aditiva de localizao. A
unidade de distncia gentica o Morgan, que refere-se distncia em que se espera
que ocorra uma permuta. A unidade de mapa de 1 cM equivale freqncia de
recombinao de 1%.
Quando dois locos so muito prximos, no mximo uma permuta pode
ocorrer entre eles e ento a distncia gentica equivale frao de recombinao.
Quando no mximo uma permuta pode ocorrer entre dois locos, tem-se o que
denominado interferncia completa ou positiva. A interferncia significa que uma
permuta interfere na formao de qualquer permuta adicional. Por outro lado, se as
permutas formam um processo Poisson ao longo do cromossomo, no h
interferncia, ou seja, a presena de uma permuta em um ponto qualquer no afeta a
presenca de uma permuta em qualquer outro ponto do cromossomo. Nesse caso, temse permutas independentes e interferncia nula.
Uma funo que relaciona a distncia gentica no mapa com a frequnciia de
recombinao denominada funo de mapa ou de mapeamento. As seguintes

99

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

funes de mapeamento foram propostas: (i) Haldane (1919) a qual assume


interferncia nula e amplamente usada porque a independncia condicional que ela
assume conduz a maior simplicidade computacional (mas no realstica); (ii)
Morgan (1928), que assume interferncia completa e uma aproximao realista para
o caso de pequenas fraes de recombinao; (iii) Kosambi (1944), que considera o
nvel de interferncia.
As funes de mapeamento convertem frequncias de recombinao dadas
em unidades de mapa (cM) em distncias entre genes. Visam tornar aditivas as
distncias entre pares de marcas. Sendo r a frequncia de recombinao e D a
distncia entre locos tem-se os seguintes estimadores ou funes de mapeamento:
(a) Haldane
DH = - 0,5 ln (1 2r): distncia de Haldane entre locos.
r (1 - e -2D H )/2 : frequncia de recombinao dada a distncia de Haldane.
(b) Kosambi
DK = - 0,25 ln [(1 + 2r)/(1 - 2r)]: distncia de Kosambi entre locos.
r 0,5[( e 4D K - 1)/( e 4D K 1)] : frequncia de recombinao dada a distncia de
Kosambi.
As funes de mapeamento de Kosambi e de Haldane so similares quando r
apresenta valor prximo a zero. Elas diferem a medida em que r aumenta. Por
exemplo, r = 0,30 corresponde s distncias de mapa de 46 cM e 35 cM pelos mtodos
de Haldane e de Kosambi, respectivamente (Bernardo, 2002).
Para a formao dos grupos de ligao necessrio definir um limite
mximo para a frequncia de recombinao entre dois marcadores e tambm um
limite mnimo para o LOD escore (logaritmo da razo de riscos), visando inferir que
os dois marcadores esto ligados. Geralmente, esses limites tem sido adotados como r
= 0,3 (ou 30 cM) e LOD = 3. Um LOD escore acima de 3 geralmente usado como
valor crtico, significando que a hiptese alternativa 1000 vezes mais provvel do
que a hiptese nula (hiptese de independncia entre locos). Esse critrio parece
muito severo. Entretanto, ele leva em considerao a probabilidade a priori de
ligao. Conforme Norton (1955), existe uma probabilidade razovel (5% em seres
humanos, em 23 pares de cromossomos) de que dois locos sejam ligados, devido ao
nmero finito de cromossomos. O LOD escore para um valor particular de
recombinao pode ser escrito como LOD-escore() = (N Nrec) log (1-) + Nrec
log() N log(0.5), onde N o nmero de indivduos na prognie e Nrec o nmero
de recombinantes.

100

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

3.6 Anlise da Expresso Gnica

Os estudos genmicos iniciaram-se com o mapeamento de QTLs por meio de


varredura genmica de baixa densidade. Posteriormente, a seleo assistida por
marcadores (MAS) foi proposta e implementada por meio de um modelo de herana
mista combinando o componente polignico com um componente devido a QTL de
grande efeito (Fernando e Grossman, 1989; Lande e Thompson, 1990). Com a
chegada dos marcadores SNP, tornou-se comum o mapeamento de associao,
implementado via varredura genmica de alta densidade, possibilitando o
mapeamento fino. Tambm, tornou-se possvel a seleo genmica (GS) ou seleo
genmica ampla (GWS), que superior MAS. A transcriptmica (ou
transcrissmica, referente expresso gnica) e a protemica surgiram tambm
como novas fontes de informao que podem ser usadas nos procedimentos de
avaliao gentica.
O termo Gentica Genmica foi criado por Jansen e Nap (2001) para designar o
estudo conjunto da variabilidade do transcriptoma e do polimorfismo de seqncias
de DNA. Nessa linha, dois enfoques so empregados: (i) determinao da
arquitetura gentica do transcriptoma, em forma de anlise de milhares de QTLs de
expresso (eQTL), onde os fentipos so nveis de cDNA (DNA complementar)
associados a cada gene; (ii) uso de dados de expresso gnica para a localizao de
genes candidatos. Para que essa ltima abordagem tenha sucesso, necessrio que os
nveis de expresso gnica estejam sob algum controle gentico e que alguns dos
nveis de expresso herdveis estejam correlacionados com o carter de interesse.
Perez-Enciso et al. (2003) relatam a combinao das informaes dos marcadores
moleculares e das expresses gnicas para o mapeamento de caractersticas
quantitativas.
Os dados de expresso referem-se transcrio (nveis de RNA mensageiro). A
tecnologia baseada em microarranjos usada para determinar a expresso diferencial
de genes, de todo o genoma, em amostras biolgicas de tecidos especficos.
Recentemente (Resende Jr., 2012), a tecnologia de sequenciamento em larga escala
tem sido utilizada como uma alternativa ao uso de microarranjos. Esta tcnica
conhecida como RNA-seq e baseia-se no sequenciamento de uma amostra de todos
os transcritos de um individuo em determinada condio e em determinado tecido. A
profundidade de leitura (depth) associada a cada transcrito correlacionada com o
nvel de expresso do gene em questo. Maiores detalhes sobre estas abordagens so
dados adiantes.
Os nveis de expresso gnica ou quantidades de RNAm detectados so ento
submetidos a anlise de correlao com caracteres quantitativos em indivduos de
uma populao segregante, visando deteco de QTL. Como exemplo, diferenas
na quantidade de RNAm produzida por plantas resistentes e suscetveis a uma
doena podem indicar que determinado RNAm est associado a um gene de
resistncia. O uso da quantidade de expresso gnica para a deteco de QTL mais
adequada para caracteres de resistncia a estresses causados por fatores abiticos
como seca e salinidade e, tambm, caracteres de resistncia doenas e pragas.

101

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Na Gentica Genmica, a associao entre nvel de RNA mensageiro e


polimorfismo de DNA, ao invs da associao entre fentipo e polimorfismo de
DNA, se justifica pela maior proximidade entre RNA e DNA do que entre fentipo
e DNA. Mas uma questo fundamental como fazer a ligao entre a expresso de
um QTL com o carter fenotpico de interesse. Mtodos diretos de anlise da funo
e expresso gnica so tambm essenciais para determinar se dois marcadores muito
prximos esto detectando o mesmo QTL ou dois QTLs muito prximos.
A combinao de dados genticos e de expresso gnica sobre todo o genoma tem
permitido entender a base gentica da expresso gnica. Nesse caso, os nveis de
RNAm so os dados fenotpicos, sujeitos a variaes devidas causas genticas e
ambientais. Neste caso, so identificados regies do genoma que controlam o nvel
de expresso dos genes estudados. Basicamente, a regulao do nvel de expresso e
dividida em duas classes, cis e trans. Caso o polimorfismo associado ao nvel de
expresso diferencial esteja muito prximo ao gene do qual o mRNA foi transcrito, a
regulao do tipo cis. Do contrrio, caso o marcador (e consequentemente o eQTL)
esteja mapeado em uma posio diferente da posio do transcrito, o gene regulado
em trans. Este ltimo tipo de regulao est normalmente associada a um fator de
transcrio que altera (ou ativa/desativa) o nvel de expresso do mRNA em questo
(Resende Jr., 2012). Estudos tm demonstrado grande variao gentica entre
gentipos quanto expresso gnica e estimativas significativas de herdabilidade
tm sido obtidas. Em humanos, a herdabilidade dos nveis de expresso gnica em
mdia igual a 30 %. Isto importante porque o poder estatstico para detectar
variantes genticos que afetam a expresso gnica depende da herdabilidade. Os
genes so expressos em funo de um estmulo ambiental.
Os dados de microarranjos (tambm referidos como slides ou lminas) de DNA
envolvem simultaneamente a expresso de milhares de genes em determinada idade
do indivduo e sob certas condies ambientais. Os procedimentos laboratoriais para
a produo desse tipo de dados envolvem a extrao de RNA mensageiro (mRNA),
transcrio reversa para a obteno do DNA complementar (cDNA), marcao
fluorescente e hibridizao do cDNA com sondas comerciais de DNA. A tcnica de
microarranjos propicia uma inferncia sobre o nvel de expresso gnica, via a
abundncia dos RNAs transcritos. Possibilita tambm, em alguns casos, a integrao
entre gentica e fisiologia, via determinao de redes (networks) entre conjuntos de
genes associados a caractersticas fisiolgicas. Uma desvantagem do uso de
microarranjos a necessidade de conhecimento prvio das sequencias de DNA para
desenvolvimento das sondas usadas na hibridizao. Assim, caso um transcrito no
seja previamente conhecido, no possvel construir uma sonda e assim a expresso
desse gene no ser detectada. No caso de RNA-seq, uma amostra de todos os
transcritos sequenciada, independente do conhecimento prvio da sequencia de
cada gene(Resende Jr., 2012).
A anlise de expresso gnica permite inferir sobre a funo dos genes e
possibilita a compreenso da expresso gnica diferencial entre tecidos, fases do
desenvolvimento, em respostas a estresses ambientais, e entre gentipos distintos. A
anlise desse tipo de dados tratada com detalhes na literatura (Kerr et al., 2000;
Wolfinger et al.; 2001; Tempelman, 2005; Rosa et al., 2007; Ayroles e Gibson, 2006).

102

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

No caso de microarranjos, dois tipos de plataforma de arranjos podem ser usadas: (i)
baseada em um sistema de duas cores, gerando duas amostras por arranjo (do tipo
spotted cDNA); (ii) baseada em um sistema de cor (dye) nica ou arranjo de canal
nico, gerando uma amostra por arranjo (do tipo Affymetrix). O sistema (i)
demanda delineamentos (em loop ou circulares, parcelas subdividas) e anlises mais
complexos, alm de um alto nvel de repeties tcnicas. Por outro lado, o sistema
(ii) permite mltiplas sondas por gene e apresenta uma tendncia de se usar menor
nmero de repeties. Tambm o delineamento mais simples e no existe amostra
de referncia.
Duas abordagens principais tm sido empregadas na experimentao com
arranjos de duas cores: (i) uma cor (verde = Cyanine 3 ou Cy3) reservada para a
amostra de referncia ou controle e outra cor (vermelha = Cyanine 5 ou Cy5) usada
para avaliar os tratamentos; (ii) as duas cores so usadas para avaliar tratamentos de
interesse. Na abordagem (i) a proporo Cy3/Cy5 entre as intensidades de
fluorescncia propicia uma medida de intensidade de expresso gnica. Essa
abordagem intuitiva e adequada em situaes em que existe um grande nmero de
tratamentos do mesmo fator com baixo nmero de repeties. A abordagem (ii)
requer delineamentos mais refinados para evitar o confundimento entre fatores
(lminas e amostras de cido nuclico). Os efeitos de corantes ou dye so
pronunciados e torna-se essencial que cada amostra seja representada por repeties
tcnicas de ambos dyes em iguais propores.
O delineamento em loop deve ser empregado quando o interesse contrastar as
contribuies de cada fator. O delineamento em parcela subdividida deve ser usado
quando o interesse reside no efeito de um fator atravs de amostras que incluem
efeitos de um outro fator de menor interesse. Para qualquer das duas abordagens (i e
ii) o efeito de arranjo deve ser ajustado como aleatrio, visando considerar o fato de
que as duas medidas em um mesmo arranjo so correlacionadas. Isso ajusta para o
efeito do ambiente comum de arranjo. O delineamento experimental guia a
formulao do modelo linear apropriado para a anlise. Cada lmina ou arranjo
anlogo a um bloco incompleto pois, contempla apenas dois dos vrios tratamentos.
Adicionalmente, cada lmina contm os efeitos de dois corantes e o delineamento
torna-se ento do tipo linha e coluna com dimenso 2 x s, em que s o nmero de
slides ou arranjos.
No caso de arranjos de canal nico o delineamento experimental simplificado e
no h necessidade de considerar os efeitos de arranjo e de dye, pois no h
confundimento uma vez que cada amostra hibridizada sobre um arranjo diferente e
medida independentemente. A amostra de referncia ou controle usada
exatamente para corrigir os dados para os efeitos de lmina. Nesse caso, o
delineamento do tipo blocos incompletos com tratamentos comuns. A comparao
entre tratamentos realizada de forma indireta, por meio da diferena entre
contrastes de cada tratamento e a referncia ou controle em cada lmina. Por outro
lado, nos delineamentos circulares, os efeitos comparativos de tratamentos so
estimados por meio de combinaes entre comparaes diretas (entre tratamentos
dentro de blocos ou lminas) e de comparaes indiretas (entre tratamentos entre
blocos ou lminas).

103

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

No caso do sequenciamento de cDNA (RNA-seq), os delineamentos


experimentais tendem a ser mais simples. Em geral, fatores ajustados no modelo so
os efeitos de diferentes canais (lanes), efeitos de diferentes corridas (flow-cell) e estes
so ajustados em um delineamento em blocos ao acaso (Auer e Doerge, 2010). A
expresso gnica quantificada normalmente pela normalizao da cobertura de
leitura e do tamanho da sequencia. O mtodo mais comum a normalizao em
nmero de leitura por quilobase (Kb) por milho de sequencias mapeadas
referencia (RPKM, do ingles Reads Per Kilobase of exon model per Million mapped
reads Mortazavi et al. 2008) (Resende Jr., 2012).
Em transcriptmica feita distino entre repetio tcnica e repetio biolgica.
Repetio tcnica refere-se a repetir hibridizao das mesmas amostras de RNA
originadas de uma mesma fonte biolgica comum. Assim, essas repeties no so
totalmente independentes uma da outra e so usadas para validar a acurcia das
medidas do nvel de transcritos e para modelar efeitos residuais como a variao
devida ao sequenciamento da mesma amostra em diferentes canais. Assim, no
propiciam informao sobre o nvel de variao na populao. De maneira similar,
sondas repetidas dentro de um arranjo so usadas para reduzir a necessidade de
repeties tcnicas por meio do aumento da confiana de medidas de abundncia de
transcritos para determinado gene alvo. Com os arranjos comerciais de alta
qualidade, os erros tcnicos so muito menores do que a varincia biolgica, de forma
que geralmente no h motivos para usar mais que duas repeties por amostra.
Repetio biolgica refere-se a repetir hibridizao de amostras de RNA
originadas de fontes biolgicas independentes sob as mesmas condies ou
tratamentos, tais quais amostras extradas de diferentes indivduos que receberam a
mesma dose de um tratamento ou mesmo duas rplicas de um mesmo gentipo de
uma planta. Essas rplicas objetivam propiciar informao sobre a variao biolgica
entre indivduos (Ayroles e Gibson, 2006). Quanto ao nmero de repeties a se
utilizar, Wolfinger et al. (2001) e Tempelman (2005) recomendam o uso de ao menos
quatro repeties tcnicas para cada repetio biolgica visando detectar 80% dos
genes expressos diferencialmente entre os grupos experimentais.
Os dados de intensidade de expresso em cada dye so inicialmente convertidos
para escala logartmica na base 2. A transformao log tem a vantagem de tornar os
dados mais prximos a uma distribuio normal e mais simtricos. Com dados
transformados na escala logartmica, componentes de mdia associados a modelos
lineares podem ser usados como procedimentos estatsticos adequados. Ou seja, no
h necessidade de se usar outras estatsticas, como a mediana. Sem a aplicao da
transformao logartmica o uso da estatstica mediana recomendado, pois essa
robusta a dados discrepantes (outliers). Aps limpeza (remoo de genes no
expressos, arranjos com baixa intensidade, etc) dos dados, os mesmos necessitam ser
normalizados visando remover efeitos globais de arranjos e corantes, os quais no
refletem variao gentica verdadeira dentro ou entre arranjos. Esses vieses resultam
de fatores tal qual a variao da quantidade de DNA colocada entre arranjos.
Mtodos de normalizao tal qual o LOWESS (regresso no-paramtrica robusta)
podem ser usados. Esse mtodo usa regresses locais para remover correlaes gerais

104

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

entre intensidade e proporo de intensidade. Outro procedimento a normalizao


de quantis ou quantlica, a qual realiza uma transformao no linear que produz
cada arranjo com iguais mdias, medianas e varincias, por meio da obteno da
intensidade mdia de cada quantil atravs dos arranjos.
No entanto, tal normalizao global pode remover artificialmente verdadeiras
diferenas biolgicas. Assim, modelos alternativos podem ser usados para remover os
efeitos de lminas e de corantes. Em outras palavras, a prpria modelagem desses
efeitos na anlise estatstica permite ajustar os dados para os mesmos. Wolfinger et
al. (2001) propuseram uma modelagem em duas etapas: (i) o primeiro modelo ajusta
os dados (transformados por log) para os efeitos globais (todos os genes
simultaneamente) de lmina ou arranjo (A), corantes ou dye (D) e sua interao
(AD) por meio do modelo Log2(y) = u + A + D + AD + Resduo(1); (ii) o segundo usa
o Resduo estimado pela modelagem anterior em um novo modelo de anlise
designado para genes especficos ou individuais. O primeiro modelo, designado para
uma normalizao global, expressa a intensidade de fluorescncia como desvios da
mdia geral e a segunda modelagem permite inferir se esses desvios diferem entre
fatores (tratamentos, etc) do modelo e para genes individuais.
O modelo gene-especfico de Wolfinger et al. (2001) dado por Residuo(1) = u +
A + D + AD + T + erro, em que T o fator de tratamentos e erro um vetor de erros
especfico para cada gene. Esse modelo ajustado separadamente para cada gene no
arranjo e, portanto, considera componentes de varincia especficos para cada gene.
Os efeitos A e AD devem ser ajustados como aleatrios e os efeitos do fator D como
efeitos fixos. Os efeitos do fator T devem ser tomados como fixos quando se
referirem a comparao de diferentes nveis de estresse aos quais determinado
gentipo submetido e tomados como aleatrios quando se referirem a mais de cinco
gentipos tomados de uma populao. Testes de significncia podem ser aplicados
aos fatores de efeitos fixos (F, Wald) e aleatrios (LRT ou anlise de deviance).
Uma alternativa a realizao da normalizao simultaneamente ao ajuste de
todos os demais fatores do modelo e tambm da avaliao de todos os efeitos de
genes individuais, conforme Kerr et al. (2000), por meio do modelo:
y ijkm u Ai D j ADij Gm AGim DG jm Tk TGkm eijkm , em que yijkm a
varivel abundncia de transcrio na escala log2 e eijkm um resduo comum a todos
os genes. Os efeitos de genes (G) e suas interaes devem ser considerados como
aleatrios. A interao de maior interesse TGkm que retrata o efeito do tratamento
k sobre o nvel de expresso do gene m. Modelos mais complexos, contemplando
nveis de variao biolgica (diferentes gentipos) podem tambm serem usados e
permitem a estimao de componentes de varincia e herdabilidade dos padres de
expresso gnica. Esse modelo relevante porque considera todos os efeitos
simultaneamente em uma nica anlise. No entanto, apresenta a desvantagem de
considerar uma varincia residual comum a todos os genes.
O uso do mtodo de quadrados mnimos na anlise de dados de microarranjos
com todos os genes simultaneamente apresenta restries, devido ao elevado nmero
de genes em relao ao nmero de lminas, ou seja, maior nmero de efeitos a
estimar do que nmero de dados. Isso conduz a problemas de estimao para modelar

105

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

covarincias entre nveis de expresso de vrios genes, devido ao reduzido nmero de


graus de liberdade. A alternativa a ser adotada refere-se ao uso dos estimadores do
tipo shrinkage para os componentes de varincia (Cui et al., 2005).
Alguns experimentos podem fazer uso de vrias sondas dentro de um arranjo e
um modelo ao nvel de observaes em cada sonda (S) pode ser ajustado para cada
gene. Tal modelo pode ser da forma
y ijkm u Ai D j ADij S m Tk TS km eijkm , em que o efeito de sonda aleatrio
assim como o termo da interao (TSkm).
Modelos desse tipo foram empregados por Drost et al. (2008) em eucalipto.
Nesse gnero, marcadores genticos tm sido gerados a partir de dados de expresso
gnica. Assim, intensidade de expresso e deteco de polimorfismos de seqncia
so obtidos simultaneamente. Duas classes de polimorfismo so obtidas: (i)
polimorfismo em seqncias complementares a oligonucleotdeos de genes expressos
(SFP-single feature polymorphisms); e (ii) marcadores de expresso gnica, GEM
(gene expression markers). A distino entre SFPs e GMEs a partir da anlise de
dados de microarranjos permite a rpida obteno de marcadores SFPs para uso em
estudos de associao e implementao da seleo genmica.
Nos testes de significncia dos efeitos do modelo os p-valores necessitam ser
ajustados quando mltiplos testes so realizados em um experimento, como no caso
de milhares de genes testados simultaneamente. Nesse caso, por meio da correo de
Bonferroni especifica-se o nvel geral de significncia desejado e o divide pelo
nmero n de testes a serem realizados. Tem-se ento o nvel de significncia
corrigido * = /n que utilizado como limite de significncia para cada um dos
testes. Essa abordagem conservativa e diminui o poder dos testes. Um critrio mais
apropriado para esse caso a taxa de falsos positivos (FDR) definida como a
proporo esperada de falsos positivos dentre todos os testes significativos (Rosa et
al., 2007).
Os estudos de expresso gnica e a estimao dos efeitos dos marcadores SNPs
ou DArTs (no contexto da seleo genmica ampla) possibilitam a caracterizao ou
determinao das assinaturas moleculares ou genticas dos caracteres. Isso refere-se
determinao de todo o conjunto de genes que afeta determinada caracterstica
fenotpica.

106

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

107

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

4 Gentica de associao (GWAS)


A gentica de associao visa determinar os efeitos dos genes (QTL) sobre os
valores genticos dos indivduos em uma populao. Para esse fim, usa como meio as
associaes entre marcas moleculares e fentipos. As seguintes associaes poderiam
ser estudadas:
QTLs e Valores Genticos: so desconhecidos e so o alvo da GWAS;
Marcas e Fentipos: so conhecidos e so os meios da GWAS;
Marcas e Valores Genticos: GWS.
QTLs e Fentipos: MAS
Marcas e QTLs: mapeamento.
Fentipos e Valores Genticos: BLUP tradicional.
As importncias das associaes so apresentadas abaixo:
Gentipos
Marcas
QTL

Valor Fenotpico

Valor Gentico

+
++

++
+++

As associaes assinaladas com + e ++ podem incorrer no erro de mapear


marca como gene e/ou efeito ambiental como efeito gentico. Para atingir a
associao assinalada como +++ devem ser realizadas as seguintes anlises de
transformao de marca em QTL e de valor fenotpico em valor gentico:
QTL
Marcas
Valor Fenotpico

Valor Gentico
-5

p-valor muito baixo (10 ): LDA

Segreg Mendeliana Desregressada:


Anlise de Pedigree

4.1 Coeficientes e Medidas de Desequilbrio de Ligao

A definio de desequilbrio de ligao refere-se associao no aleatria de


alelos de diferentes locos. Considere um loco com alelos A e a e outro loco com alelos
B e b. O desequilbrio gamtico dado por D = prob(AB) prob(ab) prob(Ab)
prob(aB), em que prob denota probabilidade ou freqncia dos respectivos
hapltipos. Assim, o desequilbrio existe (D diferente de zero) quando os gametas
em associao e repulso diferem em freqncia. Valores de D positivos revelam que
os gametas em associao esto em excesso. Valores de D negativos revelam que os
gametas em repulso esto em excesso. Aps t geraes de cruzamentos ao acaso, Dt
= D0 (1 r)t e, portanto, t = (log Dt) / [log D0 (1 - r)] fornece o nmero de geraes
para se atingir o equilbrio, em que D0 o desequilbrio inicial e r a taxa de
recombinao.
Considere as seguintes freqncias allicas: p (A) = p1; p (a) = p2; p (B) = q1; p
(b) = q2. Tem-se ento as seguintes igualdades D = prob(AB) prob (ab) prob (Ab)
prob (aB) = P11 P22 P12 P21 = p1q1 p2q2 p1q2 p2q1 = P11 p1q1 = P22 p2q2 = p1q2 P12 =
p2q1 P21. Assim, os valores mximos e mnimos de desequilbrio so dados por
Dmax = min (Ab, aB) = min (p1q2 , p2q1) e Dmin = max (AB, ab) = max (-p1q1 , -p2q2).

108

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Como exerccio, considere o seguinte: Dois locos com dois alelos esto
segregando na populao e so fornecidas as seguintes informaes: prob (AB) = 0,35;
p (A) = 0,7 e p (b) = 0,4. Essa populao encontra-se em equilbrio gamtico? Com
base nas informaes tem-se: p (B) = 1 0,4 = 0,6 e a probabilidade esperada de AB
P (AB) = p (A) p(B) = 0,7 x 0,6 = 0,42. Assim D = prob (AB) - p (A) p (B) = P11 p1q1
= 0,35 0,42 = -0,07. Assim, a populao encontra-se em desequilbrio de ligao e
existe um excesso de gametas em repulso. Supondo locos ligados com taxa de
permuta de 2 %, o nmero de geraes para que o desequilbrio caia metade (Dt/D0
= 0,5) ser dado por Dt/D0 = (1 r)t = 0,5. Assim, 0,5 = (1 r)t e 0,5 = (1 0,02)t e,
portanto, resolvendo para t obtm-se t = 34,31 geraes.
A estatstica de desequilbrio de ligao apresentada por Hill (1981) e usada
acima, D = prob(AB) prob (ab) prob (Ab) prob (aB), muito dependente das
freqncias de alelos individuais e portanto no til para comparao do LD entre
mltiplos pares de locos envolvendo diferentes pontos ao longo do genoma. A
estatstica r2 desenvolvida por Hill e Robertson (1968) mais adequada, pois menos
dependente das freqncias allicas. Tal estatstica dada por r2 = D2 / [prob(A)
prob (a) prob (B) prob (b)]. Os valores de r2 variam de zero (pares de locos com
nenhum desequilbrio entre eles) a 1 (pares de locos com completo LD).
Considerando o exemplo acima, tm-se as seguintes freqncias observadas dos
hapltipos: P (AB) = 0,35; P (ab) = 0,05; P (aB) = 0,25; p(Ab) = 0,35. Assim, D = P
(AB) P(ab) P (Ab) P(aB) = -0,07 e D2 = 0,0049. O valor de r2 ento dado por r2 =
D2 / [prob(A) prob (a) prob (B) prob (b)] = 0,0049 / [0,7 0,3 0,6 0,4] = 0,0972. Esse
nvel de desequilbrio considerado baixo. Valores moderados de r2 so da ordem de
0,2 ou mais (Hayes et al., 2006).
Outra medida de LD a estatstica D`= mdulo (D) / Dmax, proposta por
Lewontin (1964), a qual refere-se ao prprio D padronizado pelo D mximo. O
Dmx dado por Dmax = min (p1q2 , p2q1) se D > 0 e Dmax = min (p1q1 , p2q2) se D <
0. Essa medida de LD no muito precisa pois pode ser inflacionada quando
estimada a partir de amostras pequenas ou em situao de baixas freqncias allicas
(McRae et al., 2002). Outra caracterstica de D refere-se sua incapacidade de
predio da densidade de marcadores necessria para uma completa varredura do
genoma usando LD.
A estatstica r2 ento preferida. O significado gentico de r2 entre um
marcador e um QTL no observado que ele mede a proporo da variao causada
por alelos do QTL que explicada pelos marcadores. Assim, o decrscimo de r2 com
o aumento da distncia indica quantos marcadores e fentipos so necessrios para a
acurada predio no contexto da seleo genmica ampla e da deteco de QTL
usando LD em nvel populacional. Os tamanhos amostrais devem aumentar em uma
proporo dada por 1/r2 para detectar um QTL no observado, em comparao com a
amostragem necessria para avaliar o prprio QTL (Pritchard e Przeworski, 2001).
As medidas de desequilbrio apresentadas referem-se a locos com dois alelos, ou
seja, marcadores bi-allicos. Isto adequado para marcadores do tipo SNPs, embora
possam ser estendidos tambm para marcadores multi-allicos como os
microssatlites. No entanto, um estimador de desequilbrio de ligao multi-alllico

109

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

foi proposto por Zhao et al. (2005), por meio da estatstica x2* dada por
n
k
2
2* [1 /( m 1)] { D ij2 /[ p ( a i ) p (b j )]} , em que D ij p ( a i b j ) p ( a i ) p (b j ) e p ( a i ) e
i 1

j 1

p (b j ) so

as frequncias dos alelos i e j dos marcadores a e b, respectivamente. Por sua


vez, p ( a i b j ) refere-se frequncia do hapltipo ( a i b j ) . A quantidade m refere-se ao
mnimo do nmero de alelos nos marcadores a e b. A estatstica x2* uma
generalizao de r2 e para marcadores bi-allicos x2* = r2. As simulaes realizadas por
Zhao et al. (2005) mostraram que x2* o melhor preditor da proporo da variao
causada por alelos do QTL que explicada pelos marcadores.
A estatstica r2 desenvolvida por Hill e Robertson (1968), dada por
r = D2 / [prob(A) prob(a) prob(B) prob(b)], tem como esperana ou valor esperado
a expresso de Sved (1971), dada por E(r2) = 1/(4 Ne r + 1). Essa expresso dada em
funo da taxa de recombinao r em Morgans. Assim, com base no tamanho efetivo
populacional (Ne) e na taxa de recombinao, pode-se inferir sobre o r2. Inferncias
sobre o r2 so importantes no cmputo da acurcia da MAS e da GWS.
2

Em espcies exogmicas domesticadas (animais e plantas perenes


preferencialmente algamas) o reduzido tamanho efetivo populacional a principal
causa de desequilbrio de ligao. Nesse caso, o valor esperado desse desequilbrio em
um dado segmento cromossmico de tamanho S (em Morgans) pode ser calculado
pela seguinte expresso E(r2) = 1/(4 Ne S + 1). Pela equao de Sved, verifica-se que o
desequilbrio de ligao reduz-se rapidamente com o aumento da distncia entre os
genes, ou seja, com o aumento do tamanho do segmento considerado. Essa reduo
tanto maior quanto maior for o tamanho efetivo populacional (Tabela 21).
Tabela 21. Valores esperados (E(r2)) do desequilbrio de ligao entre dois locos, em funo do
tamanho efetivo populacional (Ne) e do comprimento (L) do segmento cromossmico entre os
dois locos.

Ne

S (Morgan)

S (CentiMorgan)

E(r2)

Ne

S (Morgan)

S (CentiMorgan)

E(r2)

10
10
10
10
10
10
20
20
20
20
20
20
30
30
30
30
30
30
50
50
50
50
50
50

0.005
0.01
0.02
0.03
0.04
0.05
0.005
0.01
0.02
0.03
0.04
0.05
0.005
0.01
0.02
0.03
0.04
0.05
0.005
0.01
0.02
0.03
0.04
0.05

0.5
1
2
3
4
5
0.5
1
2
3
4
5
0.5
1
2
3
4
5
0.5
1
2
3
4
5

0.83
0.71
0.56
0.45
0.38
0.33
0.71
0.56
0.38
0.29
0.24
0.20
0.63
0.45
0.29
0.22
0.17
0.14
0.50
0.33
0.20
0.14
0.11
0.09

100
100
100
100
100
100
200
200
200
200
200
200
500
500
500
500
500
500
1000
1000
1000
1000
1000
1000

0.005
0.01
0.02
0.03
0.04
0.05
0.005
0.01
0.02
0.03
0.04
0.05
0.005
0.01
0.02
0.03
0.04
0.05
0.005
0.01
0.02
0.03
0.04
0.05

0.5
1
2
3
4
5
0.5
1
2
3
4
5
0.5
1
2
3
4
5
0.5
1
2
3
4
5

0.33
0.20
0.11
0.08
0.06
0.05
0.20
0.11
0.06
0.04
0.03
0.02
0.09
0.05
0.02
0.02
0.01
0.01
0.05
0.02
0.01
0.01
0.01
0.00

110

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Verifica-se pela Tabela 21, para os tamanhos efetivos praticados no


melhoramento de plantas perenes (30 a 100), que os desequilbrios de ligao
adequados (maiores ou iguais a 0,2) para a seleo de QTLs so obtidos com
marcadores espaados de 1 a 3 cM. O rmq2 ou E(r2) uma mdia ponderada do r2 de
cada par marcador-QTL. O r2 o quadrado da correlao (r) entre alelos ou gentipos
presentes no loco marcador e no loco do QTL (Tabela 22).
Tabela 22. Clculo do desequilbrio de ligao entre marcador e QTL.
Indivduo

1
2
3
4
5
Correlao r

N. Alelos
Loco Marcador
(Wa)
0
2
1
1
2
r = 0.76

N. Alelos
Loco QTL
(Wb)
0
1
1
0
1
2
r = 0.58

O r2 tem ento trs interpretaes: (i) desvio da frequncia observada de


hapltipos em relao esperada segundo segregao independente
( D Pr ob( ab) Pr ob( a ) Pr ob(b) ); (ii) quadrado da correlao (r) entre alelos
(Tabela 22); (ii) proporo da variao no QTL explicada pelo marcador. As provas
dessas trs interpretaes e equivalncias so apresentadas a seguir.
O coeficiente de correlao entre duas variveis ou alelos nos locos a e b
dado por:
r

Cov ( a, b)
ab a b Pr ob(ab) Pr ob(a ) Pr ob(b) D

[Var ( a )Var (b)]1 / 2 [Var ( a )]1 / 2 [Var (b)]1 / 2


[ pq]1 / 2 [ rs ]1 / 2
[ pq rs ]1 / 2

dessa quantidade equivale a

r2 =

D2 ,
[pq rs]

quadrado

que a medida padro de desequilbrio de

ligao. Usando as matrizes de incidncia W dos marcadores o valor de r pode ser


Cov(Wia ,Wib )
dado
por
.
Definem-se
as
quantidades
r( a ,b )
[Var(Wia )]1 / 2 [Var(Wib )]1 / 2

D = Prob(ab) Prob(a) Prob(b) , em que Prob (a) a frequncia do alelo a e Prob (ab) a

frequncia do gentipo ab. Genericamente, p a frequncia do alelo A, q a


frequncia do alelo a, r a frequncia do alelo B e s a frequncia do alelo b. A
igualdade Var(a) = pq assume distribuio Bernoulli para a presena do alelo.
A relao entre efeitos genticos do marcador e do QTL pode ser melhor
entendida segundo os modelos a seguir: modelo para fentipo via efeito gentico do
QTL (gQTL): y u g QTL e ; modelo para fentipo via efeito gentico do marcador
(gm): y u g QTL e u Wg m e . A quantidade gm um coeficiente de regresso
dado por

g m Cov ( y , W ) / Var (W ) Cov ( g QTL , W ) / Var (W )

r [Var ( g QTL ) / Var (W )]1 / 2 r{Var ( g QTL ) /[ 2 p (1 p )]} 1 / 2

A quantidade da variao no QTL explicada pelo marcador dada por


Var (Wg m ) g m2 Var (W ) r 2 [Var ( g QTL ) / Var (W )]Var (W ) r 2Var ( g QTL ) . Assim, surge o
conceito de r 2 como a proporo da variao do QTL explicada pelo marcador.

111

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A extenso do desequilbrio de ligao depende de recombinaes recentes e


tambm antigas bem como do Ne atual e passado. Populaes domesticadas de
plantas e animais apresentam menor Ne atual do que Ne passado. Em humanos
ocorre o contrrio, devido ao grande aumento populacional na era atual. Hayes et al.
(2003) relatam que o desequilbrio de ligao em segmentos cromossmicos curtos
(em distncias pequenas) depende do tamanho efetivo antigo da populao, muitas
geraes atrs. Por outro lado, o desequilbrio a longa distncia depende da recente
histria da populao. Considerando que mudanas lineares nos tamanhos das
populaes so realizadas, tem-se que a medida de desequilbrio r2 reflexo do Ne a
1/(2S) geraes atrs. Dessa forma, o valor esperado de r2 quando o Ne alterado
atravs das geraes dado por E(r2) = 1/(4 Net S + 1), em que t = 1/(2S). Em
humanos, o Ne equivale a aproximadamente 10.000 (Kruglyak, 1999). Em animais
domsticos e plantas perenes, o Ne pode ser baixo, da ordem de 100. Assim, o
desequilbrio de ligao (LD) deveria ser menor nos humanos. No entanto, no
passado, o Ne da populao humana foi baixo. Assim, a longas distncias entre
marcadores, os valores de r2 em humanos so menores do que nas espcies
domsticas de plantas e animais. E a curtas distncias entre marcadores os valores de
r2 so mais similares em humanos e em espcies animais domesticadas. Moderado
LD (r2 maior ou igual a 0,2) em humanos estende a menos que 5 kb ou 0,005 cM. Em
gado bovino, moderado LD estende-se at 100 kb. Entretanto, valores muito altos (r2
maior ou igual a 0,8) de LD estendem-se apenas a distncias muito curtas tanto em
humanos quanto em gado bovino (Tenesa et al., 2007).
Em gado bovino leiteiro, populaes holandesas e australianas apresentam
declnio em LD similar, pois so populaes relacionadas por origem e apresentam
histria e Ne semelhantes. Por outro lado, a populao bovina norueguesa vermelha
(Ne igual a 400) apresenta mais rpido declnio em LD do que o gado bovino leiteiro
holands (Ne global igual a 150). Os diferentes Ne justificam esse comportamento
diferenciado do LD nas duas populaes (Zenger et al., 2007). Consideraes
importantes sobre clculos de tamanho efetivo populacional so apresentadas por
Vencovsky e Crossa (1999).
4.2 Mtodos de Anlise de QTL via LDA

Durante muito tempo, os estudos de mapeamento basearam-se na anlise de


ligao associada aos dados de pedigree. Recentemente, mtodos baseados em
desequilbrio de ligao associados a indivduos no aparentados tm sido
recomendados como ferramentas poderosas para produzir estimativas refinadas da
localizao de genes. Tais mtodos so baseados nas seguintes premissas. Quando
um novo alelo introduzido na populao, seja por mutao ou migrao, este passa
a existir na populao conjuntamente com um grupo de alelos marcadores. O
comprimento desse hapltipo reduzido ao longo das geraes devido a eventos de
recombinao e, depois de muitas geraes, somente os marcadores na vizinhana
imediata do loco do novo alelo provavelmente permanecero no mesmo segmento
cromossmico. Se esse alelo influencia determinado carter, uma correlao de alta
magnitude entre o carter e o alelo marcador dever indicar que o loco que codifica o
carter situa-se muito prximo ao marcador.

112

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O mapeamento via LDA visa aumentar a preciso da estimativa da posio do


QTL, pois, em algumas situaes, o nmero de meioses associadas ao pedigree
genotipado no suficiente para que a LA seja precisa. Os mtodos LDA propiciam
um mapeamento fino, o qual fundamenta-se na quantificao do desequilbrio de
ligao em fase gamtica presente atravs das famlias em uma populao algama.
Nesse caso, a fase de ligao no varia entre famlias e nem entre geraes. A base do
mtodo refere-se ao fato de que quando uma populao pequena, os fundadores
tero um pequeno nmero de diferentes hapltipos e, com locos intimamente
ligados, no haver tempo suficiente para a recombinao quebrar a associao entre
marcadores e a mutao que afeta o QTL (Perez-Enciso et al., 2003). A mutao
funcional referida como nucleotdeo de caracterstica quantitativa (QTN).
Tal mapeamento tambm denominado mapeamento de associao, o qual
tornou possvel com o advento dos marcadores SNPs e DArTs, que permitem uma
alta densidade de marcadores no genoma. Os marcadores SNP so codominantes e
biallicos, embora raramente (menos que 1%) sejam encontrados SNPs triallicos ou
tetrallicos, pois, a plausibilidade de ocorrncia de uma segunda mutao na mesma
posio do nucleotdeo muito pequena. Os marcadores DArT podem ser
dominantes ou codominantes. A estratgia de associao carter-marcador em nvel
populacional baseia-se em pequenos blocos gnicos em desequilbrio de ligao e,
portanto, a resoluo muito grande (menores distncias entre genes). Embora a
resoluo seja maior, a deteco de QTLs e a preciso do mapeamento demandam
um nmero muito grande de marcadores. O mapeamento de associao opera na
populao em geral e no especificamente em uma populao de mapeamento. A
associao entre marcador e QTL depende da freqncia de recombinao entre eles.
Para encontrar um marcador razoavelmente prximo a um QTL necessrio uma
baixa freqncia de recombinao. Quanto maior o desequilbrio de ligao, mais
prximo o marcador estar do gene e esse LD ou associao sero vlidos mesmo
para indivduos geneticamente mais distantes.
Duas abordagens podem ser usadas na gentica ou mapeamento de associao:
varredura genmica e genes candidatos. Nessa ltima abordagem, marcadores so
usados apenas dentro de genes candidatos individuais. Para a gentica de associao,
a populao de mapeamento deve ser grande e com alto grau de desequilbrio de
ligao. O mapeamento via LDA baseia-se em varredura genmica usando mapa de
marcadores de alta densidade, com um marcador a cada 0,5 cM a 2 cM. O sucesso do
mtodo depende da extenso do desequilbrio de ligao na populao. Uma vez que
os marcadores podem no estar em completo LD com os QTLs, tanto as associaes
entre marcadores e QTLs na populao quanto a co-segregao de marcadores e
QTLs dentro de famlias podem ser usados simultaneamente na deteco de QTL,
via o mtodo LDA-LA, o qual combina as propriedades dos marcadores LD (em
desequilbrio de ligao) e LE (em desequilbrio de ligao), respectivamente.
O mapeamento baseado em LDA conduzido por meio do clculo das
probabilidades de que os hapltipos compartilhados pelos indivduos sejam idnticos
por descendncia de um ancestral comum, condicional aos dados de marcadores. A
correta determinao das fases de ligao e dos gentipos do QTL necessria no

113

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

mapeamento fino. Assim, uma pura anlise LDA pode resultar em um alto nmero
de falsos positivos, ou seja, falsa inferncia de associao em ausncia de ligao. Em
funo disso, mtodos (LA-LDA) que incorporam simultaneamente as informaes
de LD populacional e de ligao dentro de famlias so indicados, visando mitigar os
efeitos da associao espria entre marcadores e QTLs (Meuwissen e Goddard,
2004).
A seleo auxiliada por marcadores moleculares (MAS) e a seleo genmica
ampla (GWS) sero tanto mais efetivas quanto mais prximos estiverem os
marcadores dos QTLs. Dado o pequeno espaamento entre genes no cromossomo, o
mapeamento de QTLs com preciso uma tarefa cruel. Em mdia, um segmento
cromossmico de 10 cM pode conter cerca de 200 genes. Assim, uma alta densidade
de marcadores genotipados aumenta a resoluo do mapeamento de QTLs. Mas se o
objetivo for encontrar o prprio gene que afeta o carter, o intervalo de confiana
para a localizao do QTL ainda ser amplo, mesmo para QTL de grande efeito e
com grande tamanho amostral (Weller, 2001). Estratgias de mapeamento baseadas
em LDA so relatadas a seguir.
4.3 Mapeamento genmico amplo via regresso em marcas nicas

A GWAS (Genome Wide Association Studies) procura associao entre locos e


carter fenotpico em nvel populacional, por meio de testes de hipteses visando
detectar efeitos com significncia estatstica. O seguinte modelo de regresso em
marcas simples pode ser empregado visando associao entre marcador e QTL em
uma populao panmtica (Resende, 2008): y = Ju + Wmi + e, em que y o vetor de
observaes fenotpicas, J um vetor com valores 1, u o escalar referente mdia
geral, mi o efeito fixo de um dos alelos do marcador biallico e e refere-se ao vetor
de resduos aleatrios. W a matriz de incidncia para mi. Esse modelo assume que o
marcador afetar o carter apenas se ele estiver em LD com o suposto QTL. Outros
efeitos fixos e aleatrios podem ser incorporados nesse modelo. Como exemplo,
considere a avaliao de 12 indivduos para um carter e para um marcador do tipo
SNP. Os dados referentes aos gentipos e fentipos dos indivduos so apresentados
a seguir.
Indivduo

Fentipo

Primeiro Alelo do SNP1

Segundo Alelo do SNP1

1
2
3
4
5
6
7
8
9
10
11
12

9,87
14,48
8,91
14,64
9,55
7,96
16,07
14,01
7,96
21,17
10,19
9,23

A
A
A
A
A
a
A
A
a
A
A
A

a
A
a
A
a
a
A
a
a
A
a
A

A matriz de incidncia W associa os nmeros de cada alelo do SNP aos


fentipos. suficiente ajustar o efeito de apenas um dos alelos. Assim, a matriz W
ter apenas uma coluna para o efeito de um dos alelos do SNP, por exemplo o A.
Essa coluna contm o nmero de cpias do alelo A que os indivduos possuem.

114

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Portanto, contm os valores 0, 1 ou 2 para um indivduo diplide. O nmero de linhas


dessa matriz igual ao nmero de indivduos.
A matriz J inclui uma coluna para a mdia geral. As matrizes J e W (nmero
de alelos A), apresentadas na forma transposta so dadas por J'(12x1) 1 1 1 1 1 1 1 1 1 1 1 1
e W'(12x1) 1 2 1 2 1 0 2 1 0 2 1 2 . As equaes de quadrados mnimos para a estimao dos
efeitos da mdia geral e do SNP equivalem a:
J ' J J 'W u J ' y
W ' J W 'W m W ' y em que y o vetor de fentipos. Resolvendo-se esse

i
u
7,2713
sistema, obtm-se:
.
i 3,7856
m

A hiptese da nulidade, ou seja, de que o marcador no apresenta qualquer


efeito sobre o carter, pode ser avaliada pelo teste F. A hiptese nula rejeitada se F >
F(a,v1,v2), em que F a estatstica de Snedecor calculada dos dados, a o nvel de
significncia e v1 e v2 so os graus de liberdade associado distribuio F tabelada. A
hiptese alternativa de que o marcador afeta o carter, ou seja, devido ao fato de
que marcador e QTL encontram-se em desequilbrio de ligao. O valor da estatstica
QM Re gresso m W y u J ' y (1 / n ) ( J ' y ) 2
F calculado via F
.

e2
( y y m W ' y u J ' y ) /( n 2)
No presente exemplo, o valor calculado de F foi de 9,74. Tal valor pode ser
comparado com o valor tabelado de F ao nvel de significncia de 5 % e graus de
liberdade 1 e 10, o qual equivale a 4,96. Assim, o efeito do SNP significativo. Isso
era esperado, pois, associados aos maiores valores fenotpicos esto os alelos A do
SNP, conforme se v claramente na tabela dos dados. Na prtica da GWS, o nvel de
significncia a ser adotado deve ser bem menor, da ordem de 10-5.
Um modelo mais completo da forma:
y = Xb + Ts Wmi + Zg + e , que b, s e g so vetores de efeitos fixos de natureza
ambiental, de covarivel de efeitos fixos referente estrutura de populao e de
efeitos aditivos polignicos (aleatrios), respectivamente, com matrizes de incidncia
X, T e Z.

Os valores da covarivel associada a s podem ser tomados como os


autovetores decorrentes da decomposio espectral da matriz de parentesco genmico
G. Maiores detalhes no captulo 6.

115

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

4.4 Poder estatstico e significncia na associao e deteco de QTL

O poder do teste de associao marcador-QTL depende dos seguintes fatores


(Pritchard e Przeworski, 2001; Meuwissen et al., 2002; Hayes et al., 2006; Fernando et
al., 2004; Macleod et al., 2007):
(i)

Do r2 (medida estatstica do desequilbrio de ligao) entre


marcador e QTL. O significado gentico de r2 entre um marcador e
um QTL no observado que ele mede a proporo da variao
causada por alelos do QTL que explicada pelos marcadores. Os
tamanhos amostrais devem aumentar em uma proporo dada por
1/r2 para detectar um QTL no observado, em comparao com a
amostragem necessria para avaliar o prprio QTL.

(ii)

Da proporo da variao fenotpica explicada pelo QTL, ou seja,


2
do coeficiente de determinao do efeito do QTL ( hq2 q2 / total
).

(iii)

Do nmero n de indivduos avaliados.

(iv)

Do nvel de significncia especificado.

(v)

Da freqncia p do alelo raro do marcador, a qual determina o


nmero mnimo de observaes necessrias para estimar um efeito
allico. Se p menor do que 0,1, o poder torna-se sensvel a essa
freqncia allica.

O poder de um teste refere-se probabilidade de se rejeitar Ho, quando Ho


falsa, ou seja, capacidade de detectar um QTL na populao, quando ele realmente
existe. O poder de um teste de deteco de QTL em funo de diferentes nveis de r2
entre o QTL e o marcador pode ser calculado pela frmula de Luo (1998). Para
conseguir um poder maior ou igual a 80 %, visando deteco de um QTL com hq2
igual a 0,05 com base em 1.000 observaes fenotpicas, necessrio um r2 de pelo
menos 0,2. Esse resultado considerou a frequncia do alelo raro maior do que 0,2.
Macleod et al. (2007) relataram que o poder de deteco de QTL com hq2 igual a
5 % e 365 indivduos genotipados foi de 37 % (p<0,001). Verificaram tambm uma
forte correlao entre os valores de F associados a SNPs significativos e seus r2 com o
QTL. A correlao entre as estatsticas F de Snedecor e D foram praticamente zero.
Ao fazer uma inferncia, o pesquisador incorre no erro tipo I, quando rejeita
uma hiptese Ho que verdadeira e incorre no erro tipo II, quando aceita uma
hiptese Ho que falsa. A probabilidade de cometer um erro tipo I designada por
e o maior valor de para Ho verdadeira denominado nvel de significncia de um
teste estatstico, ou seja, a significncia de um teste a probabilidade mxima que se
admite correr o risco de cometer um erro tipo I.

116

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O nvel de significncia a ser adotado em estudos de associao genmica


ampla demanda srias consideraes. Isto porque milhares de marcadores estaro
sendo testados e, portanto, existe o problema de mltiplos testes. Nesse caso, o nvel
nominal de significncia adotado para cada teste no corresponde quele realizado
em todo o experimento. Com um nvel de significncia de 5 %, espera-se 5 % dos
resultados como falsos positivos. Com 20 mil marcadores, o nmero de falsos
positivos esperados de 1.000. A correo de Bonferroni poderia aliviar isso.
Entretanto, ela no leva em considerao que os testes no mesmo cromossomo no
so independentes, pois os marcadores podem estar em desequilbrio de ligao entre
eles e tambm com o QTL.
A tcnica do teste de permutao foi proposta por Churchill e Doerge (1994)
para contornar a questo de mltiplos testes nos experimentos de mapeamento de
QTL. Essa tcnica apropriada para estabelecer os adequados nveis de significncia.
Hoggart et al. (2008) derivaram uma aproximao explcita para o erro tipo I a qual
evita a necessidade de procedimentos de permutao. Outra alternativa para evitar
falsos positivos monitorar esse nmero em relao ao nmero de resultados
positivos, conforme Fernando et al. (2004). O pesquisador pode estabelecer um nvel
de significncia associado a uma proporo aceitvel de falsos positivos.
A taxa de descobertas falsas (FDR) definida como a proporo esperada de
QTLs detectados que so falsos positivos. A FDR pode ser calculada como FDR = m
Pmax/n, em que Pmax o maior Pvalor de QTL que excede o nvel de significncia,
n o nmero de QTLs que excedem o nvel de significncia e m o nmero de
marcadores testados (Weller, 2001). Com 10 mil SNPs testados, nvel de significncia
(Pvalor) de 0,001 e 80 SNPs declarados como significativos, a FDR = 10.000 x
0,001/80 = 0,125. Essa magnitude (12,5 %) de taxa de falsa descoberta pode ser
considerada aceitvel.
Uma alternativa para diminuir a taxa de falsos positivos a adoo de modelo
com incluso do vetor de efeitos polignicos, o qual contempla a matriz de
parentesco e permite correo para estrutura de populao. Macleod et al. (2007)
relatam um aumento no nmero de falsos positivos (erros tipo 1) quando os efeitos
polignicos no so includos no modelo. Nesse caso, o uso dos prprios marcadores
indicado para inferir sobre a matriz de parentesco, conforme Hayes et al. (2007).
Para um dado loco marcador, a similaridade gentica Sxy entre dois indivduos x e y,
calculada da seguinte forma:
(a)
Sxy = 1, quando o gentipo x = ii (ambos alelos no loco so idnticos)
e o gentipo y = ii, ou quando x = ij e y = ij;
(b)
Sxy = 0,5, quando o gentipo x = ii e o gentipo y = ij, ou vice-versa;
(c)
Sxy = 0,25, quando o gentipo x = ij e o gentipo y = ik;
(d)
Sxy = 0, quando os dois indivduos no tm alelos comuns no loco.
A similaridade resultante do acaso dada por

Sa p i2

, em que p a freqncia

i 1

do alelo na populao e g o nmero de alelos no loco. O parentesco entre os


117

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

indivduos x e y no loco ento calculado como r = (Sxy Sa)/(1 Sa). O


parentesco mdio entre os indivduos ento computado como a mdia de r sobre
todos os locos. Com grande nmero de marcadores, a matriz de parentesco derivada
de marcadores pode capturar os efeitos da segregao mendeliana.
Para a estimao de intervalos de confiana em estudo de associao genmica
ampla, mtodos baseados em validao cruzada podem ser usados. Nesse caso, o
conjunto de dados dividido em duas partes e o estudo de associao realizado trs
vezes, uma vez em cada metade dos dados e uma vez no conjunto total de dados. O
intervalo a 95 % de confiana associado posio do QTL dado pela posio do
SNP mais significativo na anlise com os dados completos 1,96 s, em que s o erro
n
padro do QTL e dado por s ( 1 x1i x 21 )1 / 2 para n pares de SNPs com efeitos
4n

i 1

significativos. Os componentes x1i e x 21 so as posies do SNP mais significativo em


cada uma das metades do dado completo, para a i-sima posio mais significativa do
QTL no conjunto total de dados. Isto vlido quando a anlise de cada metade dos
dados confirma um SNP declarado como significativo na anlise com os dados
completos.
4.5 Mapeamento genmico amplo via modelos mistos com hapltipos

Hapltipos so determinadas combinaes de mltiplos marcadores ligados e


podem ser considerados como alelos de um supraloco. Podem ser usados em lugar
de marcas simples nos estudos de associao genmica ampla. Apresentam a
vantagem de poder estar em maior desequilbrio de ligao com os QTLs. Quando
isso acontece, o r2 maior e, portanto, o poder do experimento aumentado. A
proporo da varincia do QTL explicada pelos marcadores pode ser calculada da
seguinte forma (Hayes et al., 2006): Sendo q1 e q2 as freqncias dos dois alelos do
QTL, os marcadores podem ser classificados em n hapltipos, com freqncia pi para
o i-simo hapltipo. Isto pode ser representado em uma tabela de contingncia:
Hapltipos

Totais

Alelo 1 do QTL

p1q1 D1

piq1 Di

pnq1 Dn

Q1

Alelo 2 do QTL

p1q2 + D1

piq2 + Di

Pnq2 + Dn

Q2

Totais

p1

pi

pn

Para um hapltipo i representado nos dados, o desequilbrio de ligao


calculado por Di = pi(q1) piq1, em que pi(q1) a proporo de hapltipos i no
conjunto de dados, que carregam o alelo 1 do QTL (observado dos dados), pi a
proporo de hapltipos i e q1 a freqncia do alelo 1 do QTL. A proporo da
varincia do QTL explicada pelos hapltipos e corrigida para os efeitos de
2
n
amostragem pode ser calculada por r 2 (h, q ) 1
D 2 / p . Assim, r depende do LD, da
q1 q 2

i 1

freqncia do hapltipo e das freqncias dos alelos do QTL. Valores de r2 podem ser
obtidos via simulao de diferentes freqncias q1 e q2 e tamanhos de genoma e

118

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

hapltipos. Quanto maior o tamanho efetivo populacional, menor proporo da


variao gentica ser explicada pelos hapltipos.
O seguinte modelo linear misto geral usado para estimar os efeitos de
hapltipos:y = Ju + Wh + Zg* + e, em que y o vetor de observaes fenotpicas, u
o escalar da media (de efeito fixo), J um vetor de uns, h o vetor dos efeitos
aleatrios de hapltipos (intervalos), g* o vetor de efeitos polignicos (aleatrio) e e
refere-se ao vetor de resduos aleatrios. W e Z so as matrizes de incidncia para h e
g*. Os efeitos de hapltipos devem ser tratados preferencialmente como aleatrios
porque eles so em grande nmero e alguns deles ocorrem em um nmero limitado
de vezes (nesse caso, esses hapltipos com pequeno nmero de observaes devem
ser penalizados pelo efeito de shrinkage).
A dimenso de h igual ao nmero de intervalos multiplicado por 4 (nmero
de hapltipos possveis para cada intervalo entre duas marcas). A matriz de
incidncia W contm os valores 0, 1 e 2 para o nmero de alelos (do suposto QTL) ou
hapltipos do tipo hi em um indivduo diplide. Detalhes algbricos desse modelo
so apresentados por Resende (2008). A variao gentica aditiva g2* e a dos
hapltipos h2 podem ser estimadas por REML sobre os dados fenotpicos e pela
prpria variao entre os hapltipos ou varincia dos segmentos cromossmicos. A
significncia dos efeitos de hapltipos avaliada via teste da razo de
verossimilhana. Para o mapeamento, o ajuste do modelo descrito enfatiza a
estimao do componente de varincia h2 e o teste de sua significncia via LRT.
No h interesse especificamente nos efeitos BLUP de h, os quais so enfatizados e
utilizados na MAS.
4.6 Mapeamento genmico amplo via abordagem IBD-LD

No mapeamento via IBD-LD, o efeito do suposto QTL includo no modelo


e no o efeito do marcador ou do hapltipo. A informao dos hapltipos usada
para inferir sobre a probabilidade de que dois indivduos possuem o mesmo alelo do
QTL em uma suposta posio. A ocorrncia de LD revela que existem pequenos
segmentos de cromossomo na populao os quais descendem de um mesmo ancestral
comum. Esses cromossomos so ento idnticos por descendncia (IBD) e carregam
idnticos hapltipos marcadores e tambm alelos do QTL. Indivduos com esses
segmentos cromossmicos IBD tero seus fentipos correlacionados.
Nesse caso, o modelo a ser ajustado o seguinte: y Xb

Q q
j

Zg * e ,

em que:

qj : vetor que contm duas incgnitas para cada indivduo em cada loco (um efeito do
QTL no cromossomo maternal e outro no paternal); g*: vetor aleatrio de efeitos
polignicos, excluindo q; Qj : matriz de incidncia para os alelos do QTL no
segmento cromossmico j; Z : matriz de incidncia para g*; b e ei : vetor de efeitos
fixos e erro aleatrio, respectivamente; X : matriz de incidncia para b. Esse modelo,
que inclui ambos, os efeitos do QTL e polignico infinitesimal, denominado
modelo misto de herana (Fernando et al., 1994). Detalhes algbricos desse modelo
so apresentados por Resende (2008). O mapeamento dos QTLs realizado com base

119

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

na estimao das varincias g2* e q2 . Essas so estimadas por REML. O


mapeamento prossegue ento propondo uma suposta posio para o QTL em
intervalos ao longo do cromossomo. Em cada ponto, a varincia do QTL estimada e
a verossimilhana dos dados, dada a posio do QTL e a varincia polignica,
calculada e verificada quanto ao seu mximo. Assim, a presena de um QTL em uma
particular posio no cromossomo pode ser testada pelo LRT, comparando a
verossimilhana de dois modelos, um com a incluso e outro sem a incluso do QTL.

4.7 Mapeamento genmico amplo via abordagem LDA-LA

O modelo a ser ajustado nesse caso difere do modelo apresentado no tpico


anterior apenas na forma de construo da matriz IBD. A combinao das
informaes de ligao e de LD interessante, visando minimizar os efeitos de
associao espria. Isso produz o mtodo LDA-LA de mapeamento, o qual
poderoso para filtrar picos esprios de verossimilhana obtidos nas anlises isoladas
LDA e LA. Nesse mtodo, a matriz IBD composta de duas partes: uma submatriz
(bloco [a]) que descreve os coeficientes IBD entre hapltipos dos indivduos
fundadores e fornece informao sobre LD; uma submatriz (bloco [b]) que descreve
a transmisso dos alelos do QTL dos indivduos fundadores para as geraes atuais
dos indivduos genotipados e fornece informao sobre a ligao (LA). Meuwissen et
al. (2002) descrevem a obteno da matriz IBD para o mtodo LDA-LA associado a
um delineamento de prognies de meios irmos. De posse da matriz IBD, um
modelo de componente de varincia similar ao descrito no tpico anterior pode ser
ajustado.
4.8 Mapeamento genmico amplo via abordagem GWS

Embora a GWS atue sobre todos os genes de um carter quantitativo, os


marcadores com os efeitos estimados maiores podem ser considerados como
supostamente ligados a QTLs. Assim, apesar da GWS no ser um processo de
descoberta de genes, a mesma pode ser usada para o mapeamento de QTL.

120

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

4.9 Associao genmica ampla (GWAS) em humanos

Os primeiros estudos em gentica quantitativa humana visando ao


entendimento do controle gentico dos caracteres basearam-se na estimao da
herdabilidade (h2) via anlise de pares de gmeos, usando o conceito de semelhana
entre parentes baseada em pedigree (alelos idnticos por descendncia, IBD). Essa
abordagem considera todos os locos, variantes comuns e raros (genes de baixa
frequncia), ou seja, todos genes que controlam o carter ou h2 total. O papel de
genes individuais no controle gentico dos caracteres passou a ser estudado pela
metodologia de Fulker e Cardon (1994), por meio da estimao da h2 de um loco
marcado no contexto do mapeamento de QTL, conforme descrito por Resende (2008)
e Cruz et al. (2009). A aplicao do mtodo fundamenta-se na anlise de ligao
dentro de famlia de irmos completos, usando marcas moleculares duas a duas.
Visscher et al. (2006) apresentaram uma abordagem para a estimao da h2
usando simultaneamente todos os locos marcados e tambm usando anlise de
segregao dentro de famlia de irmos completos. Essa abordagem genmica ampla
baseia-se tambm em IBD e capitaliza o parentesco exato ou realizado. A h2 estimada
foi de 0,80 para altura em humanos. O mtodo considera variantes comuns e raros,
ou seja, todos os genes ou h2 total, pois usa tambm o pedigree via genotipagem dos
genitores, estimando alelos IBD em todos os locos. Outro mtodo de estudo do
controle dos caracteres em nvel populacional e no apenas dentro de famlias a
GWAS. Essa baseia-se em anlise de desequilbrio de ligao em nvel populacional,
porm usando apenas um loco marcador de cada vez, via anlise de regresso fixa
sobre indivduos no aparentados. A h2 capturada pelos marcadores significativos foi
de apenas 0,10 para altura em humanos.
A GWAS entre membros de uma famlia (de irmos completos) pode ser
descrita como uma anlise de ligao. Em tal anlise, marcadores a alguma distncia
de um QTL exibir uma associao com o carter porque houve apenas uma gerao
de recombinao entre os genitores e os filhos irmos completos. Consequentemente,
um alelo marcador e um alelo do QTL no mesmo cromossomo tendero a ser
herdados juntos. Um procedimento (GWAS SE) mais eficaz para capturar a
maioria da herdabilidade de um carter a anlise de desequilbrio de ligao em
nvel populacional usando todos os locos marcadores simultaneamente (SE) de
maneira similar ao mtodo da GWS. baseado em regresso aleatria para a
predio de efeitos latentes de QTL. Utiliza indivduos no aparentados, embora
todos os indivduos de uma espcie sejam aparentados em algum grau porque
compartilham ancestrais comuns e, portanto, compartilham alelos idnticos em
estado (IBS), nem sempre declarados como IBD, dada a genealogia usada.
Os marcadores SNPS captam esses parentescos ancestrais e, portanto,
estimam relaes genticas entre indivduos baseadas em IBS (Powell et al., 2010;
Visscher et al., 2010). O uso simultneo da gentica de populaes (anlise de ligao,
desequilbrio de ligao e mapeamento gentico) e da gentica quantitativa
(estimao da herdabilidade), tradicionalmente foram usados separadamente na
gentica humana. A GWS combinando essa duas reas permitiu capturar uma h2 de
0,45 para altura em humanos. O restante (0,80 0,45 = 0,35) no capturado devido a

121

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

muitos variantes de baixa frequncia (incluindo locos de grande efeito). A variao


gentica no loco i dada por gi2 = 2p i ( 1 pi )mi2 , ignorando a dominncia. Assim, um
alelo raro no pode explicar grande parte da variao gentica, mesmo se for de
grande efeito. Para que esses locos sejam capturados pelos marcadores e detectados
necessrio um grande tamanho amostral. Pelo mtodo GWS a variao gentica
aditiva total estimada por g2 = 2pi ( 1 pi )mi2 .
i

Aulchenko et al. (2007) propuseram o mtodo GRAMMAR para a GWAS


em mltiplos estgios, conforme descrito a seguir. Aps o ajuste do
modelo y Xb Zg e obtm-se e y Xb Zg , em que g um vetor de efeitos
polignicos. Ajusta-se ento o modelo e 1u Wmi e , identificando-se os
marcadores significativos. Apenas com os SNPs significativos, ajusta-se o modelo
y Xb Wmi Zg e . Isso reduz o tempo de computao. Os efeitos m so ajustados
como efeitos fixos (pois assim os SNPs no modelam estrutura familiar em g, isto ,
no explicam correlao entre indivduos aparentados, com alelos IBD).
Fundamenta-se no fato de que os efeitos de genes maiores integram o vetor de
resduos condicionais ( e y Xb Zg ), aps o ajuste para g sob modelo polignico
infinitesimal (ajuste ou eliminao dos efeitos de famlia ou variao entre pedigrees
ou estrutura de populao). Na anlise final, volta-se com o modelo completo. Nesse
caso, o efeito polignico includo visando corrigir os dados para a estrutura de
2
famlias por meio da matriz de parentesco, visto que g ~ N( 0, A g ) .
4.10 Captura da h2 em humanos e imperfeito LD entre SNPs e
variantes causais

Visscher et al. (2010) abordam os resultados da GWAS referente ao carter


altura em humanos. A h2 capturada pela GWAS nos estudos tradicionais foi da
ordem de 0,10. Esse baixo valor ocorreu devido ao fato de variantes de baixa
frequncia (MAF < 0.10) no estarem em perfeito LD com marcadores comuns
(MAF > 0.10), ou seja, o r2 baixo e tambm variantes de pequenos efeitos no so
detectados significativamente pela GWAS tradicional, mesmo se em LD com
marcadores comuns. No estudo de Yang et al. (2010), a h2 capturada foi de 0,45. Isso
ocorreu porque variantes de pequenos efeitos no so detectados significativamente,
mas em LD com marcadores comuns, so capturados pela GWS a qual no faz uso
de significncia para efeitos de marcas. O valor mximo que r2 pode atingir
fortemente determinado pelas frequncias allicas nos dois locos (Wray, 2005).
Quanto mais diferentes as frequncias allicas, menor o valor de r2. Assim, como a
maioria dos SNP genotipados so comuns, se os variantes so raros, r2 ser baixo e,
2
associada aos SNP substancialmente menor que a variao
ento a variao mi

gi2

2
2
no QTL (Visscher et al., 2010). As expresses r 2 = mi
/ gi2 e mi
= r 2 gi2
ilustram essa questo.

Na prtica, pode-se estimar o LD apenas entre os SNP. Essa estimativa pode


ser til apenas quando SNP e gene apresentam frequncias allicas similares. Um
gene pode estar em LD com mltiplos SNPs, ento esses coletivamente podem

122

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

capturar o variante causal mesmo que nenhum SNP esteja em perfeito LD com ele
(Visscher et al., 2010). Assim, um SNP pode no ser detectado como significativo,
mas, em conjunto com outros, ser importante para explicar a variao gentica e
maximizar a acurcia seletiva. Dessa forma, recomenda-se no aplicar teste de
significncia antes da GWS. Mesmo com o uso de dezenas de milhares de
marcadores, se os variantes so raros, e sendo comuns os marcadores, ainda assim, os
marcadores no capturaro toda a variao gentica. Assim, a eficincia da GWS
depende da arquitetura gentica do carter na populao. Se o mesmo for governado
por um grande nmero de variantes raros que explicam grande parte da variao
gentica, a GWS ter menor sucesso. Nesse caso, recomendvel ajustar no modelo,
o efeito polignico residual, como forma de capturar esses variantes raros.
Em resumo, as causas da herdabilidade perdida so: (i) variantes de baixa
frequncia (MAF < 0,10) no esto em alto LD com marcadores comuns (MAF >
0,10), causando baixo r2; (ii) pequeno nmero de marcas, causando baixo r2; (iii) uso
apenas dos SNPs significativos na GWAS. A estimao simultnea necessria
porque os SNPs esto em LD, ou seja, so dependentes e correlacionados. A
regresso simultnea (via RR-BLUP) equivalente a regressar o fentipo em todos
os componentes principais derivados dos marcadores, sendo que o grau de shrinkage
experimentado por cada efeito estimado proporcional ao seu associado valor
singular quadrtico (Campos et al., 2010). Isso d suporte ao mtodo da GWAS com
estimao simultnea (GWAS-SE), conforme Yang et al. (2011). Baseados nesse
princpio h tambm os mtodos regresso via quadrados mnimos parciais (PLSR) e
regresso via componentes principais (PCR) (Solberg et al., 2009) e tambm o
mtodo regresso via componentes independentes (ICR) (Azevedo et al., 2012).
4.11 GWAS via BayesCpi e BayesDpi

Os mtodos BayesC e BayesD (descritos por Habier et al., 2011; Resende et al.,
2011) apresentam a vantagem de propiciar informao sobre a arquitetura gentica do
carter quantitativo e identificar as posies de QTL por modelagem da frequncia
de single nucleotide polymorphism( SNP) no nulos. So vantajosos em relao anlise
de regresso marcas nicas devido ao fato de considerar simultaneamente todas as
marcas.
No mtodo BayesC uma varincia comum especificada para todos os locos. O
mtodo BayesD mantm varincias especficas para cada loco. Adicionalmente,
tratada como uma incgnita com distribuio a priori uniforme (0,1) produzindo o
mtodos BayesC e BayesD. A modelagem de muito interessante para a anlise
de associao. A maioria das marcas no est em desequilbrio de ligao com os
genes. Assim, necessria a seleo de um grupo de marcas que est em associao
com o carter. O mtodo BayesB determina subjetivamente. Usando a varivel
indicadora i os mtodos BayesC e BayesD modelam os efeitos genticos aditivos
n

como g j = mi wij i , em que i = ( 0,1 ) . A distribuio de = (1...n ) binomial


i=1

com probabilidade . Esse modelo de mistura mais parcimonioso do que o mtodo


BayesB. Seguindo a hierarquia do modelo, uma distribuio deve ser postulada para

123

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

e deve ser uma Beta, que devidamente especificada transforma-se em uma


Uniforme (0,1) (Legarra et al., 2011).
As quantidades wij so elementos do vetor de gentipos marcadores
codominantes geralmente codificados como 0, 1 ou 2, de acordo com o nmero de
cpias de um dos alelos do loco marcador i, e mi definido como elementos do vetor
de coeficientes de regresso que contemplam os efeitos dos marcadores no carter
fenotpico y, via desequilbrio de ligao com os genes que o controlam.

124

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

125

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

5 Seleo Auxiliada por Marcadores Moleculares (MAS)


5.1 Tipos de seleo via marcadores genticos

Existem quatro tipos de seleo que empregam marcadores moleculares:


(i) seleo auxiliada por genes conhecidos (GAS), baseada em mutao funcional e
genes com efeitos conhecidos, ou seja, os marcadores so os prprios genes; (ii)
seleo auxiliada por marcadores em equilbrio de ligao com QTLs na populao
(LE-MAS), mas em desequilbrio de ligao dentro de famlias e cruzamentos; (iii)
seleo auxiliada por marcadores em desequilbrio de ligao com QTLs em nvel
populacional (LD-MAS); (iv) seleo genmica (GS) ou seleo genmica ampla
(GWS), baseada em milhares de marcadores em desequilbrio de ligao
populacional com todos os QTLs de um carter polignico. Na GWS, no h
necessidade de uso das informaes fenotpicas na populao de seleo e nem do
conhecimento e deteco de QTLs individuais baseados em significncia estatstica
com arbitrrios nveis de significncia. So usados fentipos apenas na populao de
descoberta ou de estimao dos efeitos dos vrios locos, via marcadores. A GWS
mais um tipo de seleo auxiliada pelo fentipo (PAS) do que um tipo de MAS, pois
os fentipos so mais usados como auxlio em uma seleo baseada essencialmente
em gentipos marcadores, cujos efeitos foram estimados previamente em uma
amostra da populao de seleo.
Os tipos LD-MAS e GWS tendem a ser mais eficientes. A LE-MAS,
aplicada em nvel populacional, requer uma genotipagem muito intensa e
procedimentos estatsticos complexos, conforme proposto por Wang, Fernando e
Grossman (1998). Em populaes com equilbrio de ligao entre marcadores e QTL,
a informao usada na seleo advm da co-segregao entre marcadores e QTL
dentro de cada famlia na populao de seleo. Assim, a co-ancestria condicional
informao de marcadores precisa ser computada dentro de cada famlia para um
dado segmento no genoma. Nesse caso, a acurcia da seleo usando marcadores
depende principalmente da proporo da variao dentro de famlia que devida ao
QTL.
A LE-MAS requer grande quantidade de genotipagem e tambm avaliaes
fenotpicas em todos os candidatos seleo, pois nem todos os locos que controlam
o carter so amostrados pela genotipagem. Devem, ento, ser amostrados pela
fenotipagem. Requer tambm que a fase de ligao entre marcadores e QTL seja reestimada em cada gerao. Isto torna a LE-MAS mais onerosa do que a seleo
tradicional baseada em fentipos. O presente captulo aborda os vrios tipos de
seleo via marcadores baseando-se nos textos publicados por Resende (2007; 2008) e
Resende et al. (2008; 2010; 2011).

126

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

5.2 Seleo em genes de efeitos conhecidos ou marcadores diretos


(GAS)

No contexto dos modelos mistos, a incluso de genes de efeitos conhecidos na


avaliao gentica pode ser feita segundo o seguinte modelo, conforme Kennedy et
al. (1992): y Xb Zg * Qq e , em que: b : vetor de efeitos fixos; g*: vetor aleatrio de
efeitos polignicos, excluindo q, ou seja, corrigidos para q; q : vetor de efeitos
genotpicos (fixos) dos genes conhecidos; referem-se aos efeitos dos gentipos
observveis em um nico loco; e : vetor erros aleatrios;X : matriz de incidncia para
b; Z : matriz de incidncia para g*; Q : matriz de incidncia para os efeitos do gene
conhecido.
Esse modelo tem a seguinte estrutura de mdias e varincias:
E ( y ) Xb E ( Qq ) ; Var ( y ) Var ( Qq ) ZVar ( g *) Z 'Var ( e ) .

QTL

como

de

efeitos
Var ( y ) ZVar ( g *) Z ' Var ( e ) .

fixos,

tem-se

Assumindo os gentipos do
e Var ( Qq ) 0 . Assim,
E ( Qq ) Qq

Assim, as equaes de modelo misto so dadas por:


X ' X
Z' X

Q ' X

X'Z
Z ' Z A 11
Q' Z

X 'Q
Z'Q

Q ' Q

b

g *
q

X ' y ,
Z' y

Q ' y

2
em que: 1 e ; A : matriz de parentesco
2

g*

gentico aditivo; g2* : varincia aditiva polignica, ajustada para os efeitos dos genes
conhecidos; e2 : varincia residual. A seleo dos indivduos baseada em
g g * q .
O presente modelo considera que o marcador o prprio gene que afeta o
carter. Se o marcador no o prprio gene, mas encontra-se ligado a ele, a
recombinao entre eles pode conduzir ao fato de que um mesmo alelo do marcador
carregue diferentes alelos do QTL. Nesse caso, o efeito do gene ou QTL pode ser
considerado como aleatrio e a probabilidade de identidade por descendncia dos
alelos do QTL pode ser calculada a partir dos gentipos marcadores, desde que a
freqncia de recombinao entre marcador e QTL seja conhecida. Isto produz o
modelo de Fernando e Grossman (1989), abordado no tpico seguinte.
5.3 MAS via marcadores em equilbrio de ligao (LE-MAS)

A MAS surgiu basicamente na dcada de 1990. Os primeiros trabalhos foram o


de Fernando e Grossman (1989), Lande e Thompson (1990), Goddard (1992). Com
marcadores LE, as probabilidades de identidade por descendncia associadas ao QTL,
derivadas com base nos gentipos marcadores, sero afetadas pela taxa de
recombinao entre marcador e QTL e pela extenso do desequilbrio de ligao
entre eles. Como o LD existe apenas dentro de famlia, os efeitos de marcadores e a
fase de ligao marcador-QTL deve ser determinada separadamente para cada
famlia.
Para a seleo em populaes em equilbrio, Fernando e Grossman (1989)

127

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

desenvolveram um procedimento BLUP para a seleo auxiliada por marcadores, o


qual se baseia no desequilbrio de ligao dentro de famlias. O mtodo pode ser
usado para a predio dos valores genticos de todos os indivduos da populao,
incluindo os efeitos de QTL via ligao com marcadores genticos, desde que todos
os indivduos sejam genotipados e a herdabilidade e a freqncia de recombinao
entre o QTL e marcador sejam conhecidas. adequado para qualquer estrutura de
populao. Goddard (1992) ampliou este modelo para considerar mltiplos QTLs e
mltiplos marcadores. Enfatizou o caso em que existe no mximo um QTL
segregante, localizado entre dois marcadores (mapeamento por intervalo), obtendo
um procedimento que utiliza tambm a matriz de parentesco do QTL associado aos
marcadores. O mapeamento por intervalo permite que a informao dos valores dos
segmentos cromossmicos no se perca to rapidamente de uma gerao para outra e,
em teoria, esta abordagem maximiza o ganho com a MAS em qualquer programa de
melhoramento. Esse modelo descrito por Resende (2002; 2008).
Nos vrios estudos realizados em espcies florestais, exceto em poucos casos,
os QTLs individuais para crescimento, qualidade da madeira, adaptao e reproduo
no explicaram mais que 5% a 10% da variao fenotpica. Esses resultados sugerem
que os caracteres de importncia comercial so de herana polignica e, ento, QTLs
de grande efeito provavelmente no sero detectados. Assim, o uso da LE-MAS
tender a ser pouco efetiva nessas espcies.
5.4 MAS via marcadores em desequilbrio de ligao (LD-MAS)

A maioria dos projetos de pesquisa com QTL mudaram o seu curso para o
mapeamento fino baseado em marcadores LD ou diretamente nas mutaes
causadoras da variao nos QTLs. No caso dos marcadores LD, os mesmos
propiciam informaes sobre os QTLs em toda a populao (atravs de todas as
famlias) e ento, a abordagem no difere muito em eficincia, do uso de marcadores
diretos (mutao). Pela abordagem LD, a incluso de informaes dos marcadores ou
dos hapltipos nos esquemas de avaliao gentica pode ser realizada por meio do
modelo de QTL aleatrio de Fernando e Grosmann (1989). Nesse caso, as
covarincias baseadas em probabilidades de identidade por descendncia (IBD)
podem ser obtidas alm do pedigree, via LD e similaridade entre hapltipos ou
marcadores. Meuwissen e Goddard (2001) propuseram o uso das informaes via
LDA e LA para calcular a matriz de covarincia via IBD. Lee e van der Werf (2005)
mostraram que com alta densidade de marcadores, o valor do uso da informao de
ligao e do pedigree reduzido e pouco acrescenta em relao ao uso apenas da
informao de LD.
5.5 LD-MAS via Anlise de Marcas nicas

Um modelo misto para a estimao dos efeitos de marcadores individuais dado


por y = Ju + Wm + e, em que y o vetor de observaes fenotpicas, J um vetor com
valores 1, u o escalar referente mdia geral, m o efeito fixo do marcador e e
refere-se ao vetor de resduos aleatrios. W a matriz de incidncia para m. Para
marcadores bi-allicos e modelo de ao gnica aditiva, m um escalar mi.

128

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A seleo gentica via o marcador realizada por meio do valor gentico


predito, dado por v Wm . W, no caso, uma matriz que associa os gentipos
marcadores aos efeitos dos alelos marcadores. Os elementos de W so iguais a zero
se o gentipo aa, 1 se o gentipo Aa e 2 se o gentipo AA. A acurcia desse
mtodo de seleo baixa pois, um s marcador explica uma pequena proporo da
variao gentica do carter. Essa acurcia pode ser aumentada por meio da incluso
de outros efeitos fixos e aleatrios no modelo, especialmente os efeitos polignicos
no contemplados pelo marcador. Outra forma de aumentar a acurcia por meio do
uso de mltiplos marcadores.
Com a incluso dos efeitos polignicos, o seguinte modelo linear misto geral
usado y = Ju + Wm + Zg* + e, em que y o vetor de observaes fenotpicas, u o
escalar da mdia (de efeito fixo), m o vetor dos efeitos de alelos do marcador, a* o
vetor de efeitos polignicos (aleatrio) e e refere-se ao vetor de resduos aleatrios. W
e Z so as matrizes de incidncia para m e g*. Sob esse modelo, a seleo praticada
com base no ordenamento por v Wm g * .
Como exemplo, considere a avaliao de 12 indivduos para um carter e para
um marcador do tipo SNP. Os dados referentes aos gentipos e fentipos dos
indivduos so apresentados na Tabela a seguir, que apresenta tambm o pedigree de
mais trs indivduos que no foram avaliados fenotipicamente mas, apenas por seus
gentipos.
Indivduo

Pai

Me

Fentipo

Primeiro Alelo do SNP1

Segundo Alelo do SNP1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

1
1
4

2
3
5

9,87
14,48
8,91
14,64
9,55
7,96
16,07
14,01
7,96
21,17
10,19
9,23
-

A
A
A
A
A
a
A
A
a
A
A
A
a
A
a

A
A
a
A
a
a
A
a
a
A
a
A
A
A
a

A matriz de incidncia W associa os nmeros de cada alelo do SNP aos


fentipos. suficiente ajustar o efeito de apenas um dos alelos. Assim, a matriz W
ter apenas uma coluna para o efeito de um dos alelos do SNP, por exemplo, o A.
Essa coluna contm o nmero de cpias do alelo A que os indivduos possuem.
Portanto, contm os valores 0, 1 ou 2 para um indivduo diplide. O nmero de linhas
dessa matriz igual ao nmero de indivduos.
A matriz J inclui uma coluna para a mdia geral. As matrizes 1 e W (nmero
de alelos A) so dadas por J'(12x1) 1 1 1 1 1 1 1 1 1 1 1 1 e W'(12x1) 1 2 1 2 1 0 2 1 0 2 1 2 .

129

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A matriz Z equivale a
Indiv

1
2
3
4
5
6
7
8
9
10
11
12

1
0
0
0
0
0
0
0
0
0
0
0

0
1
0
0
0
0
0
0
0
0
0
0

0
0
1
0
0
0
0
0
0
0
0
0

0
0
0
1
0
0
0
0
0
0
0
0

0
0
0
0
1
0
0
0
0
0
0
0

0
0
0
0
0
1
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0

0
0
0
0
0
0
0
1
0
0
0
0

10

0
0
0
0
0
0
0
0
1
0
0
0

11

0
0
0
0
0
0
0
0
0
1
0
0

12

0
0
0
0
0
0
0
0
0
0
1
0

13

0
0
0
0
0
0
0
0
0
0
0
1

14

0
0
0
0
0
0
0
0
0
0
0
0

15

0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0

A matriz A equivale a
Indiv

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

1
0
0
0
0
0
0
0
0
0
0
0
0.5
0.5
0

0
1
0
0
0
0
0
0
0
0
0
0
0.5
0
0

0
0
1
0
0
0
0
0
0
0
0
0
0
0.5
0

0
0
0
1
0
0
0
0
0
0
0
0
0
0
0.5

0
0
0
0
1
0
0
0
0
0
0
0
0
0
0.5

0
0
0
0
0
1
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
1
0
0
0
0
0
0
0

10

0
0
0
0
0
0
0
0
1
0
0
0
0
0
0

11

0
0
0
0
0
0
0
0
0
1
0
0
0
0
0

12

0
0
0
0
0
0
0
0
0
0
1
0
0
0
0

13

0
0
0
0
0
0
0
0
0
0
0
1
0
0
0

0.5
0.5
0
0
0
0
0
0
0
0
0
0
1
0
0

14

0.5
0
0.5
0
0
0
0
0
0
0
0
0
0
1
0

15

0
0
0
0.5
0.5
0
0
0
0
0
0
0
0
0
1

Assim, as equaes de modelo misto so dadas por:


J'J
W ' J

Z ' J

J 'W
W 'W
Z 'W

W'Z

1
Z ' Z A
J'Z

u
m

g *

J' y
W ' y ,

Z ' y

em que: 1

e2
; g2* : varincia aditiva
2
g*

dos QTLs no associados aos segmentos cromossmicos marcados; e2 : varincia


residual. Resolvendo-se o sistema matricial, obtm-se o seguinte vetor de solues:
Efeitos

Solues

Mdia Geral

7.2713

Efeito do Alelo A do SNP

3.7856

Efeito Gentico Polignico Indiv. 1

-0.2374

Efeito Gentico Polignico Indiv. 2

-0.0725

Efeito Gentico Polignico Indiv. 3

-0.4294

Efeito Gentico Polignico Indiv. 4

-0.0405

Efeito Gentico Polignico Indiv. 5

-0.3014

Efeito Gentico Polignico Indiv. 6

0.1377

Efeito Gentico Polignico Indiv. 7

0.2455

Efeito Gentico Polignico Indiv. 8

0.5906

Efeito Gentico Polignico Indiv. 9

0.1377

Efeito Gentico Polignico Indiv. 10

1.2655

Efeito Gentico Polignico Indiv. 11

-0.1734

Efeito Gentico Polignico Indiv. 12

-1.1225

Efeito Gentico Polignico Indiv. 13

-0.1549

Efeito Gentico Polignico Indiv. 14

-0.3334

Efeito Gentico Polignico Indiv. 15

-0.1709

130

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Os valores genticos totais dos indivduos com avaliaes fenotpicas e genotpicas


so dados por v u Wm g * . Para os indivduos com avaliao genotpica apenas, os
valores genticos totais so dados por v u W * m g * , em que W* a matriz de
incidncia molecular para os ltimos trs indivduos, a qual difere de W e contm os
valores 1, 2 e zero, respectivamente. Os valores genticos totais dos indivduos so
apresentados a seguir.
Valores Genticos Totais

Predies

Indivduo 1

10.820

Indivduo 2

14.770

Indivduo 3

10.628

Indivduo 4

14.802

Indivduo 5

10.756

Indivduo 6

7.409

Indivduo 7

15.088

Indivduo 8

11.648

Indivduo 9

7.409

Indivduo 10

16.108

Indivduo 11

10.884

Indivduo 12

13.720

Indivduo 13

10.902

Indivduo 14

14.509

Indivduo 15

7.100

5.6 LD-MAS via Anlise de Mltiplos Marcadores e Regresso de


Cumeeira

A idia bsica da seleo auxiliada por marcadores explorar as dependncias


estatsticas (desequilbrio de ligao) existentes na distribuio conjunta dos
gentipos dos marcadores e do QTL. O desequilbrio de ligao entre marcadores e
QTL pode ser usado com dois objetivos: (i) inferir sobre a localizao genmica e
efeitos do QTL que afetam um carter; (ii) obter predies do mrito gentico dos
candidatos seleo em um programa de melhoramento gentico. Esse segundo
objetivo no necessariamente requer o mapeamento de QTLs.
O uso de mltiplos marcadores, advindos de estudos de associao genmica
ampla, na predio de valores genticos, deve considerar que alguns marcadores
podem estar detectando o mesmo QTL. Isto porque vrios deles podem estar em
desequilbrio de ligao com um QTL de grande efeito. Uma maneira de considerar
isso por meio do uso da regresso mltipla ajustando todos os marcadores
simultaneamente, segundo o modelo y u p W m e , em que p o nmero de
i

i 1

marcadores significativos detectados no estudo de associao genmica ampla.


Pelo mtodo de quadrados mnimos ou regresso, todos os marcadores so
testados um por um quanto a sua significncia estatstica. Outros procedimentos do
tipo stepwise podem tambm ser utilizados. Ento, os efeitos dos marcadores
estatisticamente significativos so estimados simultaneamente. Devido falta de
nmero suficiente de graus de liberdade, nem todos os marcadores podem ser

131

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

testados simultaneamente. Antes de aplicar a regresso mltipla na LD-MAS,


necessrio definir quantos marcadores devem ser usados. Isso deve ser definido com
base na quantidade de variao gentica que explicada pelo conjunto de marcadores
a serem usados na seleo. A vantagem da MAS proporcional quantidade de
variao gentica percentual explicada pelos marcadores. Quanto maior o nvel de
significncia (maior a probabilidade de erro tipo I) adotado nos estudos genmicos,
maior nmero de QTLs so detectados mas, maior tambm o nmero de resultados
falsos positivos. Alm disso, vrios SNPs estaro muito prximos entre eles no
genoma e, conseqentemente, estaro detectando o mesmo QTL.
Hayes et al. (2006) apresentam um mtodo para estimar o verdadeiro nmero de
QTLs controlando um carter, por meio da correo do nmero de SNPs
significativos levando em conta a ocorrncia de falsos positivos e a redundncia de
alguns SNPs em detectar os mesmos QTLs. Usando esse mtodo, os autores
verificaram que o nmero de QTLs para alguns caracteres em bovinos leiteiros
atingiram um plat em 145 a 188 locos. Assim, para capturar toda a variao gentica,
seriam necessrios marcadores flanqueando entre 145 e 188 QTLs. No entanto, em
caracteres quantitativos, vrios QTL so de pequeno efeito e alguns so de grande
efeito (Hayes e Goddard, 2001). Dessa forma, nem todos os QTLs precisaro ser
considerados na MAS, pois apenas uma frao deles j explicar a maioria da
variao gentica. Em bovinos de leite e sunos, 10 % a 20 % dos QTLs explicaram 50
% da variao gentica de um carter quantitativo (Hayes e Goddard, 2001; 2003).
Outro aspecto relacionado aplicao da regresso mltipla na LD-MAS referese ao fato da superestimao dos efeitos dos marcadores-QTLs quando tais efeitos
so tratados como fixos (Weller et al., 2005). E se esses efeitos so superestimados, a
vantagem potencial da MAS no se concretiza (Whittaker et al., 2000). Nesse
contexto, a acurcia da MAS pode ser aumentada por meio de estimadores do tipo
shrinkage. Os mtodos (viciados ou no) que minimizam o erro quadrtico mdio de
estimao conduzem a estimadores/preditores do tipo shrinkage. Genericamente, um
estimador do tipo shrinkage tem a forma de um escalar (variando entre zero e um)
multiplicado por um vetor de mdias estimadas por quadrados mnimos ou por
mxima verossimilhana. A regresso ou shrinkage penaliza a estimativa de acordo
com o nmero de observaes usadas para estim-la. Quanto menor o nmero, mais
a estimativa regressada em direo mdia geral. Uma forma de promover o
shrinkage tratar os efeitos como aleatrios.
O estimador m (W W I ) 1W y promove shrinkage. Quando no conhecido,
a escolha arbitrria do mesmo leva ao mtodo de regresso de cumeeira ou ridge
regression (RR), conforme Whittaker et al. (2000) que relataram um aumento de 7 %
na eficincia da MAS por meio da RR. No caso, se o parmetro de regresso for
2 , tem-se o BLUP para o efeito do QTL. Whittaker et al. (2000) relatam que
e2 / qtl
o ajuste de muitos marcadores no modelo de regresso produz sria colinearidade,
causando instveis estimativas via quadrados mnimos e pobre predio do escore
molecular. Ento, sugerem o uso da regresso de cumeeira. Esse procedimento
regressa as estimativas de quadrados mnimos em direo a zero, melhora a condio
da matriz dos coeficientes das equaes de quadrados mnimos e reduz o erro
quadrtico mdio de estimao.

132

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Weller et al. (2005) sugerem um eficiente mtodo de mxima verossimilhana


para estimao dos efeitos de QTL, em que as estimativas de quadrados mnimos so
regressadas de acordo com uma assumida distribuio dos efeitos do QTL. Tambm
Meuwissen et al. (2001) e Gianola et al. (2003) sugerem abordagens similares, porm,
baseadas em princpios bayesianos, em que distribuies a priori para os efeitos de
QTL so usadas. Segundo Gianola et al. (2003), o mtodo RR faz mais sentido se
visto de uma perspectiva Bayesiana. A regresso ridge equivalente adoo de uma
priori normal para o vetor de regresso centrado em zero e com estrutura de
covarincia a priori igual matriz identidade vezes um escalar, que a varincia da
distribuio a priori. Detalhes sobre a estimao Bayesiana so apresentados no
tpico sobre GWS.
Alm das tcnicas do ndice de seleo e do BLUP, da regresso mltipla e da
regresso de cumeeira dos fentipos sobre os gentipos marcadores, outras tcnicas
foram propostas para a MAS. Gianola et al. (2003) propuseram a modelagem das
associaes fentipo-marcadores de forma hierrquica via modelos multinveis
incluindo efeitos cromossmicos, covarincia espacial de efeitos de marcadores
dentro de cromossomos e heterogeneidade de famlias. Segundo os autores, existem
problemas estatsticos com o ndice de seleo de Lande e Thompson (1990), uma vez
que a matriz de covarincia dos escores moleculares singular e leva a um infinito
nmero de solues. Outra dificuldade do mtodo de quadrados mnimos existe
quando o nmero de marcadores quase da mesma ordem que o nmero de
indivduos. Nesse caso, alguma tcnica de reduo dimensional, como por exemplo, a
decomposio por valor singular, deve ser usada. Gianola et al. (2003) defendem uma
abordagem que trata todos os efeitos como alelatrios. Isso propicia flexibilidade
para acomodar novos efeitos no modelo. O estimador de regresso ridge de
Whittaker et al. (2000) implica que todos os efeitos de marcadores so
independentes. Entretanto, existe evidncia de co-expresso de genes pelo menos no
mesmo cromossomo. Isso indica que no se verifica a suposio de que os segmentos
marcados dentro de cromossomo tm efeitos independentes. QTLs adjacentes podem
ser mais dependentes do que QTLs distantes. Assim, alguma estrutura de
covarincia espacial ao longo do cromossomo pode ser necessria.
Outro fato que alguns cromossomos podem ter mais QTLs que outros,
conduzindo a variao entre cromossomos. Essa heterogeneidade pode ser
acomodada pela introduo de efeitos cromossmicos no modelo, com marcadores
em diferentes cromossomos tendo distintas distribuies (Gianola et al., 2003).
Procedimentos semi-paramtricos foram tambm apresentados por Gianola et al.
(2006), os quais permitem estimar interaes entre milhares de marcadores. Os
mtodos incluem regresso kernel, a qual regressa os efeitos de marcadores de acordo
com um parmetro de alisamento imbutido nas equaes de modelo misto.

133

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

5.7 LD-MAS via Anlise de IBD

Fernando e Grossman (1989) assumiram efeito aleatrio de QTL com varincia


conhecida e desenvolveram uma abordagem para a predio de valores genticos de
todos os indivduos de uma populao, em que todos os candidatos seleo
participam da construo da matriz IBD. O mtodo inclui os efeitos de QTL via
ligao com marcadores genticos e adequado quando a herdabilidade e a
freqncia de recombinao entre marcadores e QTLs so tambm conhecidos. O
mtodo vlido para qualquer estrutura de populao diplide e uma extenso da
modelo tradicional de anlise de ligao dentro de famlia, por meio do uso da
informao de todo o pedigree.
De posse de estimativas das varincias do QTL e da varincia gentica
aditiva, tem-se o seguinte modelo de avaliao gentica: y Xb Zg * Qq e em
que: q o vetor de efeitos genticos aditivos gamticos, que contm duas incgnitas
para cada indivduo em cada loco (um efeito do alelo do QTL no cromossomo
maternal e outro no paternal); g* o vetor aleatrio de efeitos polignicos, excluindo
q; b e e so vetores de efeitos fixos e de erros aleatrios, respectivamente; Q a
matriz de incidncia para os efeitos gamticos do QTL; Z a matriz de incidncia
para g*; X a matriz de incidncia para b. A seleo dos indivduos baseada em
g g * q .
5.8 Nmero de Locos a ser Usado na LD-MAS

A razo pela qual uma limitada frao da variao gentica explicada pelos
QTLs identificados refere-se aos baixos nveis de significncia adotados na deteco,
visando evitar a deteco de muitos falsos positivos, quando se avalia muitas
posies para a presena de QTL. Relaxados nveis de significncia, da ordem de 20
% a 40 %, tm maximizado o ganho gentico com a MAS (Hospital et al., 1997).
Esses nveis de significncia conduzem ao uso na seleo de um maior nmero de
locos, detectados como significativos. Bernardo e Yu (2007) obtiveram resultados
similares.

134

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

135

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6 Seleo genmica ampla (GWS)


6.1 Fundamentos da Genome Wide Selection (GWS)

A seleo gentica tem sido praticada pelo procedimento BLUP (em suas
verses frequentista e bayesiana) usando dados fenotpicos avaliados a campo. Uma
primeira proposio realizada para aumentar a eficincia desse procedimento baseado
em dados fenotpicos foi descrita por Lande & Thompson (1990), por meio da seleo
auxiliada por marcadores (MAS) moleculares. A MAS utiliza simultaneamente
dados fenotpicos e dados de marcadores moleculares em ligao gnica prxima com
alguns locos controladores de caractersticas quantitativas (QTL). Em geral, os dados
de marcadores so utilizados como covariveis (efeitos fixos) na explicao dos
valores fenotpicos dos indivduos em avaliao ou como efeitos aleatrios
incorporados no modelo para o fentipo (Fernando e Grossman, 1989). Esses
marcadores so eleitos ou no como determinantes dos efeitos de QTLs aps
modelagem estatstica sujeita a erros do tipo II (probabilidade de aceitar uma
hiptese falsa, ou seja, tomar como verdadeira uma hiptese falsa de ausncia de
efeitos).
A seleo baseada na MAS apresenta as seguintes caractersticas: requer o
estabelecimento (anlise de ligao) de associaes marcadores-QTLs para cada
famlia em avaliao, ou seja, essas associaes apresentam utilidade para seleo
apenas dentro de cada famlia mapeada; para ser til precisa explicar grande parte da
variao gentica de uma caracterstica quantitativa, que governada por muitos
locos de pequenos efeitos. Isto no tem sido observado na prtica, exatamente em
funo da natureza polignica e alta influncia ambiental nos caracteres
quantitativos, fato que conduz deteco apenas de um pequeno nmero de QTLs de
grandes efeitos, os quais no explicam suficientemente toda a variao gentica; s
apresenta superioridade considervel em relao seleo baseada em dados
fenotpicos, quando o tamanho de famlia avaliado e genotipado muito grande (da
ordem de 500 ou mais). Em funo desses aspectos, a implementao da MAS tem
sido limitada e os ganhos em eficincia muito reduzidos (Dekkers, 2004).
O atrativo da gentica molecular em benefcio do melhoramento gentico
aplicado a utilizao direta das informaes de DNA na seleo, de forma a
permitir alta eficincia seletiva, grande rapidez na obteno de ganhos genticos com
a seleo e baixo custo, em comparao com a tradicional seleo baseada em dados
fenotpicos. Visando a esses objetivos, Meuwissen et al. (2001) propuseram um novo
mtodo de seleo denominado seleo genmica (GS) ou seleo genmica ampla
(genome wide selection GWS) ou seleo genmica total (whole genome selection
WGS), a qual pode ser aplicada em todas as famlias em avaliao nos programas de
melhoramento gentico, apresenta alta acurcia seletiva para a seleo baseada
exclusivamente em marcadores (aps terem seus efeitos genticos estimados a partir
de dados fenotpicos em uma amostra da populao de seleo) e no exige prvio
conhecimento das posies (mapa) dos QTLs, no estando sujeita aos erros tipo II
associados seleo de marcadores ligados a QTLs.

136

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Esse mtodo permaneceu discreto por cerca de seis anos, devido ao fato dos
marcadores moleculares disponveis poca serem caros e restritos. Recentemente,
com o desenvolvimento e baixo custo dos marcadores tipo SNP (single nucleotide
polymorphism), o mtodo tornou-se atrativo (Meuwissen, 2007; Goddard & Hayes,
2007; Fernando et al., 2007; Resende 2007; Bernardo e Yu, 2007). A GWS permite a
predio de valores genticos genmicos e excelente para caracteres de baixa
herdabilidade, ao contrrio da MAS, que no til para caracteres de baixa
herdabilidade.
A analise de QTL baseia-se na deteco, mapeamento e uso de QTLs na
seleo (MAS). Ou seja, enfatiza a determinao do nmero, posio e efeitos dos
QTLs marcados. A GWS definida como a seleo simultnea para centenas ou
milhares de marcadores, os quais cobrem o genoma de uma maneira densa, de forma
que todos os genes de um carter quantitativo estejam em desequilbrio de ligao
com pelo menos uma parte dos marcadores. Esses marcadores em desequilbrio de
ligao com os QTLs, tanto de grandes quanto de pequenos efeitos, explicaro quase
a totalidade da variao gentica de um carter quantitativo. O nmero de SNPs de
tal magnitude que a probabilidade de se encontrar um QTL em desequilbrio de
ligao com pelo menos um marcador muito alta. Este aspecto importante uma
vez que somente os marcadores em desequilbrio de ligao com os QTLs sero teis
na determinao dos fentipos e na explicao da variao gentica. Os efeitos dos
marcadores so estimados em uma amostra de indivduos pertencentes a vrias
famlias. Assim, o impacto de determinadas famlias especficas (com especficos
padres de desequilbrio de ligao) nas estimativas dos efeitos dos marcadores ser
minimizado. importante enfatizar que os marcadores tero seus efeitos genticos
estimados a partir de uma amostra de pelo menos 1.000 indivduos genotipados e
fenotipados, ou seja, com base em pelo menos 1.000 repeties experimentais de cada
loco. Assim, embora a herdabilidade de cada marcador efetivo (aquele que identifica
um dos poligenes com preciso) seja muito baixa, com 1.000 repeties essa
herdabilidade se torna alta. Em outras palavras, o efeito de ambiente ser
minimizado por meio do uso de um nmero de repeties muito alto. Essa a mesma
filosofia da avaliao e seleo de caractersticas quantitativas com base em fentipos
em experimentos de campo, implantados com grande nmero de repeties.
A GWS ampla porque atua em todo o genoma, capturando todos os genes
que afetam um carter quantitativo. E isso sem a necessidade prvia de identificar os
marcadores com efeitos significativos e de mapear QTLs, como no caso da MAS.
Valores genticos genmicos associados a cada marcador ou alelo so usados para
fornecer o valor gentico genmico global de cada indivduo. H uma diferena
bsica na predio de valores genticos tradicionais e na predio de valores genticos
genmicos. Nos primeiros, informaes fenotpicas so utilizadas visando a
inferncias sobre os efeitos dos gentipos dos indivduos e, nos ltimos, informaes
genotpicas (gentipos para os alelos marcadores) so usadas visando a inferncias
sobre os valores fenotpicos futuros (ou valores genticos genmicos preditos) dos
indivduos. Em outras palavras, os mtodos tradicionais usam o fentipo para inferir
sobre o efeito do gentipo e a GWS usa o gentipo, com efeito gentico pr-estimado
em uma amostra da populao, para inferir sobre o fentipo a ser expresso nos
candidatos seleo.

137

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Os efeitos dos marcadores no sero, necessariamente, os mesmos em


diferentes estudos e ambientes. Na GWS, os efeitos genticos dos marcadores so
estimados e usados na seleo para cada populao de melhoramento e em um
determinado ambiente. Modelos de estimao incluindo a interao gentipos x
ambientes podem tambm ser usados, visando verificar a possibilidade de se obter
estimativas vlidas para um conjunto de ambientes. Mas, isso depender da
magnitude da interao envolvendo os vrios ambientes.
A GWS pode basear-se no uso de: (i) apenas dos marcadores; (ii) de
hapltipos ou intervalos definidos por dois marcadores; (iii) hapltipos definidos por
mais de dois marcadores, incluindo a covarincia entre hapltipos devida ligao.
Segundo Callus et al. (2008), para caracteres de baixa herdabilidade (10%) no
existem diferenas significativas entre essas trs abordagens. Solberg et al. (2006)
mostraram que possvel praticar a GWS eficientemente com o uso apenas dos
marcadores, ou seja, com a predio direta dos efeitos dos marcadores. Relatam
tambm que isso vantajoso porque no h necessidade de estimar as fases de ligao
entre os marcadores, as quais so estimadas com algum erro.
Cada par contguo de marcadores define um hapltipo ou intervalo. Existem
apenas dois alelos para cada marcador, pois os SNPs tm diferenas em um nico par
de bases. Dessa forma, para cada par de marcadores existem quatro hapltipos
possveis. A freqncia de cada hapltipo depende da freqncia dos alelos em cada
marcador e da distncia entre marcadores ou eventos de recombinao. Assim, um
nmero suficiente de indivduos devem ser genotipados de forma que todos os
hapltipos estejam representados nos indivduos com avaliaes fenotpicas
(Schaeffer, 2006).
No apenas marcadores SNPs podem ser usados na GWS. Marcadores
microssatlites tambm se prestam a esse fim. Solberg et al. (2006) relatam que o uso
de SNPs requer quatro a cinco vezes maior densidade de marcadores do que o uso de
microssatlites. Isto se deve natureza bi-allica (bi-nucleotdica) dos SNPs e multiallica dos microssatlites. Tais marcadores so eficientes por serem co-dominantes,
multi-allicos, abundantes e apresentarem alta transferibilidade entre indivduos e
espcies. Outra classe de marcadores que se adequa bem GWS so os DArT
(Diversity Array Technology), a qual permite amostrar amplamente o genoma sem a
necessidade de conhecimento prvio das sequncias de DNA.
A GWS fundamenta-se nos marcadores genticos moleculares do tipo SNP
(polimorfismo de um nico nucleotdeo), o qual se baseia na deteco de
polimorfismo resultante da alterao de um nico par de base no genoma. E para que
uma variao seja considerada SNP, essa deve ocorrer em pelo menos 1 % da
populao. Os SNPs so a forma mais abundante de variao do DNA em genomas e
so preferidos em relao a outros marcadores genticos devido sua baixa taxa de
mutao e facilidade de genotipagem. Milhares de SNPs podem ser usados para
cobrir o genoma de um organismo com marcadores que no esto a mais de 1 cM um
do outro no genoma inteiro. A GWS atua mais proximamente aos QTNs
(nucleotdeos de caractersticas quantitativas) ou sobre marcadores fortemente
ligados a esses. Os QTNs so polimorfismos funcionais, causadores diretos da

138

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

variao quantitativa observada. A anlise de SNPs permite a deteco de


polimorfismos funcionais ou polimorfismos em forte desequilbrio de ligao com os
QTNs. Tecnologias para genotipagem de milhares de SNPs em microarranjos esto
disponveis atualmente. Microarranjos so sistemas de arranjos de DNA que
utilizam lminas de vidro e sondas fluorescentes e permitem depositar milhares de
seqncias de DNA. Nessa tcnica so utilizados nucleotdeos marcados capazes de
emitir fluorescncia ao invs de radioatividade.
O desenvolvimento conceitual da GWS coincide com a tecnologia associada
aos SNPs, a qual acurada e relativamente barata. A GWS usa associaes de um
grande nmero de marcadores SNPs em todo o genoma com os fentipos,
capitalizando no desequilbrio de ligao entre os marcadores e QTLs proximamente
ligados. As predies derivadas de dados fenotpicos e de gentipos SNPs em alta
densidade em uma gerao so ento usadas para obteno dos valores genticos
genmicos (VGG) dos indivduos de qualquer gerao subseqente, tendo por base
os seus prprios gentipos marcadores.
Quando o desequilbrio de ligao entre marcadores no completo, as
freqncias allicas conjuntas envolvendo dois locos podem mudar substancialmente
atravs das geraes, conduzindo a mudanas nos hapltipos. Assim, os efeitos dos
marcadores necessitaro ser re-estimados para manter a acurcia da GWS em vrias
geraes (Dekkers, 2007). Com desequilbrio de ligao completo os efeitos
estimados permanecem constantes atravs das famlias e geraes em um mesmo
ambiente.
6.2 Acurcia da GWS

A acurcia ( rq q ) da seleo GWS depende da proporo ( rmq2 ) da variao


gentica explicada pelos marcadores e da acurcia ( rm m ) da predio dos efeitos dos
marcadores ou hapltipos que esto em desequilbrio de ligao com os QTLs,
segundo a expresso rq q ( rm2m rmq2 ) 1 / 2 . O parmetro rmq2 depende da densidade de
marcadores e da extenso e padro do desequilbrio de ligao que existe na
populao. Por sua vez, o parmetro rm m depende da quantidade e preciso dos dados
disponveis para estimar os efeitos dos marcadores, alm da eficincia da estratgia e
dos mtodos estatsticos usados na predio.
Resende (2008) e Resende et al. (2008) apresentaram uma abordagem para
cmputo da acurcia esperada com a GWS, a qual foi empregada por Grattapaglia e
Resende
(2011).
A
acurcia
esperada

dada
por
2
2
1/ 2
2
2
2
rq q ( rmq rm m ) rmq ( Nh m ) /[1 ( N 1) h m ] . Com ajuste dos efeitos polignicos
residuais no modelo de predio tem-se h m2 ( rmq2 h 2 / n Q ) /( rmq2 h 2 (1 h 2 )) . Sem
ajuste dos efeitos polignicos residuais tem-se h m2 ( rmq2 h 2 / n Q ) , em que h 2 a
herdabilidade individual no sentido restrito do carter, hm2 a herdabilidade
2
individual de um loco, N o nmero de indivduos genotipados e fenotipados, rmq

a proporo da variao gentica explicada pelos marcadores (magnitude do

139

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

desequilbrio de ligao), rm2m a confiabilidade da estimativas dos efeitos das marcas


e nQ o nmero de genes (quando conhecido) controlando o carter ou o nmero de
segmentos cromossmicos independentes (quando o nmero de genes
desconhecido), os quais no sofrem recombinao dentro deles.
do

desequilbrio

rmq2 E ( r 2 )

ligao

(Sved, 1971) ou

de

1S
e
N
4

2
E (r 2 )
rmq

magnitude
1 Se
N
4

quantificada

por
O
(Tenesa et al., 2007).

valor esperado da estatstica r2, que mede a magnitude do desequilbrio de ligao,


depende do tamanho efetivo populacional (Ne) e da freqncia de recombinao
(funo da distncia S entre locos).
Para Ne = 10 e distncia entre marcas de 1 cM, o valor esperado de r2 0,71.
Para essa mesma distncia entre locos e Ne de 20 e 30, os valores esperados de r2 so
0,56 e 0,45, respectivamente. Com o dobro de marcadores e espaamento de 0.5 cM
entre marcadores, os valores esperados de r2 so: (i): Ne = 10; r2 = 0.83; (ii) Ne = 20; r2
= 0.71; (iii) Ne = 30; r2 = 0.63. Em eucalipto (tamanho do genoma igual a 1.300 cM),
com Ne igual a 20, 1.300 marcadores espaados a 1 cM conduziriam a um r2 de 0.56.
Com o dobro de marcadores (2.600) e espaamento de 0.5 cM entre marcadores, o
valor esperado de r2 0.71. Portanto, 2.600 marcadores seria um nmero mnimo de
marcadores para implementao da GWS em eucalipto. Nessa situao, com N igual
a 1.000 indivduos genotipados e fenotipados, nQ igual a 100 locos e h2 de 30%,
aplicando-se a frmula da acurcia ter-se-ia uma acurcia de 70 %, valor esse muito
interessante do ponto de vista prtico, para a seleo precoce em plntulas.
Daetwyler et al. (2008) assumiram varincia residual e2 1 e rmq2 1 ,
obtendo rm m ( Nh 2 / n Q ) /[1 ( Nh 2 / n Q )] ( h 2 ) /[1 ( h 2 )] mostrando a importncia
da quantidade N / n Q , a qual equivale ao nmero de indivduos N usados para
estimar o efeito de cada loco na populao de estimao. Resende (2008) obteve uma
expresso mais geral, no assumindo e2 1 e rmq2 1 , ou seja, mantendo esses dois
elementos na frmula e assumindo y2 1 (distribuio normal padro para os
fentipos, em que y2 a varincia fenotpica). Sem ajuste dos efeitos polignicos
residuais no modelo de predio tem-se a expresso (Resende, 2008):
2
rq q ( rmq
rm2m )1 / 2
2
rq q ( rmq
rm2m )1 / 2

2
rmq
( Nh m2 ) /[1 ( N 1) h m2 ]
2
2
2
rmq
( Nrmq
h 2 / n Q ) /[1 ( N 1) rmq
h 2 / nQ ]

Goddard et al. (2011) assumiram varincia residual e2 1 e obtiveram a expresso


2
2
2
2
rq q ( rmq
rm2m )1 / 2 rmq
( Nrmq
h 2 / n Q ) /[1 Nrmq
h 2 / n Q ] , que praticamente igual
expresso de Resende (2008). igual desde que se assuma N = (N 1). Goddard et al.
(2011) consideram em lugar de nQ o nmero efetivo de segmentos cromossmicos
(Me) segregando na populao, ou seja, o numero de blocos de DNA que no sofrem
recombinao dentro deles e que devem ser marcados adequadamente. O Me depende
do Ne da populao e do tamanho do genoma da espcie. Detalhes sobre esse tema e
sobre o clculo de Me podem ser vistos no tpico 6.26.

140

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Em resumo, a acurcia da GWS depende de cinco fatores: (i) da herdabilidade


do carter; (ii) do nmero de locos controlando o carter e da distribuio de seus
efeitos; (iii) do nmero de indivduos na populao de descoberta; (iv) do tamanho
efetivo populacional; (v) do espaamento entre marcadores, o qual depende do seu
nmero e do tamanho do genoma. Os dois primeiros fatores no esto sobre o
controle do melhorista. Os trs ltimos podem ser modificados pelo melhorista
visando aumentar a acurcia da GWS.
Valores de acurcia esperada para vrias situaes foram tabelados por
Resende (2008). Na Tabela 23 so apresentados resultados da acurcia seletiva da
GWS para um carter controlado por 100 locos e com herdabilidade individual no
sentido restrito igual a 0.30. Verifica-se que, para uma populao de eucalipto com
tamanho efetivo 20 ( rmq2 = 0.7), a acurcia seletiva esperada com a GWS de 0.79,
para um tamanho amostral de N = 4000 indivduos. Esse valor supera a acurcia
mxima (0.70) para a seleo de indivduos em testes de famlia, pelo BLUP
tradicional na idade adulta, para um carter com herdabilidade de 20%. Isto atesta o
grande potencial da GWS.
Tabela 23. Aumento da acurcia da GWS em funo do aumento do tamanho da populao de estimao.
Carter controlado por 100 locos e com herdabilidade individual no sentido restrito igual a 0.30.
2
2
2
2
2
Nmero de
= 0,1
= 0,3
= 0,5
= 0,7
= 0,9
rmq
rmq
rmq
rmq
rmq
Indivduos

100
0,06
0,18
0,27
0,36
200
0,09
0,24
0,36
0,47
500
0,13
0,33
0,48
0,61
1000
0,17
0,40
0,57
0,70
2000
0,21
0,46
0,62
0,76
4000
0,25
0,50
0,66
0,79
8000
0,28
0,52
0,68
0,81
*Acurcia mxima para a seleo de indivduos pelo BLUP tradicional na idade adulta = 0.70

0,44
0,57
0,72
0,81
0,87
0,91
0,93

Ganhos adicionais podem ser conseguidos por unidade de tempo, conforme a


Tabela 24. Verifica-se que ganho da ordem de 126% pode ser conseguido com a
reduo, de 4 para 2 anos (ou seja, 50%) do tempo necessrio para completar um ciclo
de seleo.
Tabela 24. Eficincia da GWS por unidade de tempo.
Acurcia
Acurcia
Tempo
Fenotpica (AF)
Genmica (AG)
Fenotpica (TF)

0,70
0,70
0,70
0,70
0,70

0,79
0,79
0,79
0,79
0,79

4
4
4
4
4

Temp
Genmica
(TG)

Eficincia
(AG TF)/(AF TG)

Superioridade %

4
3
2
1
0,5

1,13
1,50
2,26
4,51
9,03

13
50
126
351
803

141

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Detalhes das Expresses da Acurcia

Partindo da expresso de Resende (2008),


assumindo
rg g

( N 1)
1
N

rg g

2
2
rmq
h 2 / nQ )
( Nr mq
2
h 2 / nQ
1 ( N 1) rmq

para N grande tem-se:

2
2
rmq
( Nr mq
h 2 / nQ )

, expresso idntica de Goddard et al. (2011).

2
1 Nr mq
h 2 / nQ

Rearranjando essa expresso tem-se:


r
, donde se verifica que o valor mximo atingido pela acurcia
r
2
mq

g g

1
2
Nr mq
h 2 / nQ

r2 .
igual raiz quadrada de mq
2
2
para se aumentar a acurcia. E rmq

Assim, torna-se imperativo aumentar rmq


dada por 2
nm

rmq
, donde se verifica que o seu aumento s pode ser
e

nm M e

nm

conseguido com o aumento do nmero nm de marcadores, visto que Me fixo para


determinada espcie e Ne da populao, conforme mostrado mais adiante.
2
rmq

rg g

Rearranjando

, tem-se

1
Nr h 2 / n Q

rg g 1 /(

nQ
1

)
2
2
, donde se
)2 h 2
rmq N ( rmq

2
mq

verifica que a acurcia diretamente proporcional a N, h2 e r2mq e inversamente


proporcional a nQ.
nQ
, expresso
ou rgg 1 /(1 Nh 2 )
equivalente de Daetwyler et al. (2008). Com base nessa expresso, o nmero de
1 rg2g
QTL ou genes pode ser estimado por nQ 2 Nh 2 , em que rg2g a estimativa do
rgg
quadrado da acurcia obtida com base na GWS aplicada sobre dados experimentais
Daetwyler et al. (2010).

Se r2mq = 1,

rg g 1 /(1

1
)
Nh / n Q
2

nQ
e a acurcia depende apenas de um
Se r2mq = 1 e se h2 = 1: rgg 1 /(1 N )
tamanho amostral N de indivduos suficiente para estimar efeitos de nQ genes. Se

r2mq < 1 e se h2 = 1, tem-se rgg 1 /( 1


2
rmq

nQ
2
)2
N ( rmq

e a acurcia depende tambm da

maximizao de r2mq, alm de um N adequado.


n

n
Q
Nh

nm )2
]
2
nm

Me

nm

rg g 1 /[1

2
m
Substituindo rmq n m M e na expresso da acurcia e rearranjando chega-se a

, donde se verifica (em nm ) a importncia de nm

em explicar M e (nmero de marcadores em explicar o nmero de segmentos


142

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

cromossmicos) e a importncia de Nh2 em explicar o nmero de genes (em nQ ).


Nh2

Considerando
al.

nm

(2009)

tem-se

L
e
N
4

conforme

Ln( 2 Ne )

L
e
N
2

rg g 1 /[1

conforme Sved (1971) e nQ 2 N e L

et

L
e
N
4

Hayes

L
Ne
4

Verifica-se tambm que M e inversamente proporcional acurcia.

nm )

Nh [ Ln ( 2 Ne )]

nm

expresso

final

, a qual depende de cinco fatores: de

maneira inversamente proporcional a Ne e L (tamanho total do genoma em


Morgans), e, diretamente proporcional a N, h2 e nm.
e

L
Ne
4

nm

nm M e

2
rmq

L
e
N
14

Sved (1971) considera

, e, portanto,

L
Ne
4

nm

segmentos

corrigidos
1

ou

Var(W ) 2 p(1 p )

Ln( 2 Ne)

nQ M e Var (W ) M e [ 2 p (1 p )]

L
Ne
2

, em que
o nmero total de segmentos cromossmicos (a serem marcados) e
L/nm = S. Hayes et al. (2009) consideram
como o nmero efetivo (de

mesmo tamanho, ponderados pelos comprimentos) de segmentos cromossmicos


(corrigidos,
contendo
genes).
Esses
mesmos
autores
consideram
Me
Ne
como o nmero provvel de QTL

Ln( 2 N e ) Ln( 2 N e )

para

mesmo

tamanho

frequncia,

em

que

a varincia da varivel indicadora W dos marcadores.

Quando Var(W ) 1 , se nQ 2 Ne L , tem-se:


nQ n m ) 2

Nh 2

nm

1 /[1

nm

L
e
N
4
L
e
N
2

rg g

nm

n
Q

L
e
N
4

ou

nQ

2
rg g 1 /[1

Nh

nm )2

nm

Essa expresso conservadora e leva a menores acurcias estimadas.


em
M

1 /(1

nm

L
e
N
2

L
e
N
2

rg g

e (nQ + nm)/nm tender a um tem:se:

x
a

Se nQ Ne

Nh 2

rg g

1 /(1

nQ
nm

nQ
Nh 2

ou

. Essa expresso mais simples para cmputo rpido.

[
/
L
Ne
2

e
M

Goddard (2011), acrescenta na expresso de Me uma diviso por Ln( Ne L / k ) ,


em que k o nmero de cromossomos, de forma que tem-se

Ln ( Ne L / k ) .
Quanto maior o tamanho L / k do cromossomo, melhor (mais marcadores no
cromossomo ajudando a capturar o mesmo QTL). Nesse caso, tem-se:
m

[
/
L
e
N
2

rmq2

Ln ( Ne L / k )]

143

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A frao Ln (Ne L / k) advem do fato de se considerar o LD entre a marca


alvo e todos os marcadores dentro de cromossomos e no apenas o vizinho mais

e
M

prximo e o alvo. Outra forma de estimar Me via o r2 de Hill e Robertson:


1
2
2 em que rpl o r2 mdio para todos os pares de locos, o qual relaciona-se com
rpl
a variancia dos coeficientes de parentesco (matriz A), por meio de Var (A) = rpl2

1
Me

Goddard (2011) usa a formula com Me e no nQ. Assim,


nm )2

Nh 2

nm

equivale a

rgg 1 /[1

nm

Em concluso, recomenda-se a expresso

1 /[1

nm

nm )2

nm

L
e
N
2
L
e
N
2

L
e
N
2

rg g

Me
Nh 2

e
M

n
Q

e
M

nm

e
M

e
M
rgg 1 /[1

Nh 2

nm )2

nm

obtida pela derivao de Resende (2008) e considerando Me = 2NeL.


Um resumo apresentado a seguir.
Resumo das Expresses para a Acurcia
r2mq
Me
Autor
rgg
2
2
2
M e 4NeL
1
Resende
2
rmq ( Nr mq h / nQ )

rmq
rg g
2
2
1 4 N e L / nm
(2008)
1 ( N 1) rmq h / nQ
nm
nm M e

Daetwyler
et
al.
(2008)
Goddard
(2009)
Hayes et
al. (2009)
Goddard
et al. (2011)

Nh 2 / n Q

rg g

rg g

Nh 2 / n Q
1 Nh 2 / n Q

1 /(1

Nh / n Q
1 Nh / n Q

rg g

Nh 2

nQ
Nh 2

rg g

nQ

1 /(1

1 Nh 2 / n Q

1 /(1

2
rmq
1

Nh

e2

nQ nm[2 p(1 p)]

e2 (1 h 2 ) y2

2
ou nQ suposto y 1
conforme
a
herdabilidade
e2 y2
nQ suposto

e2 1
2
rmq
1

nQ

nQ

Me

2
rmq
1

2
2
rmq
( Nr mq
h 2 / nQ )
2
1 Nr mq
h 2 / nQ

M e 2 Ne L

nm
nm M e

2
rmq

2 Ne L
Ln(4 Ne L)

Me

2 Ne L
Ln( Ne L / c)

nQ

Me
Ln(2 Ne )

e2 y2

nQ

Me
Ln(2 Ne )

e2 y2

e2 1
e2 1

nQ M e

e2 y2

e2 1

Frmulas Alternativas da Derivao de Resende (2008)


1

rg g

2
2
rmq
( Nr mq
h 2 / nQ )

1 /[1

rg g

1 /[1

nm

nm

nm

Nh [ Ln ( 2 Ne )]

Nh

]
nm )2

L
e
N
2
L
e
N
2

1 /[1

L
e
N
2

r gg

nm )2

L
e
N
4

Nh

L
e
N
2

L
e
N
4

nm

n
Q

rg g

2
1 ( N 1) rmq
h 2 / nQ

nm

nm )2

nm

144

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Casos especiais da derivao de Resende (2008)


Casos
Se r2mq = 1 (dados de Se h2 = 1 (dados de Se r2mq = 1 e se h2 = 1:
especiais da sequncia ou nm alto):
valores genticos com
nQ
rg g 1 /(1
)
derivao de
acurcia 100%)
: necessidade de
nQ
N
rg g 1 /(1
)
2
n
Resende
1
Q
grande nmero de dados para
Nh
)
rg g 1 /( 2
2
)2
rmq
N ( rmq
(2008)
2
conhecer os efeitos de cada loco e
Nh = 10 nQ para obter
alelo; N = 10 nQ para obter
acurcia de 90% e N =
2
acurcia de 90%. Se 200 locos: N =
50 nQ para h de 0.2:
2000.
200 locos: N = 10.000
* nQ pode ser visto como nQ = Ne L

A seguir ilustra-se o aumento de r2mq em funo do aumento de nm em Eucalipto,


com base na expresso de Hayes et al. (2009).
Comportamento de r2mq em funo de Ne, nm e Me em Eucalipto.
Ne
Me
nm
r2mq
Ne
Me
10
86.8
3000
0.85
20
141.0
10
86.8
5000
0.91
20
141.0
10
86.8
10000
0.95
20
141.0
20
141.0
10
86.8
15000
0.97
10
86.8
20000
0.97
20
141.0
20
141.0
10
86.8
30000
0.98

nm
3000
5000
10000
15000
20000
30000

r2mq
0.74
0.83
0.91
0.94
0.95
0.97

30
30
30
30
30
30

190.5
190.5
190.5
190.5
190.5
190.5

3000
5000
10000
15000
20000
30000

0.66
0.76
0.87
0.91
0.93
0.95

50
50
50
50
50
50

282.3
282.3
282.3
282.3
282.3
282.3

3000
5000
10000
15000
20000
30000

0.54
0.66
0.79
0.85
0.88
0.92

100
100
100
100
100
100

490.7
490.7
490.7
490.7
490.7
490.7

3000
5000
10000
15000
20000
30000

0.37
0.49
0.66
0.74
0.79
0.85

200
200
200
200
200
200

867.9
867.9
867.9
867.9
867.9
867.9

3000
5000
10000
15000
20000
30000

0.22
0.32
0.49
0.59
0.66
0.74

A seguir ilustra-se o aumento da acurcia em funo do aumento de N e nm em


Eucalipto, com base na expresso de Resende (2008).
Comportamento de rgg em funo de N e nmero de marcas em Eucalipto. Ne 100.
h2 a
N
Nmarcas rgg
h2 a
N
Nmarcas rgg
0.1
1000
10000
0.28
0.1
1000
20000
0.33
0.2
1000
10000
0.37
0.2
1000
20000
0.44
0.3
1000
10000
0.43
0.3
1000
20000
0.51
0.4
1000
10000
0.48
0.4
1000
20000
0.56
0.5
1000
10000
0.51
0.5
1000
20000
0.60
0.6
1000
10000
0.54
0.6
1000
20000
0.63

145

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

0.1
0.2
0.3
0.4
0.5
0.6

2000
2000
2000
2000
2000
2000

10000
10000
10000
10000
10000
10000

0.37
0.48
0.54
0.58
0.61
0.64

0.1
0.2
0.3
0.4
0.5
0.6

2000
2000
2000
2000
2000
2000

20000
20000
20000
20000
20000
20000

0.44
0.56
0.63
0.67
0.70
0.72

0.1
0.2
0.3
0.4
0.5
0.6

10000
10000
10000
10000
10000
10000

10000
10000
10000
10000
10000
10000

0.61
0.69
0.73
0.74
0.76
0.76

0.1
0.2
0.3
0.4
0.5
0.6

10000
10000
10000
10000
10000
10000

20000
20000
20000
20000
20000
20000

0.70
0.78
0.81
0.83
0.84
0.85

Tabelas vlidas para eucalipto (L = 13 Morgans), pinus (L = 15 Morgans) e caf (L = 14 Morgans).

A seguir ilustra-se os valores de acurcia de quatro mtodos de seleo em Eucalipto.


Acurcias seletivas dos mtodos de seleo em Eucalipto.
Herdabilidade Massal Blup
GWS1 GWS2
Individual
0.1
0.32
0.67
0.44
0.70
0.2
0.45
0.72
0.56
0.78
0.3
0.55
0.76
0.63
0.81
0.4
0.63
0.78
0.67
0.83
0.5
0.71
0.81
0.70
0.84
0.6
0.77
0.84
0.72
0.85
GWS1: Seleo Genmica Ampla usando 2.000 indivduos genotipados para 20.000 marcas; GWS2:
Seleo Genmica Ampla usando 10.000 indivduos genotipados para 20.000 marcas.

A seguir ilustra-se os valores de ganho com seleo de quatro mtodos de seleo em


Eucalipto.
Ganhos genticos (em unidades de desvio padro gentico aditivo por
unidade de tempo (ano) associados aos mtodos de seleo em Eucalipto.

Herdabilidade

Massal

0.1
0.2
0.3
0.4
0.5
0.6

0.277
0.392
0.481
0.555
0.620
0.680

Entre e
Dentro*
0.494
0.547
0.583
0.614
0.642
0.670

Blup
Individual
0.592
0.635
0.663
0.688
0.713
0.740

GWS1

GWS2

1.55
1.96
2.19
2.35
2.46
2.54

2.46
2.73
2.85
2.91
2.95
2.98

GWS1: Seleo Genmica Ampla usando 2.000 indivduos genotipados para 20.000 marcas;
GWS2: Seleo Genmica Ampla usando 10.000 indivduos genotipados para 20.000 marcas.
* de Famlias.

146

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.3 Populaes de Estimao, Validao e Seleo

Na prtica da seleo genmica ampla, trs populaes podem ser definidas:


populao de estimao, validao e seleo. Essas podem: (i) ser fisicamente
distintas (3 populaes diferentes); (ii) exercer duas funes ao mesmo tempo (uma
s populao usada para estimao e validao); (iii) exercer trs funes ao mesmo
tempo (uma s populao usada para estimao, validao e seleo). Em geral, as
estratgias (i) e (ii) so as mais usadas, embora a (iii) seja tambm muito usada no
mtodo G-BLUP (ver tpico 6.12). A Figura 1 ilustra a estratgia (ii).
Populao de Estimao. Tambm denominada populao de descoberta, de
treinamento ou de referncia. Esse conjunto de dados contempla um grande nmero
de marcadores avaliados em um nmero moderado de indivduos (1.000 a 10.000,
dependendo da acurcia desejada, conforme relatado no tpico anterior), os quais
devem ter seus fentipos avaliados para os vrios caracteres de interesse. Equaes de
predio (regresso mltipla aleatria) de valores genticos genmicos so obtidas
para cada carter de interesse. Essas equaes associam a cada marcador ou intervalo
o seu efeito predito no carter de interesse. Nessa populao so descobertos, via
marcadores, os marcadores que explicam os locos que controlam os caracteres, bem
como so estimados os seus efeitos.
Populao de Validao. Quando fisicamente disjunta da populao de estimao, esse
conjunto de dados menor do que aquele da populao de descoberta e contempla
indivduos avaliados para os marcadores SNPs e para os vrios caracteres de
interesse. As equaes de predio de valores genticos genmicos so testadas para
verificar suas acurcias nessa amostra independente. Para computar essa acurcia, os
valores genticos genmicos so preditos (usando os efeitos estimados na populao
de estimao) e submetidos a anlise de correlao com os valores fenotpicos
observados. Como a amostra de validao no foi envolvida na predio dos efeitos
dos marcadores, os erros dos valores genticos genmicos e dos valores fenotpicos
so independentes e a correlao entre esses valores predominantemente de
natureza gentica e equivale capacidade preditiva ( ry y ) da GWS em estimar os
fentipos, sendo dada pela prpria acurcia seletiva ( rq q ) multiplicada pela raiz
quadrada da herdabilidade individual (h), ou seja, ry y rq q h , conforme demonstrado
no tpico 6.5. Assim, para estimao da prpria acurcia deve-se obter rq q ry y / h .
Isso vlido quando so usados os valores fenotpicos brutos para cmputo da
correlao. Quando so usados valores genotpicos preditos com base nos fentipos
em vez dos valores fenotpicos brutos, a herdabilidade deve ser substituda pela
confiabilidade. De maneira geral adota-se a estratgia (ii), segundo um esquema
Jacknife de validao cruzada. Segundo Meuwissen (2007), quando dezenas a
centenas de milhares de hapltipos so estimados, existe o risco de
superparametrizao, ou seja, erros nos dados serem explicados pelos efeitos de
marcadores. A validao cruzada ento de grande importncia para contornar esse
problema.

147

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Populao de Seleo. Esse conjunto de dados contempla apenas os marcadores


avaliados nos candidatos seleo. Essa populao no necessita ter os seus fentipos
avaliados. As equaes de predio derivadas na populao de descoberta so ento
usadas na predio dos valores genticos genmicos (VGG) ou fentipos futuros dos
candidatos seleo. Mas a acurcia seletiva associada refere-se quela calculada na
populao de validao. Na Figura 2 Ilustrada a aplicao da seleo genmica
ampla no melhoramento gentico de sunos (Goddard e Hayes, 2009).
A seguinte estratgia e sequncia de anlise envolvendo as populaes de
estimao e validao podem ser indicadas: compute a predio dos valores genticos
genmicos (VGG) usando todos os marcadores e calcule a correlao rVGG,y entre
VGG e y, em que ry y rVGG , y ; ordene os marcadores por maiores mdulos dos efeitos
estimados dos marcadores; crie arquivos com subconjuntos dos marcadores com
maiores mdulos dos efeitos estimados dos marcadores (100, 250, 500, 1000, 1500, 2000,
...); analise todos esses arquivos e compute as correlaes rVGG,y e escolha o arquivo
timo que maximiza a rVGG,y; faa a validao nesse arquivo timo com k = 2 no
processo Jacknife descrito a seguir; faa a validao nos outros arquivos menores que
o timo e em um maior que o timo para ver tendncias (usar k = 2); compute os
valores de rq q ry y / h nas validaes realizadas.

Populao de Estimao (PE)

1.000 a 10.000 Indivduos


Genotipados e Fenotipados

y = 1u + Xm + e

Estimao dos Efeitos dos Marcadores


Gerao das equaes de predio

Populao de Seleo (PS) Precoce

20.000 Indivduos apenas Genotipados

Populao de Validao (PV)

Cmputo da Acurcia nos mesmos


Individuos da PE via Validao
Cruzada

Figura 1 Esquema de aplicao da seleo genmica ampla em um programa de melhoramento gentico


(Resende et al., 2010).

6.4 Populao de Validao e Jacknife

Na estimao de um parmetro a partir de uma amostra ou conjunto de dados


com n observaes, o procedimento Jackknife para a estimao da varincia do
estimador consiste na omisso de cada uma das n observaes, uma em cada
reamostragem. A metodologia generalizada do Jackknife baseia-se na diviso do
conjunto de N dados amostrais em g grupos de tamanho igual a k, de forma que N =
gk. Em geral, k tomado como 1, mas, pode ser to grande quanto N/2. O estimador
i corresponde quele baseado em amostras de tamanho (g 1)k, onde o i-simo

148

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

grupo de tamanho k foi removido. Com k = 1, N = g e (g 1)k = g 1= N-1, de forma


que i refere-se amostra em que foi omitida a observao i (Resende, 2008).
Validaes com k = 1 e k =2 tendem a conduzir aos mesmos valores de acurcia na
populao de validao. Assim, no h necessidade de usar k = 1, sendo que valores
maiores so tambm suficientes para a validao cruzada.

Figura 2 Ilustrao da aplicao da seleo genmica ampla no melhoramento gentico de


sunos (Goddard e Hayes, 2009).

149

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.5 Correlao e Regresso entre Valores Genticos Preditos e


Fentipos na Populao de Validao

Os coeficientes de correlao e regresso envolvendo valores observados e


preditos so medidas prticas da capacidade dos mtodos predizerem de forma
acurada e no viesada, respectivamente. A correlao fornece a capacidade preditiva,
a qual equivale ao produto da acurcia pela raiz quadrada da herdabilidade. O
coeficiente de regresso equivale algebricamente a 1. Coeficientes de regresso abaixo
de 1 indicam que os valores genticos so superestimados e apresentam variabilidade
alm da esperada e acima de 1 indicam que os valores genticos estimados
apresentam variabilidade aqum da esperada. No vcio importante quando a
seleo envolve indivduos de muitas geraes usando efeitos dos marcadores
estimados em uma s gerao. Coeficientes de regresso prximos de 1 indicam que
as avaliaes so no viesadas e so efetivas em predizer as reais magnitudes das
diferenas entre os indivduos em avaliao. A seguir so apresentadas algumas
definies paramtricas importantes envolvendo os valores fenotpicos corrigidos
(yc) e os valores genticos genmicos preditos na populao de validao ( gV ).
A. Covarincia

Cov ( g V , y c ) Cov [ g V , ( g e )] Cov ( g V , g )


B.

Varincias

Var ( g V ) g2V

Var ( y c ) y2c g2 e2 g2 / h c2
C.

Correlao

rgf Cor ( g V , y c ) Cov ( g V , y c ) /( gV y c ) Cov ( g V , g ) /( gV y c )


Cov ( g V , g ) /[ gV ( g2 / h c2 ) 1 / 2 ] Cov ( g V , g ) /[ gV ( g / h c )] rg g h c
D. Regresso de yc em

gV

b y g Re g ( y c / g V ) Cov ( g V , y c ) /( g2V ) Cov ( g V , g ) /( g2V ) g2V / g2V 1


E.

Acurcia

rg g rgf / h c
F.

Confiabilidade

rg2g ( rgf / h c ) 2

O erro padro da estimativa da acurcia pode ser computado por


s ( rg g ) [( 1 rg2g ) /( N 2 )] 1 / 2 . O coeficiente de regresso tem valor esperado igual a 1 e
nessa situao indica que a predio foi no viesada. Assim sendo, pode-se tambm
usar o coeficiente de regresso para estimar a herdabilidade ( hc2 ) a ser empregada.

150

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Vrios valores de herdabilidade so avaliados e aquele que fornecer uma regresso


igual a 1 deve ser escolhido como melhor estimativa. Se a regresso der resultado
menor que 1 o valor de herdabilidade avaliado foi de alta magnitude e deve ser
diminudo at a convergncia para 1. Se a regresso der resultado maior que 1 o valor
de herdabilidade avaliado foi de pequena magnitude e deve ser aumentado at a
convergncia para 1.
6.6 Mtodos estatsticos na seleo genmica ampla

No contexto da seleo assistida por marcadores e da predio genmica, o


mtodo de quadrados mnimos (LS) apresenta srias deficincias. Segundo Gianola
et al. (2003), o ndice de seleo (calculado como regresso envolvendo escores
moleculares) apresentado por Lande e Thompson (1990) para a MAS falha quando
formulado em uma maneira vetorial. Isto porque a matriz de covarincia dos escores
moleculares singular uma vez que a distribuio dos valores ajustados da regresso
definida somente no espao p-dimensional (nmero de covariveis) e no no
espao n-dimensional (nmero de indivduos com escores moleculares). Ento, o
ndice de seleo conduz a um infinito nmero de solues.
Outra dificuldade que surge quando o nmero de marcadores iguala ou
supera o nmero de indivduos genotipados. Nessa situao, a colinearidade das
variveis preditoras causa problemas de identificao paramtrica e algum mtodo de
reduo dimensional deve ser usado, como por exemplo a decomposio por valor
singular. Outro problema a prpria inadmissibilidade (no propiciam mnimo erro
quadrtico mdio) dos estimadores LS, resultado esse que desmorona a estimao por
LS e por GLS (quadrados mnimos generalizados). Assim, o mtodo LS no
recomendado na MAS e na GWS. Na GWS, devido ao nmero de marcadores
maior do que o nmero de indivduos, existe uma escassez de graus de liberdade para
estimar os efeitos de todos os marcadores. Uma soluo para contornar essa questo
usar o mtodo da regresso ridge (RR de Whittaker et al., 2000) ou assumir os efeitos
de marcadores como aleatrios ao invs de fixos. O ajuste de efeitos aleatrios no
consome graus de liberdade, e ento, os efeitos de todos os marcadores podem ser
estimados simultaneamente. E isto conduz ao procedimento RR-BLUP, relatado a
seguir.
O mtodo LS ineficiente devido a: impossibilidade de estimar todos os
efeitos simultaneamente, pois o nmero de efeitos a estimar maior do que o
nmero de dados; estimando um efeito de cada vez e verificando a sua significncia,
conduz a superestimativas dos efeitos significativos; a acurcia do mtodo baixa;
somente QTLs de grande efeito sero detectados e usados e, conseqentemente, nem
toda a variao gentica ser capturada pelos marcadores. O mtodo LS assume
distribuio a priori para os QTLs, com varincia infinitamente grande, fato que
incompatvel com a conhecida varincia gentica total. O RR-BLUP assume os
efeitos de QTL com distribuio normal com varincia constante atravs dos
segmentos cromossmicos. A distribuio dos efeitos de QTL conhecida em poucos
caracteres e espcies. Em gado bovino leiteiro, Goddard & Hayes (2007) relatam a
presena de 150 QTLs para o carter produo de leite e estimaram a distribuio de
seus efeitos como aproximadamente exponencial.

151

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Um mtodo ideal para GWS deve contemplar trs atributos: (i) acomodar a
arquitetura gentica do carter em termos de genes de pequenos e grandes efeitos e
suas distribuies; (ii) realizar a regularizao do processo de estimao em presena
de multicolinearidade e grande nmero de marcadores, usando para isso estimadores
do tipo shrinkage; (iii) realizar a seleo de covariveis (marcadores) que afetam a
caracterstica em anlise. O problema principal da GWS a estimao de um grande
nmero de efeitos a partir de um limitado nmero de observaes e tambm as
colinearidades advindas do desequilbrio de ligao entre os marcadores. Os
estimadores do tipo shrinkage lidam adequadamente com isso, tratando os efeitos de
marcadores como variveis aleatrias e estimando-os simultaneamente (Resende et
al., 2008). Os principais mtodos para a GWS (Tabela 25) podem ser divididos em
trs grandes classes: regresso explcita, implcita e com reduo dimensional. Na
primeira classe, destacam-se os mtodos RR-BLUP, LASSO (Least Absolute Shrinkage
and Selection Operator), Rede Elstica (Elastic Net EN), BayesA e BayesB, dentre
outros. Na classe de regresso implcita, citam-se os mtodos de redes neurais,
RKHS (Reproducing Kernel Hilbert Spaces, que um mtodo semi-paramtrico
(Gianola; Campos, 2009) e regresso kernel no paramtrica via modelos aditivos
generalizados (Gianola et al., 2006). Dentre os mtodos de regresso com reduo
dimensional, destacam-se o de componentes independentes, quadrados mnimos
parciais e de componentes principais.
Tabela 25. Classificao dos Mtodos para GWS

Classe
Regresso explcita

Famlia
Mtodos de estimao
penalizada
(Regresso
linear)

Mtodo
RR-BLUP/GWS

LASSO

EN

RR-BLUP-Het/GWS

Mtodos de estimao
bayesiana
(Regresso
no linear)

BayesA

BayesB

Fast BayesB

BayesC

BayesD
BLASSO

IBLASSO

Regresso implcita

Regresso
com
reduo dimensional

Atributos
Regularizao
Arquitetura gentica homognea
Seleo indireta de covariveis
Regularizao
Arquitetura
gentica
homognea
Seleo direta de covariveis
Regularizao
Arquitetura gentica homognea
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo indireta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direcionada de covariveis
Regularizao
Arquitetura
gentica
homognea
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis
Regularizao
Arquitetura gentica flexvel
Seleo direta de covariveis

Regresso Kernel
RKHS
Redes neurais
Quadrados mnimos parciais
Componentes principais
Componentes Independentes

152

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Os mtodos de regresso implcita so divididos em dois grupos: (i) mtodos


de estimao penalizada (RR-BLUP, LASSO, EN, RR-BLUP-Het); (ii) mtodos de
estimao bayesiana (BayesA, BayesB, Fast BayesB, BayesC, BayesD, BLASSO,
IBLASSO e outros) (Tabela 25). Os estimadores penalizados so obtidos como
soluo para um problema de otimizao, em que a funo objetivo (funo cujo
valor minimizado ou maximizado, dependendo do problema e objetivo) definida
pelo balano entre preciso do ajuste (soma de quadrado dos resduos) e
complexidade do modelo (componente de penalizao). Os mtodos de estimao
penalizada diferem de acordo com as funes de penalizao usadas, as quais
produzem diferentes graus de shrinkage. Esse encurtamento previne a superparametrizao e pode conduzir reduo do erro quadrtico mdio de estimao.
Os mtodos bayesianos esto associados a sistemas de equaes no lineares e
as predies no lineares podem ser melhores quando os efeitos de Quantitative trait
loci (QTL) no so normalmente distribudos, devido presena de genes de efeitos
maiores. As predies lineares associadas ao RR-BLUP assumem que todos os
marcadores com mesma frequncia allica contribuem igualmente para a variao
gentica (ausncia de genes de efeitos maiores). Na estimao bayesiana, o
encurtamento das estimativas dos efeitos do modelo controlado pela distribuio a
priori assumida para esses efeitos. Diferentes prioris induzem a diferentes
encurtamentos. Os mtodos de estimao penalizada e os bayesianos podem ser com
(BayesB, Fast BayesB, BayesC, BayesD, LASSO, BLASSO, IBLASSO) ou sem
(RR-BLUP, EN, RR-BLUP-Het, BayesA) seleo direta de covariveis. Os mtodos
bayesianos so superiores quando a distribuio dos efeitos dos QTL leptocrtica
(curtose positiva), devido presena de genes de grandes efeitos. Com distribuio
normal dos efeitos dos QTL, o mtodo RR-BLUP igualmente eficiente.
Comparaes entre os mtodos de predio de valores genticos genmicos
tm sido realizadas. Meuwissen et al. (2001) concluram pela superioridade terica do
mtodo BayesB, o qual mostrou-se ligeiramente superior ao RR-BLUP. Entretanto, o
autor simulou os dados genotpicos segundo a mesma distribuio a priori empregada
no processo de estimao. Isso conduziu a acurcias mais elevadas por esse mtodo,
as quais podem no ser realsticas na prtica, se a distribuio real associada aos
efeitos genticos diferir da distribuio a priori assumida na anlise.
Hayes et al. (2009) avaliaram a efetividade prtica da seleo genmica em
gado de leite nos Estados Unidos, Austrlia e Nova Zelndia. Concluram que o
mtodo BLUP mostrou-se aproximadamente igual a outros mtodos mais
complexos, em termos de acurcia. Adicionalmente, o mtodo BLUP vantajoso
porque a nica informao a priori necessria uma estimativa da varincia gentica
aditiva do carter. Os autores relataram tambm a importncia da incluso do efeito
polignico no modelo de avaliao gentica, como forma de capturar e selecionar
QTLs de baixa freqncia no capturados pelos marcadores. Habier et al. (2007)
compararam os mtodos de quadrados mnimos (denominado por eles como
regresso fixa ou FR-LS), BLUP (denominado por eles como regresso aleatria ou
RR-BLUP) e Bayes B, em termos de acurcia seletiva na seleo ao longo prazo, aps
vrias geraes depois da predio dos efeitos genticos dos marcadores. Nessa
situao, a acurcia tende a diminuir devido modificao das relaes de parentesco
(em relao ao parentesco na gerao de estimao dos efeitos genmicos) mas, h

153

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

um componente persistente da acurcia devido ao LD. Os resultados mostraram que


o decrscimo na acurcia devido modificao das relaes de parentesco maior no
mtodo RR-BLUP. Inicialmente, os mtodos RR-BLUP e Bayes B apresentaram
acurcia similar. Mas, aps 11 geraes, o mtodo Bayes B superou o RR-BLUP.
Comparando mtodos bayesianos, Habier et al. (2011) relataram que o mtodo
BayesA mostrou-se superior na maioria das situaes, mas nenhum dos mtodos
bayesianos so claramente superiores em todas as situaes. Entretanto, BayesB,
BayesC e BayesD apresentam a vantagem de propiciar informao sobre a
arquitetura gentica do carter quantitativo e identificar as posies de QTL por
modelagem da frequncia de Single nucleotide polymorphism( SNP) no nulos.
Tambm Mrode et al. (2010) concluram pela superioridade do BayesA e Fast BayesB
sobre o BayesB. O mtodo Fast BayesB foi desenvolvido por Meuwissen et al.
(2009), visando diminuir o tempo de computao do mtodo BayesB, originalmente
implementado via simulao estocstica por meio de procedimento Monte Carlo
Cadeia de Markov (MCMC). Esses autores derivaram um estimador no MCMC
por meio de integrao analtica. Esse mtodo aproxima bem o mtodo original e
muito mais rpido. Mrode et al. (2010) obtiveram, na prtica, uma ligeira
superioridade do Fast BayesB sobre o BayesB.
Os mtodos BayesA e RR-BLUP em associao com um mtodo de seleo de
marcadores propiciam tambm informao sobre a arquitetura gentica do carter
quantitativo. E essa seleo de covariveis pode ser feita por meio da GWAS a
posteriori (GWAS-PSE, conforme detalhado em tpico seguinte) e tambm pelo
ordenamento do mdulo dos efeitos estimados de marcadores.
Com distribuio exponencial e poucos efeitos com valor zero, o melhor
estimador dos efeitos allicos denominado LASSO (Tibshirani, 1996). Entretanto,
com muitos efeitos com valor zero, o LASSO pode no ser adequado. Usai et al.
(2009) compararam o LASSO com BLUP e BayesA empregando 156 SNPs
significativos. As acurcias obtidas foram das ordens de 0,89, 0,75 e 0,84,
respectivamente. Assim, o LASSO uma boa opo quando se usa um nmero
limitado de marcadores.
Gonzalez-Recio et al. (2008) compararam o mtodo no paramtrico ou semiparamtrico Reproducing Kernel Hilbert Spaces (RKHS) com a regresso bayesiana e
RR-BLUP em termos de eficincia na seleo genmica. Concluram que o mtodo
da regresso RKHS apresentou melhor capacidade preditiva do que os demais.
Espao de Hilbert (Hilbert Spaces) um conceito muito usado em fsica estatstica
(fsica quntica) ou mecnica estatstica (mecnica quntica) associado ao tema
entropia, ou medida de desordem ou imprevisibilidade de um sistema (Salinas, 2005).
Tambm so emprestados da fsica estatstica os conhecimentos da distribuio de
Gibbs, usados na implementao da anlise bayesiana. Mtodos de regresso com
reduo dimensional regresso via quadrados mnimos parciais (PLSR) e regresso
via componentes principais (PCR) foram avaliados por Solberg et al. (2009).
Concluram que esses so mais simples e rpidos computacionalmente, porm menos
acurados que o BayesB, com acurcias da ordem de 0,68 (PLSR e PCR) e 0,84
(BayesB). Outro mtodo eficiente nessa classe o ICR (Azevedo et al., 2012).

154

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Um procedimento BLASSO melhorado (IBLASSO ou Improved Bayesian


Lasso) foi proposto por Legarra et al. (2011). O IBLASSO apresenta capacidade
preditiva superior ao BLASSO e similar ao RR-BLUP-Het e BayesA com
distribuies a priori no informativas para os efeitos aleatrios e componentes de
varincia. Com base no exposto e nos resultados de literatura relatados, verifica-se
que na classe dos mtodos de regresso explcita, o BayesA, o LASSO bayesiano
Melhorado (IBLASSO) e o RR-BLUP so os mtodos favoritos quando o modelo
polignico infinitesimal se aplica. Na presena de genes de grande efeito, o mtodo
RR-BLUP necessita ser modificado de forma a permitir heterogeneidade de varincia
gentica entre locos; isso gera o mtodo RR-BLUP-Het. Adicionalmente, os mtodos
BayesA, RR-BLUP e RR-BLUP-Het podem necessitar serem complementados com a
seleo de covariveis por meio de alguma forma de GWAS. As varincias genticas
de cada loco, necessrias no mtodo RR-BLUP-Het, podem ser estimadas via os
mtodos BayesA (por meio de MCMC) ou IBLASSO.
O presente texto contempla os mtodos BayesA, BayesB, Fast BayesB,
BayesC, BLASSO, IBLASSO, RR-BLUP, RR-BLUP-Het, MCMC-BLUP, PLSR,
PCR, ICR e RKHS. Esses mtodos propiciam, em determinadas situaes, os trs
atributos desejveis de acomodao da arquitetura gentica do carter, regularizao
da estimao e seleo de covariveis.
6.7 Mtodo RR-BLUP

O mtodo RR-BLUP/GWS usa preditores do tipo BLUP, mas os efeitos de


marcadores no so ajustados como variveis classificatrias mas sim como variveis
explicativas ou explanatrias. Assim so variveis regressoras e so ajustadas como
covariveis de efeitos aleatrios, ou seja, os fentipos so regressados com base
nessas covariveis. O fato de serem covariveis e no variveis classificatrias,
conduz a diferentes matrizes de incidncia e consequentemente diferentes algoritmos
computacionais em relao ao BLUP tradicional. O nome mais apropriado
Regresso Aleatria (Random Regression) do tipo BLUP (RR-BLUP) aplicado
seleo genmica ampla (RR-BLUP/GWS). A tcnica da regresso aleatria um
tipo especial da regresso de cumeeira (Ridge Regression).
Os estimadores associados regresso aleatria e regresso de cumeeira
promovem shrinkage ditado por uma funo da quantidade (parmetro de
penalizao). Quando no conhecido, a escolha arbitrria do mesmo leva ao
mtodo de regresso ridge regression (RR). Se o parmetro de regresso for
associado a e2 / gi2 e2 /( g2 / nQ ) , tem-se a regresso aleatria BLUP para o
efeito do segmento cromossmico i, em que gi2 a varincia gentica aditiva
associada ao loco ou segmento i e g2 e e2 so a varincia gentica aditiva do carter
e varincia residual, respectivamente. A quantidade nQ desconhecida a priori, mas
pode ser inferida conforme descrito adiante. O parmetro de penalizao pode
tambm ser determinado por via iterativa ou sintonia fina, escolhendo-se aquele que
maximiza a correlao entre valor fenotpico e valor gentico predito na validao
cruzada. Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor
a predio simultnea dos efeitos dos marcadores, sem o uso de testes de

155

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

significncia para marcas individuais. Isto contrasta com o mtodo da MAS proposto
por Lande e Thompson (1990). Uma comparao entre as trs proposies pode ser
vista na Tabela 26.
Tabela 26. Comparao entre as trs proposies de seleo auxiliada por marcadores.
Autores

Mtodo

Populao

Nmero de
Marcadores (m)

Teste de
Significncia

Extenso para
o Enfoque
Bayesiano

Lande e
Thompson (1990)

Dentro de famlia
ou cruzamento

No

No

No

Meuwissen et al.
(2001)

GWS RRBLUP

Muito menor que


tamanho do cruzamento
(N): m << N
Maior ou igual ao
tamanho do cruzamento
(N): m >= N
Muito maior que tamanho
da populao de estimao
(N): m >> N

Sim

Whittaker et al.
(2000)

MAS Indice
de Seleo
Reg. Mult.
MAS Ridge
Regression

No

Sim

Dentro de famlia
ou cruzamento
Toda a Populao

Verifica-se pela Tabela 26, que a inovao de Meuwissen et al. (2001) no foi
em termos de metodologia estatstica mas, em termos conceituais enfatizando o uso
do conceito de desequilbrio de ligao em nvel populacional e no apenas dentro de
famlia e o no uso de testes de significncia para marcas. E o maior mrito foi a
demonstrao, via simulao, do fato de que a GWS pode realmente funcionar na
prtica.
A GWS enfatiza tambm o no uso de significncia estatstica para a seleo de
marcas. Esse ponto distingue a GWS da GWAS (Genome Wide Association
Studies), a qual procura associao entre locos e carter fenotpico em nvel
populacional, por meio de testes de hipteses visando detectar efeitos com
significncia estatstica. A GWAS sofre com a alta taxa de falsos negativos devido
ao uso de pontos de corte muito rigorosos visando evitar a ocorrncia de falsos
positivos. A GWS equivale GWAS aplicada sobre todos os locos simultaneamente
e baseando-se em estimao e predio em vez de teste de hiptese. Dessa forma
consegue explicar parte muito maior da variabilidade gentica e evitar a chamada
herdabilidade faltante ou perdida (missing heritability), tpica dos estudos de anlise
de ligao e de associao.
A distino entre regresso fixa, regresso ridge e regresso aleatria, em um
modelo usando somente fentipos, est associada ao parmetro de penalizao *, o
qual dado por * (1 h 2 ) / h 2 . Valores pequenos de * j so suficientes para reduzir
o impacto da multicolinearidade presente entre as covariveis na matriz WW, que
aproximadamente singular. Valor de * igual a zero (valor de h2 igual a 1) caracteriza
a regresso fixa. Valores de * pequenos (0,01 a 1) caracterizam a regresso ridge e
valores altos de * (maiores que 0,1) caracterizam a regresso aleatria.
A predio via RR-BLUP descrita a seguir com base em Resende (2007;
2008). O seguinte modelo linear misto geral ajustado para estimar os efeitos dos
marcadores: y = Xb + Wm + e, em que y o vetor de observaes fenotpicas, b o
vetor de efeitos fixos, m o vetor dos efeitos aleatrios de marcadores e e refere-se ao

156

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

vetor de resduos aleatrios. X e W so as matrizes de incidncia para b e m. A


matriz de incidncia X contm os valores 0, 1 e 2 para o nmero de alelos do
marcador (ou do suposto QTL) em um indivduo diplide. Outra forma equivalente
de codificar usar os valores -1, 0 e 1. As equaes de modelo misto genmicas para a
predio de m via o mtodo RR-BLUP equivalem a:
X 'W
X ' X

e2 b X ' y .

W ' X W 'W I ( 2 / n ) m
W ' y
g
Q

O valor gentico genmico global do indivduo j dado por

VGG y j wij m i

em que Wi equivale a 0, 1 ou 2 para os gentipos mm, Mm e MM, respectivamente,


para o marcador biallico e codominante i (SNP). O componente wij refere-se ao
elemento i da linha j da matriz W, referente ao indivduo j.
Modelos com efeitos de dominncia (d) podem tambm serem ajustados.
Esses so da forma y = Xb + Wm + Td + e. Nesse caso, os elementos de W so
codificados como (2)1/2, 0 e (2)1/2 para os gentipos MM, Mm e mm,
respectivamente. E os elementos de T so codificados como 1, 1 e 1 para os
gentipos MM, Mm e mm, respectivamente. Valores de W e T codificados dessa
forma so independentes e apresentam mdia zero e varincia 1. Se os elementos de
W so codificados com os valores -1, 0 e 1, os modelos com efeitos de dominncia
apresentam os elementos de T dados por 0, 1 e 0, para os gentipos MM, Mm e mm,
respectivamente.
As equaes de predio apresentadas acima assumem a priori que todos os
locos explicam iguais quantidades da variao gentica. Assim, a variao gentica
explicada por cada loco dada por g2 / nQ , em que g2 a variao gentica total e nQ
o nmero de locos (quando cada loco est perfeitamente marcado por uma s
marca). A variao gentica g2 pode ser estimada por REML sobre os dados
fenotpicos da maneira tradicional ou pela prpria variao entre os marcadores ou
segmentos cromossmicos de QTL, conforme descrito adiante. A quantidade nQ
n

dada por n Q 2 p i (1 p i ) .
i

Verifica-se que no h necessidade de uso da matriz de parentesco. A matriz


de parentesco baseada em pedigree usada no BLUP tradicional substituda por uma
matriz de parentesco estimada pelos marcadores. Essa matriz de parentesco funo
da prpria matriz WW presente nas equaes de modelo misto. Esse procedimento
superior ao uso do pedigree, pois efetivamente captura a matriz de parentesco
realizada para cada carter e no uma matriz de parentesco mdio associada ao
pedigree. Por exemplo, a correlao gentica aditiva entre dois irmos completos,
baseada em pedigree 0,5. Mas os marcadores pode indicar que o valor verdadeiro
uma frao entre 0 e 1. O valor 0,5 esperado em mdia. Mas a correlao pode ser 0;
0,5 ou 1, em cada loco, em funo do nmero de alelos idnticos compartilhados entre
os dois irmos.

157

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A GWS melhora a acurcia da estimativa g d , referente aos efeitos da


segregao mendeliana dentro de famlias e o mtodo que explora adequadamente a
segregao de amostragem mendeliana que ocorre por ocasio da formao de
gametas. Uma vez que a GWS avalia diretamente o DNA associado (via
marcadores) a cada loco de todo o carter polignico, avalia diretamente cada
segregao em nvel individual e no em nvel mdio. Avaliando diretamente o
gentipo dos filhos, permite conhecer cada segregao. Conforme Goddard & Hayes
(2007), sob o modelo infinitesimal com grande nmero de locos de pequeno efeito, o
BLUP genmico prediz os valores genticos de maneira mais acurada do que o BLUP
tradicional baseado em pedigree e dados fenotpicos. A GWS enfatiza mais o termo
referente segregao mendeliana a d , dando mais peso a esse componente do que o
faz o BLUP tradicional. Isso leva seleo de menos indivduos aparentados do que
o faz o BLUP, reduzindo assim o incremento da endogamia na populao.
A matriz de parentesco realizada G pode ser tambm computada parte e
incorporada nas equaes de modelo misto do BLUP tradicional, conforme o modelo
n
(iii) descrito a seguir. Nesse caso, ela dada por G (W *W * ' ) /[ 2 p i (1 p i ) ]
i

(para SNPs), em que pi a freqncia de um dos alelos do loco i e W* refere-se


matriz W corrigida para suas mdias em cada loco (2pi). Para garantir G como uma
matriz positiva definida pode-se obter Gp = G + 10-6 I, em que I uma matriz
identidade. O coeficiente de endogamia genmico para o indivduo i dado por Gii
1. Outra forma de obter G via G W * DW * ' , em que D diagonal com Dii dado por
D ii 1 /{ n [ 2 p i (1 p i )]} , em que n o nmero de marcadores.
A diagonal da matriz WW contempla o parentesco de um indivduo com ele
mesmo e os elementos fora da diagonal mostra o nmero de alelos compartilhados
por parentes. A correlao de Wright entre parentes pode ser obtida dividindo esses
elementos fora da diagonal pelo produto das razes quadradas dos respectivos
elementos da diagonal. Por outro lado, a diagonal da matriz WW mostra quantos
indivduos herdaram cada alelo e elementos fora da diagonal indicam quantas vezes
dois alelos diferentes foram herdados pelo mesmo indivduo. Usando mtodos
genmicos o conceito de endogamia em um loco neutral no mais vlido, pois so
consideradas medidas de parentesco nos locos do prprio carter sob seleo. As
medidas tradicionais de endogamia baseadas em pedigree resultam em perda de
diversidade muito mais variveis.
A predio de valores genticos genmicos via BLUP pode ser computada via 3
mtodos equivalentes:
(i) Via RR-BLUP, conforme especificado acima, em que:
visto
que
g Wm W (W ' R 1W I ) 1W ' R 1 ( y Xb ) ,
1
1
1
m (W ' R W I ) W ' R ( y Xb) . O vetor aleatrio de erros tem varincia
igual a Var ( e) R e2 . R uma matriz diagonal de pesos para ponderar y
com diferentes confiabilidades. Com confiabilidades altas e homogneas

158

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(maiores que 0,85), pode-se considerar R = I e o sistema simplifica para


2
2
.
m (W 'W I ) 1W ' ( y Xb ) , em que e e
m2

( g2 / nQ )

(ii) Via BLP ou ndice de seleo (com G genmica e b estimado via quadrados
mnimos generalizados, o que garantido quando y contem valores
genticos desregressados), em que: g G[G R( e2 / g2 )]1 ( y Xb) . Se
necessrio os efeitos dos marcadores podem ser obtidos por
n

m {W ' /[ 2 pi (1 pi )]}[G R( e2 / g2 )]1 ( y Xb ) .

Com

I,

uma

observao por indivduo e dividindo ambos os lados da equao por G o


sistema simplifica para g [ I G 1 ( e2 / g2 )]1 ( y Xb) . Nesse caso, os
mtodos do ndice de seleo (Henderson, 1963; Resende et al., 1990; Lopes,
2005) e de modelos mistos (Henderson, 1973) so idnticos para a seleo
genmica.
(iii)

Via BLUP Modelo Equivalente, em que:


g [ R 1 G 1 ( e2 / g2 )]1 R 1 ( y Xb ) . Com R = I e uma observao por
indivduo o sistema simplifica para g [ I G 1 ( 2 / 2 )]1 ( y Xb) .
e

Na situao em que os marcadores no explicam toda a variao gentica, o


modelo pode ser estendido para englobar o efeito polignico residual g* (variao
gentica no explicada pelos marcadores). Esse modelo dado por y = Xb + Wm +
Tg* + e, em que T a matriz de incidncia para g*. Com o uso de mapa denso de
marcadores a incluso dos efeitos polignicos, g* no aumenta a acurcia da GWS
(Calus & Veerkamp, 2007). No entanto, para capitalizar o ganho gentico no longo
prazo, a incluso desses efeitos recomendada (Muir, 2007). No longo prazo, o
BLUP tradicional obtm informao no genoma inteiro em cada gerao. A GWS
sem o efeito polignico seleciona de forma muito acurada para a mesma parte do
genoma em cada gerao. Uma forma de aliviar esse problema por meio da reestimao dos efeitos de marcadores, freqentemente, visando explorao de novas
associaes de marcadores-QTL.
Para implementao do procedimento RR-BLUP/GWS so necessrios: W,
X, y e e2 / gi2 e2 /( g2 / nQ ) . O vetor y refere-se a fentipos corrigidos; a matriz
W refere-se contagem de doses dos marcadores moleculares; X um vetor
conhecido composto de valores 1; depende de componentes de varincia
(herdabilidade ou confiabilidade da seleo) e do nmero de segmentos
cromossmicos nQ. A seguir so descritos cada um desses elementos, conforme
Resende et al. (2010).

159

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.8 Formas de parametrizao da matriz de incidncia genotpica

Parametrizao 1
A matriz de incidncia W contm os valores 0, 1 e 2 para o nmero de alelos do
marcador (ou do suposto QTL) em um indivduo diplide. Com marcadores
codominantes a mdia e varincia da varivel indicadora W associada matriz de
incidncia so dadas por:
2
2
Mdia da varivel W = 0 x p + 1 x 2p(1-p) + 2 x (1-p) = 2p
2
2
2
Varincia da varivel W = Var (Z) = Var (Zi) = (0 2p) x p + (1 2p) x 2p(12
2
p) + (2 - 2p) x (1-p) = 2p(1-p)
Assumindo os alelos de cada marca como em equilbrio de Hardy-Weinberg
na populao, o clculo das frequncias allicas realizado conforme o quadro a
seguir, sendo p dado por p = N2/N + (1/2) N1/N, sendo o calculo realizado para cada
coluna de marcador no arquivo de dados em que N2 o numero de cdigos 2 na
referida coluna no arquivo.
Gentipos

Cdigo

Contagem

Frequencia

Clculo da Frequencia de M

MM
Mm
mm

2
1
0

N2
N1
N0

p2
2p(1-p)
(1-p)2

N2/N = p2
(1/2) N1/N = p(1-p)
0

Soma

p = N2/N + (1/2) N1/N

Os valores de W devem ser centrados em zero para que os efeitos das marcas
codominantes sejam efeitos de substituio allica com mdia zero na populao, e,
nesse caso, assumindo equilbrio de Hardy-Weinberg, a variao gentica aditiva do
m

carter na populao equivale a g2 = 2 pi ( 1 pi ) m2 . Dessa forma, os valores de Wi


i

devem ser subtrados pela mdia de W (via 0 - 2p, 1 - 2p e 2 - 2p, respectivamente)


obtendo-se uma varivel com mdia zero. Assim, com centralizao, no mtodo RRm
BLUP deve-se usar n Q 2
p i (1 p i ) e os efeitos genticos aditivos dos indivduos so
i

dados por g W m . Para os indivduos com dados perdidos de marcas, seus valores
na matriz W devem ser o valor esperado 2p, que, centrados, transformam-se em
zero.
importante relatar que os efeitos dos QTLs via marcadores m so
assumidos com distribuio normal ( m ~ (0, I m2 ) ) e os alelos marcadores so
assumidos como amostras de uma distribuio Bernoulli com mdia p e varincia
p(1-p). O nmero de alelos em um indivduo diploide (varivel W) apresenta
distribuio Binomial com mdia 2p e varincia 2p(1-p) (2 provas Bernoulli).
Parametrizao 2
Adicionalmente, pode-se padronizar (usando Var (Wi ) 2 pi ( 1 pi ) ) os dados
dos marcadores na matriz W, da seguinte forma para cada elemento Wi da matriz,
referente ao loco i:

160

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Wi = (0 2pi) /(Var(Wi))1/2 se o indivduo homozigoto para o primeiro


alelo (mm);
Wi = (1 - 2pi)/(Var(Wi))1/2 se o indivduo heterozigoto (Mm);
Wi = (2 - 2pi)/2/(Var(Wi))1/2 se o indivduo homozigoto para o segundo
alelo no loco marcador (MM);
Wi = 0 se o indivduo apresenta dado perdido de marca.
A quantidade pi a frequncia do segundo alelo do marcador. Dessa forma, a
varincia de W com Wi ajustado igual a 1, obtendo-se uma varivel com mdia zero
e varincia unitria. Sendo m o efeito do marcador na populao, a varincia devida
ao marcador dada por Var(Wim) = Var(Wi) Var(m). Com a transformao acima,
Var(Wi) = 1 e portanto, Var(Wim) = Var(m). Em outras palavras, modelando a
varincia do efeito do marcador, modela-se diretamente a varincia do marcador,
independentemente de sua frequncia. Assim, com centralizao e padronizao
g2 = n m2 . Dessa forma, no mtodo RR-BLUP deve-se usar nQ = n e os efeitos
genticos aditivos dos indivduos so dados por g W m .
Essa padronizao reflete positivamente na composio da matriz de
parentesco genmico G usada no G-BLUP, a qual conter a mdia ponderada das
relaes de parentesco estimadas de cada loco marcador, em que os pesos da
ponderao so funo da inversa da PEV (varincia do erro de predio) associada
varivel indicadora W em cada marcador. No caso, a PEV dada por
PEVi (W ) Var (Wi ) 2 pi ( 1 pi ) . E a matriz G dada por G WW ' / n . Essa
parametrizao melhor do que a 1 e 3, segundo Meuwissen et al. (2011). Todavia
equivalente a parametrizao G WDPW ' , mencionada em tpico anterior, em que
Pela parametrizao 1, tem-se no G-BLUP:
diag ( DP ) 1 /[n2 pi (1 pi )] .
m

G WW ' /[2 pi (1 pi )] ,

a qual melhor que a 2, segundo Endelman e Jannink (2012).

Parametrizao 3
Em outra parametrizao, a matriz de incidncia X contm os valores -1, 0 e 1
para o nmero de alelos do marcador (ou do suposto QTL) em um indivduo
diploide, ou seja, para os gentipos mm, Mm e MM, respectivamente. Essa
parametrizao ligeiramente inferior anterior (Legarra et al., 2011). Para essa
parametrizao deve-se usar, no mtodo RR-BLUP, n = 2 p ( 1 p ) e o efeito gentico

aditivo
g j

do

[I (w

ij

indivduo

dado

por

1)( 2 p i m i ) I ( w ij 0 )( p i m i q i m i ) I ( w ij 1)( 2 q i m i ) .

Para garantir G como uma matriz positiva definida no G-BLUP, pode-se


obter Gp = G + 10-6 I, em que I uma matriz identidade, ou usar Gp = G + (1- ) A,
ou usar Gp = G + (1- ) I, em que :

Var ( g )

Var ( g ) 0 .125 / n m ,

em que

0 .05 2
se Var ( g ) 0 . 05 2 ( bovinos )
0 .05 0 .125 / n m
2

, conforme tpico 6.28. Assim, se nm = 1000, w = 0.95 o peso dado a G.


Parametrizaes para marcadores DArT so apresentadas por Resende et al. (2010).

161

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.9 Correo dos Fentipos

Os fentipos devem ser corrigidos para os efeitos ambientais e dos genitores.


Assim, os valores genticos devem ser preditos e posteriormente desregressados e
corrigidos para os efeitos dos genitores. Devem ser desregressados por 3 motivos: no
pode haver duas regresses, uma baseada em pedigree e outra baseada em
marcadores; a matriz A baseada em pedigree menos precisa que a WW baseada
em marcas; presena de genes de grande efeito presentes em um dos genitores.
Adicionalmente devem ser corrigidos para os efeitos genticos dos genitores,
trabalhando-se basicamente com o efeito da segregao mendeliana desregressada, j que
o dado ideal para a populao de treinamento deve ser o mrito gentico verdadeiro de
indivduos no aparentados. E o efeito da segregao mendeliana proporciona isso:
analise da associao de alelos de marcas e de QTL, ou seja, captura efeitos genticos
explicados pelo desequilbrio de ligao e no pelo parentesco ou genealogia.
Uma forma explcita de se fazer isso, parcialmente, a considerao do
pedigree via ajuste de g*, o vetor de efeitos polignicos por meio do modelo y = Wb +
Xm + Tg* + e, em que T a matriz de incidncia para a*. Sem a correo mencionada
acima ou o ajuste de g*, os marcadores podem estar capturando apenas o parentesco
(estrutura de populao) entre os indivduos e no necessariamente o desequilbrio
de ligao com os genes propriamente ditos. Nesse caso, a acurcia da validao em
uma amostra independente (indivduos de outras famlias) da populao e, tambm,
em indivduos de outras geraes poder ser baixa, ao contrrio do que teria sido
predito.
Outra forma de realizar esse ajuste para estrutura de populao por meio do
ajuste dos efeitos de genitores como efeitos fixos (Vazquez et al., 2010). Este ajuste
suga dos valores genticos individuais os efeitos dos genitores, deixando somente os
efeitos da segregao mendeliana, os quais devem ser desregressados. Esse ajuste
adequado quando a acurcia da avaliao dos genitores prxima de 1. Vrias
alternativas de correo de fentipos so apresentadas no Captulo 1, tpico 1.12.
Outra opo de correo para estrutura de famlia segundo o modelo
descrito no final do item 4.3. Nesse caso, ajusta-se os primeiros autovetores
(associados aos maiores autovalores) de G como covariveis de efeitos fixos,
conforme descrito no incio do item 6.30.
Quando se tem um catalogo de valores genticos com diferentes acurcias, o
procedimento de obteno dos valores fenotpicos desregressados e corrigidos para os
efeitos genticos dos genitores envolve os seguintes passos (Garrick et al, 2009;
Resende et al., 2010):

162

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(i) Definio do sistema de equaes associado predio do valor gentico de um


indivduo i ( g i ) e do valor gentico mdio de seus genitores j e k ( g gm ( g j g k ) / 2 ):
'
Z gm
Z gm 4*
2* g gm y gm
, em que:

Z i' Z i 2* g i yi
2*

2
* (1 h 2 ) / h 2 , em que h a herdabilidade ao nvel de indivduo.
'
Z gm
Z gm : contedo de informao associado mdia dos genitores.

Z i' Zi : contedo de informao associado ao indivduo (mais informaes

de seus descendentes ou clones).


y gm e yi : informao fenotpica corrigida para os efeitos fixos associada
mdia dos genitores e ao indivduo, respectivamente.
'
(ii) Obteno da quantidade desconhecida Z gm
Z gm :

'
Z gm
Z gm * (0.5 4) 0.5* ( 2 16 / )1 / 2 , em que:
2
1/(0.5 rgm
)
2
(0.5 rgm
) /(1 ri2 )
2
rgm
(rgj2 rgk2 ) / 4 : confiabilidade associada ao valor gentico mdio predito dos

genitores j e k.
ri2 : confiabilidade associada ao valor gentico predito do indivduo.
(iii) Obteno da quantidade desconhecida Z i' Zi :
'
Z i' Z i Z gm
Z gm 2* (2 1)
(iv) Obteno da quantidade desconhecida yi :
'
Z gm
Z gm 4*

Resoluo para yi , do sistema

2*

2* g gm y gm
. Assim,
Z i' Z i 2* g i yi

yi (2* ) g gm ( Z i' Z i 2* ) g i , o qual representa a informao do indivduo, agora

corrigida para o valor gentico mdio de seus genitores.


(v) Obteno do valor gentico desregressado g i* :
g i* yi /(Z i' Z i ) .
Assim, para obteno de g i* necessita-se da herdabilidade h2, das
confiabilidades (quadrado da acurcia) das avaliaes dos trs indivduos ( rgj2 , rgk2 e
ri2 ) e dos efeitos genticos preditos dos trs indivduos ( g i , g j e g k ).

163

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Considere um carter com h2 de 0.20 e a avaliao gentica de 3 indivduos


onde foram obtidos os seguintes resultados: g i = 18, g j =13 e g k = 5; ri2 = 0.70 rgj2 = 0.90 e
rgk2 = 0.80. Assim, so obtidos:
2
rgm
(rgj2 rgk2 ) / 4 (0.90 0.80) / 4 0.425 ;

g gm ( g j g k ) / 2 (13 5) / 2 9 ;

* (1 h 2 ) / h 2 0.8 / 0.2 4 ;
2
1/(0.5 rgm
) 1/(0.5 0.425) 13.3333;
2
(0.5 rgm
) /(1 ri2 ) (0.5 0.425) /(1 0.70) 0.25.

'
Com base nesses valores e seguindo o passo (ii) calcula-se Z gm
Z gm :
'
Z gm
Z gm * (0.5 4) 0.5* ( 2 16 / )1/ 2 4(0.5 13.3333 4) 0.5 4(13.33332 16 / 0.25)1/ 2 41.765

A seguir calcula-se o Z i' Zi seguindo o passo (iii):


'
Z i' Z i Z gm
Z gm 2* (2 1) 0.25 41.765 2 4 (2 0.25 1) 6.4412.
Computa-se
agora,
seguindo
o
passo
(iv),
*
'
*

yi (2 ) g gm (Z i Z i 2 ) gi (2 4) 9 (6.4412 2 4)18 187.9423.

quantidade

E finalmente calcula-se o valor corrigido e desregressado , seguindo o passo (v):


g i* yi /(Z i' Z i ) 187.9423/ 6.4412 29.1780. Esse o valor do indivduo, a ser

usado na anlise genmica integrando o vetor y. Tal quantidade equivalente


a g i* ( g i gm ) / ri2* , ou seja, ao valor gentico individual corrigido para a mdia
de

seus
genitores
e
desregressado
pela
quantidade
*
'
*
*
ri 1 /(Z i Z i ) 1 4 /(6.4412 4) 0.6169, que a acurcia da estimao
do efeito da segregao mendeliana.
2*

Em caso de testes de prognie em uma s gerao, o valor individual corrigido


para o valor gentico mdio de seus genitores e desregressado so dados pela
expresso g i* ( y X b C c 0 ,5 g j 0 ,5 g k ) , em que b e c so os efeitos
estimados de blocos e de parcelas, com respectivas matrizes de incidncia X e C.
Apenas desregressar por ri2 captura LD e parentesco. Seria necessrio ajustar o
efeito polignico para remover a estruturao devida ao parentesco. Regressar por ri2*
e corrigir para efeito dos genitores captura apenas LD, eliminando a correlao
intraclasse entre os valores genticos preditos. Por esse motivo, o valor gentico
genmico dos indivduos na populao de validao (visando cmputo da acurcia)
so dados por u g i u W i m * . No se deve somar g gm . Por outro lado, na
populao
de
estimao,
visando
a
seleo,
deve-se
computar
*
u g i u g gm W i m ou fazer a predio de m usando os valores genticos
desregressados, mas no corrigidos para os efeitos dos genitores e usar diretamente
u g i u W i m . Na populao de seleo propriamente dita (onde apenas os

164

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

gentipos dos marcadores esto disponveis), a seleo precoce deve basear-se


diretamente em u g i u W i m , mas a acurcia da seleo calculada com base em
u g i u W i m * , em que m * o vetor de efeitos preditos dos marcadores, obtido
via g i* , usando valores genticos desregressados e corrigidos para os efeitos de
genitores. Po outro lado, m o vetor de efeitos preditos dos marcadores, obtido
usando valores genticos apenas desregressados.
6.10 Relao entre Varincia Gentica e Varincia dos Marcadores

A relao entre varincia gentica aditiva e varincia dos efeitos dos


marcadores essencial na predio genmica. Tem-se que Var(gi) = Var(Wim) =
Var(Wi) Var(m) = 2pi(1-pi) Var(mi) = 2pi(1-pi) mi2 equivale varincia gentica
devida ao loco i. Para vrios locos, a varincia gentica aditiva total dada por
n
n
g2 2 p i (1 p i ) m i2 , a qual pode ser expressa tambm por g2 U iV i , em que
i

U i 2 p i (1 p i ) e V i m . A covarincia entre U e V, denominada CUV dada por


2
i

C UV ( U iV i ) / n ( U i / n )( V i ) / n )

magnitudes
n

U V
i

nC UV

Sendo

dos

e refere-se covarincia entre frequncias allicas e

efeitos

allicos. Rearranjando
n
( U i )( V i ) / n ) , de forma que 2 U V
n

( m i2 ) / n m2

essa
i

, tem-se g2

[ 2 p i (1 p i ) m2 ] nC UV

expresso
n

nC UV [ 2 p i (1
i

tem-se
p )] ( m 2 ) / n .
n

Assim, a varincia entre marcadores ( m2 ) obtida por REML, as freqncias


allicas e os efeitos dos marcadores preditos por BLUP podem ser usados na obteno
da varincia gentica aditiva total. Em alguns casos CUV tende a zero, revelando
ausncia de correlao entre frequncias e efeitos allicos (Resende et al., 2010). Em
outros casos, a quantidade m i2 substituda por m2 , pois a esperana de m i2 a
varincia do efeito do marcador, ou seja, E ( m i2 ) m2 . Assim, muitas das aplicaes
n

g2 [ 2 p i (1 p i ) m2 ]

usam

varincia

entre

marcadores

dada

por

simplificada para m2 gi2 g2 /[ 2 p i (1 p i ) ] .

m2 ( g2 nC UV ) /[ 2 p i (1 p i ) ]

Na

RR-BLUP/GWS
necessita-se
da
quantidade
/ /( / nQ ) , em que nQ o nmero de locos controlando o carter
(assumindo que cada loco est perfeitamente marcado), o qual desconhecido a
2
e

predio

2
gi

2
e

2
g

priori. Sendo gi2 g2 /[ 2 p i (1 p i ) ] , nQ pode ser tomado como [ 2 p i (1 p i ) ] .

Alternativamente,
n

pode

ser

expresso

como

nQ (1 h 2 ) / h 2 [2 pi (1 pi )](1 h 2 ) / h 2 . Assim, de posse de h e das freqncias


2

allicas nos locos marcadores, obtm-se para uso nas equaes de modelo misto.
A varincia gentica e a herdabilidade (h2) podem ser computadas via dados
fenotpicos ou via dados de marcadores e fenotpicos conforme descrito acima no

165

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

cmputo de g2 . A h2 a ser usada no RR-BLUP deve ser a herdabilidade ajustada ou


2
2
dos dados corrigidos ( h aj2 a2 / yaj
), em que yaj
a varincia fenotpica ajustada.
Se y corrigido para a mdia dos genitores o numerador de h aj2 deve conter apenas a
2
varincia gentica devida segregao mendeliana, ou seja, h aj2 * (1 / 2 ) a2 / yaj
ou
2
quando se conhece os dois genitores (famlias de irmos
h aj2 * ( 3 / 4 ) a2 / yaj

germanos) ou apenas um dos genitores (famlias de meios irmos), respectivamente.


Essas herdabilidades podem ser expressas tambm em funo da herdabilidade
individual h2, por meio das expresses haj2* (1 / 2 h 2 ) /(1 / 2 h 2 (1 h 2 )) para
prognies de irmos germanos e haj2* ( 3 / 4 h 2 ) /( 3 / 4 h 2 (1 h 2 )) para prognies de
meios-irmos (Resende, 2002). Essas frmulas mostram que o denominador de haj2*
tambm contempla apenas a varincia gentica devida segregao mendeliana e no
a varincia gentica total. Outra forma de expressar haj2* usar diretamente a
confiabilidade ou quadrado da acurcia dos efeitos da segregao mendeliana ( ri2* ).
Para cmputo do RR-BLUP e da acurcia da GWS, haj2* pode ser tomada como a
mdia dos ri2* dos indivduos em anlise.
Recomenda-se analisar inicialmente todo o conjunto de marcadores
codominantes em todos os indivduos fenotipados (populao de estimao
completa). Esse procedimento visa identificar os marcadores com maiores efeitos em
mdulo, objetivando rodar anlises com subgrupos menores de marcadores e
determinar quantos e quais marcadores maximizam a acurcia seletiva. O nmero
timo de marcadores um compromisso entre maior informatividade (maior
acurcia, pela maior captura de genes) e menor preciso (menor acurcia, pelo menor
tamanho amostral por efeito estimado) com o aumento do nmero de marcadores.
Posteriormente, a validao deve ser realizada usando apenas a frao de marcadores
n

que maximiza a acurcia, usando n como o somatrio [ 2 p i (1 p i ) ] nesse


i

subconjunto de marcadores. Tambm e h devem ser recalculadas, sendo que essa


h2 pode ser menor do que aquela calculada anteriormente. Mas a h2 usada para
computar a acurcia a partir da capacidade preditiva, via rq q ry y / h , deve ser a h2
total, estimada dos prprios dados fenotpicos. Essa tende a ser similar a h2 estimada
via marcadores, quando se usa o total de marcas em grande nmero. Esse
procedimento de seleo indireta de covariveis (denominado RR-BLUP_B por
Resende et al. 2010 e Resende Jr. et al. 2012) recomendvel, pois tende a produzir
acurcia mais alta, similar obtida pelos mtodos Bayesianos. Dessa forma, ambas as
abordagens assumem que muitos dos marcadores apresentam efeitos zero. O
aumento ou diminuio da acurcia da GWS via RR-BLUP um compromisso ou
balano entre acrscimo da quantidade de informao til via uso de maior nmero
de locos marcadores e diminuio do tamanho de amostra efetivo para estimar o
efeito de cada loco, ou seja, menor nmero de indivduos por loco a ser estimado
(menor N/n).
2
m

166

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O nmero reduzido de marcadores explicando grande parte da variao


gentica ou da acurcia mxima possvel muito interessante do ponto de vista
prtico. Nesse caso, arranjos de DNA com baixa densidade de marcadores
previamente selecionados poderiam ser usados nas populaes de seleo. Na
Austrlia, a acurada predio de valores genticos genmicos em gado leiteiro pode
ser realizada com chips de SNP contendo 1000 (propiciando 85% da acurcia obtida
com 42500 SNP) a 5000 (propiciando 95% da acurcia obtida com 42500 SNP) SNP
igualmente espaados (Moser et al., 2010). Uma alternativa ao uso de marcadores
previamente selecionados o uso de marcadores igualmente espaados e em maior
nmero do que aqueles selecionados. Isso permite atender a vrios caracteres e pode
conduzir ao uso generalizado da GWS em vrias espcies e pases.
6.11 Exemplo via RR-BLUP/GWS

Considere o pequeno exemplo a seguir, referente avaliao de 5 indivduos para


o carter dimetro e genotipagem para 7 marcas, em que so apresentados o nmero
de um dos alelos de cada loco marcador.
Individuo

Dimetro

Marca 1

Marca 2

Marca 3

Marca 4

Marca 5

Marca 6

Marca 7

9.87

14.48

8.91

14.64

9.55

Os efeitos genticos dos marcadores so obtidos resolvendo-se


X 'W

X ' X

e2 b X ' y .

W ' X W ' W I 2
( g / nQ ) m W ' y

Tem-se as seguintes matrizes:


2
1

W 0

1
1

1
2

0
0

0
0

1
0

1
0

0
0

2 y

0
0

9.87
14.48
;

8.91

14.64
9.55

Efetuando-se as multiplicaes e assumindo


X ' X [5] ; X 'W [ 5

W 'W I

3 1 1 5

8 1 1 1 7

1 6

0 1 1

1 0
1 0

2
0

0 1 0
2 1 1

7 1 1

1 8 2

2 1 0 1

0
4

0
0

0
5

1
1
.
X 1

1
1

e2

( g2 / nQ )

2] ; W ' X ( X 'W )' [ 5

Xy = [57.45]

W' y

= 1, tem-se
3 1 1 5

2]'

58.4100
32.3000

14.6400

9.5500
58.4100

24.0300
17.8200

167

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Assim, tem-se:

b

m

3 1 1 5

8 1 1 1 7

3 1 6

0 1 1

1 1 0 2 0 1 0
1 1 0 0 2 1 1
5 7 1 1 1 8 2
2

2 1 0 1

Os resultados

so

b

m

2
0

0
0

0
0

-1

57.4500
58.4100

32.3000 .

14.6400
9.5500

58.4100
24.0300

17.8200

12.4519
- 0.3526

0.2761 ,

1.4467
- 1.3701

- 0.3526
0.5436

- 1.63765

em que 12,4519 a mdia geral e os demais valores

so as estimativas dos efeitos genticos dos marcadores.


O valor gentico genmico dos indivduos de uma populao de seleo
podem ser obtidos por VGG y j wij m i . No caso, as predies para os 5 indivduos
i

so

VGG

- 1.4104
0.1145 .

- 2.7230

0.7415
- 1.5317

Outras formas de obteno de W so apresentadas no tpico 6.8.

6.12 G-BLUP com Dominncia e Interao GE: Avaliao Simultnea


Global

Modelo BLUP Individual Fenotpico


O modelo linear misto convencional, contemplando os efeitos fixos (b),
genticos aleatrios (a) e ambientais aleatrios (e) dado por: y Xb Zg e .
Modelo de QTL
Incluindo os efeitos (q) dos QTLs para cada loco j, o modelo tornase y Xb Zg * Q j q j e ,em que Qj uma matriz de incidncia que relaciona os
j

indivduos aos alelos do loco j, e q contm os efeitos allicos para cada loco. As
matrizes de incidncia Q no so conhecidas e nem as suas dimenses, dadas pelo
nmero de alelos em cada loco. Tambm no conhecido o nmero de locos que
afeta o carter. Isto contrasta com o primeiro modelo, em que as matrizes de
incidncia para b e g (X e Z, respectivamente) so conhecidas. Se Q fosse conhecida
as equaes de modelo misto poderiam ser usadas sem qualquer alterao.

168

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Modelo GWS
Um outro modelo melhor poderia ser y Xb Q j q j e , no qual todos os locos
j

seriam individualizados e no haveria necessidade de incluso do resduo gentico


polignico ou infinitesimal ( g * ). Como se conhecem apenas os marcadores esse
modelo dado por y Xb Z Wi mi e .
i

O que torna a anlise de QTL e da GWS diferenciada do BLUP tradicional o


fato da matriz Q ser desconhecida. No entanto, ela pode ser estimada com base nas
informaes dos marcadores. Segundo Perez-Enciso e Misztal (2004), a forma como
os marcadores so usados para estimar W e a forma de definio de q resulta em
distintos modelos que contemplam os vrios delineamentos para a anlise de QTLs e
formas de seleo genmica.
Modelo G-BLUP
A avaliao gentica em um programa de melhoramento gentico envolve
simultaneamente indivduos fenotipados e genotipados, apenas fenotipados e apenas
genotipados. Essas trs classes de indivduos necessitam ter seus valores genticos
preditos para que sejam ordenados e comparados. Uma opo realizar trs predies
isoladas e fazer o ordenamento global. Outra opo para o grupo de indivduos
apenas genotipados estabelecer um ndice combinando a predio genmica com a
predio baseada nos valores genticos preditos de seus genitores (ver final do tpico
6.26). No entanto, a alternativa mais eficiente realizar toda a predio em um nico
passo, conforme relatado por Misztal et al. (2009) e apresentado a seguir.
Para o grupo de indivduos genotipados e fenotipados, o seguinte modelo linear
misto geral ajustado para estimar os efeitos genticos aditivos usando informaes
fenotpicas: y = Xb + Zg + e, em que y o vetor de observaes fenotpicas, b o vetor
de efeitos fixos, g o vetor dos efeitos genticos aditivos individuais (aleatrios) e e
refere-se ao vetor de resduos aleatrios. Xe Z so as matrizes de incidncia para b e
g. Usando informaes fenotpicas e dos marcadores tem-se o modelo equivalente: y
= Xb + ZWm + e, em que m o vetor dos efeitos aleatrios de marcadores, W a
matriz de incidncia para m e g = Wm. A matriz de incidncia W contm os valores
0, 1 e 2 para o nmero de alelos do marcador (ou do suposto QTL) em um indivduo
diploide. Outra forma equivalente de codificar W usar os valores -1, 0 e 1 (Resende,
2007; 2008; Resende et al., 2010).
As equaes de modelo misto para a predio de g via o mtodo G-BLUP
equivalem a:

X' X

Z' X

k = 2 pi ( 1 p i ) .

X'Z


2 b X ' y ,
Z ' Z G e2 g Z ' y

g
1

em que

G (WW ' ) / k (WW ' ) /[ 2 p i (1 p i ) ]

Com padronizao prvia dos elementos de W (dividindo-os por

[2 pi ( 1 pi ) ] 1/ 2 )

e centrando a mdia em zero tem-se G = WW' / n , em que n o nmero

169

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

de marcas. O parmetro de escala k = 2 pi ( 1 pi ) assume independncia entre


i

efeitos de SNPs. Visando contornar essa suposio, Gianola et al. (2009) sugeriram o
seguinte parmetro de escala:

n
k ( p 0 q 0 ) 2 2 [ pi (1 pi )] / n 2 /( ) n

em que

p0 = /( + ) a

frequncia allica esperada, q0 = ( 1 p0 ) e e so parmetros da distribuio


beta ajustando a frequncia allica bsica e n o nmero de marcadores SNP. O
1
estimador de g pode ser resumido em: g = Z' Z + G 1 e2 Z.

g2

A matriz G densa e sua inverso apresenta alta demanda computacional.


Assim, interessante evitar essa inverso. Isto pode ser feito modificando
(multiplicando por G) as equaes de modelo misto para
X ' R1 X
b X ' R1 y
X ' R1Z

2
1
1
1
GZ' R X GZ' R Z I (1 / g ) g GZ' R y

ou, na sua forma simplificada em funo de R, para


X'Z
X' X

e2

'
'

GZ
X
GZ
Z
I

g2

b X ' y .

g GZ' y

Esse sistema de equaes ento resolvido pelo mtodo

de Gauss-Seidel ou por iterao nos dados. Mas, em muitos casos, o nmero N de


indivduos genotipados baixo e, como a matriz G tem dimenso N x N, a mesma
pode ser invertida diretamente.
Para a avaliao global das trs classes de indivduos em um nico passo, o
mesmo modelo y = Xb + Zg + e pode ser usado, porm com uma alterao
(substituio da matriz G pela matriz H) nas equaes de modelo misto, conforme
Misztal et al.(2009):

X ' X

Z' X

X'Z
Z ' Z H 1

X ' y
.
b

Z
'
y

e2
g2

A matriz H inclui ambas as relaes, baseadas em pedigree (A) e diferenas


( A ) entre essas e as relaes genmicas, de forma que H = A + A . Assim, H dada
por

A11 A12
A21 G

0
0

0
G A22

, em que os subscritos 1 e 2 representam indivduos no

genotipados e genotipados, respectivamente.


A inversa de H, que permite computaes mais simples, dada por:
H 1 A 1

0
0

1
22

A11
A

21

A12
A G
22

1
22

, em que A221 a inversa da matriz de

parentesco baseada em pedigree para os indivduos somente genotipados.


O valor gentico genmico global do indivduo j dado por g j = wij m i . Esse,
i

quando estimado quando o individuo j no participa da estimao de , pode ser


correlacionado com o fentipo observado de j, visando fazer a validao. A partir da
estimao dos valores genticos ( g ) pelo G-BLUP, os efeitos estimados dos
marcadores ( m ) podem ser obtidos, conforme desenvolvido a seguir:
g Wm W g W Wm m (W W ) 1 W g . .

170

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A anlise pelo G-BLUP favorvel computacionalmente, pois resulta em um


menor nmero de equaes a serem resolvidas. Outro uso importante dessa anlise
refere-se estimao da herdabilidade total explicada por todos os marcadores
simultaneamente.
Com
matriz
de
parentesco
dada
por
n

G = (WW' ) / k = (WW' ) / [ 2 pi ( 1 pi ) ] , essa h pode ser estimada por REML fazendo


i

uso das equaes de modelo misto para a estimao dos componentes de varincia
g2 e e2 . Segundo outra parametrizao, os elementos da matriz G representam o

parentesco

realizado
n

G jk = ( 1 / n)

mdio

(wij 2p i )(wik 2p i )
2p i ( 1 pi )

i=1

multi-locos

so

dados

por

. Outro ponto favorvel do G-BLUP refere-se

possibilidade de estimao direta (via PEV) da acurcia da GWS. Para indivduos


com fentipos, essa acurcia ser aquela sem validao cruzada, vlida apenas para a
populao de estimao. No G-BLUP, a populao de validao (indivduos que
foram apenas genotipados) tem seus fentipos substitudos por dados perdidos e,
portanto, os indivduos dessa populao tem uma estimativa validada da acurcia.
Um modelo G-BLUP incluindo efeitos de dominncia (d) e epistticos do
tipo aditivo x aditivo (aa) pode ser ajustado e dado por y = Xb + Zg + Zd + Zaa + e,
em
que
a
estrutura
de
varincias

dada
por
2
g ~ N (0, G g2 ); d ~ N (0, Gd d2 ); aa ~ N (0, Gaa aa
); e ~ N (0, I e2 )

os

efeitos

epistticos apresentam matriz de covarincia Gaa = G#G, em que # denota o produto


de Hadamard. Os efeitos de dominncia apresentam matriz de incidncia S e de
n

2 , em que 2
covarincia Gd , com varincia d2 [2pi ( 1 pi )][1 (2pi ( 1 pi ))] md
md a
i 1

2
/ d2 entodada
varincia de dominncia contribuda por um loco m. A relao md
n

2
por md
/ d2 1 / [2p i ( 1 p i )][1 ( 2p i ( 1 p i ))] .
i 1

A matriz S anloga W e composta por valores de 0, 1 e 0 (para os


gentipos marcadores MM, Mm e mm, respectivamente), seguindo, portanto,
distribuio Bernoulli com mdia 2pi ( 1 pi ) e varincia [2p i ( 1 pi )][1 ( 2p i ( 1 pi )] .
Subtraindo os elementos de S pela mdia ( 2pi ( 1 pi ) ), obtm-se os seguintes
valores de sij , para o marcador i no indivduo j: sij 0 - [2pi ( 1 pi )] ,

s ij 1 - [2p i ( 1 pi )] e sij 0 - [2pi ( 1 pi )] , respectivamente, obtendo-se uma varivel


com mdia zero. Para os indivduos com dados perdidos de marcas, seus valores na
matriz S devem ser o valor esperado 2pi ( 1 pi ) , que, centrados, transformam-se em
zero. Assim, valores perdidos devem ser substitudos por s ij 0 .

171

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

2
2
Sendo Var( Smd ) SS ' md
e pelo modelo equivalente Gd d2 Var( Smd ) SS ' md
,
2
2
a matriz de parentesco de dominncia , ento, dada por Gd SS ' md / d . Sendo
n

i 1

i 1

2
md
/ d2 1 / [2p i ( 1 p i )][1 ( 2p i ( 1 p i ))] , tem-se Gd SS ' / [2p i ( 1 pi )][1 ( 2p i ( 1 pi ))] .

Os elementos da matriz Gd representam o parentesco realizado mdio de


dominncia multi-locos e so ento dados por

Gd jk = ( 1 / n)
i=1

[ sij ( 2p i (1 p i )][ sik (2p i (1 p i )] .


[2p i ( 1 pi )][1 (2p i ( 1 pi ))]

Modelos em nvel de indivduos contemplando as interaes gentipos


ambientes (ge) podem tambm ser ajustados, desde que existam indivduos
aparentados no mesmo ambiente e tambm entre ambientes. Neste caso, o modelo
equivale a y = Xb + Zg + Zge + e, em que ge o vetor dos efeitos da interao entre os
efeitos genticos aditivos e de ambientes (aleatrios) e Z a matriz de incidncia
para a e ge. As equaes de modelo misto para a predio de a e ge via o mtodo
BLUP equivalem a:
X ' X

Z' X

Z X

X'Z

X Z

2
Z ' Z G e2
g

ZZ

ZZ

ZZ Gge1

e2
ge2

b X ' y ,
g Z ' y

ge Z

em que:

Gge = G para pares de indivduos no mesmo ambiente e Gge = 0 para pares de


indivduos em diferentes ambientes. A varincia da interao entre os efeitos
2
genticos aditivos e de ambientes denotada por ge
.
O mtodo G-BLUP ou BLUP genmico pode tambm ser implementado
considerando a heterogeneidade de varincia entre marcadores. Nesse caso, a matriz
n
G dada por G (W * DW * ' ) /[ 2 p i (1 p i ) ] , em que pi a frequncia de um dos alelos
i

do loco i e W* refere-se matriz W corrigida para suas mdias em cada loco (2pi). A
matriz D dada por diag(D) = (12 ... n2 ) e os elementos i2 podem ser obtidos pelos
mtodos IBLASSO, BLASSO, BayesA, BayesB, etc. Essa abordagem apresenta
tambm os seguintes pontos favorveis: (i) permite a anlise simultnea de
indivduos genotipados e no genotipados; (ii) permite o cmputo direto da acurcia
seletiva via inverso da matriz dos coeficientes das equaes de modelo misto; (iii) a
matriz D pode ser estimada em apenas uma amostra da populao e ser usada em
toda a populao de seleo e em vrias geraes; (iv) permite considerar a
heterogeneidade de varincia gentica entre marcadores.

172

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.13 GBLUP e Regresso Aleatria Multivariada (MRR)

Para caracteres associados a curvas de crescimento em funo do tempo ou da


idade de avaliao, os modelos de regresso aleatria multivariados (MRR) devem
ser adotados considerando dois conjuntos de regresso dos fentipos do carter em
funo das idades mensuradas. O primeiro conjunto diz respeito regresso fixa para
os indivduos pertencentes mesma classe de efeitos fixos e o segundo contempla
efeitos aleatrios que descrevem os desvios de cada indivduo em relao regresso
fixa. As regresses fixas e aleatrias so representadas por funes contnuas.
Um modelo de regresso aleatria multivariado pode ser ajustado para os
efeitos aleatrios gentico aditivo e ambiente permanente cujas covariveis podem
ser descritas por polinmios de Legendre. Esse modelo dado por y = Xb + Zg + Tp
+ e, em que p o vetor dos efeitos de ambiente permanente com matriz de incidncia
T. Expresso de outra forma, o modelo dado por y Xb g g p p e , em que g e

p so matrizes de incidncia para os coeficientes polinomiais dos efeitos gentico


aditivo e de ambiente permanente, respectivamente.
As distribuies dos coeficientes de regresso aleatria so dadas por:
g ~ N (0, A K g ) , sendo A a matriz de parentesco entre os indivduos e K g uma matriz
de dimenso (kg +1) x (kg+1) de covarincias entre coeficientes de regresso aleatria
para os efeitos genticos aditivos; p ~ N(0,I n K P ) , sendo I n uma matriz identidade
de ordem n e K P uma matriz de dimenso (kp+1) x (kp+1) de covarincias entre
coeficientes de regresso aleatria para os efeitos de ambiente permanente. Maiores
detalhes so apresentados no Captulo 1. Com seleo genmica os modelos de
regresso aleatria multivariados devem usar, em lugar de A, a matriz de parentesco
n

genmico, dada por G = (WW' ) / k = (WW' ) / [ 2 pi ( 1 pi ) ] .


i

6.14 Comparao entre Mtodos de Estimao Penalizada

Mtodos de estimao penalizada


Em um problema de regresso tem-se que a varivel dependente y dada
como funo de uma varivel preditora (w) e vetor de erros aleatrios (e), segundo o
modelo y = ' w + e . No contexto da seleo genmica define-se w como um vetor
de gentipos marcadores codominantes geralmente codificados como 0, 1 ou 2 de
acordo com o nmero de cpias de um dos alelos do loco marcador. E definido
como um vetor de coeficientes de regresso que contemplam os efeitos dos
marcadores no carter fenotpico y, via desequilbrio de ligao com os genes que o
controlam. Aqui, a notao substitui a notao m usada nos tpicos anteriores.
Usando esperana condicional, a equao de regresso dada por:
y = ' w = E(y | w)

173

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Isso implica E ( | w , y ) [ p ( ) p ( y | , w ) d ] /[ p ( ) p ( y | , w ) d ] , em
que p( ) a funo densidade de probabilidade de e p(y | , w) a funo de
verossimilhana de y.
Assim, a predio de y depende de p( ) , ou seja, da distribuio dos efeitos
(via LD com os QTLs) dos marcadores. Essa distribuio pode ser tratada como
informao ou distribuio a priori no contexto bayesiano ou como varivel aleatria
no contexto frequentista. Se ~ N( 0, 2 ) , BLUP de e y BLUP de y. Isto
implica que os efeitos de todos os marcadores so tomados da mesma distribuio.
2

Alternativamente, pode ser assumido que i ~ N( 0, 2 ) , em que tomado de


i
uma distribuio qui-quadrado invertida, segundo o enfoque bayesiano. Nesse caso,
isso implica que grande nmero de marcadores apresenta efeitos pequenos e poucos
marcadores apresentam efeitos grandes.
i

Esse mtodo BLUP para os coeficientes de regresso denominado


regresso aleatria ou regresso de cumeeira (Ridge Regression) (RR-BLUP). Os
coeficientes de regresso ridge so definidos como aqueles que minimizam a soma de
N
n
n
quadrados penalizada dada por ( 1 / N) (y j xij i )2 + RR (t) i2 , em que RR o
i=1

i=1

parmetro de penalizao (associado ao shrinkage) ou parmetro ridge, n o nmero


de marcadores e N o nmero de indivduos. O primeiro termo da equao a soma
de quadrados dos resduos (medida da falta de ajuste do modelo) da regresso e o
segundo termo a penalizao, a qual depende da magnitude dos coeficientes de
n

regresso via

i =1

2
i

. Por meio da funo de penalizao, um grande valor de cria

um maior custo para de grande valor, levando-o a encolher mais. Ocorre ento a
n
minimizao da soma de quadrados dos resduos, sujeita restrio i2 t . A
i=1

soluo para esse problema de otimizao conduz a = [W' W + RR (t)I] 1W' y .


Outro mtodo relacionado o LASSO, que combina shrinkage (regularizao)
com seleo de variveis e envolve o seguinte problema de otimizao, via
N

i=1

i=1

n
minimizao de ( 1 / N) (y j wij i )2 + L | i | , em que | i | a soma dos valores
i=1

absolutos dos coeficientes de regresso. As solues em que os coeficientes de


regresso se distanciam de zero sofrem penalizao. Ocorre ento a minimizao da
n

i=1

i=1

soma de quadrados dos resduos, sujeita a restrio | i | t . O componente L | i |


regulariza a regresso sem penalizar muito. O parmetro de suavizao L controla a
intensidade da regularizao.
Para computao do Lasso, Tibshirani (1996) props o mtodo de
programao quadrtica, o qual muito complexo. A escolha do L de capital
importncia, pois o mesmo influencia o tamanho do grupo de marcadores

174

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

selecionados. medida em que L tende a zero a soluo converge para mtodo de


regresso fixa via quadrados mnimos (FR-LS), ou seja, para = (W' W)1W' y . Nesse
caso, no h seleo de covariveis e predio torna-se instvel. Valores muito altos
de L reduzem muito os valores dos coeficientes de regresso. Para cmputo de L de
forma otimizada, Usai et al. (2009) propuseram o algoritmo da regresso de ngulo
mnimo (LARS) associada a um passo de validao cruzada. O LASSO pode ser
implementado tambm via abordagem bayesiana, em que BL controla a preciso da
distribuio a priori atribuda aos coeficientes de regresso.
Dois atributos importantes de um mtodo estatstico de regresso ou modelo de
predio so a acurcia preditiva e a capacidade de interpretao. O mtodo de
quadrados mnimos falha nos dois aspectos. um mtodo no viesado, mas pode
apresentar estimativas com alta varincia e, portanto, no apresenta mnimo erro
quadrtico mdio e nem alta acurcia. O mtodo RR apresenta pequeno vis e alta
acurcia preditiva propiciada pelo shrinkage, o qual regulariza a estimao e melhora a
estabilidade da soluo. Ambos os mtodos no produzem modelos interpretveis,
pois, no selecionam covariveis. Um terceiro mtodo, denominado seleo de
subconjuntos de covariveis (como o Garrote de Breiman) produz modelos
interpretveis, porm, com muita variabilidade nos resultados, pois, trata-se de um
processo discreto. O mtodo Lasso foi proposto para conciliar esses dois atributos
desejveis (acurcia preditiva e capacidade de interpretao). Portanto, mantm a
estabilidade da RR e produz modelos interpretveis (pois produz alguns coeficientes
que so exatamente 0) como a seleo de subconjuntos. Conforme Tibshirani (1996),
os trs mtodos podem ser assim comparados:
a. Situao de pequeno nmero de grandes efeitos (controle gentico por poucos
genes de grandes efeitos): Garrote de Breiman melhor, seguido por Lasso e
RR.
b. Situao de moderado nmero de moderados efeitos: Lasso melhor, seguido
por RR e Garrote de Breiman.
c. Situao de grande nmero de pequenos efeitos (controle gentico por muitos
genes de pequenos efeitos): RR melhor por pequena margem, seguido por
Lasso e Garrote de Breiman.
Detalhes dos mtodos de estimao penalizada
a. Regresso Ridge (RR-BLUP)
O mtodo RR genmico foi proposto por Whittaker et al.
(2000).
Funo objetivo a ser minimizada:
n
n
N

RR = argmin (y j wij i )2 + RR i2
i=1
i=1

175

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Funo de penalizao, restrio ou regularizao:


n

RR i2
i 1

Caractersticas:
- Mantm todas as covariveis, conduzindo a modelos complexos.
- Produz bons resultados para o caso de muitos marcadores de pequenos efeitos.
- Previne problema de multicolinearidade (que conduziria a estimativas imprecisas)
entre marcadores correlacionados.
- Regressa os coeficientes de preditores correlacionados igualmente na direo de
zero e de cada um.
n

2
i

a norma de penalizao em .

i =1

- Quanto maior o valor de lambda (parmetro de sintonia ou complexidade, que


regula a fora da penalizao ou shrinkage), maior o encurtamento.
- Se lambda estimado por REML, tem-se o mtodo RR-BLUP e
RR = e2 / gi2 = e2 / m2 = e2 /( g2 / nQ ) = ( 1 h 2 ) /(h 2 / nQ ) = nQ ( 1 h 2 ) /(h 2 )
n

e h 2 = nQ /(nQ + RR ) , em que nQ = 2 pi ( 1 pi ) ou nmero de QTL, h2 a


i

herdabilidade do carter, a varincia gentica aditiva do carter e e2 a


varincia residual.
- Se a matriz de parentesco A for computada via informao de marcadores (G) e
utilizada no mtodo BLUP fenotpico tradicional, tem-se o mtodo denominado GBLUP ou BLUP genmico, que equivalente ao RR-BLUP em termos da predio
dos efeitos aditivos g. Assim, tem-se para o G-BLUP:
g = [ZZ + G 1 ( e2 / g2 )] 1 y , em que Z a matriz de incidncia dos indivduos e y
vetor de fentipos corrigidos para os efeitos fixos.
2
g

G (W *W *' ) / [ 2 pi ( 1 pi ) ] , em que pi a freqncia de um dos alelos do loco i e


i

W* refere-se matriz W corrigida para suas mdias em cada loco (2pi).


Tem-se ento a equivalncia g = W = W[W' W + RR (t)I] 1W' y = [ZZ + G 1 ( e2 / g2 )] 1 y .
b. LASSO
Funo objetivo a ser minimizada:
n
n
N

L = argmin (y j wij i )2 + L | i |
i=1
i=1

Funo de penalizao:
n

L | i |
i=1

176

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Caractersticas:
- Mantm as covariveis mais significativas e remove as demais.
-

| | a norma de penalizao em
i

(com base em valores absolutos de ) e

i=1

induz esparsidade na soluo, conduzindo a seleo de covariveis e shrinkage,


simultaneamente.
n

- L | i | regulariza o ajuste de quadrados mnimos e regressa alguns coeficientes a


i=1

zero. Essa formulao do regularizador faz com que o Lasso regresse de forma
mais forte que o RR-BLUP, conduzindo alguns coeficientes a zero.
- Instvel com dados de alta dimenso, pois no pode selecionar mais covariveis (n)
do que do que o tamanho amostral (N) e, nesse caso, seleciona arbitrariamente um
membro de um grupo de covariveis altamente correlacionadas.
- No possui a propriedade orculo ou de retido, que se refere a coeficientes no zero
assintoticamente no viesados, normalidade assinttica e seleo consistente de
covariveis medida que N e n tendem a infinito.
- O mtodo Lasso adaptativo foi proposto visando atingir a propriedade orculo, mas
mantm a instabilidade com dados de alta dimenso.
c. Rede elstica (EN)
Funo objetivo a ser minimizada:
n
n
N

n

EN = argmin (y j wij i )2 + EN i2 + ( 1 )| i |
i=1
i=1
i=1

Funo de Penalizao:
n

n
EN i2 + ( 1 )| i | ou
i=1

i=1
n

EN | i |q
i=1

Caractersticas:
- Se 0 , EN = LASSO ou se q = 1, EN = LASSO.
- Se 1 , EN = RR ou se q = 2, EN = RR.
- Se 1 q 2 tem-se EN.
- varia entre 0 e 1 e maior que 0.

- Usa duas penalizaes: a norma de penalizao do Lasso para a seleo de


covariveis e a norma de penalizao da RR para estabilizar a soluo (quando as
covariveis so altamente correlacionadas) e melhorar a predio.
- Comporta semelhantemente ao Lasso, mas robusta a extrema colinearidade entre
as covariveis.
- Permite seleciona um nmero de covariveis maior que o tamanho da amostra (N).

177

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

- No possui a propriedade orculo.


- O mtodo Rede Elstica Adaptativa foi proposto visando atingir a propriedade
orculo do Lasso Adaptativo e a robustez do mtodo EN extrema colinearidade
entre as covariveis (Zou e Hastie, 2005).
Os mtodos frequentistas Lasso e EN no so usados frequentemente devido
ao surgimento dos Lassos Bayesianos, os quais apresentam uma srie de vantagens e
contornam os problemas associados aos referidos mtodos frequentistas.
d. Regresso Ridge com heterogeneidade de varincias entre locos marcadores (RRBLUP-Het)
Soluo para os coeficientes de regresso:
= [W' W + RR (t)I] 1W' y
h

- similar ao RR-BLUP, mas mesmo para marcas de mesma frequncia, regressa os


coeficientes de regresso diferentemente na direo de zero.
- Os fatores de penalizao dos marcadores no sistema de equaes de modelo misto
so dados pelos elementos RR do vetor RR , em que i refere-se ao loco i.
i

- Os elementos RR podem ser obtidos via os mtodos bayesianos e usados para


i

cmputo do mtodo RR-BLUP-Het.

Densidade

Distribuies normal (RR-BLUP) e exponencial (LASSO)

Figura 3. Densidades das distribuies normal (curva pontilhada) e exponencial dupla (curva
cheia), ambas com mdias iguais a zero e varincias iguais unidade.

Observa-se que a densidade a priori utilizada no LASSO Bayesiano apresenta maior


massa de densidade no valor zero e caudas mais robustas, exercendo maior
encurtamento sobre coeficientes de regresso prximos de zero e menor
encurtamento sobre coeficientes de regresso distantes de zero (Figura 3).

178

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.15 Mtodos Bayesianos

Os mtodos de predio de valores genticos genmicos RR-BLUP, Bayes A e


Bayes B foram considerados por Meuwissen et al.(2001). Essas abordagens diferem
na suposio sobre o modelo gentico associado ao carter quantitativo. O BLUP
assume o modelo infinitesimal com muitos locos de pequenos efeitos; o mtodo
BayesA assume poucos genes de grandes efeitos e muitos genes com pequenos
efeitos. No mtodo Bayes B muitos efeitos de marcadores so assumidos como zero,
a priori. Isso reduz o tamanho do genoma por meio da concentrao nas partes do
mesmo onde existem QTLs. O melhor mtodo aquele que reflete melhor a
natureza biolgica do carter polignico em questo, em termos de efeitos gnicos.
O mtodo ideal de predio de valores genticos genmicos equivale ao
clculo da mdia condicional do valor gentico dado o gentipo do indivduo em cada
QTL. Essa mdia somente pode ser calculada usando uma distribuio a priori dos
efeitos dos QTLs. Considerando, por meio de marcadores, cada QTL em separado,
essa esperana condicional dada por E ( w) . O estimador apropriado segue o
teorema de Bayes e dado por f ( w ) f d , em que f ( w ) a funo
f ( w ) f d

de verossimilhana dos dados (w), e f a distribuio a priori dos efeitos dos


QTLs marcados. Esse estimador mostra que o mtodo ideal depende da distribuio
a priori dos efeitos de QTL. A presena de QTLs testada em muitas posies (10 mil
SNPs) e, portanto, no existe QTLs em muitas posies. Dessa forma, a distribuio
a priori f deve ter uma alta probabilidade para f 0 . Para especificar essa alta
probabilidade, deve-se ter uma noo de quantos QTLs controlam o carter
(Goddard & Hayes, 2007).
Nessa situao, com muitos efeitos iguais a zero, o mtodo RR-BLUP
resulta em muitas estimativas de prximas de zero, porm no iguais a zero. Na
soma dessas estimativas, esse efeito acumulado introduz algum erro na predio. Os
mtodos bayesianos Bayes A e Bayes B relatados por Meuwissen et al. (2001)
consideram mais adequadamente a distribuio a priori dos efeitos dos QTLs.
O mtodo Bayes A similar ao mtodo BLUP com varincias heterogneas,
pois as varincias dos segmentos cromossmicos diferem para cada segmento e so
estimadas sob esse modelo, considerando a informao combinada dos dados e da
distribuio a priori para essas varincias. Essa distribuio tomada como uma quiquadrado invertida e escalada. Os mtodos Bayesianos propiciam acurcias mais
altas porque foram muitos efeitos de segmentos cromossmicos a valores prximos
a zero (Bayes A) ou a zero (Bayes B, conduzindo a N/n mais favorvel) e as
estimativas dos efeitos dos demais segmentos cromossmicos so regressadas de
acordo com uma quantidade ditada pelas distribuies a priori dos efeitos de QTL.
A estimao Bayesiana maximiza a distribuio a posteriori do parmetro ou
distribuio condicional do parmetro dado as observaes (y) e proporcional ao
produto da funo de verossimilhana pela distribuio a priori do parmetro. Em
outras palavras, a funo de verossimilhana conecta a distribuio a priori
posteriori usando para isto os dados experimentais (amostrais). Dessa forma, a
distribuio a posteriori contempla o grau de conhecimento prvio sobre o parmetro

179

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

e tambm as informaes adicionais propiciadas pelo experimento e a base da


estimao Bayesiana.
De maneira genrica, na anlise bayesiana os seguintes passos devem ser
adotados: (i) especificao das distribuies a priori para os efeitos e componentes de
varincia; (ii) especificao da funo de verossimilhana para o vetor de observaes
(distribuio condicional dos dados): (iii) obteno da distribuio conjunta a
posteriori para os efeitos e componentes de varincia; (iv) obteno das distribuies
condicionais completas a posteriori para os efeitos e componentes de varincia; (v)
marginalizao das distribuies condicionais a posteriori para os efeitos e
componentes de varincia. A marginalizao analtica praticamente impossvel,
portanto mtodos MCMC, como o amostrador de Gibbs, tm sido utilizados para
obter amostras das distribuies marginais a posteriori por meio das distribuies
condicionais completas a posteriori j citadas.
Nos mtodos MCMC, as cadeias antes do equilbrio fornecem amostras das
distribuies condicionais completas a posteriori f ( i y , 2 , 3 ...) para os efeitos e
componentes de varincia. Aps o equilbrio fornecem amostras das distribuies
marginais a posteriori f ( i y ) para as referidas variveis aleatrias. Meuwissen et al.
(2001) usaram 10.000 ciclos MCMC com descarte dos 1.000 primeiros como perodo
de burn in (para se atingir o equilbrio).
BayesA
O mtodo BayesA proposto por Meuwissen et al. (2001) produz resultados
similares ao mtodo BLUP com varincias heterogneas, pois as varincias dos
segmentos cromossmicos diferem para cada segmento e so estimadas sob esse
modelo, considerando a informao combinada dos dados fenotpicos (funo de
verossimilhana) e da distribuio a priori para estas varincias. Neste caso, o modelo
ajustado por meio de uma abordagem bayesiana com estrutura hierrquica em dois
nveis. Os efeitos dos marcadores so assumidos como amostras de uma distribuio
normal com mdia zero e varincia de cada marcador dada por uma distribuio quiquadrada inversa e escalonada conforme a seguir:
i | 2i ~ N( 0, i2 )

i2 ~ 2 ( , S 2 )

em que o nmero de graus de liberdades e S 2 o parmetro de escala da


distribuio.
Assim, tem-se que a distribuio marginal a priori dos efeitos genticos dos
marcadores, i | , S 2 , tem distribuio t de Student univariada, ou seja,
i | , S 2 ~ t( 0, , S 2 ) . Assim, esta formulao resulta na modelagem dos efeitos dos

marcadores como amostras de uma distribuio t de Student.


O valor de S 2 pode ser derivado com base no valor esperado de uma varivel
aleatria com distribuio qui-quadrado invertida escalonada. Essa esperana

180

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

2
matemtica, para um componente de varincia genrico 2 , dada por E( 2 ) = S .

Assim, o parmetro de escala dado por

E( 2 )( 2 ) .
S =

2
genticos dos marcadores tem-se E( 2i ) = S

E( i2 ) equivale E( 2 ) =
i

g2

. Assim, S 2 =

2p ( 1 p
i

Ento, para os efeitos

S 2 =

E( i2 )( 2 ) .

g2
n

2p ( 1 p
i

A esperana

( 2 ) , em que =

i=1

i=1

4.012 ou 4.2, conforme Meuwissen et al. (2001), g2 a varincia gentica aditiva do


carter e pi a freqncia allica do marcador i. Meuwissen et al. (2001)
consideraram S 2 = 0.002 ou 0.0429 . Isto descreve uma distribuio moderadamente
leptocrtica. Qualquer valor maior que 4 pode ser usado para . Valores menores
ou iguais a 4 torna a priori flat (no informativa).
Para os efeitos residuais tem-se
E( e2 ) equivale E( e2 ) = ~e2 . Assim,

E( e2 ) =

S e2 = ~e2

S e2 e
e 2

S e2 =

E( e2 )(e 2 ) .
e

(e 2 ) ~ 2 ( 4.2 2 ) ,
= e
4.2
e

A esperana

em que ~e2 um valor a

priori de e2 .
2

Assumindo i ~ N( 0, i ) , em que i tomado de uma distribuio quiquadrado invertida, segundo o enfoque bayesiano, isso implica que grande nmero de
marcadores apresenta efeitos pequenos e poucos marcadores apresentam efeitos
grandes. O uso de uma mistura de distribuies normal e qui-quadrado invertida
conduz a uma distribuio t para e, portanto, com uma cauda mais longa que a
distribuio normal. Este mtodo pode ser implementado via amostragem de Gibbs,
para obteno dessa informao combinada (priori x verossimilhana) ou da
distribuio a posteriori das varincias.
Os mtodos associados a modelos hierrquicos bayesianos (BayesA e B) por
meio de suas formulaes em termos dos hiperparmetros propiciam varincias
especficas para cada marcador. RR-BLUP so funes lineares dos dados e
regressam as estimativas com o mesmo erro padro (mesmas frequncias allicas e
tamanho amostral) pela mesma quantidade. Prioris Gaussianas conduzem a shrinkage
homogneo atravs dos marcadores. Os mtodos bayesianos so funes no lineares
dos dados e regressam efeitos menores mais do que os maiores, ou seja, admitem
maiores herdabilidades para os maiores efeitos.
O shrinkage homogneo no desejvel, pois alguns marcadores esto ligados a
QTLs e outros no esto. Mas assumindo distribuio a priori t escalada ou dupla
exponencial para os efeitos de marcadores tem-se os mtodos BayesA e BLASSO,
respectivamente, os quais produzem shrinkage especficos de acordo com o tamanho
do efeito e da varincia do marcador.
Alm das distribuies consideradas para os efeitos aleatrios no modelo linear
frequentista e para a verossimilhana do vetor de observaes, a abordagem

181

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

bayesiana requer atribuies para as distribuies a priori dos efeitos e componentes


de varincia. Essas distribuies podem ser informativas, conforme acima, ou no
informativas. Distribuio a priori no informativa ou uniforme pode ser atribuda a
esses componentes, refletindo conhecimento a priori vago. Para os componentes de
varincia, distribuies 2 invertidas podem ser consideradas como priori e,
considerando i 2 e Si2 = 0, a distribuio 2 se torna uniforme e, portanto, no
informativa. A vantagem de usar distribuio qui-quadrado invertida como priori
para os componentes de varincia refere-se ao fato de que, com dados com
distribuio normal, a distribuio a posteriori tambm uma qui-quadrado invertida.
Considere o seguinte modelo:
y = Ju + W + e, onde:
y : vetor de dados fenotpicos.
u : mdia geral.
: vetor de efeitos genticos aditivos (aleatrios) de marcadores.
e : vetor de erros.
J,W : matrizes de incidncia que associam u e aos dados fenotpicos (y).
Considera-se, inicialmente, que a distribuio condicional dos dados
2

e
normal
multivariada:
2
2
2
y , , e ~ N (1 W , I e ) , onde I a matriz identidade e e a varincia
residual.
Os parmetros de interesse para inferncias so: , , i2 e e2 . Para conduzir
a anlise bayesiana, torna-se necessrio especificar as distribuies a priori para
, i2 e e2 . Isto j foi realizado acima. Definidas estas distribuies, pode-se agora
escrever a distribuio conjunta a posteriori dos parmetros do modelo.

fenotpicos,

dados

u,

p ( , , 2i , e2 y ) p ( , , 2i , e2 ) p ( y , , 2i , e2 )

p ( ) p ( i 2i ) p ( 2i ) p ( e2 ) p ( y , , 2i , e2 )

Considerando a distribuio a priori dos componentes de varincia como


uma qui-quadrado escalada invertida, tem-se que a distribuio conjunta a
posteriori pode ser reescrita:
p ( , , 2i , e2 y ) e2

N e

1
2

n
2 2 1

( y 1 W )' ( y 1 W ) e S e2
exp

2 e2

( ' S 2
exp

2 2i

Para implementao do GS, deve-se derivar todas as distribuies


condicionais a posteriori a partir da distribuio conjunta a posteriori. A distribuio
condicional a posteriori de i2 dada por uma qui-quadrado invertida escalonada
por

S 2 + i ' i e

com

graus

de

liberdade

ou

seja

P( i2 | i ) = 2 ( , S 2 + i ' i ) . No se pode usar essa distribuio a posteriori

diretamente para estimar i2 , pois ela condicional aos efeitos i que so


182

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

desconhecidos. Assim, a tcnica de amostragem de Gibbs, baseada em


distribuies a posteriori condicional a todos os outros efeitos, usada para estimar
os efeitos i e suas varincias.
Ento, para obteno da informao combinada da distribuio a priori e da
verossimilhana dos dados, ou seja, para obteno da distribuio a posteriori dos
efeitos genticos dos marcadores, adota-se o procedimento de simulao estocstica
(mtodo Monte Carlo cadeias de Markov MCMC) denominado amostragem de
Gibbs.
Em termos mais simples, o algoritmo da amostragem de Gibbs pode ser
apresentado de forma resumida, conforme Resende (2008):
1. Fornecer os valores iniciais dos parmetros de locao e disperso do
modelo. Estes valores iniciais podem ser calculados atravs de
procedimentos padres tais como a estimao de componentes de varincia
por REML ou quadrados mnimos. Considerando a mdia geral u como
nico efeito fixo, pode-se calcular u como a mdia aritmtica das
observaes. O vetor dos efeitos de marcadores deve ser inicializado com
um nmero positivo de pequena magnitude.
2. Atualizar i2 para o i-simo marcador, amostrando-o da distribuio
condicional

completa

P( 2i | i ) = 2 ( , S 2 + i ' i )

com

g = 4.2

S 2 calculado conforme a expresso acima.

3. Dados i e u, calcular os valores de e via e ( y J W ) , em que W = [W1


W2 W3] a matriz de incidncia para os efeitos de marcadores. Ento,
atualize a varincia residual por meio da amostragem de 2 (N 2, ei ' ei ) .
4. Amostrar, de uma distribuio normal com mdia (1/N) (y Wg) e
2
varincia e / N , a mdia geral dado a atualizada varincia residual.

5. Amostrar, de uma distribuio com mdia

Wij' y Wij'Wij=0 Wij' J n u


Wij'Wij + e2 / 2i

e varincia

e2 /(Wij'Wij + e2 / i2 ) , todos os efeitos de marcadores ij dado a amostragem

mais recente da mdia, e2 e i2 , em que Wij o vetor coluna de W com


efeitos ij . No caso, ij=0 equivale a com efeito ij igualado a zero.
6. Repetir os passos de (2) a (5) at que se obtenha a convergncia da cadeia.

183

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

BayesB
O mtodo BayesB apresenta as mesmas suposies que o BayesA para uma
frao dos SNPs e assume que ( 1 ) dos SNPs apresenta efeitos nulos. Um
problema desse mtodo a escolha da frao . Com a seleo de covariveis
baseada nos maiores mdulos de seus efeitos estimados, os dois mtodos tendem a se
equivaler. Na prtica, o BayesA tem se mostrado superior ao BayesB com igual a
0.66 (Habier et al., 2011; Mrode et al., 2010).
Para os efeitos dos QTLs, o mtodo BayesB usa uma distribuio a priori com
2

alta densidade em = 0 e distribuio qui-quadrado invertida para 2 > 0 . Assim,


considera que em muitos locos no existe variao gentica, ou seja, no esto
segregando. Assim, a distribuio a priori equivale a 2i ~ 2 ( , S 2 )
com
probabilidade e 2i = 0 com probabilidade ( 1 ), em que depende da taxa de
mutao do gene. As quantidades = 4.234 e S2 = 0.0429 usadas por Meuwissen et al.
(2001) produzem a mdia e varincia de i2 dado que 2i > 0 . Tais quantidades
tambm dependem dos efeitos mutacionais e precisam ser estimadas na prtica.
A distribuio a priori do mtodo BayesA no tem um pico de densidade em
= 0 . No mtodo BayesB, uma vez que no possvel uma amostragem de
2
i

2i = 0 , o mtodo da amostragem de Gibbs no pode ser usado, pois no move sobre


todo o espao de amostragem. Assim, o algoritmo de Metropolis-Hastings (HM)
deve ser usado. Esse mtodo resolve esse problema por meio da amostragem
simultnea de i e i2 . O amostrador de Metropolis-Hastings consiste em gerar
amostras sequenciais como meio de aproximar uma distribuio da qual no h como
amostrar diretamente. Tal amostrador pode amostrar diretamente de qualquer
distribuio de probabilidade f(x), desde que a densidade em x possa ser calculada.
Detalhes da implementao desse algoritmo so apresentados por Sorensen e
Gianola (2002) e Chib e Greenberg (1995).

amostragem

simultnea de i e 2i realizada da distribuio


P( i2 , i | y ) = P( i2 | y ).P(i | 2i , y ) , em que y* denota o vetor de dados corrigido para
os efeitos fixos e para todos os efeitos genticos, exceto i . Essa expresso indica que
se deve amostrar i2 de P( 2i | y ) sem condicionar em i (em contraste com o
mtodo BayesA) e em seguida amostrar i de P(i | 2i , y ) condicional a i2 e y*,
como no mtodo BayesA. A distribuio P( i2 | y ) no pode ser expressa na forma
de uma distribuio conhecida e ento deve-se usar o algoritmo MH para amostrar
dessa distribuio. A distribuio a priori p( 2i ) usada como distribuio auxiliar
para sugerir atualizaes para a cadeia de MH.
Os mtodos bayesianos teoricamente propiciam acurcias mais altas porque
foram muitos efeitos de segmentos cromossmicos a valores prximos a zero
(BayesA) ou a zero (BayesB) e as estimativas dos efeitos dos demais segmentos
cromossmicos so regressadas de acordo com uma quantidade ditada pelas
distribuies a priori dos efeitos de QTL.

184

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

BayesC
Gianola et al. (2009) faz uma anlise crtica dos mtodos associados a modelos
hierrquicos bayesianos (BayesA e B) especificamente em relao s suas
formulaes em termos dos hiperparmetros que propiciam varincias especficas
para cada marcador. Segundo o autor nenhum dos mtodos permite o aprendizado
bayesiano sobre essas varincias para prosseguir para longe das prioris. Em outras
palavras, os hiperparmetros da priori para essas varincias sempre tero influncia
na extenso do shrinkage produzido nos efeitos dos marcadores. O usurio do mtodo
pode controlar a quantidade de shrinkage apenas arbitrariamente, por meio da
variao nos parmetros e S (associados distribuio qui-quadrado invertida).
Segundo os autores, o mtodo BayesB no bem formulado no contexto bayesiano.
Isto porque designar a priori que gi2 = 0 , no conduz necessariamente a gi = 0,
conforme inteno original de Meuwissen et al. (2001), em que gi o efeito gentico
do loco i. Sugere ento que o estado zero seja especificado ao nvel dos efeitos e no
ao nvel das varincias. Assim, probabilidade de mistura poderia ser atribuda
uma distribuio a priori Beta. Surge ento, o mtodo BayesC que vantajoso e
permite especificar uma distribuio a priori para , permitindo a modelagem da
distribuio dupla exponencial.
Vrios outros mtodos bayesianos foram propostos (BayesC e BayesD,
conforme Habier et al., 2011), todos eles com o propsito de permitir o aprendizado
bayesiano. Habier et al. (2011) relataram que o mtodo BayesA mostrou-se superior
na maioria das situaes, mas que nenhum dos mtodos bayesianos so claramente
superiores dentre eles; entretanto o BayesB, BayesD e especialmente o BayesC
apresentam a vantagem de propiciar informao sobre a arquitetura gentica do
carter quantitativo e identificar as posies de QTL por modelagem da frequncia
de SNP no nulos. No mtodo BayesC uma varincia comum especificada para
todos os locos. Adicionalmente, tratada como uma incgnita com distribuio a
priori uniforme (0,1) caracterizando o mtodo BayesC, que equivale ento ao
mtodo RR-BLUP com seleo de covariveis e implementado via MCMC. Tambm
se igual a zero os mtodos BayesC e RR-BLUP so iguais.
A modelagem de muito interessante para a anlise de associao. A
maioria das marcas no est em desequilbrio de ligao com os genes. Assim, a
seleo de um grupo de marcas que est em associao com o carter necessria. O
mtodo BayesB determina subjetivamente. Os mtodos BayesC e BayesD
n
modelam os efeitos genticos aditivos como a j = i xij i , em que i = ( 0,1 ) . A
i=1

distribuio de = (1...n ) binomial com probabilidade . Esse modelo de mistura


mais parsimonioso do que o mtodo BayesB. Seguindo a hierarquia do modelo,
uma distribuio deve ser postulada para e deve ser uma Beta (Legarra et al., 2011).
Se = 1 , no h seleo de marcas e o mtodo torna-se o RR-BLUP implementado
via MCMC (RR-BLUP bayesiano). Para o caso da distribuio Beta com parmetros
e , tem-se:

185

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

- Se = 0 e = 0: h problema na estimao, pois a distribuio Beta torna-se mal


definida.
- Se = 1 e = 1: tem-se uma distribuio Uniforme em .
- Se = 1 e = 1010: tem-se prximo de zero e a maioria das marcas ter efeito zero.
- Se = 108 e = 1010: tem-se quase fixado em 0,01 e em torno de 1% das marcas ter
efeito no carter.
BayesD
O mtodo BayesD mantm varincias especficas para cada loco e modela
como uma varivel aleatria. O mtodo BayesD difere do BayesA e BayesB por
considerar o parmetro de escala das prioris qui-quadrado invertidas para as
varincias especficas para cada loco como uma incgnita com distribuio a priori
Gama (1,1). Como o desconhecido parmetro de escala comum a todos os locos, as
informaes de todos os locos contribuem para a sua posteriori e por meio desta para
as posterioris das varincias especficas de cada loco.
Adicionalmente, tratado como uma incgnita com distribuio a priori
Uniforme (0,1) produzindo os mtodos BayesC e BayesD. Em contraste, igual
a um no BayesA e pode ser da ordem de 0.01 no BayesB (Habier et al., 2011). Uma
comparao entre os mtodos bayesianos apresentada na Tabela 27.
Tabela 27. Comparao entre os mtodos bayesianos
Mtodo

Modelo para os efeitos


genticos

Parmetros que
estima

Mtodo se = 1

BayesD

a j = i wij i

i2 , i , e2 ,

BayesD

2 , i , e2 ,

BayesC

2 , i , e2

RR-BLUP bayesiano ( i = 1)

i2 , i , e2

BayesA

a j = i wij

i2 , e2

2 , e2

i=1

BayesC

a j = i wij i
i=1

BayesC

a j = i wij i
i=1

BayesB

a j = i wij i
i=1

BayesA

i=1

RR-BLUP

a j = i wij
i=1

186

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Fast BayesB
O mtodo Fast BayesB foi desenvolvido por Meuwissen et al. (2009) visando
diminuir o tempo de computao do mtodo BayesB. Esses autores derivaram um
algoritmo de esperana condicional iterativa (ICE) para estimar i por meio de
integrao analtica. Os seguintes passos devem ser adotados.
a) Calcular as observaes ajustadas, y i , que so corrigidas para os efeitos de
n

todos os outros marcadores, usando a expresso y i = y w j j . Estimar a


j i

estatstica suficiente Yi = (wi' y (wi' w j ) j ) / N e 2 = e2 / N .


j i

b) Calcular i = E[i | Yi ] , que usado para atualizar a soluo para o marcador i.


A expresso para cmputo de i = E[i | Yi ] usa a funo Delta Dirac e
apresentada por Meuwissen et al. (2009).
A natureza aproximada do algoritmo ICE devida ao fato de y i e Yi no serem
conhecidos e sim serem estimados. Erros de estimao em y i e Yi ocorrem devido a
erros de estimao nos efeitos j dos outros marcadores.
6.16 Mtodos Lasso

Os Lassos bayesianos so vantajosos em relao aos mtodos bayesianos de


Meuwissen et al. (2001) por serem assintoticamente livres de informao a priori. O
parmetro pode ser estimado dos prprios dados pelos mtodos MCMC (esse
algoritmo pode ser implementado usando informao a priori vaga) e MCEM (esse
algoritmo EM no requer informao a priori). Os mtodos BayesA e BayesB
requerem a designao de distribuies a priori para a varincia de cada marcador.
Adicionalmente alguns mtodos bayesianos requerem a estimao de . Nos Lassos
no existe e uma distribuio controlada por declarada para toda a coleo de
varincias dos locos marcadores.
No mtodo Lasso original, uma moda conjunta estimada e espera-se que a
maioria dos marcadores tenham efeitos exatamente igual a zero (Usai et al., 2009).
No Lasso bayesiano so estimadas mdias a posteriori, produzindo valores muito
pequenos, mas no zero. E mdias a posteriori so o critrio timo para seleo
(Legarra et al., 2011). No Lasso original a soluo admite at (N-1) coeficientes de
regresso no nulos, em que N o nmero de indivduos. O Lasso bayesiano relaxa
essa restrio, possivelmente produzindo um modelo mais acurado.
A formulao bayesiana do Lasso (BLASSO) inclui um termo de varincia
comum para modelar ambos os termos, os resduos e os efeitos genticos dos
marcadores (Park; Casella, 2008; Campos et al., 2009b). Legarra et al. (2011)
propuseram o mtodo BLASSO melhorado (IBLASSO), o qual usa dois termos de
varincia, um para modelar os resduos e outro para modelar os efeitos genticos dos
marcadores. Esses termos se adequam aos conceitos de variao endgena e exgena

187

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

no contexto dos modelos mistos, conforme Singer et al. (2011). Isso tambm
coerente com a teoria da gentica quantitativa, que preconiza a decomposio da
variao fenotpica em variao gentica e residual.
Uma comparao entre os trs mtodos Lassos, o RR-BLUP e o RR-BLUP-Het
apresentada na Tabela 28.
Tabela 28. Caractersticas dos trs mtodos Lassos.
Mtodo

Modelo

Varincia entre
marcadores
-

y 1u W e

LASSO

Varincia gentica aditiva

Parmetro de forma

e ~ MVN (0, I )
2
e

2
e

p( e2 1, ) ( / 2) exp( )

~ ( / 2) exp[( i )
i

y 1u W e

BLASSO

Var ( ) (2 e2 ) / 2

e 2 ~ MVN (0, I 2 )

a2 = 2p i ( 1 pi )( 2 2e ) / 2

2 = ( 2 2e ) / 2

i=1

p ( 2 , ) ( / 2 ) exp[( ) / ]
p( | ) ~ N( 0, D 2 ); diag(D) = ( 12 ... n2 );

p( | ) = ( 2 / 2 )exp( 2 i2 / 2 ).
i

y 1u W e

IBLASSO

a2 = 2p i ( 1 pi ) 2 / 2

e e2 ~ MVN (0, I e2 )

2 = 2 / 2

i=1

, 2 ~ ( / 2 ) exp[( i ) / ]
i

p( | ) ~ N( 0, D); diag(D) = ( 12 ... n2 );

Var ( ) 2 /

Var(i ) = i2 = i2

p( | ) = ( 2 / 2 )exp( 2 i2 / 2 ).
i

RR-BLUP

y = 1u + W + e
e | e2 ~ MVN( 0, I e2 )
2

Var() = 2

a2 = 2p i ( 1 pi ) 2

2 = ( e2 / 2 )2

i=1

| ~ MVN( 0, I )
RR-BLUPHet

y = 1u + W + e
2
e

Var(i ) = i2 = i2

i2 = ( e2 / 2i )2

2
e

e | ~ MVN( 0, I )
| , ~ MVN( 0, D)

IBLASSO
A parametrizao do IBLASSO equivalente ao do LASSO original de
Tibshirani (1996), porm, a implementao bayesiana. Outra diferena refere-se ao
fato de que a parametrizao do LASSO original assume que a matriz de incidncia
W foi padronizada. O IBLASSO no assume isso. Essa diferena pode ser observada
na descrio dos modelos apresentada na Tabela 3. A igualdade na parametrizao
advm da comparao entre os termos ( / 2 ) e ( / 2 ) . Somente a proporo
( / ) utilizada na prtica e, portanto, e no podem ser estimados

separadamente. Assim, o de Tibshirani equivale a ( / ) do IBLASSO e ,


essencialmente, uma medida da variao gentica dos marcadores na populao. De

188

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

forma equivalente, o modelo do IBLASSO poderia ser escrito em termos de 2 ,


retirando .
A forma da distribuio dos efeitos das marcas determinada pelo parmetro
de forma , que relacionado variao gentica dos marcadores por meio da
expresso Var( ) = 2 / 2 . Essa relao denota que 2 desempenha papel similar ao
inverso da varincia nos modelos sob normalidade. O parmetro pode ser
estimado por MCMC ou mxima verossimilhana marginal (MCEM ou REML). A
estimao por MCEM evita o uso de super-priori para (Park; Casella, 2008).
m

Partindo-se da relao g2 = 2p i ( 1 pi ) 2

(Gianola et al., 2009), tem-se

i=1

g2 = 2p i ( 1 pi ) 2 / 2 , em que g2 a varincia gentica aditiva. Uma vez que a


i=1

varincia gentica aditiva do carter geralmente conhecida a priori (de outros


estudos), uma informao a priori para

pode ser dada por


m

2 = 2p i ( 1 pi ) 2 / g2 .

Entretanto,

nos

modelos

hierrquicos

bayesianos

i=1

propriamente ditos (caso dos Lassos bayesianos e no dos mtodos bayesianos de


Meuwissen), informao a priori atribuda aos hiperparmetros ( e componentes
de varincia, por exemplo) de forma que a influncia dessa informao desaparece
assintoticamente.
O modelo genrico do Lasso da forma
y = 1u + W + e
e | 2 ~ MVN( 0, I 2 )
p( | 2 , ) = ( / 2 )exp [( ) / ]

Essa distribuio exponencial do Lasso para coaduna bem com a


distribuio observada para os efeitos genticos de um carter quantitativo
(Goddard, 2009).
Com dois componentes de varincia ( e2 e 2 ) o modelo torna-se
y = 1u + W + e
e | e2 ~ MVN( 0, I e2 )

| , 2 ~ ( / 2 )exp [( i ) / ]
i

Notando-se a equivalncia com o modelo de Tibshirani, tem-se


| ~ ( / 2 )exp[( i )
i

Usando uma formulao em termos de um modelo hierrquico aumentado, incluindo


um componente de varincia extra i2 associado a cada loco marcador, tem-se:

189

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

p( | ) ~ N( 0, D); diag(D) = 12 ... n2 );

p( | ) = ( 2 / 2 )exp( 2 i2 / 2 ).
i

Assim, tem-se Var(i ) = i2 = i2 .


A implementao prtica desse modelo via amostrador de Gibbs apresentada a
seguir, conforme Legarra et al. (2011).
A distribuio a priori de e2 consiste de uma qui-quadrado invertida com 4 graus de
liberdade. A distribuio a priori para pode ser deliberadamente vaga, como uma
Uniforme entre 0 e 1000000.
As distribuies condicionais a posteriori completas so apresentadas a seguir.
~
u | demais N( 1' (y W ) / 1'1, 1 / 1'1~e2 )

~
2
2
i | demais N(wi ' (y 1i ~
W i )~e2 / LHS I , 1 / LHS I ) , em que LHSi = wi ' wi ~e + i e

~
~
wi a linha de W correspondente ao efeito i e i indica todas as variveis ,
~
exceto i .
~
i2 | demais IG ( 2 / i2 )1 / 2 , 2 , em que IG refere-se a Gama Invertida.
2 | demais G m,2 / ~
2 ) , em que G refere-se a Gama com parmetro de forma

igual ao nmero m de marcas e parmetro de escala igual a 2 / ~i 2 ) .


e2 | demais 2 e~' e~ + S e2 , 4 + N , em que N o nmero de indivduos e S e2 a
escala da distribuio a priori da varincia residual.
BLASSO
O modelo da forma
y = 1u + W + e
e | 2 ~ MVN( 0, I 2 )
| , 2 ~ ( / 2 )exp [( i ) / ]
i

Usando uma formulao em termos de um modelo hierrquico aumentado tem-se:


p ( ) ~ N (0, D 2 ); diag ( D) 12 ... n2 );
p ( ) ( 2 / 2) exp( 2 12 / 2).
i

Assim, tem-se que a varincia gentica em cada loco marcador dada por i2 = i2 2 .
As distribuies condicionais a posteriori completas so conforme descrito para o
IBLASSO, porm com as seguintes modificaes:

190

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

LHSi = wi ' wi ~e2 + i2 2


~
i2 | demais IG ( 2 2 / i2 )1/ 2 , 2
~ ~
~
2 | demais 2 ' D 1 2 + ~
e ' e~ + S e2 , 4 + m + N .
Essa ltima distribuio condicional mostra que os efeitos de marcadores so na
prtica considerados como pseudo resduos no BLASSO.

G-BLUP com heterogeneidade de varincias


O mtodo G-BLUP ou BLUP genmico pode tambm ser implementado
considerando a heterogeneidade de varincia entre marcadores. Nesse caso, a matriz
n

A dada por A (W * DW * ' ) /[ 2 p i (1 p i ) ] , em que pi a frequncia de um dos


i

alelos do loco i e W* refere-se matriz W corrigida para suas mdias em cada loco
(2pi). A matriz D dada por diag(D) = (12 ... n2 ) e os elementos i2 podem ser obtidos
via os mtodos IBLASSO, BLASSO, BayesA, BayesB, etc. Essa abordagem
apresenta tambm os seguintes pontos favorveis: (i) permite a anlise simultnea de
indivduos genotipados e no genotipados; (ii) permite o cmputo direto da acurcia
seletiva via inverso da matriz dos coeficientes das equaes de modelo misto; (iii) a
matriz D pode ser estimada em apenas uma amostra da populao e ser usada em
toda a populao de seleo e em vrias geraes.
Relao entre RR-BLUP, BLASSO e IBLASSO
Em presena de genes maiores, o RR-BLUP difere consideravelmente do
BLASSO e IBLASSO. Nesse caso, o IBLASSO e o RR-BLUP-Het so melhores. O
IBLASSO similar ao BayesA mas com maior shrinkage, nas marcas de menor
efeito.
Em termos de ordenamento dos candidatos seleo, tm-se as seguintes
tendncias. Com seleo indireta de covariveis nos mtodos que no o fazem
diretamente: (i) BayesA igual a BayesB; (ii) RR-BLUP igual ao Lasso em ranking,
desde que a arquitetura gentica seja homognea; (iii) RR-BLUP igual ao BayesA e
BayesB, desde que a arquitetura gentica seja homognea e as prioris utilizadas nos
mtodos bayesianos sejam no informativas; (iv) Com arquitetura gentica
heterognea, RR-BLUP-Het similar ao IBLASSO em ranking; (v) RR-BLUP
igual ao BayesC desde que as prioris utilizadas no mtodo bayesiano sejam no
informativas; (vi) RR-BLUP igual ao BayesD, desde que a arquitetura gentica
seja homognea e as prioris utilizadas no mtodo bayesiano sejam no informativas.
Se = 1, o BayesC igual ao RR-BLUP.
RR-BLUP e Lasso podem ser implementadas sob o enfoque frequentista e
bayesiano. Se prioris no informativas forem utilizadas, tem-se que RR-BLUP
frequentista semelhante ao RR-BLUP bayesiano e Lasso frequentista semelhante
ao Lasso bayesiano.

191

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A seleo indireta de covariveis no RR-BLUP usando os maiores mdulos


dos efeitos estimados dos marcadores produz o mtodo RR-BLUP_B (Resende et al.,
2010; Resende Junior et al., 2011), o qual pode apresentar acurcia superior. Mas esse
mtodo e tambm o RR-BLUP tradicional dividem toda a variao gentica aditiva
do carter por uma funo do nmero de marcadores ajustados. E os marcadores
usados no capturam toda essa variao gentica. Assim, no RR-BLUP_B maior
variao gentica atribuda a cada marcador do que de fato deveria. Assim, o RRBLUP_B deve usar somente a variao gentica capturada pelos marcadores
ajustados em cada anlise e no a varincia gentica total do carter. Assim deve-se
usar o REML para estimar essa variao ou outro mtodo bayesiano, como o
BLASSO ou IBLASSO, produzindo o mtodo REML/RR-BLUP_B ou
BLASSO/RR-BLUP_B ou IBLASSO/RR-BLUP_B. Tambm, a escolha do melhor
modelo REML/RR-BLUP_B deve basear-se na validao cruzada.
Relao entre RR-BLUP e BLASSO
Com arquitetura gentica homognea, conforme Resende et al. (2011), a h2 pode ser
obtida a partir do parmetro de penalizao do BLASSO e das frequncias allicas
nos locos marcadores.
Sendo BL = [ 2 RR ] 1 / 2 , tem-se:
nQ
1
1
1
,
em
que
h2 =
=
=
=
2
1 + BL /( 2n Q ) 1 + 2 RR /( 2n Q ) 1 + RR / nQ nQ + RR
n

nQ = 2 pi ( 1 pi ) .
i

Pelo mtodo RR-BLUP, a h2 dada por h 2 = nQ /(nQ + RR ) , fato que confirma a


equivalncia dos mtodos na situao de arquitetura gentica homognea.
Como RR assumido como conhecido no RR-BLUP, o estimador para a h2
capturada por todos os marcadores em conjunto pode ser especificado em funo do
BL do
BLASSO,
sendo
dado
por
parmetro
de
penalizao
2n Q
1
.
h 2 =
=
2
1 + /( 2n ) 2n + 2
BL

BL

Resultados prticos tm revelado que a capacidade preditiva no varia muito


com o valor de RR e L associados s herdabilidades entre 5% e 95%, quando o
nmero de locos grande (Silva et al., 2011).
Relao entre RR-BLUP, BLASSO e IBLASSO
Para o IBLASSO, conforme Resende et al. (2011), tem-se:
n

h2 =

2 pi ( 1 pi ) m2
i

2 pi ( 1 pi ) +
i

2
m

=
2
e

2 pi ( 1 pi ) 2
i

2 pi ( 1 pi ) +
2

.
2
e

2
De forma alternativa e usando m2 = 2 / IBL
, tem-se:

192

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

h2

2 pi (1 pi ) m2
i

2 pi (1 pi ) m2 e2
i

2 pi (1 pi )2 / 2IBL
i

2 pi (1 pi )2 / 2IBL e2
i

1
n

1 e22IBL /[4 pi (1 pi )]

pois

1 /(2nQ )
2 2
e IBL

nQ = 2 pi ( 1 pi ) . Assim, com arquitetura gentica homognea, a h2 pode ser


i

obtida a partir do parmetro de penalizao do IBLASSO, das frequncias allicas


nos locos marcadores e da varincia residual.
Sendo IBL = [ 2 RR / e2 ] 1 / 2 , tem-se:
h2

1
1

2 2
e IBL

/(2nQ ) 1 2RR /(2nQ ) 1 RR / nQ

nQ
nQ RR

Pelo mtodo RR-BLUP, a h2 dada por h 2 = nQ /(nQ + RR ) , fato que confirma a


equivalncia dos trs mtodos na situao de arquitetura gentica homognea.
6.17 Distribuies dos efeitos genticos nos mtodos RR-BLUP, Bayes
e Lasso.

Na Tabela 29 so apresentadas as distribuies assumidas para os efeitos genticos de


marcadores nos diferentes mtodos de GWS.
Tabela 29. Distribuies assumidas para os efeitos genticos de marcadores nos diferentes
mtodos de GWS.
Mtodo

Distribuio a priori dos efeitos

RR-BLUP
(bayesiano)

Normal com varincia comum

BayesA

Normal com heterogeneidade de


varincias entre marcas (t dado priori quiquadrado para as varincias)

BayesB

Normal com heterogeneidade de


varincias entre marcas, mdia zero e
varincia finita (t dado priori quiquadrado para as varincias)

Distribuio a priori
das varincias
qui-quadrado invertida
no informativa

Distribuio a posteriori
das varincias
qui-quadrado invertida

qui-quadrado invertida
(equivale ao BayesB
com = 0)

qui-quadrado invertida

qui-quadrado invertida
Mistura de distribuies
0 com probabilidade (1) e qui-quadrado
invertida com
probabilidade

BayesC

Mistura de distribuies 0 e Normal com


varincia comum (t dado priori quiquadrado para as varincias)

qui-quadrado invertida,
com distribuio
Uniforme entre 0 e 1

qui-quadrado invertida

Lassos

Exponencial Dupla

Exponencial Dupla

Gama Invertida

As distribuies assumidas para os efeitos genticos de marcadores nos


diferentes mtodos de GWS so: RR-BLUP: Normal com varincia comum;
Mtodos Bayesianos: t dado priori qui-quadrado para as varincias; Lassos:
Exponencial Dupla. A Figura 4 ilustra as formas das distribuies normal (RRBLUP), t (BayesA) e exponencial (LASSO).

193

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

0.5

0.3
0.2
0.0

0.1

Densidade

0.4

Exponencial Dupla
t-Student
Normal

-10

-5

10

X
Figura 4 Funes densidade de probabilidade das distribuies exponencial dupla,
normal e t de Student, todas com mdias iguais a zero e varincias iguais unidade
(Resende Jr. et al., 2012c).

Observa-se que, em relao ao RR-BLUP, a densidade a priori utilizada no


LASSO Bayesiano apresenta maior massa de densidade no valor zero e caudas mais
robustas, exercendo maior encurtamento sobre coeficientes de regresso prximos
de zero e menor encurtamento sobre coeficientes de regresso distantes de zero. A
densidade a priori utilizada no BayesA tambm apresenta maior massa de densidade
no valor zero e caudas mais robustas do que a normal usada no RR-BLUP. O
LASSO Bayesiano tambm exerce maior encurtamento sobre coeficientes de
regresso prximos de zero do que o BayesA. Mas as caudas das distribuies so
similares pelos dois mtodos (Figura 4).

194

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.18 Regresso Kernel Hilbert Spaces (RKHS)

Os mtodos regresso kernel no paramtrica via modelos aditivos


generalizados (Gianola et al., 2006), regresso semi-paramtrica RKHS (Reproducing
Kernel Hilbert Spaces) (Gianola; Kaam, 2008) e de redes neurais pertencem classe de
regresso implcita e so mtodos no paramtricos ou semi-paramtricos. Esses
mtodos so uma alternativa para o juste de modelos com muitas interaes
epistticas e de dominncia.
Gonzales-Recio et al. (2008) compararam mtodos no paramtricos (RKHS),
regresso bayesiana e RR-BLUP em termos de eficincia na seleo genmica.
Concluram que o mtodo da regresso RKHS (Reproducing Kernel Hilbert Spaces)
apresentou melhor capacidade preditiva do que os demais. Esse mtodo equivale ao
BLUP modelo animal com a matriz de parentesco substituda pelos kernels. O
mtodo semi-paramtrico RKHS parece ter maior capacidade preditiva quando
aplicado a dados reais (Gianola et al., 2009), sem fazer fortes suposies a priori.
Regresses no paramtricas so representaes funcionais entre um grande
nmero de covariveis e uma varivel dependente, gerando uma estrutura menos
parametrizada, com menos suposies e com facilidade para acomodar efeitos de
interaes.
As funes de kernel podem ser usadas em mtodos no paramtricos para
estimar densidades a partir de uma amostra (Bishop, 2006). A regresso de
Naradaya-Watson (NWR) aplicando o kernel binomial para estimao da funo do
valor allico tem sido usada para implementao do modelo no paramtrico usando
a teoria do modelo aditivo (Hastie e Tibshirani, 1986; Gianola et al., 2006). Este
mtodo apresenta resultado similar ao do RR-BLUP, sendo que o NWR depende do
fator de alisamento e o RR-BLUP depende do fator de shrinkage.
RKHS
Modelo
O modelo genrico para o fentipo dado por y j = u + g(w j ) + e j , em que: yj
o fentipo do indivduo j; u a mdia do carter em estudo; ej o erro aleatrio e
g(wj) uma funo desconhecida que relaciona os gentipos marcadores
(covariveis) com os fentipos (varivel dependente).
A funo g(w) definida por

g ( w) E ( y w)

Funo Objetivo a ser Minimizada:

RKHS arg min [( y j u g ( wi )]2 h g ( w)

2
H

y p ( y , w) dy
p ( w)

Funo de Penalizao
2
2
h g ( w) H , em que h o parmetro de suavizao e g ( w) H a norma de g(w) em um
espao de Hilbert, a qual induz regularizao, cuja fora ditada por h.

195

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Caractersticas
No espao infinito de Hilbert, procura-se a funo g(w) que minimize a soma de

quadrados penalizada SS [ g ( w)] [( y j u g ( wi )]2 h g ( w) 2 . A soluo para essa


H
minimizao dada por:
N

g ( w) 0 j k ( w wi ) , em que j so coeficientes desconhecidos (com total


j 1

equivalente ao nmero N de indivduos genotipados) e k(w-wj) o kernel de


reproduo, cuja escolha define o espao de Hilbert em que se dar a minimizao da
soma de quadrados. A regularizao realizada produz nos modelos de regresso
RKHS um menor nmero de parmetros do que em outros mtodos.
Na RKHS uma coleo de funes reais implicitamente definida pela
escolha de um kernel de reproduo, k(wi,wj). Esta funo mapeia pares de gentipos
em nmeros reais. Sob uma perspectiva bayesiana o kernel de reproduo define
correlaes a priori entre as avaliaes da funo (valores genticos) em pares de
gentipos (Cor[g(wi),g(wj)]. A escolha do kernel fundamental na especificao do
modelo e a RR pode ser representada como regresses RKHS. De maneira geral, os
kernels so escolhidos por algoritmos de forma a maximizar a performance do
modelo, maximizando a capacidade preditiva. Uma grande variedade de kernels
avaliada e selecionado aquele que timo segundo o critrio de seleo do modelo
(aquele que maximiza a capacidade preditiva) (Campos et al., 2009a). A capacidade
preditiva na populao de validao a capacidade de prever futuras observaes. Na
populao de estimao uma medida da qualidade do ajustamento entre os dados de
treinamento e o modelo.
Na regresso RKHS a estrutura de covarincia proporcional a uma matriz
de kernel K, dada por Cov(gi,gj) KRKHS(wi,wj), em que wi,wj so vetores de
gentipos marcadores para os indivduos i e j, e K(.,.) uma funo positiva definida
avaliada nos gentipos marcadores. Uma grande vantagem da RKHS que o modelo
representado em termos de N incgnitas, fato que uma grande vantagem
computacional quando n muito maior que N.
Nos modelos de regresso explicita e na RKHS, as funes base (funes das
covariveis usadas para construir a regresso, por exemplo, polinmios) para
regressar fentipos em marcadores so definidas a priori e isto impe restries nos
padres que podem ser capturados pelos mtodos. No mtodo de redes neurais as
funes base usadas so inferidas dos prprios dados e isso confere grande
flexibilidade a esse mtodo. Porm, h o risco de superparametrizao e a
interpretao dos parmetros no trivial. A superparametrizao significa que a
capacidade preditiva na populao de estimao apresenta boa performance mas no
a apresenta na populao de validao (em dados que no foram usados para ajustar o
modelo) (Campos et al., 2009a e b).

196

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O modelo pode ento ser expandido da seguinte forma:


y j = u + g(w j ) + e j
N

y j = u + j k(w wi ) + e j , em que 0 faz parte de u.


j=1

Em termos vetoriais, tem-se:


y = 1u + T(h) + e , em que:

t1 (h)
t (h)
2

.
T ( h)
, ti ( h ) 1 [k h ( wi w1 ) k h ( wi w2 )...k h ( wi wn )]n e ' =1 [1 2 ...n ]n .
.

t n (h)

Assumindo j ~ N( 0, 2 ) e que os componentes de varincia e h so


conhecidos, tm-se as equaes de modelo misto para obteno das solues de u e
j :
T (h)'1
1'1

u 1' y .

e2
T
h
T
h
T
h

I
(
)
1
'
(
)'
(
)


T (h)' y
2

Aps a escolha do parmetro de suavizao h, pode-se obter estimativas


REML para os componentes de varincia 2 e e2 . O parmetro de suavizao h pode
ser determinado via validao cruzada ou via abordagem bayesiana, atribuindo-se
distribuies a priori prprias para todos os parmetros do modelo (Gianola;
Campos, 2009).
O modelo KRHS pode ser tambm assim especificado: y = 1u + K h + e , em
que u uma constante, K h a matriz positiva definida de kernels, dependente do
parmetro de suavizao h; um vetor contendo coeficientes no paramtricos que
so assumidos com distribuio normal j ~ N (0, K h1 2 ) , com 2 representando a
recproca do parmetro de alisamento ( 2 1 ). Os resduos tm distribuio
normal com matriz de covarincia R=I e2 . A soluo para dada por
[ e2 K h 2 I ] e2 y .
Os fentipos so preditos por y u1 K h* , onde uma linha de K h* tem a
forma K t* [ K h* ( wi w j )] , com K h* ( wi w j ) sendo o kernel entre o genotipo do
indivduo i no grupo de validao e o gentipo do indivduo j no grupo de estimao.

197

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

RKHS com efeito polignico


Nesse caso, o efeito gentico de um indivduo j dado pelo seguinte modelo
g j = p j + j , em que p j a regresso sobre o pedigree, j a regresso semiparamtrica sobre os marcadores. Na RKHS, a suposio de que = (1 ,2 ,...n )
um processo gaussiano com mdia nula e funo de covarincia proporcional a um
kernel de reproduo, , KRKHS(wi,wj), avaliada nos gentipos marcadores, em que wi
e wj so vetores de gentipos marcadores para os indivduos i e j.
A distribuio a priori conjunta de p , e componentes de varincia
associados p2 , 2 e e2 dada por:

p (u, , p, 2 , p2 , e2 df e , Se , df , S , df p , Sf p ) N ( 0, K RKHS 2 ) N ( p 0, A p2 )
x 2 ( e2 df e , Se ) 2 ( 2 df , S ) 2 ( p2 df p , S p )
Qualquer funo positiva definida satisfazendo

K
i

RKHS

( wi , w j )

para

todas as sequncias no nulas { i } uma escolha vlida de kernel.


Pode-se

escolher

K RKHS (wi , w j ) como

um

kernel

Gaussiano

K RKHS (wi , w j ) = exp 2d ij / q0.5 , em que d ij = (wik w jk )2 o quadrado da distncia


p

k=1

Euclidiana, e q0.5 a mediana amostral da matriz de quadrados das distncias


Euclidianas amostrais d ij .
Combinando a distribuio a priori conjunta com a funo de
verossimilhana, a distribuio condicional completa do modelo torna-se (Crossa
etal., 2010):
n
p (u, , p, 2 , p2 , e2 y, H N yi u j p j , e2 / n j N ( 0, K RKHS 2 ) N ( p 0, A p2 )
i 1

x 2 ( e2 df e , Se ) 2 ( 2 df , S ) 2 ( p2 df p , S p )
Amostras so retiradas dessa distribuio.
Um modelo sem o efeito polignico pode ser ajustado removendo p j das equaes
acima. Assim, as distribuies a priori e a posteriori so dadas por:

p (u, , 2 , p2 , e2 df e , Se , df , S , df p , Sf p ) N ( 0, K RKHS 2 ) 2 ( e2 df e , Se )
x 2 ( 2 df , S ) 2 ( p2 df p , S p )

198

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

n
p (u, , 2 , p2 , e2 y, H N y j u j , e2 / ni N ( 0, K RKHS 2 )
i 1

x 2 ( e2 df e , Se ) 2 ( 2 df , S ) 2 ( p2 df p , S p )
respectivamente.
O modelo animal univariado tradicional pode tambm ser expresso em
termos de y g e em que g 0, K RKHS 2 ~ N (0, K RKHS 2 ) , conduzindo ao estimador
1
[ e2 I 2 K RKHS
] g e2 y (Campos et al., 2009).

6.19 Regresso via quadrados mnimos parciais (PLSR)

A regresso via quadrados mnimos parciais (PLS) um mtodo de reduo


dimensional que pode ser aplicado seleo de marcadores com efeitos significativos
em um carter. um mtodo muito usado em quimiometria na situao em que se
tem um grande nmero de variveis com relaes desconhecidas e o objetivo a
construo de um bom modelo preditivo para a varivel resposta (Wold et al., 1985).
No PLS variveis latentes so extradas como combinaes lineares das variveis
originais e so usadas para a predio da varivel resposta, conforme descrito a
seguir.
y j = f(w j ) + e j : valor fenotpico do indivduo j.
f(w j ) : funo que relaciona gentipos marcadores aos fentipos.
e j : termo residual.
h

Pelo PLS, a funo f(w j ) definida como f(w j ) = t jl l , em que t jl o


l=1

componente latente l (l = 1, 2, h) no individuo j e geralmente h menor que o


nmero de variveis. l o efeito gentico associado ao componente latente l. O
h

efeito gentico (regresso) associado ao marcador i dado por i = l wli .


l=1

As variveis latentes so componentes ortogonais (isso elimina o problema de


multicolinearidade) e a PLSR similar regresso via componentes principais
(PCR). Ambos os mtodos constroem a matriz T de componentes latentes, como
transformao linear da matriz W das variveis originais por meio de T = WQ, em
que Q uma matriz de pesos. A diferena que a PCR extrai componentes que
explicam a varincia de W e a PLSR extrai componentes que tem maior covarincia
com y. Na PLSR as colunas de pesos na matriz Q so definidas de forma que o
quadrado da matriz de covarincia amostral entre y e os componentes latentes
maximizado sob a restrio de que os componentes latentes sejam no
correlacionados.
Existem diferentes tcnicas para extrao dos componentes latentes. A
complexidade tima do modelo, ou seja, o nmero de componentes latentes, pode ser
determinada por validao cruzada.

199

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O mtodo PLS definido de acordo com as seguintes decomposies das


matrizes W e Y, as quais so efetuadas de forma simultnea:
W = TL' E1 ,

Y=Uq'+e 2 (1),
, em que T e U so matrizes de componentes, L e q so matrizes de
carregamento, E1 e e 2 so vetores de resduos. A decomposio no independente,
o que possibilita estabelecer uma relao entre componentes de W e Y de forma que
para cada fator a relao abaixo obtida:
u =b t
, sendo b (u' t ) (t' t ) ( 1,...,n ) coeficientes estimados via

pls

quadrados mnimos ordinrios (Ordinary Least Squares OLS) e agrupados em uma


matriz diagonal B. Maiores detalhes so apresentados por Azevedo (2012).
6.20 Regresso via componentes principais (PCR)

Conforme Azevedo et al. (2012), o mtodo PCR definido de acordo com a


seguinte combinao de variveis:
Z v WP (2),
, sendo P a matriz de autovetores da matriz de covarincia entre as covariveis (W)
e, Zv a matriz dos componentes principais ( Z , =1,...,n pcr ), os quais representam
combinaes lineares das covariveis originais.
Visando estabelecer a relao entre Y e os componentes utiliza-se a regresso
linear mltipla para obter as equaes de predio do PCR e do PLS,
respectivamente:

y = 0 + 1z 1 + 2 z 2 + ... + n pcr z n pcr (3)


,
, (4)
y =TBq'
em que: o coeficientes da regresso entre Y e Z, obtidos por meio do mtodo
OLS.
Os coeficientes Bq' e no possuem interpretao biolgica, porm possvel
estimar os coeficientes associados s variveis originais (efeitos dos marcadores)
combinando as equaes (2) e (3), (1) e (4) dos mtodos PCR e PLS, respectivamente.
Desta forma tem-se:
,
pcr =P
m
.
=LBq'
m
pls

Os mtodos PLS e PCR podem tambm serem aplicados com seleo


de covariveis, gerando os mtodos PLS esparso e PCR
supervisionado (Long et al. 2011).

200

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.21 Regresso via componentes independentes (ICR)

A Regresso via Componentes Independentes (Independent Component


Regression ICR), proposto por Comon (1994), consiste em decompor a matriz de
covariveis W em combinaes de componentes independentes, garantindo a
retirada da multicolinearidade dos dados, alm de reduzir a dimensionalidade. Por
esse mtodo no existe o pressuposto de que os dados sejam provenientes de uma
distribuio normal. Desta forma, pode ser aplicado de forma eficiente seleo
genmica ampla (GWS), em que a matriz de marcas W parametrizada com os
valores 0, 1 e 2 (distribuio no normal). Dessa forma, conforme Azevedo et al.
(2012), tem-se a decomposio dada por:
W ' F'S ,
em que: F definida como uma funo f ( KR ) , sendo K uma matriz de
ortogonalizao de S obtida por meio da decomposio espectral e R uma matriz
ortogonal que maximiza a independncia estatstica das colunas de S, em que S a
matriz dos componentes independentes S =1,...,nicr .
O algoritmo desenvolvido por Hyvrinen (1998b) utilizado na ICR visando
encontrar a matriz R baseando-se no princpio da mxima entropia ( J(r) ). Desta
forma, obtm-se a seguinte aproximao:
J(r) [E{Gi (r)}-E{Gi (v)}]2 ,
sendo r e v variveis padronizadas e G1 (u)= - exp - u 2 2 em que u uma varivel

normal padronizada. Aps o processo iterativo tem-se a matriz de componentes dada


por:
S WKR , (5)
sendo KR uma aproximao de F. Assim, obtm-se a equao de predio baseada no
mtodo ICR expressa por:
y = 0 + 1s1 + 2s 2 + ... + nicr s nicr , (6)
em que: s o componente independente e o coeficiente da regresso
determinado por meio do mtodo OLS, =1,...,nicr .Similarmente aos outros mtodos,
pode-se obter os efeitos de marcadores partir das equaes (5) e (6) por meio da
seguinte equao:
icr =KR ,
m
, sendo o vetor de estimativas dos coeficientes provenientes da regresso entre Y e
S.
Um passo importante dos mtodos de Reduo Dimensional a escolha do
nmero timo de componentes a serem inseridos no modelo. Um critrio de deciso
para o PLS e PCR adotar uma percentagem da variao total explicada pelos
componentes, a qual neste trabalho foi de 70%. Tal porcentagem tambm foi
considerada para o mtodo ICR, uma vez que Cadavid et al. (2008) sugere que o
nmero de componentes no mtodo ICR pode ser o mesmo obtido no mtodo PCR.

201

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.22 Comparao entre 12 mtodos de seleo genmica ampla

Para a comparao entre vrios mtodos estatsticos na GWS foram


simulados dois conjuntos de dados usando o aplicativo RealBreeding (Viana, 2011),
(Tabela 30).
Tabela 30. Parmetros usados na simulao.
Carter

Va

Ve

h2

Soma 2pq

N genes
menores

N genes
maiores

N
indivduos

N SNP

Sem gen
maior

4,826202

11,26114

0,300

233,47

100

300

500

98

2*

300

500

Com gen
114,5132
267,1974
0,300
231,80
maior
* os dois explicando 30% da variao gentica e os 98 explicando 70%.

Foram empregados os seguintes softwares e mtodos na GWS (Tabela 31).


Tabela 31. Softwares e mtodos usados na GWS.
Mtodo

Software

Referncia

Selegen Genmica

Resende (2007)

2 RR-BLUP

Selegen Genmica

Resende (2007)

3 RR-BLUP-Het

Selegen Genmica

Resende (2007)

4 RR-BLUP Padronizado

Genome Wide Prediction

Meuwissen et al (2009)

5 Fast BayesA

Genome Wide Prediction

Meuwissen et al (2009)

6 Fast BayesB

Genome Wide Prediction

Meuwissen et al (2009)

7 IBLASSO

GS3

Legarra et al (2011)

8 BayesCPi

GS3

Legarra et al (2011)

9 MCMC-BLUP

GS3

Legarra et al (2011)

10 BLASSO

BLR

Perez et al. (2010)

11 RKRS

Campos et al. (2009a)

12 PLSR

Os autores

1 FR-LS

Os resultados referentes GWS so apresentados na Tabela 32 (Resende et al., 2011).

202

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Tabela 32. Resultados de acurcia referentes GWS.


Mtodo

Acurcia Carter 1

Acurcia Carter 2

0,59

0,44

2 RR-BLUP

0,71

0,78

3 RR-BLUP-Het (IBLASSO)

0,71

0,80

4 RR-BLUP Padronizado

0,71

0,78

5 Fast BayesA

0,71

0,79

6 Fast BayesB

0,71

0,79

7 IBLASSO

0,71

0,80

8 BayesCPi

0,59

0,70

9 MCMC-BLUP

0,71

0,80

10 BLASSO

0,68

0,63

11 RKRS

0,99

0,99

12 PLSR

0,99

0,99

1 FR-LS

Verifica-se que, para o carter 1, com arquitetura gentica homognea, a


maioria dos mtodos forneceram acurcia idntica de 0,71. Apenas os mtodos FRLS, BLASSO e BayesCPi foram inferiores. Os mtodos RKRS e PLSR no usam
herdabilidade e, portanto, os resultados (0,99) obtidos na populao de estimao
referem-se a coeficientes de determinao fenotpica e no a acurcias. Para a
comparao desses mtodos com os demais torna-se necessria a realizao de
validao cruzada em todos os mtodos.
Para o carter 2, com arquitetura gentica heterognea, os mtodos diferiram
mais, destacando-se como superiores os mtodos IBLASSO, RR-BLUP-Het (com
componentes de varincia estimados pelo IBLASSO) e MCMC-BLUP, concordando
com Legarra et al. (2011). Os mtodos FR-LS e BLASSO foram inadequados para os
dois caracteres. Os mtodos RR-BLUP e RR-BLUP padronizado, se aplicados
corretamente, so idnticos.

203

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.23 Pesos das marcas nos diferentes mtodos e frequncias allicas

O conhecimento dos pesos dados s diferentes fontes de informao nos


procedimentos de estimao relevante no estudo das propriedades dos diferentes
mtodos de estimao. Mrode et al. (2010) abordaram essa questo. A equao de
estimao dos efeitos de marcadores pelo mtodo RR-BLUP dada por
m = (W' W + RR I)1W' y . O estimador do efeito de uma marca i equivale a
m i = (wi ' wi + RR )1 wi ' wi yd i = f i yd i , em que f i (wi ' wi + RR )1 wi ' wi e yd i o desvio
fenotpico associado marca i corrigido para todos os demais efeitos ambientais e
genticos de outras marcas, sendo dado por yd i = wi ' (y w j m j ) , i j. O valor
j

gentico aditivo do indivduo k dado por g k wi f i yd i .


i

Pelos mtodos bayesianos BayesA e BayesB existe um componente adicional


resultante da amostragem da distribuio condicional a posteriori de tal que
g k wi f i yd i N ( m i , ( wi ' wi i ) 1 e2 ) . O segundo termo dessa equao tende a zero
i

quando se faz as mdias de todas as amostras de Gibbs salvas aps o perodo de burn
in.
Diferenas nos pesos dos marcadores, ou seja, diferentes shrinkages podem
surgir mesmo quando se usa o mtodo RR-BLUP, como resultado da variao nas
frequncias allicas. Mrode et al. (2010) relatam os seguintes pesos associados a cada
categoria (alta, mdia e baixa) de frequncia allica: 0,19, 0,12 e 0,04, respectivamente.
Para os mtodos BayesA e BayesB, os pesos no variaram entre as categorias de
frequncia allica, equivalendo a 0,52 e 0,88, respectivamente. O peso maior
associado ao BayesB deve-se ao fato desse mtodo efetivamente ajustar um menor
(66% no caso) nmero de marcadores.
Verifica-se ento que os pesos diferem entre mtodos. Isso afeta as alteraes nas
frequncias allicas como resultado da seleo. E o mtodo RR-BLUP enfatiza pouco
os alelos de baixa frequncia, podendo ser desfavorvel para o melhoramento a longo
prazo. Para contornar isso, um ndice de seleo enfatizando mais os alelos de baixa
frequncia poderia ser estabelecido. Tambm, isto pode ser corrigido via
parametrizao com padronizao em W.
As correlaes entre pesos e frequncias allicas foram 0,99; 0,40 e -0,05 para o
RR-BLUP, BayesA e BayesB, respectivamente. No mtodo RR-BLUP, a quantidade
e magnitude de informao depende essencialmente das frequncias allicas. No
BayesA e BayesB, dependem tambm da variao gentica diferencial entre locos.
Conforme Mrode et al. (2010), a correlao entre os efeitos dos marcadores pelos
mtodos BayesA e RR-BLUP usando componentes de varincia obtidos pelo mtodo
BayesA foi de 0,99.

204

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.24 Imputao de gentipos marcadores

Dados perdidos associados aos gentipos marcadores podem ser imputados


cientificamente usando a informao de parentesco entre os indivduos genotipados e
no genotipados. Assim, para funcionar, esse mtodo demanda que haja algum
parentesco entre os indivduos da populao.
O contedo allico c para os indivduos genotipados (Y) dado por 0, 1 ou 2
para os gentipos aa, Aa e AA, respectivamente, para marcadores biallicos e
codominantes. O contedo allico para os indivduos no genotipados (X) dado por
(Gengler et al., 2007):

cX 1

1
A XY AYY

, em que A refere-se matriz de parentesco


1

(correlao) gentico aditivo entre indivduos genotipados ( AYY ) e entre indivduos


genotipados e no genotipados ( AXY ); cY o vetor de contedo allico dos
indivduos genotipados; a mdia geral, calculada diretamente dos dados
genotpicos: 1 um vetor de uns.
A mdia geral pode tambm ser calculada simultaneamente ao vetor c X por
meio das equaes de modelo misto:
1' M
1'1

M '1 M ' M A 1

que associa cY a

cY

cX

c Y

c
X

1' c Y

M 'c y

, em que M uma matriz de incidncia

M pode ser rescrita como M = I Y 0 X , em que I uma matriz

identidade. A matriz de parentesco dada por A AYY


A
XY

AYX
. O modelo associado
AXX

ao sistema de equaes equivale a cY McY* e , em que cY* [cY

cX ] .

O fator necessrio para que o sistema tenha soluo e dado por


= / c2 , em e2 a varincia do erro de genotipagem e c2 varincia do contedo
2
e

allico c. O componente e2 deve ser mantido prximo de zero, ou seja, da ordem de


0,001. Isso est associado a um coeficiente de determinao de c equivalente a 0,999.
Dessa forma, = e2 / c2 = 0.001 / 0.999 = 0.001001 .
As equaes de modelo misto apresentadas so praticamente iguais s
equaes de quadrados mnimos. Para derivao do BLUP no necessrio a
suposio de normalidade (o contedo c no tem distribuio normal) segundo
alguns procedimentos como a minimizao da varincia do erro de predio;
necessita-se apenas de componentes de varincia conhecidos. Outras derivaes
como aquela via mximo a posteriori (MAP) assumem que y e g tem distribuio
normal multivariada. Nesse caso, propriedades favorveis adicionais so asseguradas
ao BLUP (ver Resende, 2002, pginas 220 a 226).

205

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Considere o seguinte exemplo, com quatro indivduos genotipados (no


aparentados e com contagem de alelos marcadores 1, 0, 2 e 2, respectivamente) e um
no genotipado e irmo completo do indivduo nmero 4. Tem-se as seguintes
matrizes e resoluo pelas equaes de modelo misto:
1= [1 1 1 1]
cY = [1 0 2 2]
M = [1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0]
A = [1
0
0
0
0

0
1
0
0
0

0
0
1
0
0

0
0
0
1
0.5

0
0
0
0.5
1]

Sendo = 0.001 , tem-se


Matriz dos Coeficientes = MC
1' M
1'1

MC
1

M
'
1
M
'
M
A

MC = [ 4.0000
1.0000
1.0000
1.0000
1.0000
0

1.0000 1.0000 1.0000 1.0000


1.0010 0
0
0
0
1.0010 0
0
0
0
1.0010 0
0
0
0
1.0013
0
0
0
-0.0007

0
0
0
0
-0.0007
0.0013]

Lado Direito das Equaes = LD


1' c Y

LD

M 'cy

LD = [5 1 0 2 2 0].

206

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Soluo
1 . 2500

0 . 2498
1 . 2488

1
cY ( MC ) LD 0 . 7493
0 . 7493
c
X

0 . 3746

Assim, o gentipo imputado para o indivduo 5 foi 0,3746.


Resolvendo-se via frmula tem-se:

c X 1
1

1
c 1
A XY AYY
Y

1
A XY I ( 4 )
A XY
1
c

Y
1 . 25

0 . 25
0 0 0 0 . 5 1 . 25 1 . 625

0 . 75
0 . 75

1
c

O valor 1,625 menos a mdia geral 1,25, fornece o valor 0,375.


6.25 Aumento na eficincia seletiva do melhoramento de plantas e
animais

O aumento da eficincia seletiva com o uso da GWS pode ocorrer pela


alterao dos quatro componentes da expresso do progresso gentico, dada por
GS = (k rgg g ) / L , em que k o diferencial de seleo padronizado (dependente da
intensidade de seleo), rgg a acurcia seletiva, g o desvio padro gentico
(variabilidade gentica) do carter na populao e L o tempo necessrio para
completar um ciclo seletivo.
Espcies vegetais perenes (florestais, fruteiras, forrageiras, cana-de-acar, caf) e animais
Nessas espcies, o benefcio da GWS se d devido ao aumento de rgg e
reduo em L. O aumento em rgg se d devido ao uso da matriz de parentesco real e
prpria de cada carter (Resende, 2007). E esse aumento depende do tamanho da
populao de estimao e da densidade de marcadores. O fator L enormemente
reduzido com a GWS, pois a predio genmica e a seleo podem ser feitas no
estgio de plntulas. Assim, mesmo que rgg seja de mesma magnitude que aquela
obtida com a seleo fenotpica, a GWS ser ainda superior seleo baseada em
fentipos, devido reduo em L. A GWS explorando essas vantagens foi
implementada por Resende Jr. (2010), Resende et al. (2012) e Resende Jr. et al. (2012 a
e b) em espcies florestais, por Cavalcanti et al. (2012) em cajueiros, por Oliveira et
al. (2012) em mandioca, por Simeo et al. (2013) em forrageiras e por Rocha (2011) e
Azevedo (2012) em sunos.

207

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Espcies vegetais algamas anuais (milho, girassol)


Nessas espcies o benefcio da GWS se d devido a trs fatores: aumento de
rgg , aumento de k e reduo em L. H tambm um aumento da variao gentica
explorada pelo mtodo da seleo recorrente.
Nesse caso, o aumento de rgg se d devido ao uso da matriz de parentesco real e
tambm devido ao fato de se explorar toda a variao gentica da populao e no
somente aquela entre famlias. Uma vez que a seleo pela GWS praticada
precocemente e antes do florescimento, torna-se possvel a seleo em nvel de
indivduo e nos dois sexos (como se faz no melhoramento de plantas perenes), sem a
necessidade de duas estaes de plantio: uma para a avaliao de famlias e outra para
o estabelecimento do lote de recombinao. Consequentemente, o tempo L tambm
reduzido. Essa coincidncia entre unidade de seleo e unidade de recombinao
maximiza tambm a herdabilidade do mtodo de seleo (explora adicionalmente
0,50 ou 0,75 da variao gentica aditiva que estava dentro de prognies). A seleo
em nvel de indivduo propicia tambm o aumento da intensidade de seleo k. A
GWS explorando essas vantagens foi implementada por Fritsche Neto (2011),
Fritsche Neto et al. (2012) e Oliveira et al. (2012).
Espcies vegetais autgamas anuais (soja, feijo, arroz, trigo)
Nessas espcies, usando a duplicao de haplides para a obteno direta de
linhagens, o benefcio da GWS se d devido aos quatro fatores: aumento de rgg ,
aumento de k, aumento de g (por meio da explorao de duas vezes a variao
gentica aditiva) e reduo em L.
Seguindo o mtodo normal ou genealgico de melhoramento, tem-se que a
seleo via GWS no pode ser realizada na gerao F2, pois deve-se caminhar at a
homozigose para a seleo final. Assim, no se reduz L. Mas pode-se identificar os
bons alelos com a GWS na gerao F2 e direcionar o cruzamento entre as melhores
plantas, fazendo-se a seleo recorrente intrapopulacional em autgamas. Isso
permite aumentar rgg e g e, consequentemente, aumenta-se o ganho gentico.
Adicionalmente aumenta-se k, pois possvel avaliar um nmero muito maior de
plantas F2 do que de famlias F2:3. Para o avano de plantas S0 at linhagens
homozigotas pode-se praticar a seleo precoce via GWS em cada gerao (sem a
necessidade de experimentar prognie), maximizando-se ento a acurcia seletiva. A
estimao dos efeitos de marcas baseada em plantas S0 da gerao F2.
O aumento da eficincia do melhoramento de plantas anuais via aplicao da
metodologia de modelos mistos apresentada com detalhes na coleo de artigos
publicados por Viana et al. (2010; 2011; 2012).

208

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.26 Reduo no erro da inferncia sobre os QTL via uso dos


marcadores

(A) Mtodo G-BLUP


O mtodo G-BLUP foi inicialmente aplicado por Nejati-Javaremi et al. (1997) e Fernando
(1998) e, no contexto da seleo genmica por Habier et al. (2007), Van Raden (2008),
Goddard (2008), Goddard et al. (2009), Hayes et al. (2009) e Stranden & Garrick (2009).
Assim, no contexto da GWS, o mtodo G-BLUP emergiu vrios anos aps a proposio dos
mtodos RR-BLUP (tambm denominado SNP-BLUP), BayesA e BayesB por Meuwissen et
al. (2001).
Modelo G-BLUP
y Xb Zg e ; Var ( g ) G M g2 ,
em que Gm a matriz de parentesco genmico nos locos marcadores.
Modelo Equivalente G-BLUP
g Wm
y Xb ZWm e ; Var (Wm ) WI m2 W ' WW ' m2

, em que m o vetor de efeitos genticos (substituio allica) dos marcadores.


Assim, Var ( g ) Var (Wm) e, portanto, G M g2 WW ' m2 e GM WW ' m2 / g2 e W a
respectiva matriz de incidncia.
A vantagem da GWS advm da possibilidade de se acessar os gentipos dos
prprios QTLs que controlam o carter em questo e ento estimar os seus efeitos
nos fentipos. De forma equivalente, uma vez lidos os gentipos dos QTLs nos
vrios indivduos pode-se construir a matriz de parentesco exato (GQ) entre os
indivduos em avaliao e produzir estimativas acuradas de seus valores genticos
genmicos. Nessa predio BLUP usando GQ realiza-se intrinsecamente a associao
QTL e seus efeitos nos fentipos.
No entanto, na prtica, tem-se a matriz de parentesco GM baseada em marcadores
e no tem-se GQ. Assim, h uma distncia ou erro (GE) na inferncia sobre GQ
baseada em GM, ou seja, GQ - GM = GE e, portanto, GQ = GM + GE = GM + (GQ - GM).
Assim, GM = GQ - GE, ou seja, GM estima a diferena GQ - GE.
O valor esperado de GM quando o nmero de marcadores tende a infinito a
matriz A obtida com base em pedigree. Assim a equao para GQ pode ser rescrita
como GQ = GM + (GQ - GM) = E(GM) + [GQ - E(GM)] = A + (GQ - A). Nessa mesma
condio (nmero muito grande de marcadores) e se os marcadores coincidem
perfeitamente com os QTLs tem-se GQ = A e as selees genmica e fenotpica se
equivalem. Uma vez que o nmero de QTLs de um carter finito, tem-se GQ A e
a seleo genmica pode superar a fenotpica. Nesse caso, os desvios em (GQ A)
contemplam a segregao mendeliana dos alelos nos QTLs.

209

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Sendo GQ = A + (GQ - A) e como no se conhece GQ, essa pode ser estimada por
G Q A (GM A) , em que uma regresso matricial dos elementos de (GQ A)
nos elementos de (GM A) e visa retirar de GM quanto devido a GQ, separando-a
O
coeficiente
de
regresso

dado
por
de
GE.

Cov[(GQ A), (G M A)] / Var (G M A) Var (GQ A) / Var (G M A) . O denominador de


, Var (G A) , pode ser expresso por Var(G A) Var(G A) Var(G ) e, portanto,
M

contempla dois componentes confundidos: (i) superioridade do uso de GQ em lugar


A; (ii) erro no uso de GM no lugar de GQ .
Como GQ desconhecida, a mesma deve ser estimada com base nos marcadores
(GM), assumindo que os QTLs tem as mesmas propriedades allicas que os
marcadores, isto , desequilbrio de ligao mdio entre marcas igual desequilbrio de
ligao mdio entre marcas e QTLs. Assim, esse ltimo LD pode ser predito
dividindo aleatoriamente o total de marcadores em dois grupos sem sobreposio,
calculando as matrizes GM 1 e GM 2 associadas a esses dois grupos e computando a
covarincia entre essas duas matrizes.
Conforme Goddard et al. (2011), a quantidade c Cov[(GM 1 A), (GM 2 A)] estima
Cov[(G A), (G A)] e consequentemente Var (G A) . O denominador de
Q

equivale

den Cov[(GM 1 A), (GM 2 A)] Var (GM 1 GM 2 ) / 2 .

Cov[(GM 1 A), (GM 2 A)]


c
.

den Cov[(GM 1 A), (GM 2 A)] Var (GM 1 GM 2 ) / 2

A quantidade

Var (GM 1 GM 2 )

Assim,
estima

pois Var(GM 1 GM 2 ) Var(GQ ) Var(GE ) 2Var (GQ ) Var(GQ ) Var(GE ) 2Var(GE ).


Conforme
Yang
et
al.
(2010),
Assim,
Var (G E ) 1 / nm .
Cov[(GM 1 A), (GM 2 A)]
c
c
. Isto pode ser simplificado para

2Var (G E ) ,

den

Cov[(G M 1 A), (GM 2 A)] 1 / nm

c 1 / nm

1 1 /(cn 1) .

A covarincia c Cov [(G M 1 A), (G M 2 A)] estimada como a covarincia entre os


elementos fora da diagonal das matrizes das diferenas (GM 1 A) e (G M 2 A) . A
quantidade c pode ser tambm computada como c Cov(GM , GQMAF ) , em que
LOW

GQMAFLOW a matriz de parentesco real ao nvel dos QTLs ou variantes causais,

formada somente com os SNPs de baixa MAF (minor allele frequency), os quais
mimicam os referidos QTLs. Intrinsecamente tem-se Cov(GM , GQMAF ) .
LOW

Var(GM )

O valor de permite determinar quanto da diferena (GM A) devida


melhoria da GWS em relao seleo fenotpica e quanto devida distncia entre
GQ e G M , ou seja, pela falta de determinao dos QTLs pelas marcas. Assim,
conforme Goddard et al.(2011), pode ser dado tambm por n /(n Me) , em que
m

Me o nmero efetivo de segmentos cromossmicos, cuja frmula de clculo


apresentada mais adiante. Essa proporo mede a relao entre nmero de efeitos
a estimar em relao ao nmero de efeitos a explicar, assumindo que todas as marcas

210

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

so diferentes dos QTLs. Esse estimador ~ E ( r 2 ) 1 /(2 4 NeL) (Tenesa et al.,


2007) ou ~ E ( r 2 ) 1 /(1 4 NeL) (Sved, 1971).
Quando os marcadores so os QTLs ou esto em desequilbrio de ligao com os
QTLs, GM propicia mais informaes sobre a covarincia entre parentes do que a
matriz A. Isto ocorre porque a matriz A no considera a variao no parentesco entre
os irmos completos. Uma segunda abordagem usar o ajuste de g*, conforme
detahado a seguir.
(B) Mtodo GBLUP Melhorado
Modelo G-BLUP melhorado
y Xb Zg e ; Var ( g ) G Q g2
Modelo Equivalente G-BLUP melhorado
q Wm
y Xb ZWm Zg * e Xb Zq Zg * e ; Var ( q ) G M q2 ; Var ( g *) A g2*

, em que g* o vetor de efeitos polignicos no capturados pelos marcadores.


Assim, g2 q2 g2* e, portanto, Var ( g ) G M q2 A g2* .
Os componentes de varincia q2 e g2* podem ser estimados por REML e ento
Pode-se
ento
estimar
GQ
como
q2 /( q2 g2* ) .
G Q GM q2 A g2* [ A (GM A)] g2 , em que g2 q2 g2* . A matriz G Q estimada

tem-se

deve ento ser usada no lugar de A nas equaes de modelo misto para a predio dos
valores genticos dos indivduos e cmputo de suas acurcias seletivas.
Esse modelo G-BLUP melhorado equivalente ao RR-BLUP com ajuste do vetor
de efeitos polignicos residuais. Apresenta como vantagem a possibilidade de computar
as acurcias seletivas dos indivduos.
(C) Otimizao do G-BLUP na predio de g (catlogo de valores genticos dos indivduos)

Um fator que contribui para a reduo de GE a padronizao de W, obtendo-se


Wp. Essa padronizao reflete positivamente na composio da matriz de parentesco
genmico Gm, a qual conter a mdia ponderada das relaes de parentesco estimadas
de cada loco marcador, em que os pesos da ponderao so funo da inversa da PEV
(varincia do erro de predio) associada varivel indicadora W em cada marcador.
No caso, a PEV dada por PEV Var (Wi ) 2 pi ( 1 pi ) . E a matriz Gm dada por
GM WpWp ' / n , em que W p contm elementos dados por wij p

(wij 2p i )
[2p i ( 1 pi )]1 / 2

, em que j

refere-se a indivduos. Essa parametrizao tambm interessante porque no


propicia pesos subestimados informaes dos alelos com baixa frequncia. Assim,
permite detectar alelos raros como no nulos. As parametrizaes alternativas
propiciam maior peso aos SNPs com alta heterozigose ( 2 pi ( 1 pi ) ).

211

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Nesse caso, os elementos da matriz Gm representam o parentesco realizado mdio


n

multi-locos e so dados por G jk = ( 1 / n)


i=1

(wij 2p i )(wik 2p i )
2p i ( 1 pi )

. Outro ponto favorvel

do G-BLUP estimado dessa maneira refere-se possibilidade de estimao direta


(via PEV) da acurcia da GWS.
Os seguintes modelos alternativos podem ser usados para maximizar a eficincia
da GWS pelo mtodo BLUP:
a.

RR-BLUP (SNP-BLUP ) com ajuste do vetor de efeitos polignicos residuais


y Xb ZWm Zg * e Xb Zq Zg * e .

g W m g * q g *

b. Modelo G-BLUP melhorado 1: estimado a partir dos marcadores e fentipos


y Xb Zg e ; Var ( g ) G Q g2
y Xb ZWm Zg * e Xb Zq Zg * e
2
2
2
G Q GM q2 A g2* [ A (GM A)] g2 , com q /( q g* ) .

g g GQ

c. Modelo G-BLUP melhorado 2: estimado a partir dos marcadores e Ne.


y Xb Zg e ; Var ( g ) G Q g2

com c /( c 1 / nm ) ou nm /(nm Me) , em que Me


o nmero efetivo de segmentos cromossmicos sendo dado por
Me ( 2 NeLc N c ) /[ln( Ne Lc )] (Goddard et al., 2011, em que Lc o comprimento
G Q A (GM A) ,

mdio de um cromossomo em Morgans e N c o nmero de cromossomos).


g g GQ

Tem-se
tambm
que
nm /( nm Me ) 1 /( 2 4 NeS / ln( Ne Lc )) em
S Lc N c / n a distncia mdia entre marcadores ou tamanho do segmento
cromossmico, ou seja, ~ E ( r 2 ) 1 /(2 4 NeS ) , que mede o r2 entre pares de locos
vizinhos, conforme Tenesa et al. (2007). Tomando por base a expresso de Sved
(1971), E ( r 2 ) 1 /(1 4 NeS ) , e no de Tenesa et al. (2007), tem-se
Me ( 2 NeLc N c ) /[ln( 2 Ne Lc )] .

212

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(D) Otimizao do G-BLUP na predio de m (catlogo de efeitos genticos dos marcadores)

As mesmas recomendaes referentes obteno de GM devem ser seguidas. Mas


os dados fenotpicos tambm devem ser corrigidos e, para G Q , o estimador mais
adequado G Q (GM A) , capitalizando somente a segregao mendeliana.
d. RR-BLUP com correo prvia dos fentipos (yc) para os efeitos dos
genitores.
y c Xb ZWm Zg * e Xb Zq Zg * e .
g s W s m 0 . 5( g m g p ) : efeito gentico predito para os novos indivduos da

gerao seguinte (s), a partir de suas matrizes de incidncia (Ws) e dos efeitos
genticos preditos de seus genitores maternos e paternos.
e. Modelo G-BLUP com correo prvia dos fentipos (yc) para os efeitos dos
genitores.
y c Xb Zg e ; Var ( g ) G Q g2
m (W W ) 1W g

g s W s m 0 .5( g m g p ) .

(E) Estimao do Me

Me pode ser estimado a partir de:

(1 / Me ) Var (GQ A) Var (G M A) Var (G E )

Var(GM A) PEVGM Var (GM A) (1 / nm )

ou Me ( 2 NeLc N c ) /[ln( Ne Lc )] (Goddard et al., 2011, em que Lc o comprimento


mdio de um cromossomo em Morgans e N c o nmero de cromossomos) ou

(1 / Me) Var (GQ A) valor mdio de r2 entre todos os pares de locos ( rall2 p ).
Assim, a varincia nos coeficientes de parentesco em torno de A equivale ao
desequilbrio de ligao mdio.
A quantidade Me (1 / rall2 p ) tem grande impacto na acurcia seletiva. Essa
depende sobretudo de Nh 2 / Me . Se Me baixo essa frao ter valor alto, e a acurcia
ser alta. No caso, rall2 p refere-se ao desequilbrio mdio envolvendo todos os pares
2
de SNPs e difere de rmq
que refere-se ao desequilbrio envolvendo marcadores

vizinhos. As quantidades q2 /( q2 g2* ) e nm /( nm Me) so estimadores de


2
rmq
. O desequilbrio mdio rall2 p equivale varincia dos coeficientes de parentesco
associados aos elementos fora da diagonal de GM, os quais apresentam mdia 0. Os
elementos da diagonal de GM apresentam mdia 1.

Outra abordagem para inferir sobre nQ (nmero de locos gnicos) usar o seu
valor esperado, dado o tamanho efetivo (Ne) da populao e o tamanho L do genoma
da espcie. Com base no tamanho efetivo populacional (Ne), pode-se calcular o

213

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

nmero efetivo de locos ou segmentos cromossmicos (Me) devidos ligao


(segundo esse conceito, para dois gametas quaisquer, o genoma quebrado em Me
segmentos de tamanho igual). Nesse caso, nQ dado por nQ = Me V(q) = Me k,
sendo V(q) a heterozigose mdia de todos os segmentos cromossmicos
independentes, ou seja, V(q) = 2p(1-p), em que p a freqncia allica mdia. V(q)
anlogo a V(Zi), sendo que q refere-se aos locos gnicos e Z refere-se aos locos
marcadores.
Segundo Goddard, (2008) e conforme apresentado por Resende (2008), a
quantidade Me dada por Me = (2NeL)/[Ln(4NeL)], em que L o tamanho total do
genoma em Morgans. Entretanto, Hayes et al. (2009) relata que o valor mais
apropriado para Me situa-se entre 4NeL (que o nmero real de segmentos) e
(2NeL)/[Ln(4NeL)], sendo uma boa aproximao usar Me = 2NeL, ou seja, assumir
o nmero efetivo de locos como 2NeL. Esse nmero efetivo de locos deve ser
ponderado por uma funo da freqncia allica do gene (via freqncia do
marcador), que est implcita em V(q). O valor de nQ dado ento por nQ = Me
V(q) = Me k, em que V(q) = k dado por k = 1/[Ln(2Ne)]. Dessa forma, nQ = 2NeL
1/[Ln(2Ne)]. A quantidade Me V(q) refere-se ao nmero esperado de marcas com
efeitos significativos.
Entretanto, segundo Daetwyler et al. (2010), a abordagem de Goddard (2008)
propiciou, via simulao, resultados mais coerentes do que a abordagem de Hayes et
al. (2009), embora Daetwyler et al. (2010) parece no ter feito a correo para k. Com
dados reais (r2mq < 1), Hayes et al. (2009) concluram o contrrio.
Geralmente o nmero de SNPs significativos maior do que o nmero de locos
pois cada SNP rastreia um grande segmento cromossmico e ento o efeito de cada
segmento cromossmico dividido em muitos SNPs. Em gado de leite, o nmero de
SNPs com efeitos significativos variou de 3.000 a 4.000 entre caracteres, dentre cerca
de 40.000 marcadores usados (Hayes et al, 2009).
O nmero mximo de SNPs com efeitos significativos limitado pelo Ne. Com Ne
mais baixo, menor nQ. O nmero real de segmentos cromossmicos total 4NeL,
ou seja, 120.000 em bovinos, que bem maior que o nmero efetivo de segmentos.
Na Tabela 33 so apresentados valores de nQ para bovinos (genoma com L = 30
Morgans) e eucalipto (genoma com L = 13,2 Morgans), para diferentes valores de Ne,
usando vrias abordagens.

214

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Tabela 33. Nmero efetivo de segmentos cromossmicos (Me) e de locos (nQ) em funo do
tamanho efetivo (Ne) e do comprimento do genoma (L) em bovinos e eucalipto.
Bovinos
Ne
Tam

Ne

15
30
50
100
200
500
1000

Me Max.

Ltot

4 Ne L

30
30
30
30
30
30
30

1800
3600
6000
12000
24000
60000
120000

Me
Provavel

Ln
(4NeL)

2NeL

900
1800
3000
6000
12000
30000
60000

Me Min.

Correo

Me Provvel
Corrigido*

Me Min.
Corrigido**

2NeL/
Ln (4NeL)

1/Ln(2Ne)

2NeL/ Ln(2Ne)

2NeL /
[Ln (4NeL)
Ln(2Ne)]

120.07
219.82
344.85
638.80
1189.79
2726.75
5130.29

0.29
0.24
0.22
0.19
0.17
0.14
0.13

261
432
660
1140
2040
4200
7800

Me Min.

Correo

Me Provvel
Corrigido*

Me Min.
Corrigido**

2NeL/
Ln (4NeL)

1/Ln(2Ne)

2NeL/ Ln(2Ne)

2NeL /
[Ln (4NeL)
Ln(2Ne)]

7.50
8.19
8.70
9.39
10.09
11.00
11.70

Correo 2

Ln (Ne
Lc)

34.82
52.76
75.87
121.37
202.26
381.75
666.94

2.71
3.40
3.91
4.61
5.30
6.21
6.91

Me Prov
Corrigido
2***
2NeL/
Ln
(Ne Lc)

332.34
529.23
766.87
1302.88
2264.87
4827.34
8685.89

* Hayes et al. (2009); **Goddard (2008); ***Goddard et al. (2011).


Eucalipto
Ne
Tam

Ne

15
30
50
100
200
500
1000

Ltot

13.2
13.2
13.2
13.2
13.2
13.2
13.2

Me Max.

4 Ne L

792
1584
2640
5280
10560
26400
52800

Me
Provavel

Ln
(4NeL)

2NeL

396
792
1320
2640
5280
13200
26400

6.67
7.37
7.88
8.57
9.26
10.18
10.87

59.33
107.50
167.54
307.99
569.90
1296.52
2427.75

0.29
0.24
0.22
0.19
0.17
0.14
0.13

115
190
290
502
898
1848
3432

17.21
25.80
36.86
58.52
96.88
181.51
315.61

Correo 2

Ln (Ne
Lc)

2.71
3.40
3.91
4.61
5.30
6.21
6.91

* Lc = comprimento do cromossomo, aproximadamente igual (1 Morgan) para bovinos e eucalipto, que apresentam 30 e 13 pares
de cromossomo respectivamente.

Na Tabela 34 so apresentados clculos de r2mq obtidos via nm /(nm Me)


considerando Me conforme Goddard et al. (2011).
Tabela 34. Valores de r2 obtidos via

nm /(nm Me) .

Bovinos
Ne
Me
100
1302.88
100
1302.88
100
1302.88

M
10000
20000
30000

r2mq
0.88
0.94
0.96

200
200
200

2264.87
2264.87
2264.87

10000
20000
30000

0.82
0.90
0.93

1000
1000
1000

4827.34
4827.34
4827.34

10000
20000
30000

0.67
0.81
0.86

215

Me Prov
Corrigido
2***
2NeL/
Ln
(Ne Lc)

146.23
232.86
337.42
573.27
996.54
2124.03
3821.79

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Eucalipto
Ne

Me

r2mq

15
15
15
50
50
50
100
100
100
500
500
500

146.23
146.23
146.23
337.42
337.42
337.42
573.27
573.27
573.27
2124.03
2124.03
2124.03

5000
10000
20000
5000
10000
20000
5000
10000
20000
5000
10000
20000

0.97
0.99
0.99
0.94
0.97
0.98
0.90
0.95
0.97
0.70
0.82
0.90

Sunos
h2 a

Nmarcas

Ne

r2mq

nQ

ra*

0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.4
0.4
0.4
0.4
0.4
0.4
0.4
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.4
0.4
0.4
0.4
0.4
0.4
0.4

1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000

1000
1000
1000
1000
1000
1000
1000
10000
10000
10000
10000
10000
10000
10000
1000
1000
1000
1000
1000
1000
1000
10000
10000
10000
10000
10000
10000
10000

28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28
28

15
30
50
100
400
500
1000
15
30
50
100
400
500
1000
15
30
50
100
400
500
1000
15
30
50
100
400
500
1000

0.79
0.69
0.61
0.47
0.22
0.19
0.12
0.97
0.96
0.94
0.90
0.74
0.70
0.57
0.79
0.69
0.61
0.47
0.22
0.19
0.12
0.97
0.96
0.94
0.90
0.74
0.70
0.57

247.0
410.3
608.0
1056.9
3351.0
4053.4
7367.5
247.0
410.3
608.0
1056.9
3351.0
4053.4
7367.5
247.0
410.3
608.0
1056.9
3351.0
4053.4
7367.5
247.0
410.3
608.0
1056.9
3351.0
4053.4
7367.5

0.55
0.42
0.32
0.20
0.05
0.04
0.02
0.77
0.68
0.60
0.48
0.25
0.21
0.13
0.66
0.53
0.42
0.27
0.08
0.06
0.03
0.86
0.79
0.72
0.60
0.33
0.29
0.18

* Acurcia

216

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

rg g

Outra forma de calcular Me a partir da expresso da acurcia dada por


( Nh 2 / Me ) /[1 ( Nh 2 / Me )] ( Nh 2 ) /( Me Nh 2 ) apresentada por Daetwyler et al.

(2008). Rearranjando essa expresso tem-se M e ( Nh 2 )(1 rg2gBLUP ) / rg2gBLUP . Assim, Me


pode ser computado a partir da acurcia estimada via mtodo G-BLUP. Se mtodos
Bayesianos com seleo de covariveis (BayesB, BayesCpi, BayesDpi, Blasso,
Iblasso) so aplicados, o nmero de QTLs pode ser inferido via
n QTL ( Nh 2 )(1 rg2gBayes ) / rg2gBayes (Daetwyler et al. (2010). Assim, nQTL uma frao de
Me com efeitos mensurveis sobre o carter avaliado. A acurcia do G-BLUP,
expressa como funo de Me independe do nmero de QTLs governando o carter,
pois no h seleo de covariveis visto que todos os marcadores so retidos no
modelo e supe-se que todos os Me segmentos possuem genes.
(F) G-BLUP-Het melhorado com heterogeneidade de varincia entre SNPs

Com heterogeneidade de varincia entre SNPs e sendo D uma matriz diagonal


( diag ( D ) i , sendo i o componente de varincia associado ao loco marcador i;
m ~ (0, D ) ) contemplando essa heterogeneidade, a modelagem da estrutura de varincia
se modifica e as equaes de modelo misto tornam-se:
X ' X
Z' X

X'Z

1
2
2

Z' Z G * e / g

b X ' y
~

g Z ' y

, em que G * GM q2 A g2* , sendo G M (W p DWP' ) / g2 quando W p contm elementos


dados por wij
p

(wij 2p i )
[2p i ( 1 pi )]1 / 2

. A matriz D estimada por algum mtodo Bayesiano,

segundo o modelo y Xb Wm Zg * e , com m ~ (0, D ) .


Essa modelagem gera um mtodo G-BLUP com heterogeneidade de varincia e
produz resultados similares aos obtidos pelo mtodo BayesA.
(H) G-BLUP-Het melhorado com heterogeneidade de varincia e modelagem espacial

entre SNPs
Com dependncia espacial entre efeitos de SNPs dentro de cromossomos
devida ao desequilbrio de ligao entre eles, modelos espaciais podem ser adotados.
Nesse caso, a matriz D deve ser substituda por uma matriz de correlao
autoregressiva (AR1) contemplando essa covarincia espacial.
Um modelo autorregressivo com varincias heterogneas (ARH) pode ser
ajustado. Nesse caso, tem-se Var ( g ) Var (W p m ) W p m ARH W p ' e para 3 marcas a
estrutura de covarincia :

217

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

m ARH

m21 m1 m 2 1 m1 m3 2

m2 2
m 2 m3 1 e GM (W p m ARH WP' ) / g2 .
Sim.

m2 3

Se parte da varincia entre SNPs correlacionada e parte independente ou


no correlacionada, tem-se Var ( g ) Var (W p m ) W p ARH W p ' e

ARH

( m21c m21nc ) m1c m 2 c 1


m1c m3c 2

( m2 2 c m2 2 nc ) m 2 c m3c 1 e GM (W p ARH WP' ) / g2 .


Sim.

( m2 3 c m2 3 nc )

Outra estrutura de correlao que pode ser usada associada a modelos antedependncia estruturados (SAD, que inclui tambm heterogeneidade de
autocorrelaes), em que Var ( g ) Var (W p m ) W p mSAD W p ' e a estrutura da matriz de
covarincia :
m21 m1 m 2 1 m1 m3 1 2

m2 2
m 2 m3 2 e G M (W p mSADWP' ) / g2 .
mSAD Sim.

m2 3

Com SNPs correlacionados em parte e tambm independentes, tem-se


Var ( g ) Var (W p m ) W p SAD W p ' e a estrutura da matriz de covarincia :

SAD

( m21c m21nc ) m1c m 2 c 1 m1c m3c 1 2

( m2 2 c m2 2 nc ) m 2 c m3c 2 e GM (W p SADWP' ) / g2 .
Sim.

( m2 3c m2 3 nc )

Este modelo SAD pode ser estruturado para contemplar 10 atributos:


diferentes precises e heterogeneidade na varivel indicadora Wp; diferentes
precises na varivel fenotpica y; heterogeneidade de varincias na varivel aleatria
m; efeitos autocorrelacionados em m; heterogeneidade de autocorrelaes em m;
simultaneamente efeitos autocorrelacionados e no correlacionados em m; cmputo
da matriz de parentesco GFG visando o uso da informao de ligao (LA); cmputo
da matriz G* por meio do ajuste para a mesma endogamia base de GFG; cmputo da
matriz G * por meio de regresso de G* em A; considerao da varincia de GMijj, ou
seja, o erro de amostragem associado a cada SNP. Alguns dos atributos mencionados
aqui so abordados mais adiante.

218

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(I) Correo de Fentipos com Diferentes Precises


Para considerar as diferentes precises na varivel fenotpica y, duas
alternativas de correo podem ser usadas e essa correo deve ser usada mesmo aps
a desregresso e correo para os efeitos genticos dos genitores (correo para
estrutura de populao). A primeira alternativa foi relatada por Van Raden (2008) e
Legarra et al. (2011). A segunda foi relatada por Garrick et al. (2009).
O modelo misto tradicional pode ser especificado de duas maneiras:
(i)

Modelo para fentipos com iguais precises e homogeneidade de


varincia residual

y Xb Zg e;
g ~ N (0, A g2 ); e ~ N (0, I e2 ).

Esse modelo conduz seguintes equaes de modelo misto:


X ' ( I e2 ) 1 X

2 1
Z ' ( I e ) X
X ' X
Z' X

X ' ( I e2 ) 1 Z

1
2 1
2
Z ' ( I e ) Z A 1 / g
X 'Z
b X ' y
1 2
2 ~
Z ' Z A e / g g Z ' y

(ii)

b X ' ( I e2 ) 1 y
~
2 1
g Z ' ( I e ) y

Modelo para fentipos com diferentes precises e homogeneidade de


varincia residual

y Xb Zg e;
g ~ N (0, A g2 ); e ~ N (0, R e2 )

, em que R uma matriz diagonal contendo os diferentes pesos associados s


diferentes precises dos fentipos. Esse modelo conduz s seguintes equaes
equivalentes de modelo misto:
X ' ( R e2 )1 X

2 1
Z ' ( R e ) X
X ' ( R 11 / e2 ) X

2
1
Z ' (R 1/ e ) X
X ' R 1 X

1
Z' R X

X ' ( R e2 )1 Z

2 1
2
1
Z ' ( R e ) Z A 1 / g

b X ' ( R e2 )1 y
~
2 1
g Z ' ( R e ) y

X ' ( R 11 / e2 ) Z

b X ' ( R 11 / e2 ) y

Z ' ( R 1 / )Z A 1 / g~ Z ' ( R 11 / e2 ) y
b X ' R 1 y
X ' R 1 Z

.
Z ' R1Z A1 e2 / g2 g~ Z ' R 1 y
1

2
e

2
g

R foi definido da seguinte forma por Van Raden (2008):


1
2
Rii 2 1 , em que rggi
a confiabilidade associada ao fentipo mdio das filhas do
rggi
do indivduo i, corrigida para os efeitos dos genitores, a qual, quando associada a

219

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

prognies de meios irmos, pode ser dada por rg2gi

(1 / 4) g2
(1 / 4) g2 [( 3 / 4) g2 e2 ] / n Fi

, em que

nFi o nmero de filhas de um genitor i. Desenvolvendo a expresso de Rii obtem-se


Rii

(1 / 4) g2 [(3 / 4) g2 e2 ] / n Fi (1 / 4) g2 [(3 / 4) g2 e2 ] / n Fi (3 / 4) g2 e2 1
1
1

2
rggi
(1 / 4) g2
(1 / 4) g2
(1 / 4) g2
(1 / 4) g2
n Fi

As

equaes

(1 / 4) g2
( I n Fi ) X
X '
2
2
(3 / 4) g e

(1 / 4) g2
( I n Fi ) X
Z'
2
2
(3 / 4) g e

de

modelo
(1 / 4) g2

misto

2
2
(3 / 4) g e

(1 / 4) g2
2
2
1
Z'
I
n
Z
A

(
)
(
/
)

Fi
e
g
(3 / 4) g2 e2

X'

( I n Fi ) Z

tornam-se

ento

(1 / 4) g2
X'
( I n Fi ) y

2
2

b (3 / 4) g e

~
2

(
1
/
4
)
g
g
Z'
(
I
n
)
y

Fi
2
2
(3 / 4) g e

Uma vez que Rii j considera a herdabilidade do carter, a frao ( e2 / g2 )


simplifica-se
para
um.
Assim,
tem-se

(1 / 4) g2
X
'
( I n Fi ) X

2
2
(3 / 4) g e

(1 / 4) g2
( I n Fi ) X
Z'
2
2
(3 / 4) g e

Multiplicando-se
X ' ( I n Fi ) X

Z ' ( I n Fi ) X

(1 / 4) g2

(1 / 4) g2
X
'
( I n Fi ) y

2
2
b (3 / 4) g e
.
~
2

(
1
/
4
)
g
g
Z'
( I n Fi ) y
2
2

(3 / 4) g e
2
2

(
3
/
4
)

g
e
equao por
obtm-se
(1 / 4) g2

2
2
(3 / 4) g e

(1 / 4) g2
Z'
( I n Fi ) Z A 1
2
2
(3 / 4) g e

X'

todos

os

termos

X ' ( I n Fi ) Z

(3 / 4) g2 e2
1

Z ' ( I n Fi ) Z A
(1 / 4) g2

( I n Fi ) Z

da

b X ' ( I n Fi ) y ,
~

g Z ' ( I n Fi ) y

que so as equaes de modelo

misto para um modelo de reprodutor, ponderadas pelo tamanho de prognie de cada


um.
Garrick et al. (2009) relatam que as observaes desregressadas apresentam
heterogeneidade de varincia quando os indivduos apresentam diferentes
confiabilidades. Sugerem ento os seguinte peso para as informaes:
e2
1 h2
2
Pii
, em que rmq
refere-se ao

2
2
2
2
2
2
2
2
[(1 rmq )(1 rggi ) / rggi ] g [(1 rmq )(1 rggi ) / rggi ]h
desequilbrio envolvendo marcadores vizinhos ou proporo da variao gentica
2
explicada
pelos
marcadores.
As
quantidades
rmq
q2 /( q2 g2* )
e
2
rmq
nm /(nm Me)

so

estimadores

de

2
rmq
.

Tem-se

tambm

2
E ( rmq
) 1 /( 2 4 Ne S ) (Tenesa et al., 2007), em que S a distncia mdia entre
marcadores ou tamanho do segmento cromossmico que no sofre recombinao
dentro dele.

Mas como

e2
g2

constante para todos os indivduos tem-se que

1
1
. Tambm
constante para todos os indivduos e tem2
[(1 r )(1 rg2gi ) / rg2gi ]
[(1 rmq
)
1
1
. Verifica-se que esses pesos so equivalentes
se que Pii

(1 rg2gi ) / rg2gi (1 / rg2gi ) 1

Pii

2
mq

220

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

ponderao por Rii1 nas equaes de modelo misto, conforme Van Raden et al.
(2008), fato no notado por Garrick et al. (2009). Tambm os pesos no dependem da
2
quantidade rmq
.
Outra
R

1 / 2

opo

yR

1 / 2

Xb R

1 / 2

Zg R

1 / 2

transformar

e; g ~ N (0, A ); e ~ N (0, I )
2
g

2
e

modelo
para
e usar as tradicionais

equaes de modelo misto:


X ' X
Z' X

Z ' Z A /
X 'Z
1

2
e

2
g

b X ' y
.
~

g Z ' y

(J) G-BLUP com Genotipagem dos Genitores e Fenotipagem dos Descendentes

Nesse caso, usando valores genticos desregressados e corrigidos para os efeitos dos
genitores, tem-se:

Z ' R
Rii

Z G 1 ( e2 / g2 ) g~ Z ' R 1 ( y Xb) ;

(3 / 4) g2 e2 1
1
.

1
n Fi
rg2gi
(1 / 4) g2

Com apenas uma observao desregressada por genitor, tem-se Z = I, e, portanto:

G 1 ( e2 / g2 ) g~ R 1 ( y Xb) ;

n Fi (1 / 4) g2
~ n Fi (1 / 4) g2

1
2
2

I
G
( y Xb) .

(
/
)

e
g g I
2
2
2
2
(3 / 4) g e

(3 / 4) g e

Uma vez que Rii j considera a herdabilidade do carter, tem-se ( e2 / g2 1) e:


n Fi (1 / 4) g2
~ n Fi (1 / 4) g2

1
) .

G
g
I
(
y
X
b

2
2
2
2
(3 / 4) g e

(3 / 4) g e

2
2
Multiplicando-se todos os termos da equao por (3 / 4) g e obtm-se

g2

(3 / 4) g2 e2 ~
1
g I ( n Fi (1 / 4)) ( y Xb) que so as equaes de modelo
I ( n Fi (1 / 4)) G
g2

misto para um modelo individual reduzido (em que a matriz Z composta por
valores 0 e 0.5), ponderadas pelo tamanho de prognie de cada um. Esse modelo
estima o valor gentico aditivo total e no apenas o metade dele como o faz o modelo
de reprodutor. Assim, embora usando indivduos genotipados diferentes dos
2
2
fenotipados, o uso da matriz R dada por Rii 1 1 (3 / 4) g e 1
2
2

rggi

(1 / 4) g

n Fi

conduz

estimao dos valores genticos aditivos totais para marcadores e indivduos e no


apenas metade deles.

221

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(K) Otimizao do G-BLUP Simultneo em Indivduos Genotipados e no Genotipados

A avaliao gentica em um programa de melhoramento gentico envolve


simultaneamente indivduos fenotipados e genotipados, apenas fenotipados e apenas
genotipados.
Para a avaliao global das trs classes de indivduos em um nico passo, o
mesmo modelo y = Xb + Zg + e pode ser usado, porm com uma alterao
(substituio da matriz G pela matriz H) nas equaes de modelo misto, conforme
Misztal et al.(2009):

X ' X

Z' X

X'Z
Z ' Z H 1

X ' y
.
b

Z
'
y

e2
g2

A matriz H inclui ambas as relaes, baseadas em pedigree (A) e diferenas


( A ) entre essas e as relaes genmicas, de forma que H = A + A . Assim, H dada
por

A A
0
H 11 12 A
A21 G
0

0 ,
G A22

em que os subscritos 1 e 2 representam indivduos

no genotipados e genotipados, respectivamente.


A inversa de H, que permite computaes mais simples, dada por:
0 A11
0
21
H 1 A 1
1
1
0 G A22 A

A12 ,

A22 G 1 A221

em que A221 a inversa da matriz de

parentesco baseada em pedigree para os indivduos somente genotipados. Mtodos


distintos para cmputo direto das inversas de matrizes de parentesco foram
apresentados por Henderson (1976) e Thompson (1977).
Outra

forma

de

expressar

H 11 H 12 A11 A12 A (G A22 ) A A21


H

1
H 21 H 22 G A22 A21
1
22

1
22

1
22

A12 A
G

por
meio
de
G . Verifica-se que os efeitos de G

sobre os outros blocos da matriz H so determinados pelas regresses matriciais do


1
tipo A12 A22
, ou seja, so baseados inteiramente nas informaes de pedigree e no
fazem uso da informao genmica nessa regresso. No entanto, os gentipos
marcadores podem tambm propiciar informao nessas regresses.
Meuwissen et al. (2011) relatam que essa forma de construo de H produz
estimativas viesadas e menos acurada de valores genticos devidas aos seguintes
fatores: (i) ausncia de regresso de (G A22 ) em A visando considerar os erros de
estimao em G; (ii) no uso das informaes de marcadores nas regresses
matriciais usadas para propagar a informao genmica dos indivduos genotipados
para os no genotipados; (iii) diferentes escalas entre as informaes genmicas e de
pedigree.
Tais autores propuseram ento o mtodo LDLAb para construir uma matrix
H que verdadeiramente combina todas as informaes genmicas e de pedigree em
uma abordagem unificada. O mtodo LDLAb possui as seguintes caractersticas: (i)
faz a regresso de (G A22 ) em A, conforme tpico anterior; (ii) permite propagar a
informao genmica dos indivduos genotipados para os no genotipados, por meio
da matriz GFG; (iii) substitui a matriz de parentesco A por uma matriz GFG baseada

222

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

em anlise de ligao (LA) conforme Fernando e Grossman (1989), usando a mesma


populao base de A, permitindo escalas iguais entre as informaes genmicas e de
pedigree. O mtodo LDLAb maximiza a acurcia seletiva, embora seja
computacionalmente mais oneroso.
Segundo o mtodo LDLAb, a matriz H passa ento a ser dada por
GFG11
H LDLAb
GFG 21

1
1
*
GFG12 GFG11 GFG12GFG
22 (G GFG 22 ) GFG 22GFG 21

*
*

1
G G GFG 22GFG 21

1
*
GFG12GFG
22G

*
G

Assim, o mtodo segue os seguintes passos:


a. Cmputo da matriz de parentesco GFG visando o uso da informao de ligao
(LA).
b. Cmputo da matriz G* por meio do ajuste de G W pW p ' / n , em que W p contm
elementos dados por

wij p

(wij 2p i )
[2p i ( 1 pi )]1 / 2

, para a mesma endogamia base de GFG.

c. Cmputo da matriz G * por meio de G * A (G * A) , em que foi definido em


tpico anterior.
1
* .
GFG12GFG
d. Construir a matriz H GFG11 GFG12GFG1 22 (G * GFG 22 ) GFG1 22GFG 21
22G
LDLAb

* 1
G GFG 22GFG 21

G *

O mtodo LDLAb utiliza completamente a informao LA contida nos dados de


marcadores moleculares. Por usar estrutura de famlia, o mtodo G-BLUP permite
1
usar a informao LA. A regresso matricial GFG12GFG
substitui A12 A221 , e, portanto,
22
considera a informao molecular que est contida em GFG. Fica provado ento que a
GWS usa ambos LA e LD. O mtodo FG usa apenas LA.
O mtodo LDLA puro exige que todos os indivduos da populao base sejam
tambm genotipados. Na seleo genmica no se tem essas informaes, de forma
que o tradicional mtodo LDLA no pode ser usado. Mas o mtodo G-BLUP
Simultneo em Indivduos Genotipados e no Genotipados fornece um meio de
propagar a informao genmica dos indivduos das geraes atuais at os indivduos
fundadores da populao base por meio do pedigree.
O cmputo da matriz G* para a mesma endogamia base de GFG descrito a
seguir. As matrizes G e A22 devem ser expressas na mesma escala. Caso contrrio,
havero diferenas entre elas, mesmo se as relaes de parentesco via marcadores e
via pedigree forem as mesmas. A transformao para a mesma escala faz uso das
estatsticas F de Wright referentes coeficientes de endogamia, definidas a seguir:

Fst : endogamia da populao base (endogamia antiga).


Fis : endogamia contribuda pela populao corrente ou atual (endogamia nova).
Fit : endogamia total do indivduo i.
Fit Fst (1 Fst ) Fis .
Fis ( Fit Fst ) /(1 Fst ) .

223

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

O ajuste consiste em extrair de G o Fst e muda-lo para aquele calculado de A22


(chamado Ast ) e recalcular a matriz G (obtendo G*) usando Ast como endogamia
geral da populao e calculando de G a quantidade Fis . Assim, as seguintes
quantidades devem ser calculadas:
Fit (Gii 1) : elementos da diagonal de G menos 1. Nesse caso, Fst a endogamia

mdia na populao base, ou seja, a mdia dos elementos da diagonal de G menos 1.


Fis (Gii 1 Fst ) /(1 Fst ) .
Gii* Ast (1 Ast )Fis 1 : endogamia total do indivduo i calculado mudando a
endogamia bsica para aquela de A22.
Ast : mdia dos elementos da diagonal de A22 menos 1.
Dessa forma, Gii* so os elementos da diagonal de G re-escalados. De maneira
similar os elementos fora da diagonal de G so re-escalados usando os mesmos
valores de Fst e Ast , baseados nas diagonais de G e A22, respectivamente, e
transformando os numeradores do parentesco em coancestrias ( ), ou seja,
dividindo por 2 e posteriormente, transformando as coancestrias para o mesmo nvel
de endogamia por meio de G *ji 2[ Ast (1 Ast ) jis ] , em que jis (G ji / 2 Fst ) /(1 Fst ) a
coancestria entre os indivduos j e i, relativa endogamia bsica de Fst . A matriz
G
G G (G G ) G G
G G G .
G G ento usada na matriz

G * ii*
G ji

*
ij
*
jj

FG11

FG12

H LDLAb
* 1
G GFG 22GFG 21

1
FG 22

FG 22

1
FG 22

FG 21

FG12

1
FG 22

G *

Uma outra abordagem que pode conduzir a melhoramento da GWS o uso da


teoria da coalescncia. A ligao gnica conduz ao fato de que pontos prximos no
cromossomo tenham a mesma rvore de coalescncia. Alelos IBS na gerao atual e
que eram IBS na gerao inicial so IBD e provavelmente esto em LD. A teoria da
coalescncia trata todos os alelos em um loco como sendo IBD e ento modela a
probabilidade de ocorrncia de mutaes causando-os a no serem IBS. As seguintes
relaes podem ser descritas:
Coalescncia: IBD em LD: interesse do RR-BLUP.
IBS: IBD em LD e LE + mutantes novos: interesse do G-BLUP.
IBD: LE e LD: LE interesse do A-BLUP.

224

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

(L) Disponibilidade de duas estimativas de valor gentico em cada indivduo: BLUP


fenotpico + BLUP GWS

Essa situao ocorre quando esto disponveis os valores genticos preditos para o
carter com base em dados fenotpicos (a) e genotpicos de marcas (g). Um ndice de
seleo pode ser estabelecido usando essas duas informaes, cuja covarincia
equivale a rg2g ra2a , em que rgg2 a confiabilidade da seleo genmica e raa2 a
confiabilidade da predio dos valores genticos usando dados fenotpicos.
Tal ndice dado por:
I b1 g b2 a

Os coeficientes de ponderao (bi) do ndice so dados por:


b P 1C , em que:

r2
P 2 gg 2
rg g ra a

rg2g ra2a

ra2a

rg2g
C 2 = vetor de covarincia gentica entre o valor gentico
ra a

e as duas fontes de informao.


Resolvendo o sistema de equaes, obtm-se os seguintes coeficientes de
ponderao:
2
2 2
b (1 raa ) /(1 rg g raa )
.
b 1
2
2 2
b2 (1 rg g ) /(1 rg g raa )

O aumento na acurcia pela incluso da informao molecular dado por


raum {rg2g /(1 rg2g ra2a )[(1 ra2a ) 2 ]}1 / 2 .

225

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.27 Gentica de Populaes Genmica Ampla (GWPG)

Com o advento da genotipagem ampla via marcadores SNPs e


sequenciamento tem-se acesso a todos os locos do genoma e a Gentica de
Populaes faz parte integral dos procedimentos de estimao de componentes de
varincia dos caracteres na populao e da predio dos valores genticos dos
indivduos. As seguintes quantidades so estimadas via anlise apenas dos
marcadores, sem associao com fentipos:
- Call Rate:
Proporo dos indivduos nos quais a genotipagem com determinada marca
foi efetuada com sucesso.
- Freqncias Allicas:
Assumindo os alelos de cada marca como estando em equilbrio de HardyWeinberg na populao, o clculo das frequncias allicas (pi) realizado por pi =
N2/N + (1/2) N1/N, sendo o calculo realizado para cada coluna de marcador no
arquivo de dados em que N2 o numero de cdigos 2 na referida coluna no arquivo e
N1 o numero de cdigos 1.
- Frequncia do Alelo menos Frequente (MAF):
MAF = min (pi , 1-pi)
Geralmente os marcadores teis so aqueles com MAF maior que 5% ou 10%.
- Heterozigose mdia ou varincia da varivel indicadora W (Binomial):
H = 2 pi (1-pi): equivale tambm mdia da varivel indicadora T dos efeitos de
dominncia.
- Varincia da heterozigose (h) ou da varivel indicadora S (Bernoulli):
Var (h) = H (1-H)

- Desequilbrio de ligao entre pares de locos vizinhos:


Usando as matriz de incidncia W dos marcadores o valor de r pode ser dado por
Cov(Wia ,Wib )
, em que W dada conforme abaixo.
r( a ,b )
[Var(Wia )]1 / 2 [Var(Wib )]1 / 2

Indivduo
1
2
3
4
5
Correlao r

N. Alelos
Loco Marcador a (Wa)
0
2
1
1
2
r = 0.76

N. Alelos
Loco Marcador b (Wb)
0
1
1
0
1
2
r = 0.58

226

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

L
e
N

2
mq

A quantidade r2 estima r2mq, a partir do qual pode-se estimar Ne, via


, quando se conhece nm e L (tamanho do genoma).
r
- Desequilbrio de ligao entre todos os pares de locos:

e
M

Calculado de maneira similar ao r2 acima, porm envolvendo todos os pares


de locos ( rtpl2 ). Fornece uma estimativa do nmero efetivo de segmentos
1 .
cromossmicos (Me) por meio da expresso

rtpl2

Goddard et al. (2011) acrescenta na expresso de r2mq uma diviso por


Ln( Ne L / k ) , em que k o nmero de cromossomos. Quanto maior o tamanho L / k do
cromossomo melhor (existem mais marcadores no cromossomo ajudando a capturar
o mesmo QTL). A expresso torna-se ento:
, em que a frao Ln( Ne L / k )
r

[
/
L
e
N
2

2
mq

Ln ( Ne L / k )]

advm do fato de se considerar o LD entre todos os marcadores dentro de


cromossomo e a marca alvo e no apenas o vizinho mais prximo e o alvo.
2
2
- Estimao de rmq
via rtpl :

A partir da expresso rmq2

n r2
nm
2
, rmq
pode ser estimado por rmq2 m 2 tpl .
nm Me
nm rtpl 1

- Varincia dos coeficientes de parentesco:


O desequilbrio de ligao entre todos os pares de locos permite tambm estimar a
varincia ( Var( g ) ) dos coeficientes de parentesco ( g ou G jk ) na matriz de
parentesco genmico G. Tem-se a igualdade Var( g ) rtpl2 1 .
Me

- Varincia dos coeficientes de parentesco genticos aditivos entre irmos completos:


Gentipos
Marcadores

Nmero de
Alelos do
Marcador
(Binomial, n =2)

MM
Mm
mm
-

0
1
2

Proporo de
uma
Binomial
com n =2
(rg*)

Frequncia
Genotpica
(f)

Medias por
Gentipo: =
rg * f

Desvio
de r

Desvio
Quadrtico

Desvio
Quadrtico *
Frequncia

0
0.5
1

0.25
0.5
0.25

0
0.25
0.25

-0.5
0
0.5

0.25
0
0.25

0.0625
0
0.0625

Mdia Geral
= 0.50
g

Varincia
( Var( ) ) = 0.125
g

* ra: correlao gentica aditiva entre indivduos irmos germanos.

Verifica-se que a varincia ( Var( g ) ) equivale a 0.125 para um loco. Para nQd locos
segregantes ou segmentos cromossmicos independentes dentro de famlia, tem-se
1
para famlias de irmos completos.
Var ( g )
8 n Qd

227

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

- Varincia dos coeficientes de parentesco genticos de dominncia entre irmos completos:


Gentipos
Marcadores

MM e mm
Mm
-

Efeitos de
Dominncia:
Distribuio
Bernoulli (f)

Corelao
Gentica de
Dominncia
(rd)

Medias por
Classe de
Gentipo: = rd
*f

Efeitos: Desvio
da Bernoulli

0
1

0
0.25

0x0=0
0.25 *1=0.25

1-0.25=-0.25
1-0.25=0.75

0.0625
0.5625

0.046875
0.140625

p=0.25

0.1875

Varincia: Desvio
Quadrtico *
Frequncia (1-p) e p

Desvio
Quadrtico

Verifica-se que a varincia ( Var ( d ) ) equivale a 0.1875 para um loco. Para nQd locos
1
tem-se Var ( d )
para famlias de irmos completos. Outra denominao
0 .1875 n Qd

para d coeficiente de fraternidade.


Outra abordagem para cmputo de Var ( g ) apresentada por Stam (1980):

0.5
Var ( g )

[
2
(
L
k )]

em que L o tamanho do genoma em Morgans e k o nmero de cromossomos. Para


eucalipto (L = 13) tem-se Var ( g ) = 0.0048 e o desvio padro equivale a 0.0693. Assim,
a correlao gentica aditiva dentro de famlias de irmos germanos varia de cerca de
0. 30 a cerca de 0.70.
A influncia do nmero ni de indivduos por famlia na Var ( g ) , para o caso
de um loco, dada por Var ( g1 ) [ni /( ni 1)] 0.125 , apresentada a seguir.
Var ( g1 ) [ni /( ni 1)] 0.125

ni
4
8
12
24
48
100
200

0.1667
0.1429
0.1364
0.1304
0.1277
0.1263
0.1256

%de0.125
0.75
0.88
0.92
0.96
0.98
0.99
1.00

Verifica-se que, com o aumento de ni, a Var ( g1 ) tende a 0.125. Entre 20 e 50


individuos por famlia j ocorre a estabilizao de Var ( g1 ) . Tamanho de famlia
muito pequeno tambm um fator de aumento em Var ( g ) .
- Estimao do Tamanho Efetivo (Ne) via rtpl2 :
A partir da expresso rmq2
A partir de

2
rmq

nm
n m 2 Ne L

nm ,
nm Me

2
estima-se rmq2 nm 2rtpl .

nm rtpl 1

e conhecendo-se L, estima-se

Ne

2
n m (1 rmq
).
2
2 rmq
L

228

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.28 Gentica Quantitativa Genmica Ampla (GWQG) (198)

A superioridade da GWS sobre a seleo baseada em fentipos pode ser


atribuda a cinco fatores:
(i) uso da matriz de parentesco real e prpria de cada carter (desde que seja
empregado um mtodo de seleo de covariveis), fato que aumenta a acurcia
seletiva;
(ii) viabilizao da seleo precoce direta (SPD), que aumenta o ganho
gentico por unidade de tempo;
(iii) permisso da avaliao repetida de cada alelo (propicia repetio
experimental) sem o uso de testes clonais e de prognies, fato que aumenta a acurcia
seletiva;
(iv) uso de maior nmero de informaes, combinando trs tipos de
informao (fenotpica, genotpica e genealgica) para corrigir os dados e fazer a
anlise genmica, fato que aumenta a acurcia
(v) uso de uma Gentica Quantitativa mais realstica.
Generalizao da Genome Wide
No contexto da genotipagem em larga escala surgiram os termos seleo
genmica ampla (GWS: Genome Wide Selection), estudos de associao genmica
ampla (GWAS: Genome Wide Association Studies), gentica de populaes
genmica ampla (GWPG: Genome Wide Population Genetics) e gentica
quantitativa genmica ampla (GWQG: Genome Wide Quantitative Genetics). A
GWAS e a GWS vieram substituir a anlise de QTL e a MAS, respectivamente.
Varincias dos coeficientes de parentesco dentro de famlias.
Conforme clculos da varincia da distribuio binomial mostrados acima, tem-se
para um loco

Var ( g )

1
8

para famlias de irmos germanos. Para nQd locos

segregantes dentro de famlias tem-se


1

Var ( g )

1
8 n Qd

. Para famlias de meios irmos

tem-se Var ( g ) 16 para um loco e Var ( g ) 16 n Qd para nQd locos. No quadro a seguir
essa questo ilustrada para o caso de famlias de irmos completos.

229

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Irmos Completos
nQd

Varincia

Desvio

LIIC:
0.5 - 3 desvios

LSIC:
0.5 + 3 desvios

1
2
5
10
35
100
200
300
400
500
600
700
800
900
1000
2000
3000
4000

0.1250
0.0625
0.0250
0.0125
0.0036
0.0013
0.0006
0.0004
0.0003
0.0003
0.0002
0.0002
0.0002
0.0001
0.0001
0.0001
0.0000
0.0000

0.354
0.250
0.158
0.112
0.060
0.035
0.025
0.020
0.018
0.016
0.014
0.013
0.013
0.012
0.011
0.008
0.007
0.006

-0.56
-0.25
0.03
0.16
0.32
0.39
0.43
0.44
0.45
0.45
0.46
0.46
0.46
0.46
0.47
0.48
0.48
0.48

1.56
1.25
0.97
0.84
0.68
0.61
0.58
0.56
0.55
0.55
0.54
0.54
0.54
0.54
0.53
0.52
0.52
0.52

Verifica-se que com 35 locos segregando dentro de famlia, os coeficientes de


parentesco entre pares de indivduos dentro de famlia variam de o.38 a 0.62.
Portanto, podem se afastar bastante de 0.5.
No quadro a seguir essa questo ilustrada para o caso de famlias de meios irmos.
Meios Irmos
nQd

Varincia

Desvio

LIIC:
0.5 - 3
desvios

1
2
5
10
100
200
300
400
500
600
700
800
900
1000
2000
3000
4000

0.0625
0.0313
0.0125
0.0063
0.0006
0.0003
0.0002
0.0002
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0000
0.0000
0.0000

0.2500
0.1768
0.1118
0.0791
0.0250
0.0177
0.0144
0.0125
0.0112
0.0102
0.0094
0.0088
0.0083
0.0079
0.0056
0.0046
0.0040

-0.50
-0.28
-0.09
0.01
0.18
0.20
0.21
0.21
0.22
0.22
0.22
0.22
0.23
0.23
0.23
0.24
0.24

LSIC:
0.5 + 3
desvios
1.00
0.78
0.59
0.49
0.33
0.30
0.29
0.29
0.28
0.28
0.28
0.28
0.28
0.27
0.27
0.26
0.26

Frao da

Frao da Varincia

Varincia Dentro
de Famlia: LIIC
1.50
1.28
1.09
0.99
0.83
0.80
0.79
0.79
0.78
0.78
0.78
0.78
0.78
0.77
0.77
0.76
0.76

Dentro de Famlia:

LSIC
0.00
0.22
0.41
0.51
0.68
0.70
0.71
0.71
0.72
0.72
0.72
0.72
0.73
0.73
0.73
0.74
0.74

Verifica-se que com 100 locos segregando dentro de famlia, os coeficientes de


parentesco entre pares de indivduos dentro de famlia variam de o.18 a 0.33.
Portanto, podem se afastar bastante de 0.25. Tambm, a frao da varincia gentica
dentro de famlia retida, afasta-se de 0.75.

230

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A Var ( g ) genmica ampla em k cromossomos para meios irmos pode


tambm ser dada conforme Hill (1993):
Var ( g ) [1 /(128 L2 )] [ 4 L k e 4 i ]

em que:
L: o tamanho total do genoma;
i : o comprimento do cromossomo i.

O termo

4 i

tende a zero para

Var ( g ) 1 /( 32 L ) k / 128 L2

grande, de forma que tem-se

Em humanos (L = 35 e k = 22) tem-se:


Var ( g ) 1 /( 32 L ) 22 / 128 L2
Var ( g ) 0 .00075

.
Usando a expresso Var (
n Qd

1
16 n Qd

tem-se:

1
83 .05
16 Var ( g )

Assim, 83 locos esto segregando dentro de famlias de meios irmos em


humanos.
Para irmos germanos, em humanos, tem-se:
Var ( g ) 1 /(16 L ) 22 / 64 L2
1
0 .001505
8 n Qd
1

83 .05
8 Var ( g )

Var ( g )
n Qd

Para irmos germanos, em Eucalyptus (L = 13,2), tem-se:


Var ( g ) 1 /(16 L ) 13 .2 / 64 L2
Var ( g )

n Qd

1
0 . 003569
8 n Qd

1
35 .02
8 Var ( g )

Esse valor confere com a Tabela acima.


A Var ( g ) dado nQd pode ser usada para computar a proporo dessa variao no
parentesco, capturada pelos marcadores por meio da expresso:

Var ( g )

Var ( g ) 0 .125 / n m
1

A quantidade 0.125/nm surge em analogia a 8 n Qd , substituindo nQd por nm. Tem-se

0 .05 2
0 .05 0 .125 / n m
2

se Var ( g ) 0 .05 2 ( bovinos ).

231

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Em termos do nQd, o Me pode ser dado por:


Me = nQd Nfam = 35 Ne/2, em que Nfam o nmero de famlias de irmos
completos, onde cada famlia tem tamanho efetivo 2.
Assim, se Ne = 50, tem-se Me = 875 e, portanto, prximo a 2Ne L. A
quantidade Me = nQd x Nfam pode ser usada alternativamente na expresso de Sved
para r2mq.
Para meios irmos, em Eucalyptus (L = 13,2), tem-se:
Var ( g ) 1 /( 32 L ) 13 .2 / 128 L2
Var ( g )

n Qd

1
0 . 001785
16 n Qd

1
35 .02
16 Var ( g )

A seguir so apresentados alguns estimadores teis em Gentica Quantitativa


Genmica.

Efeitos aditivo e de dominncia e sua Covarincia


Cov ( , ) Var ( )

g
d
g
s maior que zero para nQd maior que 1000.
A covarincia
Assim, o modelo y Xb Zg Zd e deve ser ajustado com estrutura de varincia

G 2
G g g
G g gd

G g gd
G d d2

X'Z
X ' X
2

1 e
Z ' X Z ' Z Gg
a2

2
Z X ZZ Gg 1 e

gd

associada ao vetor
X Z

g ,
d

por meio das equaes de modelo misto:

e2 X ' y .

ZZ Gg
b
gd g Z ' y
Z
2

1 e
d
ZZ Gd
d2
1

Herdabilidade Genmica
Esse procedimento G-BLUP permite estimar os componentes de varincia:
g2 : varincia gentica aditiva;

d2 : varincia gentica de dominncia;


gd : covarincia gentica entre efeitos aditivos e de dominncia;
e2 : varincia residual;
h2: herdabilidade genmica no sentido restrito estimada por G-REML/G-BLUP.

Matrizes de Parentesco Genmicos


n

Gg jk = ( 1 / n)
i=1

Gd j k = ( 1 / n)
i=1

(wij 2pi )(wik 2pi )


2pi ( 1 pi )

: aditivo.

[ sij ( 2p i (1 p i )][ sik ( 2p i (1 p i )] :


[2p i ( 1 pi )][1 (2p i ( 1 pi ))]

dominncia.

232

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Coeficientes de Endogamia Genmicos


- coeficientes de endogamia por indivduo (Fgjj = Ggjj-1)
- coeficiente de endogamia mdio da populao (media de Fgjj)
Ggjj: elementos da diagonal de Gg jk .
- Alternativa:

F (1 / n ) Fi ,

em que Fi {( wi 2 pi ) 2 /[( 2 pi (1 pi )]} 1 (item 6.30).

i 1

Estimao do Tamanho Efetivo (Ne) via Endogamia F


Estima-se Ne 1 /(2 F ) .

Valores genticos genmicos dos indivduos


Solues para g e d nas equaes de modelo misto acima

Valores genticos genmicos das marcas


Solues de m (W 'W ) 1W ' g .

Acurcias na predio de valores genticos genmicos dos indivduos j


rg j g j [1 ( PEV j e2 ) /(( 1 F jj ) g2 )]1 / 2 [1 ( d j e2 ) /( G gjj g2 )]1 / 2

di : i-simo elemento da diagonal de C22.


A matriz dos coeficientes das equaes de modelo misto equivale a

C12 X ' X
C
X 'Z

e a inversa generalizada de C igual a

C 11

1
C
C

22
21
Z ' X Z ' Z G
C 11
C 21
C

C 12
.
C 22

A partir dessa acurcia podem ser estimados:


- nQ dado N e h2;
- Ne dado N, nm, h2 e Me (funo de L e Ne);
- r2mq dado N, nm e h2.
Por exemplo, se r2mq = 1,

rg g 1 /(1

1
)
Nh / Me
2

ou

rg g 1 /(1

Me
)
Nh 2

Assim, Me pode ser calculado desta equao e, posteriormente, calcula-se o


Ne, substituindo Me e L na expresso Me 2 N e L .
Ln ( 2 Ne )

Reduo Dimensional via Seleo de Covariveis


- G-BLUP reduzido (ou supervisionado), tambm denominado RR-BLUP_B
(Resende et al., 2010; Resende Jr. et al., 2012)
- PCR supervisionado
- BayesCpi: seleo de marcas e GWAS

233

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.29 Software Selegen Genmica para GWS e GWAS

O software Selegen Genmica teve seu incio em 2007 (Resende, 2007) e


contempla pelo menos quatro mtodos de GWS, quatro de GWAS e tambm o
mtodo G-REML/G-BLUP para a estimao da herdabilidade recuperada pelos
marcadores, conforme a Tabela 35. Essas sete abordagens foram aplicadas a dados
simulados (carter com herdabilidade individual de 30%, controlado por 98 genes
menores e dois genes menores explicando 30% da variao gentica). Foram
simulados 300 indivduos e 500 marcas moleculares codominantes (Resende et al.,
2011).
Tabela 35. Modelos do Selegen Genmica para a GWAS e GWS.
GWAS
Mtodo*

Modelo para Efeitos de Marcas

Fentipos

1 GWAS-FR-OBS

Fixo

2 GWAS-PSE-FR-EST

Fixo

3 GWAS-PSE-RR- OBS

Aleatrio

4 GWAS-PSE*-RR-EST

Aleatrio

yc
y
yc
y

Penalizao

1 FR-LS

Modelo para Efeitos de Marcas

Fentipos
Corrigidos

Fixo

yc
yc
yc
y c ou y

2 RR-BLUP

Aleatrio

3 RR-BLUP-Het

Aleatrio

4 G-REML/G-BLUP

Aleatrio

* RF - Regressao fixa; RR - Regressao Aleatria; EST Estimado; OBS Observado;

N Marcas
Selecinadas

95

139

e2 / gi2

e2 / gi2

97

GWS
Mtodo

Penalizao

Acurcia

0.44

e2 / g2

0.78

e2 / gi2

0.80

e2 / g2

0.80

y c - vetor de dados corrigidos; y - vetor de fentipos estimados.

* PSE: Ps Simultnea Estimao.

Para a GWAS adotou-se um nvel de significncia 5% pelo teste F, gerando os


resultados mostrados na Tabela 35. Verifica-se que o mtodo 3 conduz seleo do
menor nmero de marcas e os mtodos 1 e 4 so mais equilibrados. Os mtodos 2 e 4
baseiam-se em fentipos estimados com base em efeitos de marcas estimados em
conjunto. Tais mtodos apresentaram maior numero de marcadores teis,
significando que determinados marcadores podem ser uteis quando em conjunto mas
inteis isoladamente. As vantagens do mtodo GWAS-PSE-RR-EST so: estimao
simultnea dos efeitos de marcas, considerao dos efeitos de marcas como
aleatrios, considerao da heterogeneidade de varincias entre marcas, estimao
aps validao cruzada.
Verifica-se que os mtodos retiveram numero de marcas ligeiramente
diferentes, mas conduziram a acurcias similares, exceto pelo mtodo 3. Essas
acurcias foram tambm praticamente idnticas quelas obtidas com o uso de todas
as 500 marcas (Resende et al., 2011). Assim, possvel a seleo de um subconjunto de
marcas. O mtodo 3 til em fornecer um ponto de corte para a seleo de um
nmero muito restrito de marcas mais associadas com o carter. As marcas com
maior associao com o carter foram aproximadamente coincidentes nos diferentes
mtodos (Resende et al., 2011). No Selegen Genmica tem-se a seguinte

234

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

correspondncia entre os mtodos descritos e os modelos estatsticos do software


(Tabela 36).
Tabela 36. Correspondncia entre os Mtodos e os Modelos do Selegen Genmica para a GWAS e GWS.

GWAS
Mtodo*
1 GWAS-FR-OBS
2 GWAS-PSE-FR-EST
3 GWAS-PSE-RR- OBS
4 GWAS-PSE-RR-EST

Modelo Estatstico do
Selegen Genmica
Modelo Estatstico 4
Modelo Estatstico 4
Modelo Estatstico 3
Modelo Estatstico 3

Arquivo de
Fentipos
Observados
Estimados
Observados
Estimados

Arquivo de Lambdas
Zeros na 2 coluna
Zeros na 2 coluna
Lambda de cada marca na 2 coluna
Lambda de cada marca na 2 coluna

GWS
Mtodo
1 FR-LS
2 RR-BLUP
3 RR-BLUP-Het
4 RR-BLUP-Het

Modelo Estatstico do
Selegen Genmica
Modelo Estatstico 5
Modelo Estatstico 1
Modelo Estatstico 2
Modelo Estatstico 6

Fentipos
Corrigidos
Observados
Observados
Observados
Observados

Arquivo de Lambdas
Lambda de cada marca na 2 coluna
-

* RF - Regressao fixa. RR - Regresso Aleatria. EST Estimado. OBS Observado.

O programa exige um arquivo de dados com a seguinte seqncia de colunas:


Observao Famlia Bloco Indivduo Fentipos Variveis. As colunas Famlia, Bloco e
Indivduo podem ser preenchidas com o numero 1 na verso atual. Alguns modelos
exigem adicionalmente um arquivo de lambdas dados por e2 / gi2 , em que e2 a
estimativa da varincia residual e gi2 a estimativa da varincia gentica aditiva de
cada loco marcador. As quantidades gi2 podem ser estimadas pelos mtodos
IBLASSO, BLASSO, BayesA, BayesB e BayesCPi, conforme Resende et al. (2011).
O Selegen Genmica tem sido usado na UFV e na Embrapa para o
desenvolvimento de teses e artigos cientficos com o eucalipto (Resende et al., 2012),
milho (Fritsche Neto, 2011; Fritsche Neto et al., 2012a e b), sunos (Rocha, 2011),
cajueiros (Cavalcanti et al., 2012) e mandioca (Oliveira et al., 2012).
Correo dos Dados de Testes Clonais

No modelo 1 do Selegen Genmica deve ser usada a opco BLUP e ser


fornecida a herdabilidade ( h 2 ) da caracterstica. Essa herdabilidade deve ser aquela
associada a segregao mendeliana dos dados corrigidos yc, conforme Resende et al.
(2010). Os dados podem ser corrigidos a partir da predio de valores genticos via
metodologia de modelos mistos. Para o caso de teste clonal com estrutura de famlia,
instalado no delineamento de blocos incompletos com uma planta por parcela, o
seguinte modelo pode ser analisado no software Selegen Reml/Blup: y = Xr + Zg +
Wc + Sf + Tb + e, em que y o vetor de dados, r o vetor dos efeitos de repetio
(assumidos como fixos) somados mdia geral, g o vetor dos efeitos genticos
aditivos individuais (assumidos como aleatrios), c o vetor dos efeitos de clone
dentro de famlia de irmos completos (aleatrios), f o vetor dos efeitos de
dominncia de famlia de irmos germanos (aleatrios), b o vetor dos efeitos de
bloco (aleatrios), e o vetor de erros ou resduos (aleatrios). As letras maisculas
representam as matrizes de incidncia para os referidos efeitos.
Esse modelo pode ser encontrado na janela Clones Aparentados / Matriz A
Completa, modelo 169 do software Selegen Reml/Blup. Deve ser fornecido um
arquivo de dados com a seguinte seqncia de colunas: Observao Indivduo Repetio

235

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Clone Famlia Bloco rvore Variveis. Deve ser fornecido tambm um arquivo de
pedigree com a seguinte seqncia de colunas: Indivduo Pai Me. Todos os indivduos
devem constar na primeira coluna mesmo os que so apenas genitores. Genitores de
genitores devem receber cdigos zero na segunda e terceira colunas.
Os componentes de varincia associados ao modelo, conforme notao do
Selegen-Reml/Blup, so assim interpretados:
Va: varincia gentica aditiva.
Vclone/fam: varincia entre clones dentro de famlias de irmos completos,
ajustada para varincia gentica aditiva total.
Vfam: varincia da capacidade especfica de combinao ou varincia
gentica de dominncia entre famlias de irmos germanos.
Vbloc: varincia entre blocos.
Ve: varincia ambiental.
Vf: varincia fenotpica individual.
h2a = h2: herdabilidade individual no sentido restrito no bloco, ou seja, dos
efeitos aditivos.
h2g: herdabilidade individual no sentido amplo, ou seja, dos efeitos
genotpicos totais.
c2clone/fam = c2: coeficiente de determinao dos efeitos de clones dentro de
famlias de irmos completos, ajustado para varincia gentica aditiva total.
c2fam = c21: coeficiente de determinao dos efeitos da capacidade especfica
de combinao.
c2bloc = c22: coeficiente de determinao dos efeitos de bloco.
u = Mdia geral do experimento.
Os componentes de varincia apresentados acima podem ser decompostos da
seguinte forma:
Va g2 : varincia gentica aditiva.
2
2
2
Vfam (1 / 4) d2 (1 / 4) gg
(1 / 8) gd
(1 / 16 ) dd
...

2
2
2
Vclone / fam (3 / 4) d2 (3 / 4) gg
(7 / 8) gd
(15 / 16) dd
... , em que d refere-se a

efeitos de dominncia e gg, gd e dd referem-se a efeitos epistticos.


A herdabilidade da segregao mendeliana desregressada dos dados corrigidos
yc dada por: hm2

n 0.5h 2
2
2
2
n 0.5h 2 1 h 2 cclone
/ fam c fam c bloc

, em que n o nmero de

repeties do clone. Expressa de outra forma tem-se: hm2


Sob

esse

modelo

valor

genotpico

n 0.5 g2
n 0.5 g2 e2

dos

clones

dado

por

VG u g c f u g clone / fam fam .

236

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Nvel de Significncia na GWAS

Em problemas onde a inferncia probabilstica exata no est disponvel, a


funo de verossimilhana observada pode ser usada diretamente para inferncia.
Isto pode ser feito por meio da razo de riscos (odds ratio), a qual a prpria razo
direta entre os valores da funo maximizada por dois conjuntos distintos de valores
paramtricos a serem avaliados, ou seja, OD = (L(U))/L(V)). A inferncia
verossimilhana pura pode ser usada quando a teoria de grandes amostras no for
adequada ao caso analisado. Esse o caso de amostras pequenas com distribuio no
normal.
Uma derivao do OD, muito usada no contexto da gentica o teste do
LOD escore. LOD significa log of odds ratio, ou seja, logaritmo na base 10 da razo
de riscos (odds ratio). Riscos, no caso, quantificados pela verossimilhana de dois
modelos a serem comparados. O LOD dado por LOD = Log10 OD = Log10
(L(U))/L(V)) = / [2 Log (10)] = / 4.61. Portanto, existe uma relao direta entre o
LOD e o LRT ou , ou seja, LOD = LRT / 4.61. Alternativamente, LRT = 4.61 LOD.
Com base nessa ltima expresso, pode-se associar valores de LOD e p
valores aproximados do LRT. Os valores crticos () de qui-quadrado nos nveis de
significncia 10%, 5%, 1% e 0.5% so 2.71, 3.84, 6.64 e 7.88, respectivamente. Esses
valores esto associados aos seguintes LODs, dados por LOD = LRT / 4.61 : 0.588,
0.833, 1.440 e 1.709, respectivamente. Assim, uma inferncia aproximada de que
LODs maiores que 1.71 j esto associados a elevados (menores do que 0.5 %) nveis
de significncia. Um LOD escore de 3 significa que uma hiptese mil vezes mais
plausvel que a outra. Neste caso, a inferncia baseada apenas na razo de
verossimilhana, sem invocar as propriedades distribucionais dos estimadores de
mxima verossimilhana. As relaes aproximadas entre LOD e significncia pelo
LRT so apresentadas na Tabela 37.
Tabela 37. Relaes aproximadas entre LOD e significncia pelo LRT.
LOD*
Nmero de vezes em que H1 mais
LRT
provvel do que H0

0.588
0.833
1
1.09
1.44
1.71
2
3

3.87
6.81
10.00
12.27
27.54
51.29
100.00
1000.00

2.71
3.84
4.61
5.02
6.64
7.88
9.22
13.83

Significncia

10.00%
5.00%
3.17%
2.50%
1.00%
0.50%
0.23%
0.02%

H0: hiptese de ausncia de ligao marcador QTL; H1: hiptese de presena de ligao marcador QTL; *
*Potncia de 10 cujo resultado indica quantas vezes H1 mais provvel do que H0.

O nvel de significncia adotado pelo Selegen 5% e parece adequado para a


GWS mas no para a GWAS. Nesse caso, valores maiores de F devem ser
procurados como ponto de corte nos resultados emitidos pelo Selegen, visando adotar
significncias da ordem de menos que 1% para a GWAS, geralmente 10-5. Em termos
de LRT, o valor de corte muda de 3.84 (equivalente ao F para grande nmero de graus
de liberdade do resduo) para 13.83 visando alterar a significncia de 5% para 0.02%
(Tabela 37).

237

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Resultados Gerados pelo Selegen Genmica

~ ) dados pela resoluo dos


Catlogo de estimativas dos efeitos genticos de marcas ( m
sistemas:
X ' X
W ' X

b X ' y
~

m W ' y

W 'W I /
X 'W

2
e

2
m

(RR-BLUP ou SNP-BLUP)

ou
X ' X
W ' X

b X ' y
1 2

~
W 'W D 2 e m
i
W ' y
X 'W

(RR-BLUP-Het), em que i

so varincias

especficas para cada loco e presentes na diagonal da matriz D 2 .


i

Catlogo de estimativas dos efeitos genticos genmicos de indivduos ( g~ ) dados pela


resoluo dos sistemas:
X ' X
Z' X

X'Z

Z ' Z G 1 e2 / g2

b X ' y
~

g Z ' y

(G-BLUP)

ou
X ' X
Z' X

Z ' Z G *
X'Z

2
e

b X ' y
(G-BLUP-Het)
~

g Z ' y

, em que G WW ' / nQ e G* WD 2W ' / nQ .


i

Estes so similares ao tradicional sistema


X ' X
Z' X

Z ' Z A /
X 'Z
1

2
e

2
g

b X ' y
(A-BLUP).
~

Z
'
y
g

O mtodo G-BLUP-Het produz resultados similares aos dos mtodos BayesA


e IBLASSO.
O vetor de dados fenotpicos a ser fornecido ao Selegen deve ser: (i) apenas
corrigidos para os efeitos fixos (ou valores genticos desregressados) caso o interesse
seja no catlogo de estimativas dos efeitos genticos genmicos dos indivduos; (ii)
corrigidos para os efeitos fixos (ou valores genticos desregressados) e para os efeitos
genticos de genitores (estrutura de populao) caso o interesse seja no catlogo de
estimativas dos efeitos genticos de marcas visando uso em outros indivduos da
populao nas geraes atual e/ou subsequentes.

238

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.30 Software GCTA para G-REML em Gentica Humana e Animal

Uma forma muito usada para a estimao da h2 em humanos via anlise de


ligao usando toda a genealogia (Almasy e Blangero, 1998). O software Solar
(Sequential Oligogenic Linkage Analysis Routines) tem sido usado para essa estimao.
Atualmente isso est mudando e a h2 tem sido estimada via anlise de
desequilbrio de ligao. O mtodo de Yang et al. (2010) e Visscher et al. (2010) tem
sido usado por meio de sua implementao no software GCTA (Genome-wide
Complex Trait Analysis) desenvolvido pelos mesmos autores (Yang et al., 2011). O
referido software implementa o mtodo REML genmico (G-REML ou GREML/G-BLUP) usando a matriz de parentesco genmico. Esse aplicativo estima a
varincia gentica aditiva total, a varincia da interao efeitos aditivos por ambiente
e a herdabilidade total capturada pelos marcadores.
Uma vez que a matriz G genmica tipicamente densa, as tcnicas
computacionais que usam matrizes esparsas apresentam um custo computacional
extra. Assim, com grande nmero de SNPs (> 10.000) o software ASREML mais
lento (demanda vrios dias) do que o GCTA (demada poucas horas). Nmero de
SNPs superior a 600.000 tem sido analisados com o GCTA.
Para corrigir para estrutura populacional ou de famlias, o programa apresenta
uma funo que exclui iterativamente um indivduo de todo par que apresenta
parentesco maior que 0.025 enquanto mantem o nmero mximo possvel de
indivduos no conjunto de dados. Ou seja, esta opo usada para excluir indivduos
muito aparentados. A no realizao dessa correo conduz captura da contribuio
de todos os variantes causais e no apenas daqueles em desequilbrio de ligao com
os SNPs.
A correo para estrutura de populao importante em GWAS, pois o
objetivo detectar variantes causais. importante tambm em GWS aplicada a
distantes geraes futuras, sem a re-estimao dos efeitos das marcas. Para uso de um
catlogo de valores genticos de marcas em novos indivduos na mesma gerao ou
na gerao subsequente, a correo para estrutura de populao no to necessria,
visto que, nesse caso, o parentesco tambm capitalizado na seleo.
A predio genmica de indivduos aparentados baseada mais em ligao do
que em desequilbrio de ligao. Por outro lado, a predio de indivduos
geneticamente distantes requer LD entre marcadores e QTL. Ligao tambm uma
forma de LD, mas LD fundamenta-se em consistncia da fase de ligao entre marca
e QTL. Essa consistncia demandada ao menos em toda a populao e,
possivelmente, mesmo entre populaes (Daetwyler et al., 2012). Em vez de
concentrar a predio genmica apenas no LD entre marca e QTL, na prtica
algumas vezes deve-se utilizar ambos ligao (capturada pelo parentesco na
genealogia) e LD visando maximizar a acurcia da GWS.
Uma maneira de verificar se a acurcia da predio genmica
predominantemente devida ao parentesco ou ao desequilbrio de ligao, refere-se ao

239

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

ajuste de milhares de marcadores presentes em apenas um cromossomo. Se esse


ajuste propiciar a quase totalidade da acurcia conseguida com o ajuste de todos os
SNPs em todos os cromossomos, isto significa que a acurcia da predio genmica
predominantemente devida ao parentesco. Explica-se isso pelo fato de que um
cromossomo com muitos marcadores podem capturar bem as parentescos mas, nunca
abrange todos os QTL. Meuwissen (2009) relata que o nmero de SNPs para a
predio de indivduos no aparentados dado por 10 Ne L. Para eucalipto (L = 13
Morgans), em uma populao com tamanho efetivo 100, seriam necessrios 13000
SNPs.
O GCTA propicia tambm os autovetores da matriz G (similar a anlise de
componentes principais). Esses autovetores (componentes principais) associados aos
maiores autovalores podem ento ser includos no modelo como covariveis de
efeitos fixos, visando capturar a varincia devida estrutura de populao.
importante notar que G uma matriz N x N, referente aos N indivduos e no aos n
locos ou covariveis. Assim, os autovetores associados aos maiores autovalores
informam sobre os indivduos que dominam (possuem maior parentesco com os
demais) as relaes de parentesco e agrupam os indivduos em subgrupos
estruturados. Dessa forma, o ajuste dos autovetores principais de G como covariveis
fornece uma correo para essa estruturao.
Geralmente, para milhares de marcadores (acima de 20.000), 10 a 200
autovetores (explicando no mximo 70% da variao total dos coeficientes de
parentesco) so ajustados como efeitos fixos. Os modelos utilizados podem ser:
v

y Xb U i i Wm e (RR-BLUP);
y Xb

i 1
v

U
i 1

Zg e ou y Xb

U
i 1

Z Wm e (G-BLUP),

em que v o nmero (tipicamente 10 ou 20) de autovetores (Ui), com os


maiores autovalores, ajustados como efeitos fixos e, i so os coeficientes de
regresso.
Os coeficientes i so ajustados sem shrinkage por OLS, a partir da matriz G.
Janss et al. (2012) criticam essa abordagem, relatando que a mesma sofre do problema
de contagem dupla, pois os autovetores (estimados a partir de G e genricos para
qualquer carter) so includos duas vezes na anlise: como efeitos fixos e,
implicitamente, como efeitos aleatrios na parte aleatria do modelo (matriz G).
Propem ento, uma nova abordagem para o problema, via estimao simultnea
baseada em decomposio espectral, a qual propicia inferncia simultnea sobre
efeitos de marcas especficos para cada carter e a latente (no observada) estrutura
de populao. Decomposies adequadas de matrizes de covarincia do tipo da G so
apresentadas por Ledoit e Wolf (2004) e Schafer e Strimmer (2005).
A expresso G (WW ' ) / n , em que W
wij p

(wij 2p i )
[2p i ( 1 pi )]1 / 2

contm

contm elementos dados por


elementos

dados

por

240

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

G jk = ( 1 / n)

(wij 2p i )(wik 2p i )
2p i ( 1 pi )

i=1

, ignora o erro de amostragem ( Var (Gijk ) e Var (Gijj ) )

associado a cada SNP. Para o SNP i nos indivduos j e k, j k , tem-se


(w 2p )(wik 2pi )
1 , de forma que essa varincia a mesma para todos
Var (Gijk ) = ij 2 i
4pi ( 1 pi )2
os SNPs independentemente de suas frequncias e no h necessidade de correo
Var[(wij 2pi )2 ] 1 2 pi (1 pi )]
em Gijk . Entretanto, para j k tem-se Var (Gijj ) =
e

4pi2 ( 1 pi )2
2pi (1 pi )
depende da frequncia do alelo do SNP. Isto conduz ao uso de
2
Gijj =1 [ wi j (1 2 pi )wij 2 pi2 ] /[ 2 pi (1 pi )] , o qual um estimador no viesado de
1 + F, conforme mostrado abaixo. Se F = 0, Var (Gijj ) = 1 e no h necessidade de
correo

Gijj .

em
n

G jk = ( 1 / n)

Assim,

considerando

(wij 2p i )(wik 2p i )
2p i ( 1 pi )

i=1

G jk =1 ( 1 / n)

para

todos

os

SNPs

jk

tem-se
e

[ wi j (1 2 pi )wij 2 pi2 ]
2p i ( 1 pi )

i=1

para j k .

Meuwissen et al. (2011) no recomenda essa expresso para G jj . Essa


formulao de G jj como diferente de G jk realizada visando minimizar a variao de
amostragem. Mas isso pode conduzir a autovalores negativos na matriz G. Se G
toda estimada via G (WW ' ) / n ela semi-positiva definida e acrescentando um
pequeno valor positivo aos elementos da diagonal (fazendo G (WW ' ) / n I *104 )
torna-a positiva definida.
As frequncias genotpicas associadas aos trs gentipos de um SNP em uma
espcie
diploide

dada
por
pi2 pi (1 pi ) F ;
[2 pi (1 pi )] (1 F ) e

(1 pi2 ) pi (1 pi ) F , para MM, Mm e mm, respectivamente. Assim, a estrutura


populacional dada por [ pi2 pi (1 pi ) F ]MM

+ {[2 pi (1 pi )] (1 F ) }Mm +

[(1 p ) pi (1 pi ) F ]mm .
2
i

O coeficiente de endogamia (F) multilocos estimado de todos os marcadores


n

dado por F (1 / n ) Fi , ou seja, pela mdia das estimativas atravs de todos os SNPs,
i 1

em que Fi [ wi (1 2 pi ) wi 2 pi2 ] /[2 pi (1 pi )] e wi nmero de cpias do alelo de


2

referncia para o SNP i. Este estimador o usado no GCTA. Isto significa que, no
loco i, os elementos da diagonal da matriz G so dados por
2
G jj = 1 Fi 1 [ wi j (1 2 pi )wij 2 pi2 ] /[2 pi (1 pi )] . Na matriz G o parentesco no
uma probabilidade (conforme definio clssica de IBD) mas sim uma correlao
entre valores genticos aditivos. Outro estimador de Fi dado por
Fi {( wi 2 pi ) 2 /[( 2 pi (1 pi )]} 1 .

241

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

A estimao da herdabilidade fundamenta-se nos parentescos ao nvel dos


variantes causais ou QTLs. Mas esses parentescos so estimados, via SNPs, com
erros devidos ao desequilbrio imperfeito. E o erro na predio dado por c (1 / n ) ,
em que c depende da distribuio da MAF dos variantes causais. Os autores
desenvolveram um mtodo baseado em regresso para corrigir para esse erro de
predio. Nesse caso, os elementos da matriz Gm que representam o parentesco
1 (G jk 1), j k
, em que
realizado mdio multi-locos so dados por G *jk =
G jk , j k
n

G jk = ( 1 / n)

(wij 2p i )(wik 2p i )
2p i ( 1 pi )

i=1

G jk =1 ( 1 / n)

jk

para

[ wi j (1 2 pi )wij 2 pi2 ]

2p i ( 1 pi )
1/ n
1/ n
c (1 / n )
c

1
.

c (1 / n ) c (1 / n ) c (1 / n ) c (1 / n )

jk;

para

i=1

Expresso similar foi apresentada por Van Raden (2008).


Aps esse ajuste, a estimativa proporcional da varincia aditiva explicada por
todos os marcadores um estimador no viesado da herdabilidade se a suposio
sobre a distribuio da MAF dos variantes causais for correta. A quantidade c
computada como c Cov(G jk , Q jk ) , em que Q jk a matriz de parentesco real ao
nvel dos QTLs ou variantes causais, formada somente com os SNPs de baixa MAF,
os quais mimicam os referidos QTLs. Intrinsecamente tem-se Cov (G jk , Q jk ) .
Var (G jk )

O termo ( 1 / n) advem do fato de se estimar G usando somente n SNPs. Isto


corresponde ao erro de amostragem Var (Gijk ) igual a 1 calculado para Gijk em um s
SNP.
A expresso G *jk = G jk , j k difere de G *jk = A jk (G jk A jk ), j k
apresentada anteriormente. Isso se deve ao fato de ter-se aplicado a correo prvia
para estrutura populacional ou de famlias. Isto culmina com valores zero nos
elementos fora da diagonal de A.

242

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

6.31 Variao Epigentica e Covarincia entre Parentes

Variao Epigentica refere-se todas as mudanas reversveis e herdveis no


genoma funcional que no alteram a seqncia de nucleotdeos do DNA. Existem
trs mecanismos principais de alteraes epigenticas: metilao do DNA,
modificaes de histonas e ao de RNAs no codificadores. Os padres de metilao
de DNA so os mais importantes.
A metilao afeta a concretizao da matriz W e dados relativos
probabilidade de metilao em pores especficas do DNA j esto disponveis para
a anlise gentica em conjunto com dados fenotpicos, genealgicos e de marcadores
genticos. Algumas definies importantes so apresentadas a seguir.
Herana Epigentica: transmisso de variao fenotpica entre geraes no por meio
da variao de sequncias de DNA.
Transmissibilidade
ancestrais.

epigentica:

probabilidade

de

transmisso

de

fentipos

Coeficiente de Reset ou Reverso ( ): probabilidade de mudana de estado


epigentico durante a gametognese ou fase de desenvolvimento inicial.
Coeficientes de Transmissibilidade Epigentica (1 ) : o complemento do
coeficiente de reset, retorno ou reverso.
Ambiente indutor: sinal ambiental ou agente de estresse que causa a mudana de
estado epigentico.
(a) Covarincia entre Parentes para Sistemas de Reproduo Sexuada (Tal et al.,
2010)
Modelo Fenotpico em Presena de Variao Epigentica
y Xb Zg Z e

y2 g2 2 e2 : varincia fenotpica total.


Covarincia entre Parentes com Variao epigentica
COV ( P, F ) (1/ 2) a2 (1/ 2)(1 ) 2
COV ( MI ) (1/ 4) a2 (1/ 4)(1 ) 2 2
COV (TSC) (1/ 4) a2 (1/ 4)(1 ) 3 2

Verifica-se que a variao epigentica inflaciona as covarincias genticas entre


parentes.
Estimao dos Componentes de Varincia
2[COV ( MI ) COV (TS)]
(1 )
COV ( P, F ) 2COV ( MI )

243

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

2[COV ( P, F ) 2COV ( MI )]

(1 )
2COV ( P, F ) (1 ) 2
2
g

Herdabilidade Epigentica

2
h 2
y
2

O modelo pode ser ajustado por meio das equaes de modelo misto:
X'Z
X Z
X ' X
2

1 e
Z' Z A
ZZ
Z' X
2
g

Z X ZZ

ZZ 1 e2

b X ' y .
g Z ' y

Z '

Esse procedimento REML/BLUP permite estimar os componentes de varincia:


g2 : varincia gentica aditiva;

2 : varincia epigentica;

e2 : varincia residual;
h2 : herdabilidade epigentica;
A: matriz de correlao gentica aditiva entre indivduos;
: matriz de transmissibilidade epigentica.

(b) Covarincia entre Parentes para Sistemas de Reproduo Assexuada (Tal et al.,
2010)

y2 gt2 2 e2 : varincia fenotpica total.


Covarincia entre parentes
COV ( P, F ) gt2 (1 ) 2
COV ( RAM) gt2 (1 ) 2 2
COV (TSC) gt2 (1 ) 3 2

Estimao dos Componentes de Varincia


(1 )

COV ( RAM) COV (TSC)


COV ( P, F ) COV ( RAM)

COV ( P, F ) COV ( RAM)

(1 )
COV ( P, F ) (1 ) 2
2
gt

gt2 : varincia genotpica total.


244

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

7 Scripts em R para Modelos Mistos, Inferncia Bayesiana e


Seleo Genmica
7.1 R para Modelos Mistos
Mtodo BLUP no Pacote Pedigreemm (escrito por Inez Vasquez, University of
Wisconsin)
Modelo Animal com Efeito Aleatrio Adicional (Parcela)
# carregamento do pacote pedigreemm
library(pedigreemm)
# leitura dos dados BLUP-INDIVIDUO
setwd("C:\\R 2013")
dados=read.table("modelo1Ru3.txt",h=T)

# listagem dos 6 dados iniciais e finais


head(dados)
tail(dados)
# incio do arquivo de dados
id sire Dam
1
NA NA
2
NA NA
3
NA NA
4
NA NA
5
NA NA
6
1 NA

Bloc Parc
1 999999
2 999999
3 999999
4 999999
5 999999
6
1

Alt
0.0
0.0
0.0
0.0
0.0
2.6

#definio de blocos como efeito fixo


dados1=data.frame(dados,Blo=factor(dados$Bloc))

# montagem do pedigree
pedCows=read.table("modelo1Ru3.txt",h=T)
sire = pedCows[,2]
dam = pedCows[,3]
id = pedCows[,1]
pedCows = pedigree(sire=as.integer(sire),dam=as.integer(dam),label=as.character(id))

# Modelo para predio de efeitos genticos de indivduos


ajuste= pedigreemm(Alt ~ -1 + Blo + (1|id) + (1|Parc), data = dados1, pedigree = list(id
= pedCows))
summary(ajuste)

# predies dos efeitos de parcela


p=ranef(ajuste)$Parc
p
# predies dos efeitos genticos de indivduos
i=ranef(ajuste)$id
i
# definies do cabealho
id = indivduo
sire = pai
dam = me
Bloc = bloco

245

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Parc = parcela
Alt = varivel
# comentrios
No pedigreemm deve-se duplicar a ultima linha do arquivo e atribuir um novo cdigo (por
exemplo, 999999)para bloco e parcela;
O pedigreemm s inclui na anlise genitores com dados prprios. Assim, no caso de um
teste de prognies e usando apenas dados do teste, os genitores devem ser includos no
arquivo de dados com dados (y) fictcios e posteriormente os resultados devem ser
corrigidos. Os valores genticos preditos dos genitores corrigidos so dados por
a
( y B loc ) , em que B loc referem-se aos efeitos estimados de blocos (os quais
gen correto

devem receber im cdigo diferente para cada genitor (ver incio do arquivo de exemplo).
Para correo dos valores genticos preditos dos indivduos, os autores derivaram a
seguinte correo, vlida para prognies de meios irmos em delineamento com vrias
plantas por parcela:

ai aiR Pedigreemm a genincorreto (

3h 2
2 2 c 2 2h 2
) a gencorreto (
)
2
2
16 4h 16c
4 h 2 4c 2

, em que:

ai : vetor de valores genticos corretos preditos dos indivduos;


aiR Pedigreemm : vetor de valores genticos incorretos dos indivduos

preditos pelo

pedigreemm;

a gen incorreto :

vetor de valores genticos incorretos dos genitores preditos pelo

pedigreemm;

a gencorreto :

vetor de valores genticos corretos dos genitores obtidos por

a gen correto ( y B loc )

h2 :
c2 :

herdabilidade individual no sentido restrito;


coeficiente de determinao dos efeitos de parcela.

Para prognies de meios irmos em delineamento com uma planta por parcela, a correo
dada por:

ai aiR a gen incorreto

(3 / 4)h 2
(1 / 2)(1 h 2 )
a gen correto
2
(4 h )
(1 / 4)(4 h 2 )

Para prognies de irmos germanos em delineamento com vrias plantas por parcela, a
correo dada por:

ai aiR (a sirenaocorrigido adamnaocorrigido )

h2
1 c2 h2

a
(
)(
)
sirecorrigido
damcorrigido
8 4h 2 8c 2
2 h 2 2c 2

Para prognies de irmos germanos em delineamento com uma planta por parcela, a correo
dada por:

a i a iR (a sirenaocorrigido a damnaocorrigido )

(1 / 4)h 2
(1 h 2 )

(
a

a
)
sire corrigido
dam corrigido
(2 h 2 )
(2 h 2 )

246

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

7.2 R para Inferncia Bayesiana


Funo rhierLinearModel no Pacote Bayesm: (escrito por Peter Rossi,
University of Califrnia)
setwd("C:\\R 2013")
library(bayesm)
y=as.matrix(read.table("fen_final.txt"))
iota=rep(1,nrow(y))
x=cbind(iota,as.matrix(read.table("touros_final.txt")))
regdata=NULL
for(reg in 1:1)
{
regdata[[reg]]=list(y=y,X=x)
}
Data1=list(regdata=regdata)
Prior1=list(nu=52,V=diag(32,ncol(x)))
Mcmc1=list(R=20000,keep=4)
fit=rhierLinearModel(Data=Data1, Prior=Prior1,Mcmc=Mcmc1)
var=diag(matrix(apply(fit$Vbetadraw,2,mean),ncol(x),ncol(x))) #[-1]
var
dim(fit$Vbetadraw)
beta=apply(fit$betadraw,2,mean)
beta
vare=mean(fit$taudraw)
vare

# comentrios
O vetor beta fornece os valores genticos preditos dos genitores ( g ) e VBeta fornece as
pi
estimativas de varincias genticas aditivas ( gVBetai
2

associadas segregao de cada

genitor. O escalar vare fornece a estimativa da varincia residual comum a todos os


indivduos.
As estimativas dos valores genticos preditos dos indivduos no genitores dada na
pgina 80. Toda essa abordagem produz estimativas de componentes de varincia e valores
genticos pelo mtodo Blup Bayesiano Melhorado (I-BAYES-BLUP ou BBM) proposto por
Resende, Silva e Viana (2012).
Para modelos com mais fatores de efeitos aleatrios pode-se rodar o REML/BLUP
tradicional no Selegen, obter os componentes de varincia e coeficientes de determinao
(c2), fix-los nesses valores e fixar h2 em 1 e rodar o BLUP. Esses BLUPs obtidos com h2
igual a 1 so ento submetidos ao sript do Bayesm acima.

247

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

7.3 R para Seleo Genmica


7.3.1 Mtodo BayesA: escrito por Rohan Fernando (University of Iowa)
#BayesA
setwd("C:\\R 2013")
# Parameters
nmarkers = 2000;
#number of markers
numiter = 200;
#number of iterations
vara
= 1.0/20.0;
# input training data
data
= matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data)[1];
startMarker = 1800;
x = cbind(1,data[,startMarker:nmarkers]); #this is the mean and then the markers
y = data[,nmarkers+1];
# inital values
nmarkers = nmarkers - startMarker + 1;
mean2pq = 0.5;
scalea = 0.5*vara/(nmarkers*mean2pq);

# just an approximation
# 0.5 = (v-2)/v for v=4

size = dim(x)[2];
b = array(0.0,size);
meanb = b;
b[1] = mean(y);
var = array(0.0,size);
# adjust y
ycorr = y - x%*%b;
# mcmc sampling
for (iter in 1:numiter){
# sample vare
vare = ( t(ycorr)%*%ycorr )/rchisq(1,nrecords + 3);
# sample intercept
ycorr = ycorr + x[,1]*b[1];
rhs
= sum(ycorr)/vare;
invLhs = 1.0/(nrecords/vare);
mean = rhs*invLhs;
b[1] = rnorm(1,mean,sqrt(invLhs));
ycorr = ycorr - x[,1]*b[1];
meanb[1] = meanb[1] + b[1];
# sample variance for each locus
for (locus in 2:size){
var[locus] = (scalea*4+b[locus]*b[locus])/rchisq(1,4.0+1)
}
# sample effect for each locus
for (locus in 2:size){
ycorr = ycorr + x[,locus]*b[locus];
#unadjust y for this locus
rhs = t(x[,locus])%*%ycorr/vare;
lhs = t(x[,locus])%*%x[,locus]/vare + 1.0/var[locus];
invLhs = 1.0/lhs;
mean = invLhs*rhs;
b[locus]= rnorm(1,mean,sqrt(invLhs));
ycorr = ycorr - x[,locus]*b[locus];
#adjust y for the new value of this
locus
meanb[locus] = meanb[locus] + b[locus];
}
}
meanb = meanb/numiter;
plot(meanb)
gebv=x%*%meanb
plot(hist(gebv))

248

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

#test population
nmarkers=2000
data1
= matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data1)[1];
x = cbind(1,data1[,startMarker:nmarkers]);
yt = data1[,nmarkers+1];
yHat_t
= x %*% meanb;
corr = cor(yt,yHat_t);
corr

7.3.2 Mtodo BayesB: escrito por Rohan Fernando (University of Iowa)


#BayesB
setwd("C:\\R 2013")
# Parameters
nmarkers
= 2000;
numiter
= 200;
numMHIter
= 200;
pi
= 0.95;
vara
= 1.0;

#number of markers
#number of iterations
#use 1 for Bayes A
#Change this to run Bayes B rather than Bayes A

# input training data


data
= matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data)[1];
startMarker = 1800;
x = cbind(1,data[,startMarker:nmarkers]);
y = data[,nmarkers+1];
a = data[,nmarkers+2];
# inital values
nmarkers = nmarkers - startMarker + 1;
mean2pq
= 0.5;
scaleb = 0.5*vara/(nmarkers*(1-pi)*mean2pq);
b = array(0.0,nmarkers+1);
meanb = b;
b[1] = mean(y);
var = array(0.0,nmarkers);
ppa = array(0.0,nmarkers);
# adjust y
ycorr = y - x%*%b;
# mcmc sampling
for (iter in 1:numiter){
# sample vare
vare = ( t(ycorr)%*%ycorr )/rchisq(1,nrecords + 3);
# sample intercept
ycorr = ycorr + x[,1]*b[1];
rhs
= sum(ycorr)/vare;
invLhs = 1.0/(nrecords/vare);
mean = rhs*invLhs;
b[1] = rnorm(1,mean,sqrt(invLhs));
ycorr = ycorr - x[,1]*b[1];
meanb[1] = meanb[1] + b[1];
# sample variance and effect for each locus
nLoci = 0;
for (locus in 1:nmarkers){
ycorr = ycorr + x[,1+locus]*b[1+locus];
rhs = t(x[,1+locus])%*%ycorr;
totalSS = sum(ycorr^2)/vare;
xpx = t(x[,1+locus])%*%x[,1+locus];
v1 = (xpx^2*var[locus] + xpx*vare);
# slide 47
v2 = xpx*vare;
logDataNullModel = -0.5*(log(v2) + rhs^2/v2);
# slide 47
if (var[locus] > 0.0){
logDataOld
= -0.5*(log(v1) + rhs^2/v1);
}
else {

249

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

logDataOld = logDataNullModel;
}
for (mhiter in 1:numMHIter){
u = runif(1);
varCandidate = 0;
if (u > pi){
varCandidate = scaleb*4/rchisq(1,4);
}
if (varCandidate > 0.0){
v1 = (xpx^2*varCandidate + xpx*vare);
logDataNew = -0.5*(log(v1) + rhs^2/v1);
}
else{
logDataNew = logDataNullModel;
}
acceptProb = exp(logDataNew-logDataOld); # slide 45
u = runif(1);
if(u <acceptProb) {
var[locus] = varCandidate;
logDataOld = logDataNew;
}
}
if(var[locus]) {
nLoci = nLoci + 1;
lhs = xpx/vare + 1.0/var[locus];
invLhs = 1.0/lhs;
mean = invLhs*rhs/vare;
b[1+locus]= rnorm(1,mean,sqrt(invLhs));
ycorr = ycorr - x[,1+locus]*b[1+locus];
meanb[1+locus] = meanb[1+locus] + b[1+locus];
ppa[locus] = ppa[locus] + 1;
}
else b[1+locus] = 0.0;
}
}
meanb = meanb/numiter;
plot(meanb)
gebv=x%*%meanb
plot(hist(gebv))
#test population
nmarkers=2000
data1
= matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data1)[1];
x = cbind(1,data1[,startMarker:nmarkers]);
yt = data1[,nmarkers+1];
yHat_t
= x %*% meanb;
corr = cor(yt,yHat_t);
corr

7.3.3 Mtodo BayesCPi: escrito por Rohan Fernando (University of Iowa)


#BayesCPi
setwd("C:\\R 2013")
# Parameters
nmarkers
= 2000;
#number of markers
numiter
= 200;
pi
= 0.5;
vara
= 1.0;
logPi
= log(pi);
logPiComp = log(1-pi);
mean2pq
= 0.5;
nua
= 4;
# input training data
data
= matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data)[1];
startMarker = 1800;
#startMarker = 1;
x = cbind(1,data[,startMarker:nmarkers]);
y = data[,nmarkers+1];
a = data[,nmarkers+2];

250

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

storePi = array(0.0,numiter);
# inital values
nmarkers = nmarkers - startMarker + 1;
varEffects = vara/(nmarkers*(1-pi)*mean2pq);
scalec
= varEffects*(nua-2)/nua;
cat ("scale : ",scalec);
# Hyper parameters of Scale factor
theta = 1;
beta = 1;
meanscalec = 0;
b = array(0.0,nmarkers+1);
meanb
= b;
b[1]
= mean(y);
var
= array(0.0,nmarkers);
ppa
= array(0.0,nmarkers);
piMean = 0.0;
# adjust y
ycorr = y - x%*%b;
# mcmc sampling
for (iter in 1:numiter){
# sample vare
vare = ( t(ycorr)%*%ycorr )/rchisq(1,nrecords + 3);
# sample intercept
ycorr = ycorr + x[,1]*b[1];
rhs
= sum(ycorr)/vare;
invLhs = 1.0/(nrecords/vare);
mean = rhs*invLhs;
b[1] = rnorm(1,mean,sqrt(invLhs));
ycorr = ycorr - x[,1]*b[1];
meanb[1] = meanb[1] + b[1];
# sample effect for each locus
nLoci = 0;
for (locus in 1:nmarkers){
ycorr = ycorr + x[,1+locus]*b[1+locus];
rhs = t(x[,1+locus])%*%ycorr;
xpx = t(x[,1+locus])%*%x[,1+locus];
v0 = xpx*vare;
v1 = (xpx^2*varEffects + xpx*vare);
logDelta0 = -0.5*(log(v0) + rhs^2/v0) + logPi;
logDelta1 = -0.5*(log(v1) + rhs^2/v1) + logPiComp;
probDelta1 = 1.0/(1.0 + exp(logDelta0-logDelta1));
u = runif(1);
if(u < probDelta1) {
nLoci = nLoci + 1;
lhs = xpx/vare + 1.0/varEffects;
invLhs = 1.0/lhs;
mean = invLhs*rhs/vare;
b[1+locus]= rnorm(1,mean,sqrt(invLhs));
ycorr = ycorr - x[,1+locus]*b[1+locus];
meanb[1+locus] = meanb[1+locus] + b[1+locus];
ppa[locus] = ppa[locus] + 1;
var[locus] = varEffects;
}
else {
b[1+locus] = 0.0;
var[locus] = 0.0;
}
}
# sample common variance
countLoci = 0;
sum = 0.0;
for (locus in 1:nmarkers){
if(var[locus]>0.0){
countLoci = countLoci + 1;
sum = sum + b[1+locus]^2;
}

251

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

}
varEffects = (scalec*nua + sum)/rchisq(1,nua+countLoci);

# sample Pi
aa = nmarkers-countLoci + 1;
bb = countLoci + 1;
pi = rbeta(1, aa, bb);
storePi[iter] = pi;
piMean = piMean + pi;
#
scalec = (nua-2)/nua*vara/((1-pi)*nmarkers*mean2pq)
logPi
= log(pi);
logPiComp = log(1-pi);

# sample Scale factor


#
#

shape = countLoci*(nua/2) + theta;


scale = countLoci*(nua/2)*(1/varEffects) + beta;
shape = (nua/2) + theta;
scale = 1.0/((nua/2)*(1/varEffects) + beta);
scale = (nua/2)*(1/varEffects) + beta;
scalec = rgamma(1,shape,scale)
meanscalec = meanscalec + scalec
if ((iter %% 100)==0) {
cat ("iteration ",iter," number of loci in model = ", nLoci,"\n");
cat ("iteration ",iter," Scale Param : ", scalec, "\n");
}

}
piMean = piMean/numiter;
meanb = meanb/numiter;
plot(meanb)
gebv=x%*%meanb
plot(hist(gebv))
#test population
nmarkers=2000
data1
= matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data1)[1];
x = cbind(1,data1[,startMarker:nmarkers]);
yt = data1[,nmarkers+1];
yHat_t
= x %*% meanb;
corr = cor(yt,yHat_t);
corr

7.3.4 Mtodo BLASSO no Pacote BLR (escrito por Gustavo de los Campos,
University of Wisconsin)
#Bayesian LASSO
setwd("C:\\R 2013")
# Example of whole-Genome prediction by Lasso using BLR package
library(BLR)
nmarkers=2000;
startMarker=1801;
# training data
data = matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
x
y

= data[,startMarker:nmarkers];
= data[,nmarkers+1]

prior=list( varE=list(S=4.5,df=3),
varBR=list(S=.009,df=3),
lambda=list(type='random', value=30,shape=.52,rate=2e-5))
nIter<-200

252

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

burnIn<-1
fmL1<-BLR(y=y,XL=x,nIter=nIter, burnIn=burnIn,thin=1,prior=prior)
meanb = fmL1$bL;
plot(meanb)
gebv=x%*%meanb
plot(hist(gebv))
#test population
nmarkers=2000
data1
= matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data1)[1];
x = data1[,startMarker:nmarkers]
yt = data1[,nmarkers+1];
yHat_t
= x %*% meanb;
corr = cor(yt,yHat_t);
corr

7.3.5 Mtodo Regresso via Quadrados Mnimos Parciais (PLSR) no pacote


pls (escrito por Gaston Sanchez e Laura Trinchera)
#PLSR
library(pls)
setwd("C:\\R 2013")
nmarkers=2000;
startMarker=1801;
# training data
data = matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
x = data[,startMarker:nmarkers];
y = data[,nmarkers+1]
nc=20 # number of components
pls_20 = plsr(y ~ x, ncomp=nc)
summary(pls_20)
# efeito de marcadores estimados na populao de treinamento
eff=pls_20$coefficients[,,20]
plot(pls_20$coefficients[,,20])
# test data
nmarkers=2000
data1 = matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
x = data1[,startMarker:nmarkers]
yt = data1[,nmarkers+1]
yHat_t = x %*%eff
corr = cor(yt,yHat_t)
corr

7.3.6 Mtodo Regresso via Componentes Principais (PCR) no pacote pls


(escrito por Gaston Sanchez e Laura Trinchera)
#PCR
setwd("C:\\R 2013")
library(pls)
nmarkers=2000;
# populao de treinamento
data = matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
startMarker=1801;
x = data[,startMarker:nmarkers];
y = data[,nmarkers+1]

253

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

nc=67 # nmero de componentes


pcr = pcr(y ~ x,67)

# efeito de marcadores estimados na populao de treinamento


b=pcr$coefficients[,,67]
plot(b)
# populao de treinamento
data1 = matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data1)[1];
x = data1[,startMarker:nmarkers]
yt = data1[,nmarkers+1];
yHat_t = x %*%b;
corr = cor(yt,yHat_t);
corr

PCR Supervisionado
# leitura do arquivo de marcadores moleculares
setwd("C:\\R 2013")
library(pls)
dados=read.table("Veracel-A-BV-ALT-TOT.txt",h=T)
#leitura do arquivo de marcadores
snp=dados[,-(1:5)]
head(snp)
tail(snp)
#leitura do arquivo fenotpico
fenotipo=dados$EBV
head(fenotipo)
tail(fenotipo)
#transformar os dados do arquivo snp em uma matriz
M=as.matrix(snp)
# entrada: vetor y1
# M: matriz de marcadores
y=as.matrix(fenotipo)
# critrio para a escolha do nmero de componentes
model=pcr(y~M,validation="CV")
rmsep.cv=sqrt(model$validation$PRESS/nrow(M))
nc=which(rmsep.cv==min(rmsep.cv))
# efeitos de marcadores
a=model$coefficients[,,nc]
# rank dos efeitos de marcadores
rank=cbind(colnames(M),matrix(rank(abs(a))))
colnames(rank)=c("marker","rank")
n=300 # n snps menores efeitos retirados
num_snp=matrix(seq(n+1,ncol(M)))
colnames(num_snp)=c("rank")

# merge entre o arquivo total de marcadores e os marcadores selecionados


merge_rank=merge(rank,num_snp, by=intersect("rank","rank"))
merge_rank1=matrix(merge_rank[,2])
colnames(merge_rank1)=c("marker")
marc=cbind(noquote(matrix(colnames(as.matrix(M)))),noquote(t(M)))
colnames(marc)=c("marker",1:nrow(M))
# marcadores selecionados
snp_new=merge(marc,merge_rank1, by=intersect("marker","marker"))
write.table(snp_new,"snp_new.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)

254

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

# leitura do arquivo de marcadores selecionados


snp=read.table("snp_new.txt")
M_new=t(snp[,-1])
# jacknife : validao
gbv=NULL
eff=matrix(0,ncol(M_new),nrow(M))
for(i in 1:nrow(M))
{
eff[,i]=(pcr(y[-i]~M_new[-i,]))$coefficients[,,nc]
gbv[i]=M_new[i,]%*%eff[,i]
}
# Vetor de valores genmicos dos indivduos
gbv
#Vetor de efeito de marcadores
mean_eff=NULL
for(i in 1:nrow(eff))
{
mean_eff[i]=sum(eff[i,])/nrow(eff)
}
write.table(mean_eff,"eff_rrblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
mean_eff

par(mfrow=c(3,1)) # divide a tela grfica em 3


plot(mean_eff)
plot(abs(mean_eff), type = "l")
# visualizao dos mais informativos
plot(density(mean_eff))
# Correlao
cor=cor(gbv,y)
cor

PCR Supervisionado + RR-BLUP


setwd("C:\\R 2013")
# Pacotes utilizados
library(rrBLUP)
library(MASS)
# leitura do arquivo de dados
dados=read.table("Veracel-A-BV-ALT-TOT.txt",h=T)
# leitura do arquivo de marcadores selecionados
snp=read.table("snp_new.txt")
colnames(snp)=c("marker",1:(ncol(snp)-1))
# head(snp)
# tail(snp)
#leitura do arquivo fenotpico
fenotipo=dados$EBV
# head(fenotipo)
# tail(fenotipo)
#leitura do arquivo da frequncia das marcas
freq=read.table("allele.txt")
p=cbind(colnames(dados[,-(1:5)]),freq)
colnames(p)=c("marker","p","q")
# merge entre o arquivo total de marcas e de marcas selecionadas
merge=merge(p,snp, by=intersect("marker","marker"))
write.table(merge,"merge.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
# transformar os dados do arquivo snp selecionados em uma matriz
snp_new=read.table("merge.txt")
M=as.matrix(t(snp_new[,-(1:3)]))

255

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

# transformar os dados do arquivo fenotpico


y=as.matrix(fenotipo)
# jacknife: Validao
gbv=NULL
eff=matrix(0,ncol(M),nrow(M))
for(i in 1:nrow(M))
{
eff[,i]=(mixed.solve(y[-i], Z=M[-i,],K=diag(ncol(M))))$u
gbv[i]=M[i,]%*%eff[,i]
}
write.table(gbv,"gbv_spcr_rrblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
# Vetor de valores genmicos dos indivduos
gbv
#Vetor de efeito de marcadores
mean_eff=NULL
for(i in 1:nrow(eff))
{
mean_eff[i]=sum(eff[i,])/ncol(eff)
}
write.table(mean_eff,"eff_spcr_rrblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
mean_eff
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(mean_eff)
plot(abs(mean_eff), type = "l")
# visualizao dos mais informativos
plot(density(mean_eff))
# Clculo da herdabilidade da caracterstica
model=mixed.solve(y, Z=M,K=diag(ncol(M))) # todos indivduos
Va=model$Vu # varincia gentica aditiva explicada por 1 SNP
p_new=snp_new[,2] # frequencia dos marcadores selecionados
Vu=sum(2*(t(p_new%*%(1-p_new))*Va) ) # varincia gentica aditiva
Ve=model$Ve # varincia residual
h2=Vu/(Vu+Ve) # herdabilidade
h2
write.table(h2,"h2_spcr_rrblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
# Correlacao e Acurcia
cor=cor(gbv,y) # capacidade preditiva
cor
ac=cor/sqrt(h2) # acurcia
ac

7.3.7 Mtodo Regresso via Componentes Independentes (ICR) pelo Pacote


caret (escrito por Max Kuhn, da Pfizer)
library(caret)
setwd("C:\\R 2013")
# populao de treinamento
nmarkers=2000;
data = matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
startMarker=1801;
# leitura do arquivo de marcadores moleculares
snp=data[,startMarker:nmarkers]
head(snp)
tail(snp)
#leitura do arquivo fenotpico
fenotipo=data[,nmarkers+1]
head(fenotipo)
tail(fenotipo)
#transformar os dados do arquivo snp em uma matriz

256

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

M=as.matrix(snp)
#transformar os dados do arquivo fenotpico
y=as.matrix(fenotipo)
# entrada: vetor y
# M: matriz de marcadores
fit=icr(M,y,n.comp=nc) # nc: nmero de componentes
# Matriz de branqueamento
K=fit$ica$ica$K
# Matriz ortogonal
R= fit$ica$ica$W
# Matriz transposta da matriz de misturas
A_trans=K%*%R
# Vetor de coeficientes associados aos componentes
gamma= fit$model$coefficients[-1]
#Vetor de efeito de marcadores
eff_snp=A_trans%*%gamma
eff_snp
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(eff_snp)
plot(abs(eff_snp), type = "l")
# visualizao dos mais informativos
plot(density(eff_snp))
# populao de validao
nmarkers=2000
data1 = matrix(scan("testData.out0"),ncol=nmarkers+2,byrow=TRUE);
x = data1[,startMarker:nmarkers]
yt = data1[,nmarkers+1];
yHat_t = x %*% eff_snp;
corr = cor(yt,yHat_t);
corr

7.3.8 Mtodo Regresso Ridge-BLUP (RR-BLUP) no pacote rrBLUP (escrito


por Endelman)
library(rrBLUP)
setwd("C:\\R 2013")
# leitura do arquivo de marcadores moleculares
snp=read.table("geno.dat",h=T)
head(snp)
tail(snp)
#leitura do arquivo fenotpico
fenotipo=read.table("feno.dat",h=T)
head(fenotipo)
tail(fenotipo)
#transformar os dados do arquivo snp em uma matriz
M=as.matrix(snp)
# entrada: vetor y1
# z: matriz de marcadores
# k: uma matriz diagonal com nmero de colunas igual a da matriz M
# output: "Vu"
"Ve"
"beta" "u"
"LL"
y=fenotipo$vfen
fit2=mixed.solve(y, Z=M, K=diag(ncol(M)))
#Vetor de efeito de marcadores
fit2$u
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(fit2$u)
plot(abs(fit2$u), type = "l")
# visualizao dos mais informativos
plot(density(fit2$u))

257

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

# Vetor de valores genmicos


a=as.matrix(fit2$u)
rownames(a)<-c(colnames(snp))
gbv_rr= M%*%a
gbv_rr
# R2 vfen, vgen e vgenmico
seq <-(1:1:length(fenotipo$vfen))
seq
cor(gbv_rr,fenotipo$vfen)^2
cor(gbv_rr,fenotipo$vgen)^2
cor(fenotipo$vgen,fenotipo$vfen)^2
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(seq,gbv_rr,xlab="Ind",ylab="EVGB",type = "l")
plot(seq,fenotipo$vgen,xlab="Ind",ylab="Vgen", type = "l")
plot(seq,fenotipo$vfen,xlab="Ind",ylab="Vfen", type = "l")

RR-BLUP Completo com Validao Jacknife


setwd("C:\\R 2013")
# Pacotes utilizados
library(rrBLUP)
# leitura do arquivo de dados
dados=read.table("Veracel-A-BV-ALT-TOT.txt",h=T)
#leitura do arquivo de marcadores
snp=dados[,-(1:5)]
# head(snp)
# tail(snp)
#leitura do arquivo fenotpico
fenotipo=dados$EBV
# head(fenotipo)
# tail(fenotipo)
#leitura do arquivo da frequncia das marcas
p=read.table("allele.txt")
# transformar os dados do arquivo snp em uma matriz
M=as.matrix(snp)
# transformar os dados do arquivo fenotpico
y=as.matrix(fenotipo)
# jacknife: Validao
gbv=NULL
eff=matrix(0,ncol(M),nrow(M))
for(i in 1:nrow(M))
{
eff[,i]=(mixed.solve(y[-i], Z=M[-i,],K=diag(ncol(M))))$u
gbv[i]=M[i,]%*%eff[,i]
}
write.table(gbv,"gbv_rrblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
# Vetor de valores genmicos dos indivduos
gbv
#Vetor de efeito de marcadores
mean_eff=NULL
for(i in 1:nrow(eff))
{
mean_eff[i]=sum(eff[i,])/nrow(eff)
}
write.table(mean_eff,"eff_rrblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
mean_eff
par(mfrow=c(3,1)) # divide a tela grfica em 3

258

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

plot(mean_eff)
plot(abs(mean_eff), type = "l")
# visualizao dos mais informativos
plot(density(mean_eff))
# Clculo da herdabilidade da caracterstica
model=mixed.solve(y, Z=M,K=diag(ncol(M))) # todos indivduos
Va=model$Vu # varincia gentica aditiva explicada por 1 SNP
Vu=sum(2*(t(p[,1])%*%p[,2])*Va) # varincia gentica aditiva
Ve=model$Ve # varincia residual
h2=Vu/(Vu+Ve) # herdabilidade
h2
write.table(h2,"h2.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
# Correlao e Acurcia
cor=cor(gbv,y) # capacidade preditiva
cor
ac=cor/sqrt(h2) # acurcia
ac

7.3.9 Mtodo G-BLUP no pacote rrBLUP (escrito por Endelman)


library(rrBLUP)
setwd("C:\\R 2013")
# leitura do arquivo de marcadores moleculares
snp=read.table("geno.txt",h=T)
head(snp)
tail(snp)
#leitura do arquivo fenotpico
fenotipo=read.table("feno.txt",h=T)
head(fenotipo)
tail(fenotipo)
#transformar os dados do arquivo snp em uma matriz
M=as.matrix(snp)

# saida: "g.train" "beta"


"Vg"
"Ve"
# g.train: vetor de valores genmicos
#beta: estimativa do efeito fixo: neste caso a mdia do fentipo
#Vg: variancia gentica
#Ve: variancia ambiental
y=fenotipo$vfen
fit1 = kinship.BLUP(y, G.train=M)
names(fit1)
#Mdia da caracterstica (corrigida para efeitos fixos)
fit1$beta
mean(y)
# Vetor de valores genmicos
fit1$g.train
# R2 vfen, vgen e vgenmico
seq <-(1:1:length(fenotipo$vfen))
seq
cor(fit1$g.train,fenotipo$vfen)^2
cor(fit1$g.train,fenotipo$vgen)^2
cor(fenotipo$vgen,fenotipo$vfen)^2
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(seq,fit1$g.train,xlab="Ind",ylab="EVGB",type = "l")
plot(seq,fenotipo$vgen,xlab="Ind",ylab="Vgen", type = "l")
plot(seq,fenotipo$vfen,xlab="Ind",ylab="Vfen", type = "l")
# Clculo da herdabilidade da caracterstica
h2=(fit1$Vg)/(fit1$Ve+fit1$Vg)
h2
#estruturao dos valores genmicos em matriz para uso do sort
gbv=as.matrix(fit1$g.train)
# identificao dos fenotipos

259

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

rownames(gbv)<-c(fenotipo$id)
#ordenamento dos valores genmicos
gbv1=sort(as.matrix(gbv)[,],decreasing=TRUE) #ordenamento dos valores
plot(hist(gbv1))
gbv_10=quantile(gbv1, probs =c(90)/100) #identificao dos 10% melhores
top_10=gbv1[gbv1>=gbv_10]
top_10

#Vetor de efeito de marcadores


#a=inv(t(M)*M)*(t(M)*u) sendo u = gbv
library(MASS)
a0=ginv(t(M)%*%M)%*%(t(M)%*%gbv)
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(a0)
plot(abs(a0), type = "l")
# visualizao dos mais informativos
plot(density(a0))

Mtodo G-REML/G-BLUP no pacote rrBLUP (escrito por Endelman)


M=as.matrix(read.table("snp_2011_fim.txt",h=T))
dim(M)
M[1:5,1:5]
#Calculando freq allicas
library(genetics)
M1=M+1 #transformando gentipos -1, 0 e 1 em 0, 1 e 2
Q=matrix(0,nrow(M1),ncol(M1))
Q[M1==0]<-"D/D"
Q[M1==1]<-"D/I"
Q[M1==2]<-"I/I"
p=matrix(0,ncol(Q),1)
q=matrix(0,ncol(Q),1)
pq=matrix(0,ncol(Q),1)
for(i in 1:ncol(Q))
{
p[i,]=matrix(summary(genotype(Q[,i]))$allele.freq[1,2],1,1)
q[i,]=matrix(summary(genotype(Q[,i]))$allele.freq[2,2],1,1)
pq[i,]=p[i,]*q[i,]
}
sum2pq=2*sum(pq)
fenotipo=read.table("fenotipos_2011.txt",h=T)
dim(fenotipo)
fenotipo[1:5,]
#corrigindo fentipo para efeitos fixos
ym_slg=factor(fenotipo$ym_slg)
farm=factor(fenotipo$farm)
hcw=fenotipo$hcw
y=fenotipo$y
y1=mean(y) + lm(y~ ym_slg + farm + hcw)$residuals
#ajustando RR-BLUP
library(rrBLUP)
rrblup = mixed.solve(y1,Z=M)
Va=rrblup$Vu
#varincia gentica aditiva explicada por 1 SNP
sigma2_a=sum2pq*Va #varincia gentica aditiva
Ve=rrblup$Ve
#Varincia residual
h2_r=sigma_a/(sigma_a+Ve)
a_hat=rrblup$u
plot(a_hat)

#vetor de efeitos estimados SNPs

260

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

u_hat=M%*%rrblup$u #vetor de GBV estimados


plot(hist(u_hat))
#ajustando G-BLUP
gblup = mixed.solve(y1,K=A.mat(M))
gblup$Vu
gblup$Ve
h2_g=gblup$Vu/(gblup$Vu+gblup$Ve)
cor(gblup$u,u_hat)
library(MASS)
a_hat_g=ginv(t(M)%*%M)%*%t(M)%*%gblup$u
cor(a_hat_g,a_hat)

GBLUP Reduzido R
# leitura do arquivo de marcadores moleculares
setwd("C:\\R 2013")
library(rrBLUP)
library(MASS)
dados=read.table("Veracel-A-BV-ALT-TOT.txt",h=T)
#leitura do arquivo de marcadores
snp=dados[,-(1:5)]
head(snp)
tail(snp)
#leitura do arquivo fenotpico
fenotipo=dados$EBV
head(fenotipo)
tail(fenotipo)
#transformar os dados do arquivo snp em uma matriz
M=as.matrix(snp)
#
#
#
#

entrada: vetor y1
M: matriz de marcadores
k: uma matriz diagonal com nmero de colunas igual a da matriz M
output: "Vu" "Ve" "beta" "u" "LL"

y=as.matrix(fenotipo)
u=as.matrix(mixed.solve(y,K=A.mat(M))$u) # valor gentico dos indivduos
a=ginv(t(M)%*%M)%*%(t(M)%*%u) # efeitos de todos os marcadores
rank=cbind(colnames(M),matrix(rank(abs(a))))
colnames(rank)=c("marker","rank")
n=300 # n de marcadores de menor efeito retirados
num_snp=matrix(seq(n+1,ncol(M)))
colnames(num_snp)=c("rank")
# merge entre o arquivo total de marcadores e os marcadores selecionados
merge_rank=merge(rank,num_snp, by=intersect("rank","rank"))
merge_rank1=matrix(merge_rank[,2])
colnames(merge_rank1)=c("marker")
marc=cbind(noquote(matrix(colnames(as.matrix(M)))),noquote(t(M)))
colnames(marc)=c("marker",1:nrow(M))
# marcadores selecionados
snp_new=merge(marc,merge_rank1, by=intersect("marker","marker"))
write.table(snp_new,"snp_new.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
#leitura dos marcadores selecionados
snp=read.table("snp_new.txt")
M_new=t(snp[,-1])

261

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

# jacknife : Validao2
gbv=NULL
eff=matrix(0,ncol(M_new),nrow(M))
for(i in 1:nrow(M))
{
a=as.matrix(mixed.solve(y[-i],K=A.mat(M_new[-i,]))$u)
eff[,i]=ginv(t(M_new[-i,])%*%M_new[-i,])%*%(t(M_new[-i,])%*%a)
gbv[i]=M_new[i,]%*%eff[,i]
}
# Vetor de valores genmicos dos indivduos
gbv
#Vetor de efeito de marcadores
mean_eff=NULL
for(i in 1:nrow(eff))
{
mean_eff[i]=sum(eff[i,])/ncol(eff)
}
write.table(mean_eff,"eff_rgblup.txt",row.names=FALSE,col.names=FALSE,quote=FALSE)
mean_eff
par(mfrow=c(3,1)) # divide a tela grfica em 3
plot(mean_eff)
plot(abs(mean_eff), type = "l")
# visualizao dos mais informativos
plot(density(mean_eff))
# Clculo da herdabilidade da caracterstica
model=mixed.solve(y, K=A.mat(M_new)) # todos indivduos
Vu=model$Vu # varincia gentica aditiva
Ve=model$Ve
# varincia residual
h2=Vu/(Vu+Ve)
# herdabilidade
h2
# Correlacao, Acuracia
cor=cor(gbv,y)
cor
ac=cor/sqrt(h2)
ac

7.3.10 Anlise Espacial no Mtodo RR-BLUP: Funo rhierLinearModel no


Pacote Bayesm: escrito por Peter Rossi (University of Califrnia)
setwd("C:\\R 2013")
library(bayesm)
y=as.matrix(read.table("fen_final.txt"))
iota=rep(1,nrow(y))
x=cbind(iota,as.matrix(read.table("touros_final.txt")))
regdata=NULL
for(reg in 1:1)
{
regdata[[reg]]=list(y=y,X=x)
}
Data1=list(regdata=regdata)
Prior1=list(nu=52,V=diag(32,ncol(x)))
Mcmc1=list(R=20000,keep=4)
fit=rhierLinearModel(Data=Data1, Prior=Prior1,Mcmc=Mcmc1)
var=diag(matrix(apply(fit$Vbetadraw,2,mean),ncol(x),ncol(x))) #[-1]
var
dim(fit$Vbetadraw)
beta=apply(fit$betadraw,2,mean)
beta
vare=mean(fit$taudraw)
vare

262

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

* Recomenda-se o ajuste de um modelo contemplando efeitos aleatrios de cromossomos


individuais, com estrutura espacial dentro de cromossomos, com ajuste de todos os
cromossomoos simultaneamente.

7.3.11 Mtodo Regresso Kernel Hilbert Spaces (RKHS) (escrito por Gustavo
de los Campos, University of Wisconsin)
setwd("C:\\R 2013")
data = read.table("fen_final.txt"))
phe = as.matrix(data[,5])
gen = matrix(as.numeric(as.matrix(data[,-c(1:5)])),nrow = nrow(data))
D<-as.matrix(dist(gen,method="euclidean"))^2
D<-D/mean(D)
h<-c(1e-2,.1,.4,0.5,.8,1.5,2,3,5)
R2<-numeric()
PMSE<-numeric()
VARE<-numeric()
VARU<-numeric()
for(i in 1:length(h)){
print(paste('Working with h=',h[i],sep=''))
# COMPUTES THE KERNEL
K<-exp(-h[i]*D)
# FITS THE MODEL
prefix<- paste(h[i], "_",sep="")
fm<-RKHS(y=phe,K=list(list(K=K,df0=5,S0=2)),
nIter=12000,burnIn=2000,df0=5,S0=2,
saveAt=prefix)
R2[i] = cor(fm$yHat,phe)
PMSE[i]<-mean((phe-fm$yHat)^2)
VARE[i]<-fm$varE
VARU[i]<-fm$K[[1]]$varU
}
plot(R2~h,xlab="Bandwidth",
ylab="Residual Variance",type="o",col=4)
plot(VARE~h,xlab="Bandwidth",
ylab="Residual Variance",type="o",col=4)
plot(PMSE~h,xlab="Bandwidth",
ylab="PMSE",type="o",col=2)
plot(I(VARE/VARU)~h,xlab="Bandwidth",
ylab="Ratio of variances(noise/signal)",
type="o",col=4)

263

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

8 Referncias
AGUILAR I.; MISZTAL, I.; JOHNSON, D. L.; LEGARRA, A.;
TSURUTA, S.; LAWLOR, T. J. Hot topic: a unified approach to utilize
phenotypic, full pedigree, and genomic information for genetic evaluation
of Holstein final score. Journal of Dairy Science, Champaign, v. 93, n. 2,
p. 743-52, 2010.
AITKEN, A. C. Studies in practical mathematics: the evaluation of the
latent roots and latent vectors of a matrix. Proceedings of the Royal
Society of Edinburgh, v. 57, p. 269-304, 1937.
AKAIKE, H. A new look at the statistical model identification. IEEE
Transaction on Automatic Control, v. 19, p. 716-723, 1974.
ALMASY, L.; BLANGERO, J. Multipoint quantitative-trait linkage
analysis in general pedigrees. The American Journal of Human Genetics,
Chicago, v. 62, n. 5, p. 1198-1211, 1998.
ANDERSON, D. R.; BURNHAM, K. P.; THOMPSON, W. L. Null
hypothesis testing: problems, prevalence, and an alternative. Journal of
Wildlife Management, Bethesda, v. 64, p. 912-923, 2000.
ANDERSON, L.; GEORGES, M. Domestic animal genomes: deciphering
the genetics of complex traits. Nature Reviews Genetics, v. 5, n.3, p.202212, 2004.
ARANGO, J.; MISZTAL, I.; TSURUTA S.; CULBERTSON, M.;
HERRING, W. Estimation of variance components including competitive
effects of Large White growing gilts. Journal of Animal Science, v. 83, p.
1241-1246, 2005.
AUER, P.L.; DOERGE, R.W. Statistical design and analysis of RNA
sequencing data. Genetics. 185: 405-416, 2010.
AULCHENKO, Y. S.; KONNING, D.; HALEY, C. Grammar: a fast and
simple method for genome-wide pedigree-based quantitative trait loci
association analysis. Genetics, Austin, v. 177, p. 577-585, 2007.
AYROLES, J. F.; GIBSON, G. Analysis of variance of microarray data.
Methods in Enzymology, v. 411, p. 214-233, 2006.
AZEVEDO, C. F. Mtodos de reduo de dimensionalidade aplicados na
seleo genmica para caractersticas de carcaa em sunos. 2012.
Dissertao (Estatstica Aplicada e Biometria) - Universidade Federal de
Viosa.
AZEVEDO, C. F.; RESENDE, M.D.V.; SILVA, F.F.; LOPES, P.S.;
GUIMARAES, S.E.F. Regresso via Componentes Independentes (ICR)
para
reduo de dimensionalidade
na seleo genmica para
caractersticas de carcaa em sunos. Pesquisa Agropecuria Brasileira,
2012.

264

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

AZEVEDO, C. F. ; SILVA, F. F ; PETERNELLI, L. A. ; RESENDE, M.


D. V. ; GUIMARES, S. E. F. Regresso via componentes principais
aplicada a seleo genmica ampla. In: XI MGEST, 2012. XI MGEST,
2012.
AZEVEDO, C. F. ; SILVA, F. F ; RESENDE, M. D. V. ; PETERNELLI,
L. A. ; GUIMARES, S. E. F. Quadrados mnimos parciais multivariado:
uma aplicao a seleo genmica considerando caractersticas de carcaa
em sunos. In: SINAPE, 2012, Joo Pessoa. 20 SINAPE, 2012.
AZEVEDO, C. F. ; SILVA, F. F ; PETERNELLI, L. A. ; RESENDE, M.
D. V. ; GUIMARES, S. E. F. Quadrados mnimos parciais aplicado a
seleo genmica considerando caractersticas de carcaa em sunos. In:
Reunio Anual da Regio Brasileira da Sociedade Internacional de
Biometria, 2012, Piracicaba. 57 RBRAS, 2012.
BAYES, T. An essay towards solving a problem in the doctrine of
chances. Philos. Trans. R. Soc., London, v. 53, p. 370-418, 1763.
BERNARDO, R; YU, J. Prospects for genome wide selection for
quantitative traits in maize. Crop Science, v. 47, p.1082-1090, 2007.
BISHOP, C.M. Pattern recognition and machine learning. Springer, 2006.

BOX, G. E. P.; TIAO, G. C. Bayesian inference in statistical analysis.


Reading: Addison-Wesley Publ. Co., 1973. 588 p.
BROTHERSTONE, S.; WHITE, I.M.S.; SYKES, R.; THOMPSON, R.;
CONNOLLY, T.; LEE, S.; WOOLLIAMS, J. Competition Effects in a
Young Sitka
Spruce (Picea
sitchensis,
Bong.
Carr)
Clonal
Trial. Silvae Genetica, v. 60, n. 3-4, p. 149-155, 2011.
BUENO FILHO, J. S. S.; VENCOVSKY, R. Selection in several
environments by BLP as an alternative to pooled ANOVA in crop
breeding. Cincia e Agrotecnologia, v. 33, p. 1342-1350, 2009.
BULMER, M. G. The mathematical theory of quantitative genetics. Oxford:
Charedon Press, 1980. 254 p.
CADAVID, A. C.; LAWRENCE, J. K.; RUZMAIKIN, A.; KAYLENG
KNIGHT. Principal components and independent component analysis of
solar and space data. Solar Phys, v. 248, p. 247-261, 2008.
CALUS, M. P. L.; MEUWISSEN, T. H. E.; ROOS, A. P. W.;
VEERKAMP, R. F. Accuracy of genomic selection using different
methods to define haplotypes. Genetics, v. 178, p. 553-561, 2008.
CALUS, M. P. L.; VEERKAMP, R. F. Accuracy of breeding value when
using and ignoring the polygenic effect in genomic breeding value
estimation with a marker density of one SNP per cM. Journal of Animal
Breeding and Genetics, v. 124, p. 362-368, 2007.

265

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

CAMPOS, G. de los; GIANOLA, D.; ALLISON, D. B. Predicting


genetic predisposition in humans: the promise of whole-genome markers.
Nature Reviews Genetics, London, v. 11, p. 880-886 Dec. 2010.
CAMPOS, G. de los; GIANOLA, D.; ROSA, G. J. M. Reproducing
kernel Hilbert spaces regression: a general framework for genetic
evaluation. Journal of Animal Science, Champaign, v. 87, p.1883-1887,
2009.
CAMPOS, G. de los; NAYA, h.; GIANOLA, D.; CROSSA, J.;
LEGARRA, A.; MANFREDI, E.; WEIGEL, K.;COTES, J. M. Predicting
quantitative traits with regression models for dense molecular markers.
Genetics, Austin, v. 182, p. 375-385, 2009.
CAVALCANTI, J. J. V.; RESENDE, M. D. V. Predio simultnea dos
efeitos de marcadores moleculares e seleo genmica ampla em cajueiro.
Revista Brasileira de Fruticultura, v.34, p., 2012.
CHIB, S.; GREENBERG, E. Understanding the metropolis-hastings
algorithm. The American Statistician, Washington, DC, v. 49, n. 4, p. 327335, 1995.
CHURCHILL, G. A.; DOERGE, R. W. Empirical threshold values for
quantitative trait mapping. Genetics, v. 138, p. 963-971, 1994.
COCHRAN, W. G. Improvement by means of selection. In:
SYMPOSIUM ON MATHEMATICAL STATISTICS AND
PROBABILITY, 2., 1951, Berkeley. Proceedings... Berkeley: University of
California Press, 1951. p. 449-470.
COMON, P. Independent component analysis a new concept. Sigmal
Processing, v. 45, p. 59-83, 1994.
BIJMA P. A general definition of the heritable variation that determines
the potential of a population to respond to selection. Genetics 189,
1347-1359, 2011.
COSTA e SILVA, J.; KERR, R.J. (2012). Accounting for competition in
genetic analysis, with particular emphasis on forest genetic trials. Tree
Genetics and Genomes (DOI 10.1007/s11295-012-0521-8).
COSTA e SILVA, J.; POTTS, B.M.; BIJMA, P.; KERR, R.J.; PILBEAM,
D. Genetic control of interactions amongst individuals: Contrasting
outcomes of indirect genetic effects arising from neighbour disease
infection and competition in a forest tree (New Phytologist, 2012, in
press).
CRUZ, C. D. ; GOOD GOD, P. I. V. ; BHERING, L. L. Mapeamento de
QTLs em populaes exogmicas. In: BORM, A.; CAIXETA, E. T.
(Org.). Marcadores Moleculares. 2. ed. Viosa, MG: Folha de Viosa, 2009.
v. 1. p. 443-481.

266

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

CUI, X.; HWANG, J.T.G.; QIU, J. et al. Improved statistical tests for
differential gene expression by shrinking variance components estimates.
Biostatistics, v.6, n.1, p.59-75, 2005.
CULLIS, B. R.; GLEESON, A. C. Spatial analysis of field experiments-an
extension at two dimensions. Biometrics, v. 47, p. 1449-1460, 1991.
CULLIS, B. R.; GOGELL, B.; VERBYLA, A.; THOMPSON, R. Spatial
analysis of multi-environment early generation variety trials. Biometrics,
v. 54, p. 1-18, 1998.
DAETWYLER H.D; VILLANUEVA B; BIJMA P.; WOOLLIAMS JA
(2007) Accuracy of predicting the genetic risk of disease using a genomewide approach. PLoS ONE 3:e3395.
DAETWYLER H.D; PONG-WONG, R.; VILLANUEVA B;
WOOLLIAMS, J.A. The impact of genetic architecture on genome-wide
evaluation methods. Genetics, v.185, p.1021-1031, 2010.
DAETWYLER, H. D. .; KEMPER, K. E. .; VAN DER WERF, J. H. J.;
HAYES, B. J. Components of the accuracy of genomic prediction in a
multi-breed sheep population. J. Anim. Sci. v. 90, p. 33753384, 2012.
DARVASI, A.; SOLLER, M. A simple method to calculate resolving
power and confidence interval of QTL map location. Behavior Genetics,
v. 27, p. 125- 132, 1997.
DEKKERS, J. C. M. 2007. Marker-assisted selection for commercial
crossbred performance. Journal of Animal Science, v.85, p. 2104-2114, 2007.
DEKKERS, J. C. M. Commercial application of marker and gene assisted
selection in livestock: strategies and lessons. Journal of Animal Science, v.
82, p.313-328, 2004.
DEKKERS, J. C. M. Commercial application of marker and gene assisted
selection in livestock: strategies and lessons. Journal of Animal Science, v.
82, p.313-328, 2004.
DEKKERS, J. C. M. Prediction of response to marker assisted and
genomic selection using selection index theory. Journal of Animal
Breeding and Genetics, v. 124, p. 331-341, 2007.
DEMPFLE, L. Relation entre BLUP (Best linear unbiased prediction) et
estimateurs bayesiens. Annales de Gntique et Slection Animale, v. 9, p. 2732, 1977.
DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood
from incomplete data via the EM algorithm. Journal of the Royal Statistic
Society, London, v. 39, p. 1-38, 1977.

267

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

DROST, D.R.; NOVAES, E.; BOAVENTURA-NOVAES, C.;


BENEDICT, C.I.; BROWN, R.S.; YIN, T.; TUSKAN,, G.A.; KIRST,
M. A microarray-based genotyping and genetic mapping approach for
highly heterozygous outcrossing species enables localization of a large
fraction of the unassembled Populus trichocarpa genome sequence. The
Plant Journal, 2008. doi: 10.1111/j.1365-313X.2009.03828.x
DUARTE, J. B.; VENCOVSKY, R. Estimao e predio por modelo
linear misto com nfase na ordenao de mdias de tratamentos genticos.
Scientia Agrcola, v. 58, n. 1, p. 109-117, 2001.
EFRON, B.; MORRIS, C. Steins paradox in statistics. Scientific
American, v. 236, n. 5, p. 119-127, 1977.
ELSTON, R.C.; SATAGOPAN, J.M; SUN, S. Statistical human
genetics: methods and protocols. Humana Press, 2012. 575 p.
ENDELMAN, J. B. Ridge regression and other kernels for genomic
selection with R package rrBLUP. Plant Genome , v4, p. 250255, 2011.
ENDELMAN, J. B.; JANNINK, J.L. Shrinkage estimation of the realized
relationship matrix. PGenes, Genomes, Genetics , v2, p. 14051413, 2012.
EWING, B.; GREEN, P. Analysis of expressed sequence tags indicates
35,000 human genes. Nature Genetics, v. 25, p.232-234, 2000.
FALCONER, D. S. Introduction to quantitative genetics. 3. ed. Harlow:
Longman, 1989. 438 p.
FANG, Y. Asymptotic equivalence between cross-validations and akaike
information criteria in mixed-effects models. Journal of Data Science, v.9,
p.15-21, 2011.
FERNANDO, R. L., 1998. Genetic evaluation and selection using
genotypic, phenotypic and pedigree information. Proceedings of the 6th
World Congress on Genetics Applied to Livestock Production, Armidale,
NSW, Australia, Vol. 26, pp. 329336.
FERNANDO, R. L.; GIANOLA, D. Optimal properties of the
conditional mean as a selection criterion. Journal of Animal Science, v. 59, p.
177, 1984.
FERNANDO, R. L.; NETTLETON, D.; SOUTHEY, B. R.; DEKKERS,
J. C. M.; ROTHSCHILD, M. F.; SOLLER, M. Controlling the proportion
of false positives in multiple dependent tests. Genetics, v. 166, p.611-619,
2004.
FERNANDO, R.L.; GROSSMAN, M. Marker-assisted selection using
best linear unbiased prediction. Genetics Selection Evolution, v. 21, p. 467477, 1989.

268

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

FERNANDO, R.L.; HABIER, D.; STRICKER, C.; DEKKERS, J. C. M.;


TOTIR, L. R. Genomic selection. Acta Agriculturae Scandinavica, v. 57,
n.4, p. 192-195, 2007.
FERNANDO, R.L.; STRICKER, C.; ELSTON, R.L. The finite polygenic
mixed model an alternative formulation for the mixed model of
inheritance. Theoretical and Applied Genetics, v.88, p.573-580, 1994.
FERRAZ, J.B.S. ; REZENDE, F.M. Seleo genmica: o estado da arte. In:
Luiz Fernando Aaro Marques. (Org.). A Importncia da pecuria bovina
na economia brasileira: Coletnea do III Congresso Capixaba de Pecuria
Bovina. 1 ed. Alegre (ES): CAUFES, 2012, v. 1, p. 91-122.
FISHER, R. A. On the mathematical foundations of theoretical statistics.
Philosophical Transactions of the Royal Society of London, Series A, n.
222, p. 309-368, 1922.
FISHER, R. A. Statistical methods for research workers. 1. ed. London: Oliver
and Boyd, 1925. 314 p.
FISHER, R. A. The arrangement of field experiments. Journal of the
Ministry of Agriculture of Great Britain, v. 33, p. 503-513, 1926.
FISHER, R. A. The correlation between relatives on the supposition of
mendelian inheritance. Transaction Royal Society of Edinburgh, v. 32, p. 399433, 1918.
FOULLEY, J. L. Le modle linaire mixte. Paris: INRA, 2003. 139 p.
FOULLEY, J. L.; DYK, D. A. van. The PX-EM algorithm for fast and
stable fitting of Hendersons mixed model. Genetics, Selection, Evolution,
v. 32, p. 143-163, 2000.
FOULLEY, J. L.; QUAAS, R. L. Heterogeneous variances in gaussian
linear mixed models. Genetics Selection Evolution, v. 27, p. 211228, 1995.
FRITSCHE NETO, R. Seleo genmica ampla para as eficincias no uso
de nitrognio e fsforo em milho tropical. 2011. Tese (Gentica e
Melhoramento) - Universidade Federal de Viosa.
FRITSCHE-NETO, R.; DOVALE, J. C.; RESENDE, M. D. V.;
MIRANDA, G.V. Genome wide selection for root traits in tropical maize
under stress conditions of nitrogen and phosphorus. Acta Scientiarum
Agronomy, v34, p.389-395, 2012.
FRITSCHE-NETO, R ; RESENDE, M. D. V. de ; DOVALE, J. C. ;
LANES, ECM ; SEDIYAMA, C. S. ; PEREIRA, F.B.; MIRANDA, G. V.
Seleo genmica ampla e novos mtodos de melhoramento do milho.
Revista Ceres (Online), 2013.

269

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

FULKER, D. F.; CARDON, L. R. A sib-pair approach to interval mapping


of quantitative trait loci. American Journal of Human Genetics, v. 54, p.
1092-1103, 1994.
GAMERMAN, D. Simulao estocstica via cadeias de Markov. Caxambu:
Associao Brasileira de Estatstica, 1996. 196 p.
GARRICK, D. J.; TAYLOR, J. F.; FERNANDO, R. L. Deregressing
estimated breeding values and weighting information for genomic
regression analyses. Genetics Selection Evolution, v. 41, p. 55, 2009.
GARTHWAITE, P.H. An Interpretation of Partial Least Squares.
Journal of the American Statistical Association, v. 89, p. 122-127, 1994.
GELFAND, A. E.; SMITH, A. F. M. Sampling-based approaches to
calculating marginal densities. Journal of the American Statistical Association,
v. 85, p. 398-409, 1990.
GEMAN, S.; GEMAN, D. Stochastic relaxation, Gibbs distribution and
the bayesian restoration of imagens. IEEE Transactions on Pattern Analysis
and Machine Intelligence, v. 6, p. 721-741, 1984.
GENGLER, N.; MAYERES, P.; SZYDLOWSKI, M. A simple method to
approximate gene content in large pedigree populations: application to the
myostatin gene in dual-purpose Belgian Blue cattle. Animal, Cambrige, v.
1, n. 1, p. 21-28, 2007. DOI: 10.1017/S1751731107392628
GEORGE, A.W.; VISSCHER, P.M.; HALEY, C. S. Mapping
quantitative trait loci in complex pedigree: a two step variance component
approach. Genetics, v. 156, p.2081-2092, 2000.
GIANOLA D; FERNANDO, R. L; STELLA, A. Genomic-assisted
prediction of genetic value with semiparametric procedures. Genetics, v.
173, p. 1761-1776, 2006.
GIANOLA, D.; CAMPOS, G. de los. Inferring genetic values for
quantitative traits non-parametrically. Genetics Research,Cambridge, v.
90, p. 525-540, 2009.
GIANOLA, D.; CAMPOS, G.; HILL, W. G.; MANFREDI, E.;
FERNANDO, R. Additive genetic variability and the Bayesian alphabet.
Genetics, Austin, v. 183, p. 347-363, 2009.
GIANOLA, D.; FERNANDO, R. L. Bayesian methods in animal
breeding theory. Journal of Animal Science, v. 63, p. 217-244, 1986.
GIANOLA, D.; KAAM, J. B. C. H. M. van. Reproducing kernel hilbert
spaces regression methods for genomic assisted prediction of quantitative
traits. Genetics, Austin, v. 178, n. 4, p. 22892303, 2008.
GIANOLA, D.; PEREZ-ENCISO, M.; TORO, M.A. On marker-assisted
prediction of genetic value: beyond the ridge. Genetics, v. 163, p.347-365,

270

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

2003.
GILMOUR, A. R. Mixed model regression mapping for QTL detection in
experimental crosses. Computational Statistics e Data Analysis, v.51, n.8,
p. 3749-3764, 2007.
GILMOUR, A. R. Mixed model regression mapping for QTL detection in
experimental crosses. Computational Statistics and Data Analysis, v. 51, n.
8, p. 3749-3764, 2007.
GILMOUR, A. R.; THOMPSON, R. Modelling variance parameters in
ASREML for repeated measures. In: WORLD CONGRESS ON
GENETIC APPLIED TO LIVESTOCK PRODUCTION, 6., 1998,
Armidale. Proceedings Armidale: AGBU: University of New England,
1998. v. 27, p. 453-454.
GILMOUR, A. R.; THOMPSON, R.; CULLIS, B. R. Average
information REML: an efficient algorithm for parameter estimation in
linear mixed models. Biometrics, v. 51, p. 1440-1450, 1995.
GODDARD, M. E. A mixed model for analysis of data on multiple
genetic markers. Theoretical and Applied Genetics, v. 83, p. 878-886, 1992.
GODDARD, M. E. Mapping genes for quantitative traits using linkage
disequilibrium. Genetics Selection Evolution, v.23, p. 131-134, 1991.
GODDARD, M. E. Genomic selection: prediction of accuracy and
maximization of long term response. Genetica, Dordrecht, v. 136, n. 2, p.
245-257, 2009.
GODDARD, M. E.; HAYES, B. J. Genomic selection. Journal of Animal
Breeding and Genetics, v. 124, p. 323-330, 2007.
GODDARD, M. E.; HAYES, B. J. Mapping genes for complex traits in
domestic animals and their use in breeding programmes. Nature Reviews
Genetics, v. 10, p. 381-391, 2009.
GODDARD, M.E. New technology to enhance genetic improvement of
pigs. Manipulating Pig Production, v.7, p.4452, 1999.
GODDARD, M.E.; HAYES, B. J.; MEUWISSEN, T. H. E. Using the
genomic relationship matrix to predict the accuracy of genomic selection.
Journal of Animal Breeding and Genetics, v. 128, n. 6, p.409-421, 2011.
GODDARD, M. E.; WRAY, N. R.; VERBYLA, K.; VISSCHER, P .M.
Estimating effects and making predictions from genome-wide marker
data. Statistical Science, Hayward, v. 24, p. 517-529, 2009.
GONZALEZ-RECIO, O.; GIANOLA, D.; LONG, N.; WEIGEL, K. A.;
ROSA, G. J. M.; AVENDANO, S. Nonparametric methods for
incorporating genomic information into genetic evaluations: an
application to mortality in broilers. Genetics, v.178, n.4, p. 2305 2313, 2008.

271

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

GRASER, H. U.; SMITH, S. P.; TIER, B. A derivative free approach for


estimating variance components in animal models by restricted maximum
likelihood. Journal of Animal Science, Champaign, v. 64, n. 5, p. 1362-1370,
1987.
GRATTAPAGLIA, D.; RESENDE, M. D. V. Genomic selection in forest
tree breeding. Tree Genetics & Genomes, v.7, p.241 - 255, 2011.
HAAS, B. J.; ZODY, M. C. Advancing RNA-Seq analysis. Nature
Biotechnology, 28: 421423, 2010.
HABIER, D.; FERNANDO, R. L.; DEKKERS, J. C. M. The impact of
Genetic Relationship on Genome-Assisted Breeding Values. Genetics, v.
117, p. 2389-2397, 2007.
HABIER, D.; FERNANDO, R. L.; KIZILKAYA, K.; GARRICK, D. J.
Extension of the bayesian alphabet for genomic selection. BMC
Bioinformatics, v. 12, p. 186, 2011.
HALDANE, J. B. S. The combination of linkage value and the calculation
of distances between the loci of linkage factors. Journal of Genetics, v. 8,
p. 299-309, 1919.
HALEY, C.S.; KNOTT, S.A. A simple regression method for mapping
quantitative loci in line crosses using flanking markers. Heredity, v. 69,
p.315-324, 1992.
HARTL, L. D.; JONES, E. W. Essencial genetics: a genomics perspective.
Sudbury: Jones & Bartlet, 2002.
HARTLEY, H. O.; RAO, J. N. K. Maximum likelihood estimation for the
mixed analysis of variance model. Biometrika, v. 54, p. 93-108, 1967.
HARVILLE, D. A. Matrix algebra from a statistician perspective. New
York: Springer Verlag, 1997. 630 p.
HARVILLE, D. A. Maximum likelihood approaches to variance
component estimation and to related problems. Journal of the American
Statistical Association, v. 72, n. 2, p. 320-328, 1977.
HARVILLE, D. A.; CARRIQUIRY, A. L. Classical and Bayesian
prediction as applied to unbalanced mixed linear models. Biometrics, v. 48,
p. 987-1003, 1992.
HASEMAN, J. M.; ELSTON, R. C. The investigation of linkage between
a quantitative trait and a marker locus. Behavioral Genetics, v.2, p.3-19,
1974.
HASTIE, T.; TIBSHIRANI, R. Generalized Additive Models (with
discussion). Statistical Science, v. 1, n. 3, p. 297-318, 1986.

272

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

HAYES, B. J. Course on QTL mapping, MAS and genomic selection.


Ames: Iowa State University, 2008.
HAYES, B. J.; BOWMAN, P. J.; CHAMBERLAIN, A. J.; GODDARD,
M. E. Invited review: Genomic selection in dairy cattle: Progress and
challenges. Journal of Dairy Science, 2009. doi:10.3168/jds.2008-1646.
HAYES, B. J.; CHAMBERLAIN, A. J.; GODDARD, M. E. Use of
markers in linkage disequilibrium with QTL in breeding programs. In:
WORLD CONGRESS OF GENETICS APPLIED TO LIVESTOCK
PRODUCTION, 8., 2006. Proceedings. Belo Horizonte: Ed. da UFMG,
2006. 1 CD-ROM.
HAYES, B. J.; CHAMBERLAIN, A. J.; McPARTLAN, H.; MACLEOD,
I.; SETHURAMAN, L.; GODDARD, M. E. Accuracy of marker assisted
selection with single markers and marker haplotypes in cattle. Genetical
Research, v.89, p. 215-220, 2007.
HAYES, B.; GODDARD, M.E. The distribution of the effects of genes
affecting quantitative traits in livestock. Genetics Selection Evolution, v.
33, p. 209-229, 2001.
HAYES, B.J.; VISSCHER, P. E.; MCPARTLAN, H.; GODDARD, M.
E. A novel multi-locus measure of linkage disequilibrium and it use to
estimate past effective population size. Genome Research, v.13, p. 635643,
2003.
HEFFNER, E. L.; SORRELLS, M. E.; JANNINK, J. L. Genomic selection
for crop improvement. Crop Science, v49, n.1, p. 1 12, 2009.
HENDERSON, C.R. Selection index and expected genetic advance. In:
HANSON, W.D.; ROBINSON, H.F. (Ed.). Statistical genetics and plant
breeding. Whashington: National Academy of Sciences, 1963. p. 141-163.
(NAS-NCR. Pub., 982).
HENDERSON, C. R. A simple method for computing the inverse of a
numerator relationship matrix used in prediction of breeding values.
Biometrics, v. 32, p. 69-83, 1976.
HENDERSON, C. R. Aplications of linear models in animal breeding.
Guelph: University of Guelph, 1984. 462 p.
HENDERSON, C. R. Best linear estimation and prediction under a
selection model. Biometrics, v. 31, p. 423-447, 1975.
HENDERSON, C. R. Estimation of changes in herd environment. Journal
of Dairy Science, v. 32, p. 709, 1949.
HENDERSON, C. R. Estimation of general, specific and maternal combining
abilities in crosses among inbred lines of swine. Ames: Iowa State University,
1948. Ph. Thesis.

273

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

HENDERSON, C. R. Estimation of variance and covariance components.


Biometrics, v. 9, p. 226-252, 1953.
HENDERSON, C. R. Estimation of variances in animal model and
reduced animal model for single traits and single records. Journal of Dairy
Science, v. 69, p. 1394-1402, 1986.
HENDERSON, C. R. Sire evaluation and genetic trends. In: ANIMAL
BREEDING AND GENETICS SYMPOSIUM IN HONOUR OF J.
LUSH, 1973, Champaign. Proceedings... Champaign: American Society of
Animal Science, 1973. p.10-41.
HENDERSON, C. R.; KEMPTHORNE, O.; SEARLE, S. R.; VON
KROSIGH, C. M. The estimation of environmental and genetic trends
from records subject to culling. Biometrics, v. 15, p. 192, 1959.
HILL W.G. Estimation of effective population-size from data on linkage
disequilibrium. Genetical Research , v.38, p.209216, 1981.
HILL, W. G.; ROBERTSON, A. Linkage disequilibrium in finite
populations. Theoretical and Applied Genetics, v. 38, p. 226-231, 1968.
HOGGART, C. J.; WHITTAKER, J. C.; DE IORIO, M.; BALDING, D.
J. Simultaneous analysis of all SNPs in genome-wide and re-sequencing
association studies. PLoS Genetics, v.4, n.7, e1000130, 2008.
HOSPITAL, F.; MOREAU, L.; LACOUDRE, F.; CHARCOSSET, A.;
GALLAIS, A. More on the efficiency of marker assisted selection.
Theoretical and Applied Genetics, v. 95, p.1181-1189, 1997.
HYVRINEN, A. New approximations of differential entropy for
independent component analysis and projection pursuit. In Advances in
Neural Information Processing Systems, v. 10, p. 273-279, 1998.
JAFFREZIC, F.; MEZA, C.; LAVIELLE, M.; FOULLEY, J. L. Genetic
analysis of growth curves using the SAEM algorithm. Genetics Selection
Evolution, v. 38, n. 6, p. 583-600, 2007.
JAMES, W.; STEIN, C. Estimation with quadratic loss. In:
SYMPOSIUM ON MATHEMATICAL STATISTICS AND
PROBABILITY, 4., 1961, Berkeley: Proceedings... Berkeley: University of
Berkeley, 1961. p. 361-379.
JAMES, W.; STEIN, C. Estimation with quadratic loss. Proceedings of the
Fourth Berkeley Symposium on Mathematical Statistics and Probability, v. 1, p.
361-379, 1961.
JAMROZIK, J.; SCHAEFFER, L. R. Estimates of genetic parameters for a
test day model with random regressions for yield of first lactation
Holsteins. Journal of Dairy Science, v. 80, p. 726-770, 1997.

274

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

JAMROZIK, J.; SCHAEFFER, L. R.; DEKKERS, J. C. M. Genetic


evaluation of dairy cattle using test day yields and random regression
model. Journal of Dairy Science, v. 80, p. 1217-1226, 1997.
JANSEN, R. C.; NAP, J. Genetical genomics: the added value from
segregation. Trends in Genetics, v. 17, p.388-391, 2001.
JANSS, L.; DE LOS CAMPOS, G.; SHEEHAN, N.; SORENSEN, D.
Inferences from Genomic Models in Stratified Populations. Genetics, 2012.
Doi: 10.1534/genetics.112.141143
JOHNSON, D. L.; THOMPSON, R. Restricted maximum likelihood
estimation of variance components for univariate animal models using
sparse matrix techniques and average information. Journal of Dairy
Science, v. 78, p. 449-456, 1995.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical
analysis. Englewood : Prentice Hall Inc., 1988. 594 p.
KENNEDY, B. W.; QUINTON, M.; VAN ARENDONK, J. A. M.
Estimation of effects of single genes on quantitative traits. Journal of
Animal Science, v. 70, p. 2000-2012, 1992.
KERR, M.K.; MARTIN, M.; CHURCHILL, G.A. Analysis of variance
for gene expression microarray data. Journal of Computational Biology,
v.7, n. 6, p.819-837, 2000.
KNOTT, S.A.; ELSEN, J.M.; HALEY, C.S. Methods for multiple-marker
mapping of quantitative trait loci in half-sib populations. Theoretical and
Applied Genetics, v. 93, p.71-80, 1996.
KOSAMBI, D. D. The estimation of map distances from recombination
values. Annals of Eugenics, v. 12, p. 172-175, 1944.
KRUGLYAK, L. Prospect for whole genome linkage disequilibrium
mapping of common disease genes. Nature Genetics, v. 22, p.139-144, 1999.
LAIRD, N.M.; LANGE, C. The fundamentals of modern statistical
genetics. Harvard: Springer, 2010. 240 p.
LANDE, R.; THOMPSON, R. Efficiency of marker-assisted selection in
the improvement of quantitative traits. Genetics, v. 124, p. 743-756, 1990.
LANDER, E. S.; BOTSTEIN, D. Mapping Mendelian factors underlying
quantitative traits using RFLP linkage maps. Genetics, v. 121, p.185-199,
1989.
LEDOIT, O.; WOLF, M. A well-conditioned estimator for largedimensional covariance matrices. J. Multivariate Anal. v88, p. 365411,
2004.

275

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

LEE, S. H.; van der WERF, J. H. J. The role of pedigree information in


combined linkage disequilibrium and linkage mapping of quantitative trait
loci in a general complex pedigree. Genetics, v. 169, p. 455-466, 2005.
LEE, Y.; NELDER, J. A.; PAWITAN, Y. Generalized linear models with
random effects: unified analysis via H likelihood. London: Chapman &
Hall, 2007. 416 p.
LEE, Y.; HA, I. D. Orthodox BLUP versus h-likelihood methods for
inference about random effects in Tweedie mixed models. Statistics and
Computing, v. 20, n. 3, p.295-303 , 2010.
LEEMIS, L. M. Relationships among common univariate distributions.
The American Statistician, v. 40, n. 2, p. 143146, 1986.
LEGARRA, A.; MISZTAL, I. Computing strategies in genome-wide
selection. Journal of Dairy Science, v. 91, n.1, p. 360-366, 2008.
LEGARRA, A.; ROBERT-GRANI, C.; CROISEAU, P.; GUILLAUME,
F.; FRITZ, S. Improved Lasso for genomic selection. Genetics Research,
Cambridge, v. 93, n. 1, p. 77-87, 2011.
LEITE, H. G.; OLIVEIRA, F. H. T. Statistical procedure to test the
identity of analytical methods. Communications in Soil Science
Plant Analysis, New York, v. 33, n. 7/8, p. 1105-1118, 2002.
LEWONTIN, R. C. The interaction of selection and linkage. II. Optimal
models. Genetics, v. 50, p. 757-782, 1964.
LONG N, GIANOLA D, ROSA GJ, WEIGEL KA. Dimension reduction
and variable selection for genomic selection: application to predicting milk
yield in Holsteins. J Anim Breed Genet. 2011.
LOPES, P. S. Teoria do Melhoramento Animal. 1. ed. Belo Horizonte:
FEPMVZ Editora, 2005. 118 p.
LOPES, P. S.; MARTINS, E. N.; SILVA, M. A. E.; REGAZZI, A. J.
Estimao de componentes de varincia. Viosa: Imprensa Universitria,
1998. 61 p.
LOPES, P. S. ; MARTINS, E. N. ; SILVA, M. A. E. ; RAGGI, L. A. .
Mtodos de resoluo de sistemas de equaes lineares. Viosa - MG:
Imprensa Universitria, 1999. 55 p.
LUO, Z. W. Linkage disequilibrium in a two-locus model. Heredity, v. 80,
p.198-208, 1998.
LUSH, J. L. Animal breeding plans. 3. ed. Ames: Iowa State University
Press, 1945. 443p.
LUSH, J. L. Animal breeding plans. Ames: Iowa State University Press.
1937. 433p.

276

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

LUSH, J. L. Family merit and individual merit as bases for selection.


American Naturalist, v. 81, p. 241-261, 1947.
LUSH, J. L. The number of daughters necessary to prove a sire. Journal of
Dairy Science, v. 14, p. 209-220, 1931.
LYNCH, M.; WALSH, B. Genetics and analysis of quantitative traits.
Sunderland: Sinauer Associates, Inc., 1997. 980 p.
MACLEOD, I. M.; HAYES, B. J.; SAVIN, K.; CHAMBERLAIN, A. J.;
MCPARTLAN, H.; GODDARD, M. E. Power of dense bovine single
nucleotide polymorphisms (SNPs) for genome scans to detect and
position quantitative trait loci (QTL). Genetics, 2008 (in press).
MAKOWSKY, R.; PAJEWSKI, N. M.; KLIMENTIDIS, Y. C.;
VAZQUEZ, A. I.; DUARTE, C. W.; ALLISON, D. B.; CAMPOS, G. de
los. Beyond missing heritability: prediction of complex traits. Plos
Genetics, San Francisco, CA, v. 7, n. 4, 2011.
MARTINS, E. N. ; LOPES, P. S. ; SILVA, M. A. E. ; REGAZZI, A. J.
Modelo linear misto. Viosa: Imprensa Universitria, 1998. 46 p.
MARTINS, E. N. ; LOPES, P. S. ; SILVA, M. A. E. ; TORRES JUNIOR, R. A. Uso de
modelos mistos na avaliao gentica animal. Viosa: Imprensa Universitria, 1997. v. 1. 121
p.
MATHERON, G. La Thorie des variables rgionalises et ses applications. cole
Nationale Suprieure des Mines de Paris, 1970.

McRAE, A. F.; McEVAN, J. C.; DODDS, K. G.; WILSON, T.; CRAWFORD, A. M.;
SLATE, J. Linkage disequilibrium in domestic sheep. Genetics, v. 160, p.1113-1122, 2002.
MEUWISSEN, T. H. E. Genomic selection: marker assisted selection on genome-wide
scale. Journal of Animal Breeding and Genetics, v. 124, p. 321-322, 2007.
MEUWISSEN, T.H. Accuracy of breeding values of 'unrelated' individuals predicted by
dense SNP genotyping. Genetics Selection Evolution v.41, p.35, 2009.
MEUWISSEN, T. H. E.; GODDARD, M. E. Fine mapping of quantitative trait loci using
linkage disequilibria with closely linked marker loci. Genetics, v. 155, p.421-430, 2000.
MEUWISSEN, T. H. E.; GODDARD, M. E. Mapping multiple QTL using linkage
disequilibrium and linkage analysis information and multitrait data. Genetics Selection
Evolution, v. 36, p. 261-279, 2004.
MEUWISSEN, T. H. E.; HAYES, B. J.; GODDARD, M. E. Prediction of total genetic
value using genome-wide dense marker maps. Genetics, v. 157, p. 1819-1829, 2001.
MEUWISSEN, T. H. E.; KARLSEN, A.; LIEN, S; OLSAKER, I; GODDARD, M. E. Fine
mapping of a quantitative trait locus for twinning rate using combined linkage and linkage
disequilibrium mapping. Genetics, v.161, p. 373-379, 2002.

277

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

MEUWISSEN, T. H. E. ; LUAN, T.; WOOLLIAMS, J. A. The unified approach to the


use of genomic and pedigree information in genomic evaluations revisited. Journal of
Animal Breeding and Genetics, v. 128, n. 6, p.429-39, 2011.
MEUWISSEN, T. H. E.; SOLBERG, T. R.; SHEPHERD, R.; WOOLLIAMS, J. A. A fast
algorithm for BayesB type of prediction of genome-wide estimates of genetic value.
Genetics Selection Evolution, London, v. 41, p. 2, 2009. DOI:10.1186/1297-9686-41-2.
MEYER, K. DFREML a set of programs to estimate variance components under an
individual animal model. Journal of Dairy Science, Champaign, n. 2, Suppl., p. 33-34, 1988.
MEYER, K. Estimating variances and covariances for multivariate animal models by
restricted maximum likelihood. Genetique, Selection, Evolution, v. 23, p. 67-83, 1991.
MEYER, K. Random regression analyses using B-splines to model growth of Australian
Angus cattle. Genetics, Selection, Evolution, v. 37, p. 473-500, 2005.
MEYER, K. WOMBAT digging deep for quantitative genetic analysis by restricted
maximum likelihood. In: WORLD CONGRESS OF GENETICS APPLIED TO
LIVESTOCK PRODUCTION, 8., 2006. Proceedings. Belo Horizonte: Ed. da UFMG, 2006.
1 CD-ROM.
MISZTAL, I.; LEGARRA, A.; AGUILAR I. Computing procedures for genetic evaluation
including phenotypic, full pedigree, and genomic information. Journal of Dairy Science,
Champaign, v. 92, n. 9, p. 4648-55, 2009.
MISZTAL, I.; PEREZ-ENCISO, M. Sparse matrix inversion for restricted likelihood
estimation of variance components by expectation-maximization. Journal of Dairy Science,
v. 76, p. 1479-1483, 1993.
MOREAU, L.; MONOD, H.; CHARCOSSET, A.; GALLAIS, A. Marker assisted
selection with spatial analysis of unreplicated field trials. Theoretical and Applied Genetics,
v. 98, p.234-242, 1999.
MORGAN, T.H. The theory of genes. New Heaven: Yale University Press, 1928.
MORTAZAVI, A., WILLIAMS, B. A., MCCUE, K., SCHAEFFER, L., WOLD, B.
(2008). Mapping and quantifying mammalian transcriptomes by RNA-seq. Nat Methods,
5(7):621-628.
MORTON, N.E. Sequential tests for the detection of linkage. American Journal of Human
Genetics, v.7, p. 277-318, 1955.
MRODE, R. A. Linear models for the prediction of animal breeding values. Wallingford: CAB
International, 2005. 2 Edition.
MRODE, R.; COFFEY, M.; BERRY, D.P. Understanding genomic evaluations from
various evaluation methods and GMACE. Interbull Bulletin, v. 42, p. 52-55, 2010.
MUIR, W. M. Comparison of genomic and traditional BLUP-estimated breeding value
accuracy and selection response under alternative trait and genomic parameters. Journal of
Animal Breeding and Genetics, v. 124, p. 342-355, 2007.

278

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

MUIR, W.M. Incorporation of competitive effects in forest trees or animal breeding


programs. Genetics, v. 170, p. 1247-1259, 2005.

NEJATI-JAVAREMI, A.; SMITH, C.; GIBSON, J.P. Effect of total allelic


relationship on accuracy of evaluation and response to selection. Journal of Animal
Science, v. 75, p. 1738 - 1745,1997.
DEGRD J.; MEUWISSEN T.H. Estimation of heritability from limited family data
using genome-wide identity-by-descent sharing. Genet Sel Evol, v.44, n.1, p.16, 2012.
OLIVEIRA, E. J.; RESENDE, M.D.V; SANTOS, V.S. et al. Genome-wide selection in
cassava. Euphytica, v. 187, p.263-276, 2012.
OTTO, M. Chemometrics: Statistics and Computing Aplication in Analytical Chemistry.
Wiley, 2007. 321p.
PARK, T.; CASELLA, G. The Bayesian LASSO. Journal of the American Statistical
Association, v. 103, n. 482, p. 681-686, 2008. DOI: 10.1198/016214508000000337
PATTERSON, H. D.; THOMPSON, R. Recovery of inter-block information when block
sizes are unequal. Biometrika, v. 58, p. 545-554, 1971.
PEARSON, K. Mathematical contributions to the theory of evolution. XI. On the influence
of natural selection on the variability and correlation of organs. Philosophical Transactions
of the Royal Society of London, Section A, v. 200, p. 1-66, 1903.
PETERNELLI L.A.; RESENDE M.D.V.; MENDES T.O.P. (2011) Experimentao e anlise
estatstica em cana-de-acar. In Santos FA, Borm A and Caldas C (eds). Cana-de-acar.
Editora UFV, Viosa, p. 333-353.
PEREZ, P.; CAMPOS, G; CROSSA, J.; GIANOLA, D. Genomic-enabled prediction based
on molecular markers and pedigree using the BLR package in R. Plant Genome, v. 3, n. 2, p.
106116, 2010.
PREZ-ENCISO, M.; MISZTAL, I. Qxpak: A versatile mixed model application for
genetical genomics and QTL analyses. Bioinformatics, v.20, p. 2792-2798, 2004.
PEREZ-ENCISO, M.; TORO, M. A.; TENENHAUS, M; GIANOLA, D. Combining gene
expression and molecular marker information for mapping complex trait genes: a simulation
study. Genetics, v. 164, p.1597-1606, 2003.
PEREZ-ENCISO, M.; VARONA, L. Quantitative trait loci mapping in F2 crosses between
outbred lines. Genetics, v.155, p.391405, 2000.
POWELL, J. E.; VISSCHER, P. M.; GODDARD, M. E. Reconciling the analysis of IBD
and IBS in complex trait studies. Nature Reviews Genetics, London, v. 11, p. 800-805, 2010.
PRITCHARD, J. K.; PRZEWORSKI, M. Linkage disequilibrium in humans: models and
data. American Journal of Human Genetics, v. 69, p.1-14, 2001.
RAMALHO, M.A.P.; SANTOS, J.B. dos; PINTO, C.A.B.P. Gentica na agropecuria.
Lavras: UFLA, 2008. 463p.

279

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

RESENDE, M. D. V. de; OLIVEIRA, E. B.; HIGA, A. R. Utilizao de ndices de seleo


no melhoramento do Eucalyptus. Pesquisa Florestal Brasileira, Colombo, n. 21, p. 1-13, 1990.
RESENDE, M. D. V. de; HIGA, A. R.; LAVORANTI, O. J. Predio de valores genticos
no melhoramento de Eucalyptus melhor predio linear (BLP). In: Congresso Florestal
Brasileiro, 7, 1993, Curitiba. Anais..., Curitiba: SBS, 1993. p. 144-147.
RESENDE, M. D. V. de; HIGA, A. R. Maximizao da eficincia da seleo em testes de
prognies de Eucalyptus atravs da utilizao de todos os efeitos do modelo matemtico.
Pesquisa Florestal Brasileira, Colombo, v. 28/29, p. 37-55, 1994.
RESENDE, M. D. V. de; OLIVEIRA, E. B. DE; MELINSKI, L. C.; GOULART, F. S.;
OAIDA, G. R. SELEGEN - Seleo Gentica Computadorizada: manual do usurio. Colombo:
Embrapa Florestas, 1994. 31 p.
RESENDE, M. D. V. de; PRATES, D. F.; JESUS, A.; YAMADA, C. K. Estimao de
componentes de varincia e predio de valores genticos pelo mtodo da mxima
verossimilhana restrita (REML) e melhor predio linear no viciada (BLUP) em Pinus.
Pesquisa Florestal Brasileira, Colombo, n.32/33, p.18-45, 1996.
RESENDE, M. D. V. de. Avanos da gentica biomtrica florestal. In: Bandel, G.; Vello, N.
A.; Miranda Filho, J. B. (Ed.). Encontro sobre temas de gentica e melhoramento: gentica
biometrica vegetal. Anais. Piracicaba: Esalq/Usp, 1997. p.20-46.
RESENDE, M. D. V., FERNANDES, J. S. C., SIMEO, R.M. BLUP individual
multivariado em presena de interao gentipos x ambientes para delineamentos
experimentais repetidos em vrios ambientes. Revista de Matemtica e Estatstica, v.17,
p.209-228, 1999.
RESENDE, M. D. V. de; ROSA-PEREZ, J. R. H. Gentica Quantitativa e Estatstica no
Melhoramento Animal. Curitiba: Imprensa Universitria - UFPR, 1999. 496 p.
RESENDE, M. D. V. Inferncia bayesiana e simulao estocstica (amostragem de Gibbs)
na estimao de componentes de varincia e valores genticos em plantas perenes. Colombo:
Embrapa Florestas, 2000. 68 p.
RESENDE, M. D. V. Anlise estatstica de modelos mistos via REML/BLUP no
melhoramento de plantas perenes. Colombo : Embrapa Florestas, 2000. 101 p.
RESENDE, M. D. V., STURION, J. A. Anlise gentica de dados com dependncia espacial
e temporal via modelos geoestatsticos e de sries temporais via REML/BLUP. Colombo :
Embrapa Florestas, 2001. 79p.
RESENDE, M. D. V., DUDA, L. L., GUIMARES, P. R. B., FERNANDES, J. S. C.
Anlise de modelos lineares mistos via Inferncia Bayesiana. Revista de Matemtica e
Estatstica. , v.21, p.41-70, 2001.
RESENDE, M. D. V., REZENDE, G. D. S. P., FERNANDES, J. S. C. Regresso aleatria e
funes de covarincia na anlise de medidas repetidas. Revista de Matemtica e Estatstica.
, v.19, p.21-40, 2001.

280

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

RESENDE, M.D.V. Gentica Biomtrica e Estatstica no Melhoramento de Plantas


Perenes. Braslia: Embrapa Informao Tecnolgica, 2002. 975p.
RESENDE, M. D. V., BIELE, J. Estimao e predio em modelos lineares generalizados
mistos com variveis binomiais. Revista de Matemtica e Estatstica, v.20, p.30-65, 2002.
RESENDE, M. D. V., STURION, J. A. Anlise estatstica espacial de experimentos via
modelos mistos individuais com erros modelados por processos ARIMA em duas dimenses.
Revista de Matemtica e Estatstica, v.21, p.7-33, 2003.
RESENDE, M. D. V. de; THOMPSON, R. Multivariate spatial statistical analysis of
multiple experiments and longitudinal data. Colombo: Embrapa Florestas, 2003. 126 p.
(Embrapa Florestas. Documentos, 90).
RESENDE, M. D. V., THOMPSON, R. Factor analytic multiplicative mixed models in the
analysis of multiple experiments. Revista de Matemtica e Estatstica , v.22, p.1-22, 2004.
RESENDE, M. D. V., STRINGER, J. K.; CULLIS, B. R.; THOMPSON, R. Joint
modelling of competition and spatial variability in forest field trials. Revista de Matemtica
e Estatstica, v.22, p.7 - 22, 2005.
RESENDE, M. D. V. de; THOMPSON, R.; WELHAM, S. Multivariate spatial statistical
analysis of longitudinal data in perennial crops. Revista de Matemtica e Estatstica , v.24,
p.147-169, 2006.
RESENDE, M. D. V. de. SelegenReml/Blup: Sistema Estatstico e Seleo Gentica
Computadorizada via Modelos Lineares Mistos. Colombo: Embrapa Florestas, 2007. 360 p.
RESENDE, M. D. V. de; DUARTE, J. B. Preciso e controle de qualidade em experimentos
de avaliao de cultivares. Pesquisa Agropecuria Tropical, v. 37, n. 3, p. 182-194, 2007.
RESENDE, M. D. V. Seleo genmica ampla (GWS) e modelos lineares mistos. In:
Matemtica e Estatstica na Anlise de Experimentos e no Melhoramento Gentico.
Colombo: Embrapa Florestas, 2007. p. 517-534.
RESENDE, M. D. V. de; LOPES, P. S.; SILVA, R.L.; PIRES, I.E. Seleo genmica ampla
(GWS) e maximizao da eficincia do melhoramento gentico. Pesquisa Florestal
Brasileira, v. 56, p. 63-78, 2008.
RESENDE, M. D. V. Genmica Quantitativa e Seleo no Melhoramento de Plantas
Perenes e Animais. Colombo: Embrapa Florestas, 2008. 330 p.
RESENDE M. D. V.; RESENDE JUNIOR, M. F. R.; AGUIAR, A. M.; ABAD, J. I. M.;
MISSIAGGIA A. A.; SANSALONI, C.; PETROLI, C.; GRATTAPAGLIA, D.
Computao da seleo genmica ampla (GWS). Colombo: Embrapa Florestas. 2010. 79 p.
RESENDE M. D. V.; SILVA, F. F.; VIANA, J. M. S.; PETERNELLI, L. A.; RESENDE
JUNIOR, M. F. R.; VALLE, P.R.M. Mtodos estatsticos na seleo genmica ampla.
Colombo: Embrapa Florestas. 2011. 106 p.

281

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

RESENDE M. D. V.; SILVA, F. F.; VIANA, J. M. S. I-BAYES-BLUP: Improved Bayesian


BLUP method for estimating variance components and breeding values. Viosa, 2012 (a ser
publicado).
RESENDE, M. D. V., RESENDE JR., M.F.R., SANSALONI, C.; PETROLI, C.;
MISSIAGGIA, A. A.; AGUIAR, A. M.; ABAD, J.I.M.; TAKAHASHI, E.; ROSADO, A.
M.; FARIA, D.; PAPPAS, G.; KILIAN, A.; GRATTAPAGLIA, D. Genomic Selection for
growth and wood quality in Eucalyptus: capturing the missing heritability and accelerating
breeding for complex traits in forest trees. New Phytologist, v.194, p.116-128, 2012.
RESENDE JR., M. F. R. Seleo genmica ampla no melhoramento vegetal. UFV, 2010. 67
p. (Tese Mestrado).
RESENDE JR., M. F. R. Tecnologia RNA-Seq. Comunicao pessoal. 2012.
RESENDE JR., M.F.R. ; VALLE, P.R.M. ; RESENDE, M. D. V. ; GARRICK, D. J. ;
FERNANDO, R. L. ; DAVIS, J.M. ; JOKELA, E. J. ; MARTIN, T. A. ; PETER, G. F. ;
KIRST, M. Accuracy of genomic selection methods in a standard dataset of loblolly pine.
Genetics, v.190, p.1503 - 1510, 2012a.
RESENDE JR., M.F.R.; VALLE, P.R.M.; ACOSTA, J. J.; PETER, G. F.; DAVIS, J.M;,
GRATTAPAGLIA, D.; RESENDE, M. D. V.; KIRST, M. Accelerating the domestication
of trees using genomic selection: accuracy of prediction models across ages and
environments. New Phytologist, v.193, p.617 - 624, 2012b.
RESENDE JR., M.F.R. ; ALVES, A.A.; SANCHES, C.F.B; RESENDE, M. D. V.; CRUZ,
C.D. Seleo genmica ampla. In: CRUZ, C.D. et al. Genmica Aplicada. Viosa: Editora
Universitria, 2012c.
ROBERTSON, A. Prediction equations in quantitative genetics. Biometrics, Washington, v.
11, p. 95-98, 1955.
ROBINSON, D. L. That BLUP is a good thing: the estimation of random effects. Statistical
Science, Hayward, v. 6, p. 15-32, 1991.
ROCHA, G. S. Mtodos estatsticos na seleo genmica ampla para curvas de crescimento
em animais. 2011. Dissertao (Estatstica Aplicada e Biometria) - Universidade Federal de
Viosa.
RONNINGEN, K. Some properties of the selection index derived by Hendersons mixed
model method. Z. Tierz Zuchtungsbiol, v. 88, p. 186, 1971.
ROSA, G.J.M.; ROCHA, L.B.; FURLAN, L.R. Estudos de expresso gnica utilizando-se
microarrays: delineamento, anlise, e aplicaes na pesquisa zootcnica. Revista Brasileria de
Zootecnia, v. 36, p.185-209, 2007.
ROSSI, P.E.; ALLENBY, G.M.; MCCULLOCH, R. Bayesian Statistics and Marketing. New
York: Wiley Series in Probability and Statistics. 2005.

SALINAS, S. R. A. Introduo fsica estatstica. 2. ed. So Paulo: EDUSP, 2005. 462 p.

282

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

SCHAEFFER,
L.
R.
Linear
models.
1999.
Disponvel
em:
<www.http://cgil.uoguelph.ca/people/faculty/lschaeffer.html>. Acesso em: 15 jan. 2007.
SCHAEFFER, L. R.; DEKKERS, J. C. M. Random regressions in animal models for testday production in dairy cattle. WORLD CONGRESS OF GENETICS APPLIED TO
LIVESTOCK PRODUCTION, 5., 1994, Guelph. Proceedings... Guelph: University of
Guelph, 1994, v.18, p.443.
SCHFER, J.; STRIMMER, K. A shrinkage approach to large-scale covariance matrix
estimation and implications for functional genomics. Stat. Appl. Genet. Mol. Biol. 4: 32,
2005.
SCHUSTER, I.; CRUZ, C. D. Estatstica genmica aplicada a populaes derivadas de
cruzamentos controlados. Viosa: Editora UFV, 2004. 568 p.
SILVA, F. F. e.; ROSA, G. J. M.; GUIMARES, S. E.F.; LOPES, P. S.; de los CAMPOS,
G. Three-step Bayesian factor analysis applied to QTL detection in crosses between outbred
pig populations. Livestock Science, v. 4, p. 1, 2011.
SILVA, F. F. e.; SFADI, T. ; MUNIZ, J. A.; ROSA, G. J. M.; AQUINO, L. H.;
MOURO, G. B. Comparao bayesiana de modelos de previso de diferenas esperadas
nas prognies no melhoramento gentico de gado Nelore. Pesquisa Agropecuria Brasileira,
v. 43, p. 37, 2008.
SILVA, F. F. e.; SFADI, T. ; MUNIZ, J. A.; ROSA, G. J. M.; AQUINO, L. H.;
MOURO, G. B. ; SILVA, C. H. O. Bayesian analysis of autoregressive panel data model:
application in genetic evaluation of beef cattle. Scientia Agrcola, v. 68, p. 237-245, 2011.
SILVA, F. F. e.; VARONA, L.; RESENDE, M. D. V.; BUENO FILHO, J. S. S.; ROSA, G.
J. M.; VIANA, J. M. S. A note on accuracy of Bayesian LASSO regression in GWS.
Livestock Science, v. 141, n. 1-3, p. 310-314, 2011.
SILVA, M. A. ; THIEBAUT, J. T. L.; VALENTE, B. D.; TORRES, R. A.; FARIA, F. J. C.
Modelos lineares aplicados ao melhoramento gentico animal. 1. ed. Belo Horizonte MG:
PEPMVZ-Editora, 2008. 378 p.
SIMEAO, R. M.; CASLER, M.D.; RESENDE, M. D. V. Genomic selection in forage
breeding: designing an estimation population. In: Plant and Animal Genome Conference
XXI - 2013, San Diego. Abstracts of the Plant and Animal Genome Conference XXI, 2013.
SINGER, J. M.; STANEK, E. J.; LENCINA, V. B.; GONZLEZ, L. M.; LIE, W.;
MARTIN, S. S. Prediction with measurement errors in finite populations. Statistics and
Probability Letters, Amsterdam, v. 82, n. 2, Feb. 2011. DOI: 10.1016/j.spl.2011.10.013.
SOLBERG, T. R.; SONESSON, A. K.; WOOLLIAMS, J. A.; MEUWISSEN, T. H. E.
Reducing dimensionality for prediction of genome-wide breeding values. Genetics Selection
Evolution,
London,
v.
41,
n.
29,
2009.
Disponvel
em:
<http://www.gsejournal.org/content/41/1/29>. Acesso em 30/10/2010.
SOLBERG, T. R.; SONESSON, A.; WOOLIAMS, J.; MEUWISSEN, T. H. E. Genomic
selection using different marker types and density. In: WORLD CONGRESS OF
GENETICS APPLIED TO LIVESTOCK PRODUCTION, 8., 2006. Proceedings. Belo
Horizonte: Ed. da UFMG, 2006. 1 CD-ROM.

283

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

SORENSEN, D.; GIANOLA, D. Likelihood, Bayesian and MCMC methods in


quantitative genetics. New York: Springer Verlag, 2002. 740 p.
STEIN, C. Inadmissibility of the usual estimator for the mean of a multivariate normal
distribution. In: SYMPOSIUM ON MATHEMATICAL STATISTICS AND
PROBABILITY, 3., 1955, Berkeley. Proceedings... Berkeley: University of California Press,
1955. p. 197-206, 1955.
STONE, M. An asymptotic equivalence of choice of model by cross-validation and
Akaikes criterion. Journal of the Royal Statistical Society, Series B 39, 44-47, 1977.
STRAM, D. O.; LEE, J. W. Variance components testing in longitudinal mixed effects
setting. Biometrics, v. 50, p. 1171-1177, 1994.
SVED, J. A. Linkage disequilibrium and homozigosity of chromosome segments in finite
populations. Theoretical Population Biology, v.2, v.125-141, 1971.
TAKAHASHI, K.; FAGAN, J.; CHIN, M. S. Formation of a sparse bus impedance matrix
and its application to short circuit study. In: Institutional Pica Conference, 8, 1973.
Proceedings Minneapolis: IEEE Power Engineering Society, 1973. p.63.
TAL, O.; KISDI, E.; JABLONKA, E. Epigenetic contribution to covariance between
relatives. Genetics, v. 184, p. 1037-1050, 2010.
TEMPELMAN, R.J. Assessing statistical precision, power and robustness of alternative
experimental designs for two color microarray platforms based on mixed effects models.
Veterinary Immunology and Immunopathology, v.105, p. 175-186, 2005.
TENESA, A.; NAVARRO, T.; HAYES, B. J.; DUFFY, D. L.; CLARKE, G. M.;
GODDARD, M. E.; VISSCHER, P. M. Recent human effective population size estimated
from linkage disequilibrium. Genome Research, v. 17, p.520-526, 2007.
THOMPSON, R. Iterative estimation of variance components for non-orthogonal data.
Biometrics, v. 25, p. 767-773, 1969.
THOMPSON, R. Relationship between the cumulative difference and best linear unbiased
predictor methods of evaluating bulls. Animal Production, v. 23, p. 15-24, 1976.
THOMPSON, R. Sire evaluation. Biometrics, v. 35, p. 339-353, 1979.
THOMPSON, R. The estimation of heritability with unbalanced data. Biometrics, v. 33, p.
485-504, 1977.
THOMPSON, R. The estimation of variance and covariance components when records are
subject to culling. Biometrics, v. 29, p. 527-550, 1973.
THOMPSON, R. A review of genetic parameter estimation. In: WORLD CONGRESS
OF GENETICS APPLIED TO LIVESTOCK PRODUCTION, 7., 2002, Montpellier.
Proceedings. Paris: INRA, 2002. p. 19-23.

284

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

THOMPSON, R.; CULLIS, B. R.; SMITH, A. B.; GILMOUR, A. R. A sparse


implementation of the average information algorithm for factor analytic and reduced rank
variance models. Australian and New Zealand Journal of Statistics, v. 45, n. 4, p. 445-459,
2003.
THOMPSON, R; WRAY, N. R.; CRUMP, R. E. Calculation of prediction error variances
using sparse matrix methods. Journal of Animal Breeding and Genetics, v. 111, p. 102-109,
1994.
TIBSHIRANI, R. Regression shrinkage and selection via the Lasso. Journal of the Royal
Statistics Society Series B, v. 58, p.267-288, 1996.
USAI, M. G; GODDARD, M. E.; HAYES, B. J. LASSO with cross-validation for genomic
selection. Genetics Research, Cambridge, v. 91, n. 6, p. 427-36, Dec. 2009 .
VAN RADEN, P.M. Efficient methods to compute genomic predictions. Journal of Dairy
Science, v. 91, n. 11, p. 4414-4423, 2008.
VAN RADEN, P.M.; VAN TASSELL, C. P.; WIGGANS, G. R., SONSTEGARD, T. S.;
SCHNABEL, R. D.; SCHENKEL, F. Invited Review: Reliability of genomic predictions for
North American dairy bulls. Journal of Dairy Science, v. 92, n.1, p. 16-24, 2009.
VARONA, L. Aplicaciones del muestreo de Gibbs en modelos de gentica cuantitativa: analisis de
un caso de heterogeneidad de varianzas. Zaragoza: Universidad de Zaragoza, 1994. PhD.
Thesis.
VARONA, L.; MORENO, C.; GARCIA-CORTES, L. A.; ALTARRIBA, J. Estimacin
multicarcter de componentes de varianza y covarianza en vacuno lechero mediante
muestreo de Gibbs. Revista Portuguesa de Zootecnia, v. 1, p. 185-195, 1994.
VAZQUEZ, A. I.; ROSA, G. J.; WEIGEL, K. A.; CAMPOS, G. de los; GIANOLA, D.;
ALLISON, D. B. Predictive ability of subsets of SNP with and of parent average for several
traits in US Holsteins. Journal of Dairy Science, Champaign, v. 93, n. 1, p. 5942-5949. DOI:
10.3168/jds.2010-3335.
VENCOVSKY, R.; BARRIGA, P. Gentica biomtrica no fitomelhoramento. Ribeiro Preto:
Sociedade Brasileira de Gentica, 1992. 486 p.
VENCOVSKY, R.; CROSSA, J. Variance effective population size under mixed self and
random mating with applications to genetic conservation of species. Crop Science, v. 39, p.
1282-1294, 1999.
VIANA, J. M. S. RealBreeding. Viosa: UFV, 2011.
VIANA, J. M. S.; FARIA, V. R.; SILVA, F. F. ; RESENDE, M. D. V. Combined selection
of progeny in crop breeding using best linear unbiased prediction. Canadian Journal of Plant
Science, v. 92, p. On line 1st-doi:10.4141/CJP, 2012.
VIANA, J. M. S. ; LIMA, R. O.; FARIA, V. R.; MUNDIM, G. B. ; RESENDE, M. D.
V. ; SILVA, F. F. . Relevance of pedigree, historical data, dominance, and data unbalance for
selection efficiency. Agronomy Journal (Print), v. 104, p. 722-728, 2012.

285

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

VIANA, J. M. S. ; FARIA, V.; SILVA, F. F. ; RESENDE, M. D. V. Best linear unbiased


prediction and family selection in crop species. Crop Science, v. 51, p. 2371-2381, 2011.
VIANA, J. M. S.; ALMEIDA, R. V.; FARIA, V. R.; RESENDE, M. D. V.; SILVA, F. F.
Genetic evaluation of inbred plants based on BLUP of breeding value and general combining
ability. Crop & Pasture Science, v. 62, p. 515-522, 2011.
VIANA, J. M. S.; VALENTE, M. S. F.; SCAPIM, C. A.; RESENDE, M. D. V. ; SILVA, F.
F. Genetic evaluation of tropical popcorn inbred lines using BLUP. Maydica (Bergamo), v.
56, p. 273-281, 2011.
VIANA, J. M. S.; ALMEIDA, . F.; RESENDE, M. D. V.; FARIA, V. R.; SILVA, F.
F. BLUP for genetic evaluation of plants in non-inbred families of annual crops. Euphytica
(Wageningen), v. 174, p. 31-39, 2010.
VIANA, J. M. S. ; SOBREIRA, F. M. ; DE RESENDE, M. D. V. ; FARIA, V. R. Multitrait BLUP in half-sib selection of annual crops. Plant Breeding, v. 129, p. 599-604, 2010.
VISSCHER, P. M.; HILL, W. G.; WRAY, N. R. Heritability in the genomics era: concepts
and misconceptions. Nature Reviews Genetics, London, v. 9, p. 255-266, 2008.
VISSCHER, P. M.; MEDLAND, S. E.; FERREIRA, M. A. R.; MORLEY, K. I.; ZHU G, et
al. (2006) Assumption-free estimation of heritability from genome-wide identity-by-descent
sharing between full siblings. PLoS Genetics, v.2, n.3, e41, 2006.
VISSCHER, P. M.; YANG, J.; GODDARD, M. E. A commentary on Common SNPs
explain a large proportion of the heritability for human height by Yang et al. (2010). Twin
Research and Human Genetics, v. 13, n. 6, p. 517524, 2010.
VLECK, L. D; CASSADY, J. P. Unexpected estimates of variance components with a true
model containing genetic competition effects. Journal of Animal Science, v. 83, p. 68-74,
2005.
WANG, T.; FERNANDO, R. L.; GROSSMAN, M. Genetic evaluation by best linear
unbiased prediction using marker and trait information in a multibreed population.
Genetics, v. 148, p. 507-515, 1998.
WELLER, J. I. Quantitative trait loci analysis in animals. London: CABI Publishing, 2001.
287 p.
WELLER, J. I.; SHLEZINGER, M.; RON, M. Correcting for bias in estimation of
quantitative trait loci effects. Genetics Selection Evolution, v. 37, p. 501-522, 2005.
WELLER, J.L. Maximum likelihood techniques for the mapping and analysis of
quantitative trait loci with the aid of genetic markers. Biometrics, v.42, p.627-640, 1986.
WHITE, I. M. S.; THOMPSON, R.; BROTHERSTONE, S. Genetic and environmental
smoothing of lactation curves with cubic splines. Journal of Dairy Science, v. 82, p. 632-638,
1999.
WHITTAKER, J.C.; THOMPSON, R.; DENHAM, M.C. Marker assisted selection using
ridge regression. Genetical Research, v. 75, p.249-252, 2000.

286

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

WOLD, S.; SJSTRM, M.; ERIKSSON, L. PLS-regression: a basic tool of chemometrics,


Chemometrics and Intelligent Laboratory Systems, Amsterdam, v. 58, 109130, 2001.
WOLFINGER, R.D.; GIBSON, G;. WOLDINGER, E.D. et al. Assessing gene significance
form cDNA microarrayexpression data via mixed models. Journal of Computational
Biology, v.8, n.6, p. 625-637, 2001.
WRAY, N. R. Allele frequencies and the r2 measure of linkage disequilibrium: impact on
design and interpretation of association studies. Twin Research and Human Genetics, v. 8,
p. 87-94, 2005.
WRAY, N. R.; GODDARD, M. E.; VISSCHER, P. M. Prediction of individual risk to
disease from genome-wide association studies. Genome Research, New York, v. 17, p. 1520
1528, 2007.
YANG, J.; BENYAMIN, B.; MCEVOY, B. P.; GORDON, S.; HENDERS, A. K.;
NYHOLT, D. R.; MADDEN, P. A.; HEATH, A. C.; MARTIN. N. G.;
MONTGOMERY, G. W.; GODDARD, M. E.; VISSCHER, P. M. Common SNPS
explain a large proportion of the heritability for human height. Nature Genetics, New York,
v. 42, n. 7, p. 565-569, 2010.
YANG, J.; LEE, S. H.; GODDARD, M. E.; VISSCHER, P. M. GCTA: a tool for genomewide complex trait analysis. The American Journal of Human Genetics, v. 88, p. 76-82, 2011.

YANG, W; TEMPELMAN, R.J. A Bayesian antedependence model for whole


genome prediction. Genetics, 2012.
YATES, F. A new method of arranging variety trials involving a large number of varieties.
Journal of Agricultural Sciences, v. 26, p. 424-455, 1936.
YATES, F. The analysis of multiple classifications with unequal numbers in the different
classes. Journal of the American Statistical Association, v. 29, p. 51-66, 1934.
ZEGER, S. L.; LIANG, K. Y.; ALBERT, P. S. Models for longitudinal data: a generalized
estimation approach. Biometrics, v. 44, p. 1049-1060, 1988.
ZENG, Z. Precision mapping of quantitative loci. Genetics, v.136, p.1457-1468, 1994.
ZENGER, K.R.; KHATKAR, M. S.; CAVANAGH, J. A.; HAWKEN, R. J.;
RAADSMA, H. W. Genome-wide genetic diversity of Holstein Friesian cattle reveals
new insights into Australian global population variability, including impact of selection.
Animal Genetics. v.38, p.7-14, 2007.
ZHAO, H.; NUTTLETON, D.; SOLLER, M.; DEKKERS, J. C. M. Evaluation of linkage
disequilibrium measures between multi-allelic markers as predictors of linkage
disequilibrium between markers and QTL. Genetical Research, v. 80, p. 77-97, 2005.
ZOLLENKOPF, K. Bi-Factorisation - Basic computational algorithm and programming
techniques. In: REID, J. K. (Ed.). Large sparse sets of linear equations. London: Academic
Press, 1971. p. 75-96.
ZOU, H.; HASTIE, T. Regularization and variable selection via the elastic net. Journal of
the Royal Statistical Society B, Oxford, v. 67, p. 301-320, 2005.

287

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

9 Fotos de Pesquisadores com Participao Relevante na Evoluo dos


Mtodos Estatsticos de Avaliao Gentica

Foto 1: Criadores da Estatstica e Biometria na Inglaterra (Rothamsted): Karl Pearson


esquerda; Ronald Fisher, ao centro e Frank Yates direita.

Foto 2: Criador e especialista no uso do mtodo do ndice de seleo na estimao de valores


genticos (Jay Lush, esquerda; Dale Van Vleck, direita).

Foto 3: Criadores e difusores do uso dos mtodos BLUP (Charles Henderson, esquerda) e
Bayesianos (Daniel Gianola, ao centro) na estimao de valores genticos; direita, Richard
Quaas, especialista em matriz de parentesco e modelo animal.

288

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Foto 4: Criadores do procedimento de seleo genmica ampla (GWS) (Theo Meuwissen,


esquerda, Mike Goddard, ao centro e Ben Hayes direita).

Foto 5: Criador do mtodo REML e mtodo numrico de Informao Mdia (AI) (Robin
Thompson, esquerda) e autor do software ASREML (Arthur Gilmour, ao centro); John
Nelder, criador da tcnica GLMM e do software Genstat em Rothamsted ( direita).

Foto 6: Autores do software ASREML: Arthur Gilmour, ao centro, Brian Cullis, esquerda
e Robin Thompson, direita.

Foto 7: Criadores do mtodo de anlise espacial via processos ARIMA separveis em duas
direes (AR1AR1) e autores do software ASREML: Arthur Gilmour, esquerda e Brian
Cullis, direita.

289

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Foto 8: Larry Schaeffer, um dos pioneiros dos modelos de regresso aleatria multivariada e
Raphael Mrode, autor de compreensivo livro sobre modelos mistos e regresso aleatria.

Foto 9: Rohan Fernando, pioneiro na anlise de ligao gnica via BLUP e um dos pioneiros
(juntamente com Daniel Gianola) no uso da Inferncia Bayesiana no melhoramento
gentico; Ignacy Misztal, cone dos mtodos computacionais no melhoramento gentico;
Miguel Prez-Enciso, autor do software QxPack.

Foto 10: cones dos Modelos Lineares e Componentes de Varincia: Shayle Searle, David
Harville e Jean Louis Foulley, respectivamente.

Foto 11: Robert Tibshirani, Gustavo de los Campos e Andrs Legarra: autores dos mtodos
LASSO, BLASSO e IBLASSO, respectivamente.

290

Seleo Genmica Ampla (GWS) via Modelos Mistos (REML/BLUP), Inferncia Bayesiana (MCMC), Regresso Aleatria (RR) e Estatstica Espacial
Marcos Deon Vilela de Resende; Fabyano Fonseca e Silva; Paulo Svio Lopes; Camila Ferreira Azevedo
____________________________________________________________________________________

Foto 12: Pioneiros e cones da Gentica de Populaes: Sewall Wright , Alan Robertson,
Gustave Malecot e William Hill, respectivamente.

Foto 13: cones da Gentica Quantitativa Humana: Robert Elston, Kenneth Lange, Peter
Visscher e Naomi Wray, respectivamente.

Foto 14: Roland Vencovsky e Martinho Almeida e Silva: pioneiros e expoentes da Gentica
Quantitativa Vegetal e Animal no Brasil, respectivamente; Newton Freire-Maia, pioneiro da
Gentica de Populaes Humanas no Brasil.

291

Você também pode gostar