Escolar Documentos
Profissional Documentos
Cultura Documentos
net/publication/286931183
CITATION READS
1 602
4 authors:
Some of the authors of this publication are also working on these related projects:
PE PNCyO1127022 período 2013-2018. Identificación de situaciones de riesgo, impacto em los territórios y medidas de manejo para
reducir la contaminación com produtos fitossanitários em grano de Cereales y oleaginosas View project
All content following this page was uploaded by Mónica Balzarini on 16 December 2015.
2006
Info-Gen es un software para análisis estadístico de datos genéticos que implementa una
variedad de técnicas de análisis en un ambiente integrado capaz de procesar grandes
volúmenes de datos. Info-Gen es un software de desarrollo nacional orientado al análisis
estadístico genómico y sus aplicaciones en el Mejoramiento Genético Vegetal. Este
software fue desarrollado en el marco de dos proyectos trianuales (Agencia Córdoba
Ciencia, Nro 034002316600) y (FONCyT PICT/2000, Nro. 0808302) por docentes-
investigadores de Estadística y Biometría con sede en la Facultad de Ciencias
Agropecuarias de la Universidad Nacional de Córdoba. Este documento contiene
aplicaciones de Info-Gen para el análisis de datos de marcadores genéticos ya sean
moleculares, morfológicos y/o bioquímicos.
La cita bibliográfica para este documento preparado para el minicurso “Taller de Análisis de
Datos de Marcadores con Info-Gen” organizado por el XXXV Congreso Argentino de Genética
que se realizó en Septiembre del 2006 en San Luis, Argentina, es:
Balzarini, M, Arroyo A., Bruno, C. y Di Rienzo, J. 2006. Análisis de datos de marcadores con
Info-Gen. XXXV Congreso Argentino de Genética, San Luis. Argentina.
ii
iii
Tabla de Contenidos
Referencias Bibliográficas.............................................................................................. 91
iv
v
Parte I: Sobre Info-Gen
I.1. Ambiente de trabajo
Info-Gen trabaja con tres tipos de ventanas: la ventana donde se encuentran los datos
(Datos), aquella donde se muestran y acumulan los resultados de los procedimientos
solicitados (Resultados) y la ventana donde se muestran y acumulan los gráficos
realizados por el usuario (Gráficos). Si se maximiza la ventana Resultados cuando
recién se abre el programa, Info-Gen reportará que no hay resultados disponibles. Esta
ventana irá recibiendo contenido a medida que se ejecuten acciones (análisis) que
produzcan resultados. Las ventanas Gráficos y Herramientas Gráficas sólo se activan
cuando se ha producido un gráfico. Varias ventanas de Datos pueden mantenerse
abiertas simultáneamente. En tal caso la ventana activa es aquella que presenta el marco
superior coloreado (no gris). Todas las acciones serán ejecutadas sobre la ventana de
datos activa. Las ventanas Resultados y Gráficos contienen una hoja para cada
resultado y/o gráfico producido. El usuario puede moverse a través de las distintas hojas
haciendo un clic sobre las solapas que se encuentran al pie de la ventana y que indexan
las salidas.
2
EDICIÓN En el menú EDICIÓN se encuentran los comandos para cortar,
copiar y pegar información desde ventanas de datos, resultados y
gráficos. Info-Gen permite importar información de bases de
datos desde otros programas para análisis genéticos que producen
archivos de texto y también información parcialmente procesada
como son las matrices de distancias obtenidas a partir de otros
programas de análisis de datos genéticos. Esta posibilidad permite
procesar con técnicas multivariadas diversas, datos de secuencias
de nucleótidos o aminoácidos que han sido previamente alineadas
con programas específicos
3
copiados utilizando el menú EDICIÓN (Copiar) y luego
pegados en el procesador de texto, siendo ésta la manera más
simple de transportar los resultados de Info-Gen a un documento
o informe escrito. El uso de los comandos Copiar y Pegar también
es la forma más sencilla de importar y exportar datos entre Info-
Gen y un procesador de texto o una planilla de cálculo como por
ejemplo Excel. Para simplificar la migración de planillas de datos,
Info-Gen provee al usuario con los comandos Copiar y Pegar
con nombres de columnas para conservar los nombres o etiquetas
de columnas. También es posible importar y exportar información
en formato ASCII.
4
GENÉTICA En el menú GENÉTICA Info-Gen ofrece la posibilidad de
realizar análisis estadísticos propios de estudios genéticos. Con el
comando exploración de datos es posible determinar el número
de marcadores duplicados, polimórficos, invariantes, etc., estimar
medidas de variabilidad genética como porcentajes de loci
polimórficos, heterocigosis media, frecuencias alélicas, entre otras
como frecuencias genotípicas esperadas, coeficientes de
desequilibrio alélico, calcular distancias o similitudes de a pares,
realizar análisis molecular de la varianza, clasificar y ordenar
individuos o muestras. Todos los comandos que se despliegan a
partir del menú GENETICA activan una ventana del mismo tipo
que la del menú ESTADÍSTICAS llamada “Selector de
Variables”.
5
Gen pueden ser guardados o copiados y pegados a cualquier
aplicación Windows que soporte imágenes (metarchivo mejorado)
usando los clásicos comandos Windows de copiado y pegado (o
pegado especial).
6
I.2. Tipos de tablas de datos
- M A B C D E F G H +
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13
7
Cuando los marcadores se disponen en columnas y las observaciones en fila, Info-Gen
puede interpretar dos tipos de tablas: a) Formato extendido y b) Formato compactado.
Los datos pueden disponerse en una matriz donde las filas representan las muestras y las
columnas los marcadores o loci. Los datos de marcadores pueden ser de tipo binarios
(Ejemplo 1) o genotípicos (Ejemplo 2). Todas las aplicaciones del menú GENETICA
interpretan este tipo de formato de tabla.
8
Ejemplo 2. Marcadores en columnas, formato Extendido, datos genotípicos
9
Figura 4. Marcadores RFLP. Haplotipos de ADN mitocondrial humano (Excoffier et al,
1992). (archivo: AMOVA Haplotipo.idb) Solo se muestran 9 marcadores y 15
observaciones.
10
Figura 6. Marcadores Isoenzimas (Archivo: FrecuenciasHaplotípicas.idb, gentileza:
Biol. Norma Julio, FCEFyN-UNC)
Info-Gen también puede interpretar tablas de datos donde cada fila representa una banda
o marcador y cada columna una muestra (Ejemplo 6).
11
Parte II: Menú Genética
II.1. Descriptiva de marcadores
Para realizar Exploración de datos el formato de la tabla debe ser del tipo marcadores en
columnas formato extendido ya sea de datos binarios, genotípicos o haplotípicos. Ir a
menú GENETICA, comando Descriptiva para datos de marcadores se despliega la
ventana “selector de variables” que permite seleccionar aquellos marcadores
(columnas) para los que se requiere la descripción. Al aceptar, se despliega una ventana
que contiene las opciones de cálculo, que el usuario puede seleccionar (Figura 8).
13
bandas duplicados. Bandas Monomórficas determina el número de marcadores que no
varían a través de todo el perfil de observaciones, es decir aquellos marcadores que, por
ejemplo, son siempre cero o son siempre 1, si se selecciona la opción marcar, Info-Gen
pinta de color amarillo, sobre la tabla de datos, las columnas (bandas) monomórficas y
presenta en la ventana de Resultados un cuadro que lista las bandas (columnas)
monomórficas. Bandas polimórficas (%) calcula el porcentaje de marcadores
polimórficos. Primers, si se trata de marcadores donde cada columna contiene una de
las bandas de un primer, ésta opción determina el número de primers o grupos de
marcadores. Sobre el espacio en blanco que se encuentra al pie de la ventana de
opciones se indica el carácter/es separador/es primer-banda. Por ejemplo: si los
nombres de las bandas están dados de la siguiente manera: OPAs07#400bp,
OPAs07#500bp, OPAs07#564bp el carácter de separación primer-banda es “#“, en este
caso el nombre del primer es OPAs07. A la derecha de la ventana de opciones se
encuentra la lista de nombres de columnas (marcadores o bandas), una vez ingresado el
carácter separador del nombre del primer, muestra la lista de nombres de primer que
está interpretando. Por defecto Info-Gen espera un carácter separador del nombre del
primer, cuando no se indica un carácter separados de primers-banda, se abre una
ventana de diálogo que consulta si es un error o no se tiene grupos (Figura 9).
Además de las opciones antes detalladas, Info-Gen calcula por defecto, para cada
primers (o grupo de marcador) el número de bandas polimórficas (BP), número de
bandas monomórficas (BM) y número de bandas totales (BT), la proporción de loci
polimórficos (PMF(95))1, el contenido de información polimórfica (PIC) 1 promedio,
el error estándar del PIC (EE), el porcentaje de amplificación (porcentaje de datos
iguales a 1) y la probabilidad que dos individuos compartan el mismo alelo
1
Ver Variabilidad Genética
14
(PDICMA). La probabilidad de que dos individuos (muestras) compartan el mismo
alelo se calcula como Pi(XD)n, donde (XD) representa el índice de similitud promedio
para todos los pares de comparaciones, calculado como XD=(2NAB)/(NA+NB), donde
NAB representa el número de bandas presentes en ambas muestras, NA y NB representan
el número total de bandas en las muestras A y B respectivamente, y n representa el
número promedio de productos de amplificación por muestra (Wetton et al.,1987)
Resumen Datos
Muestras 50.00
Muestras Duplicadas 1.00
Bandas (número) 103.00
Patrón bandas duplicadas 0.00
Bandas monomórficas 0.00
Bandas polimorficas (%) 100.00
Primers 8
15
Interpretación
De las 50 muestras (materiales) una se encuentra duplicada. Todos los marcadores son
polimórficos (100%) y hay 8 grupos de marcadores o primers. El primer que más
bandas amplificó fue el OPAs07 (20 bandas) con un 14.7 % de amplificación a través de
las 50 muestras. Los valores de contenido de información polimórfica fueron obtenidos
con los primers OPMs18, OPYs07 y OPYs09, que es más que el 50% que el rango
teórico del contenido de información polimórfica (0.01 a 0.50) el cual es muy
informativo y será útil en subsecuentes estudios de “fingerprinting”. La menor
probabilidad de que dos individuos compartan el mismo alelo por primer fue encontrada
para el primer OPYs07. Esto indica que dicho primer mostró un alto grado de confianza
en la identificación de, hasta 1015, cultivares de caña de azúcar comparados
simultáneamente. Estos resultados también muestran que el primer OPMs04 tiene los
menores valores de capacidad discriminatoria y contenido de información polimórfica;
el resto de los primers mostraron similar capacidad discriminatoria.
16
II.2. Variabilidad Genética
Hay diferentes maneras de medir variación genética. Los descriptores más simples son
las frecuencias alélicas y las frecuencias genotípicas que se obtienen en la solapa
Frecuencias de Info-Gen. También se usan como indicadores de variabilidad genética
medidas de resumen tales como heterocigosis y diversidad genética. En el menú
GENÉTICA, comando Variabilidad genética, solapa Frecuencias se presentan las
opciones para el cálculo de casos por locus (número de observaciones por locus), de
frecuencias alélicas y genotípicas por locus, así como la posibilidad de obtener medidas
resúmenes (media, error estándar (E.E.), desvío estándar (D.E.), Mínimo y máximo) de
éstas frecuencias a través de los subgrupos de datos que pudieran existir.
Al seleccionar la solapa Medidas, Info-Gen permite calcular para todos los loci las
siguientes medidas de variabilidad genética: proporción de loci polimórfico, diversidad
genética, heterocigosis media por conteo directo y heterocigosis media insesgada,
contenido de información polimórfica (PIC), número de alelos efectivos, media del
número de alelos por locus y media del número de alelos efectivos. Las medidas
seleccionadas pueden obtenerse para cada nivel de un factor de clasificación sin tener en
cuenta el criterio de clasificación seleccionado, es decir, a través de todos los grupos de
muestras que se tengan.
Para cada locus, Info-Gen permite calcular diversidad genética, heterocigosis, contenido
de información polimórfico (PIC) y número de alelos efectivos. Estas medidas son
calculadas para cada grupo de muestras conformado según factor indicado como criterio
de clasificación en el “selector de variables”. Cuando existe un criterio de clasificación
también se puede solicitar: a) gráficos de perfiles promedios, b) medidas resúmenes a
través de grupos y c) realizar una prueba estadística para comparar el nivel medio de la
medida de variabilidad genética seleccionada entre grupos (Prueba T apareada, Prueba
no paramétrica de Wilcoxon o Prueba no paramétrica de Friedman). Para cada una de
las medidas de variabilidad seleccionadas es posible obtener además su error estándar
(EE) y el intervalo de confianza derivada a partir de técnicas de re-muestreo (Bootstrap
y Jackknife).
17
Solapa Frecuencias
18
Cuadro 2.
19
Cuadro 2. Resultados Ejemplo 8.
Variabilidad genética
20
Interpretación
Se puede observar que algunos alelos tienen frecuencia cero en algunas poblaciones
(alelo C del locus 3 en la Población 1 y 2), otro alelo (B) en ese locus tiene una
frecuencia muy alta sugiriendo escasa variabilidad genética a niveles de Locus 3 en la
Población 1. La segunda Tabla muestra las frecuencias genotípicas por locus. Cuando se
colectan datos genotípicos, las frecuencias genotípicas constituyes los primeros
descriptores de cada población. Cuando las poblaciones son muestreadas en tal forma
que cada miembro de la población tiene igual chance de estar en la muestra, y los
individuos son muestreados independientemente, los conteos o frecuencias absolutas de
genotipo tienen distribuciones multinomiales. Cuando se trabaja bajo la aproximación
de efectos fijos de población (i.e. las poblaciones bajo análisis han sido deliberadamente
seleccionadas por el investigador) las poblaciones para la misma especie se comparan
simplemente a través de la comparación de éstas frecuencias genotípicas. La
comparación a través de frecuencias genotípicas también es usada en situaciones donde
no se puede suponer que se cumpla el principio de Hardy-Weinberg. Bajo Hardy-
Weinberg, es posibles interpretar a lo datos como frecuencias alélicas multinomiales y
realizar comparaciones a nivel de frecuencias alélicas. En la Tabla resumen de
frecuencias genotípicas relativas por ejemplo, la frecuencia del genotipo AA en el
Locus 1 varió entre 0 (mínimo valor) a 0.054 (máximo valor); en promedio la
frecuencia fue de 0.026 (promedio ponderado por la cantidad de individuos en cada
población). Info-Gen también reporta la desviación típica (ponderada) de la frecuencia
observada en cada población respecto a la media general, valor que se denota como
D.E. Además se informa el error estándar (E.E.) de la estimación promedio, el cual debe
interpretarse como una medida de confiabilidad de la frecuencia media (ponderada) que
se reporta ya que éste depende del número de individuos usados en la estimación.
21
Solapa Medidas
Diversidad Genética
Es una medida de variabilidad apropiada para poblaciones endocriadas donde hay muy
pocos individuos heterocigotas pero muchos tipos diferentes de alelos que se encuentran
en homocigosis. La diversidad genética (múltiples loci) es una función de la
heterocigosis y se calcula a partir de la suma de cuadrados de frecuencias alélicas. Así,
1 m l 2
para m loci, la diversidad genética promedio es D = 1 − ∑∑ pij donde pij es la
m j =1 i =1
frecuencia del alelo i en el locus j. Para un locus la diversidad genética se calcula como
l
D = 1 − ∑ pi2 .
i =1
Heterocigosis
22
Si se considera una población con individuos diploides y cruzamientos aleatorios,
existen l(l+1)/2 genotipos posibles para un locus con l alelos codominantes. En dicha
población, l genotipos son homocigotas y l(l-1)/2 genotipos son heterocigotas. La
l l
heterocigosis esperada para un locus se define como: H e = 1 − ∑ pii donde ∑p ii es la
i =1 i =1
homocigotas. Es importante notar que la heterocigosis será mayor cuando hay más
alelos y/o cuando la distribución de las frecuencias alélicas sea menos uniforme.
i =1 i = 2 j =1
i −1 i −1
PIC = 2∑∑ ( pi p j ) − 2∑∑ ( pi2 p 2j )
l l
i = 2 j =1 i = 2 j =1
i −1
PIC = 2∑∑ ⎡⎣ pi p j (1 − pi p j ) ⎤⎦
l
i = 2 j =1
23
Cuando el número de alelos es grande, el contenido de información polimórfica se
aproxima a la heterocigosis. Cuando todos los alelos tienen igual frecuencia el PIC es
menor que la heterocigosis (Liu, 1998).
Es el promedio del número de alelos efectivos por locus calculado a través de todos los
loci.
Para obtener medidas de variabilidad genética para los tres primeros loci del Archivo
VG Isoenzimas ir a menú GENÉTICA, comando Variabilidad genética. Se desplegará
la ventana “selector de variables”. Una vez seleccionadas las variables de interés (Locus
1, Locus 2 y Locus 3) y el criterio de clasificación que conforma los grupos de interés
(Población), ir a la ventana de opciones de medidas y seleccionar aquellas que se desea
reportar (Figura 11).
24
Figura 11. Solapa Medidas. Menú GENETICA. Comando Variabilidad Genética.
25
Interpretación
0,7 0,7
0,4 0,4
0,3 0,3
0,2 0,2
Población 1 Población 2 Población 3 Población 1 Población 2 Población 3
Grupos Grupos
0,6 2,5
Alelos efectivos
PIC
0,4 2,0
0,3 1,5
0,2 1,0
Población 1 Población 2 Población 3 Población 1 Población 2 Población 3
Grupos Grupos
26
Comparación entre grupos
27
Prueba no paramétrica de Wilcoxon
El ANAVA propuesto por Friedman (1937) permite comparar las medias de 2 o más
grupos de datos controlando por el efecto de otro factor que genera variabilidad
sistemática dentro de grupos, como por ejemplo los distintos loci. Al ser una prueba no
paramétrica no es necesario verificar el cumplimiento del supuesto de normalidad
requerido para el uso del estadítico F del ANAVA paramétrico.
28
Cuadro 4: Resultados Ejemplo 10.
Variabilidad genética
Interpretación
La Población 3 parece tener más variabilidad genética que las otras, ya que su
heterocigosis y su PIC medio es mayor. La prueba sugiere que se rechace la hipótesis de
igualdad entre heterocigosis media (p=0.0494). Es decir, la probabilidad de que las
diferencias en heterocigosis sean sólo por azar es 0.0494. La prueba de comparaciones
múlptiples aplicada a posteriori de la Prueba de Friedman indica que la Población 3
tiene una heterocigosis media estadísticamente mayor a la de las Poblaciones 1 y 2. No
obstante, a nivel de PIC las diferencias entre poblaciones no son estadísticamente
significativa (p=0.4444). Al contemplar la co-variabilidad entre distintos alelos de un
locus, las diferencias entre poblaciones disminuyen. En cualquier contraste de hipótesis
el no rechazo de la hipótesis nula puede también deberse a una falta de potencia
estadística, producida por un n bajo. Es el contexto en que se usó la prueba, n es el
número de loci, para este ejemplo n es 3.
29
Estimaciones y medidas de confianza por re-muestreo
Los métodos de re-muestreo (toma de muestras desde una muestra) toman importancia
en situaciones donde se quiere comparar estadísticos o cálculos muestrales para los
cuales las distribuciones estadísticas muestrales son desconocidas o no existen.
Jackknife (Quenouille, 1949) y Bootstrap (Efron, 1979) son poderosos métodos
numéricos de re-muestro utilizados en tales situaciones. El procedimiento de re-
muestreo provee una simulación empírica de los componentes aleatorios del estadístico
de interés.
Bootstrap
Si consideramos una muestra original de tamaño n, ésta puede ser utilizada para obtener
varias muestras bootstrap. Una muestra bootstrap es obtenida por un muestreo aleatorio
con reposición desde la muestra original con reposición. Comúnmente las muestras
bootstrap tienen el mismo tamaño (n) que la muestra original.
Cuando se solicita un cálculo de error estándar (EE) por bootstrap para un estimador de
variabilidad genética, Info-Gen realiza el siguiente procedimiento:
∧
1. Obtiene una muestra bootstrap y calcula el estimador deseado ( θ ).
2
1 k ⎛ ∧ −B ⎞
del estimador es EE =
B
∑ ⎜θ i −θ ⎟
K − 1 i =1 ⎝ ⎠
30
Jackknife
La muestra original de tamaño n, puede ser utilizada para obtener n muestras jackknife.
Una muestra jackknife es obtenida desde la muestra original dejando fuera un objeto o
unidad muestral (la muestra jackknife es una muetra de tamaño n-1). La i-ésima muestra
jackknife es el conjunto de datos de la muestra original con el i-ésimo objeto removido.
Cuando se solicita un error estándar jackknife par el estimador de la variabilidad
∧
genética θ , Info-Gen realiza el siguiente procedimiento:
∧
1. Obtiene una muestra jackknife y calcula el estimador del parámetro deseado ( θ ).
2. Repite el paso anterior tantas veces como observacioenes haya excluyendo una
unidad muestral diferente cada vez. Para una muestra original de tamaño n, el
número total de muestras jackknife será n.
31
como los errores estándares pueden ser obtenidos por bootstrap o jackknife, con el error
estándar calculado Info-Gen construye intervalos de confianza para el nivel de
significación indicado (por ejemplo, 0.95).
32
Cuadro 5: Resultados Ejemplo 11.
Variabilidad genética
Interpretación
33
II.3. Equilibrio
homocigota aa = pa2 .
34
Ejemplo 12: Equilibrio. Archivo VG Isoenzimas
35
Tabla de frecuencias genotípicas esperadas (muestras pequeñas) bajo el modelo de
equilibrio de Hardy-Weimberg
Locus y genotipos en filas, poblaciones en columnas
Interpretación
En la primera tabla se muestran las frecuencias para cada genotipo del locus en estudio.
Cuando un genotipo está ausente Info-Gen reporta la sigla sd (sin dato). El estadístico
Chi-cuadrado es calculado como la suma de las diferencias (a través) de todos los
genotipos entre las frecuencias observadas y las esperadas al cuadrado sobre la
frecuencia esperada con l alelos en un locus, los conteos genotípicos en cada uno de los
grupos se arreglan en una tabla de contingencia l(l+1)/2×g y se usa el estadístico Chi-
cuadrado con [l(l+1)/2×g] ×(g-1) grados de libertad. Este valor se compara con el valor
de una variable Chi-cuadrada con los grados de libertad correspondientes, valores altos
de Chi-cuadrado conducen al rechazo de la hipótesis de proporciones esperadas bajo
Hardy-Weinberg. El valor-p indica la probabilidad de que las diferencias entre valores
observados y esperados sean por azar. Para el Locus 1 en la Población 1 y 2 es
suficientemente bajo (0.0000023 y 0.0003 respectivamente) por lo que se concluye que
las frecuencias genotípicas no sugieren la existencia de equilibrio. Para la Población 3 o
se rechaza la hipótesis de equilibrio.
36
En la segunda tabla reportada se contrastan las mismas hipótesis que en la primera, pero
usando el estadístico Chi-cuadrado sobre una tabla de clasificación cruzada reducida
conformada con tres clases: el genotipo homocigota (el alelo más frecuente), el genotipo
heterocigota para el alelo de mayor frecuencia y los otros genotipos juntos como una
nueva clase. Este método tiene como objetivo evitar el problema que podrían ocasionar
celdas de la tabla con conteos pequeños (el estadístico Chi-cuadrado podría no ser un
buen estadístico sobre tablas con frecuencias esperadas menores que cinco).
37
II.4. Análisis Molecular de la Varianza
Cuando algún factor realiza una subdivisión-partición de los individuos de una especie,
se espera que se incremente la diversidad genómica (Slatkin, 1987). Tradicionalmente la
estructura genética de poblaciones dentro de una especie se ha estudiado mediante la
comparación de las frecuencias alélicas observadas respecto a las esperadas bajo la ley
de Hardy-Weinberg. La mayoría de los métodos empleados para estudiar estructura de
poblaciones involucran transformaciones no lineales de los datos originales que son
válidas bajo una serie de supuestos sobre los procesos evolutivos subyacentes.
Alternativamente, la información sobre la divergencia a nivel molecular de muestras de
haplotipos se puede procesar en el formato de un modelo de Análisis de la Varianza y la
consecuente partición de una suma de cuadrados total en sumas de cuadrados
correspondiente a cada término del modelo.
38
normalidad usuales en el análisis de varianza clásico que podrían resultar inapropiados
para las métricas de distancias basadas en datos moleculares.
El método se basa en el hecho de que una suma de cuadrados puede ser escrita como la
sumatoria de las distancias al cuadrado entre todos los pares de observaciones. Por ello,
se construye el análisis jerárquico de variación molecular directamente desde la matriz
de distancias (al cuadrado) entre todos los pares de observaciones.
Cada factor produce una partición de las muestras bajo estudio. Cuando se desea
estudiar la influencia de la variabilidad inducida por múltiples factores principales (e.g.
localidades y regiones) se definen factores compuestos en términos de los factores
principales. Supongamos que el factor A representa las regiones y el factor B las
localidades. Si todos los individuos con el mismo valor de B tienen necesariamente el
mismo valor de A y por lo tanto cualquier variabilidad en las clases de A contribuyen a
la variabiliad entre las clases de B, se dice que A es marginal a B, o que B está anidado
en A, lo que se denota como B>A.
Suponga que para cada clase del factor población existen n muestras de haplotipos
tratadas en laboratorio con un conjunto de enzimas de restricción. Consecuentemente, se
tendrán n observaciones en las que un número s de sitios de restricción polimórficos
(bandas) podrían ser identificados. Así para cada muestra es posible conformar una
observación multivariada (s-dimensional) que lleva valores 1 o 0 para cada uno de los
sitios de restricción según la banda para ese sitio esté presente o ausente en la muestra.
El vector booleano s-dimensional es denotado como p′ = [ p1 , p2 ,.., ps ] donde pi = 1 con
i=1,...s si la banda correspondiente al sitio s está presente y cero si la banda está ausente.
La diferencia entre dos muestras m j y mk es definida como p j − p k . Se define una
39
d 2jk = ( p j − p k )′ W ( p j − p k ) donde W es una matriz de pesos diferenciables para los
Cuando los elementos individuales son arreglados de acuerdo a dos factores con
estructura jerárquica (e.g. región y región>localidades) el modelo lineal que se analiza
es pikj = p + Ai + A > Bk [ i ] + ωikj donde pikj es el perfil del j-ésimo elemento individual
en la i-ésima clase del factor A (región) de la k-ésima clase del factor B (localidad
anidada en región) y p el perfil esperado (desconocido). Los efectos de los factores A,
A>B y del elemento individual se asumen aditivos, aleatorios, no correlacionados y
distribuidos con componentes de varianza iguales a σ A2 , σ A2 > B y σ ω2ikj , respectivamente.
Estas componentes de varianza representan los parámetros que deben ser estimados.
Para cualquier partición jerárquica de los N elementos individuales ocasionados por un
factor A es posible escribir la suma de cuadrados totales como SCT=SCEntre clases de
A+SCDentro de clases de A. La suma de cuadrados asociada a un factor anidado se
obtiene adicionando la suma de cuadrados marginal para ese factor y la suma de
cuadrados asociada a cada combinación de los dos factores. Las desviaciones
(cuadradas) promedio son obtenidas dividiendo cada suma de cuadrados por los grados
de libertad apropiados (Excoffier et al., 1992).
40
Debido a los supuestos realizados sobre los efectos en el modelo, la varianza total ( σ 2 )
es la suma de componentes de variación asociados a cada efecto, i.e.
σ 2 = σ A2 + σ A2 > B + σ ω2 . En términos de los estadísticos φ (Cockerham, 1969, 1973) se
definen los siguientes tipos de correlaciones:
σ A2 + σ A2 > B
1. φST =
σ2
σ A2
2. φCT =
σ2
σ A2 > B
3. φSC = .
σ A2 > B + σ ω2
41
Figura 16. Ventana “selector de variables”. Menú GENETICA. Comando Estructura de
poblacionesÆ Análisis molecular de la varianza.
Interpretación
El AMOVA sugiere que existe variabilidad genética entre las tres poblaciones (p-
valor<0.0001) y dentro de cada una de las poblaciones (p-valor<0.0001). Se usaron 750
iteraciones (permutaciones) para el cálculo del valor p en cada caso.
42
II.5. Similitudes y Distancias
Las métricas disponibles en Info-Gen para medir similitudes y/o distancias para datos
genotípicos son: Nei Estándar, Nei Mínimo, Nei Insesgado, Hillis, Rogers, RogersW,
Prevosti, Cavali-Sforza y Edwards (Arco), Cavali-Sforza y Edwards (Cuerda),
Swofford-Olsens, Reynolds (Coancenstría), BS, Sanghvi. La expresión de éstas
métricas se presentan en la Tabla 1. Al seleccionar una medida de distancia es posible
usar la transformación 1-D, donde D es la distancia, o exp(-D) para obtener una métrica
de similitud. Las matrices de distancia pueden guardarse automáticamente en formato
de tabla de datos de Info-Gen para solicitar la implementación de procedimientos
aplicables a matrices de distancia.
Nombre Expresión
l a
∑∑ x ikl ⋅ x jkl
1. Nei Estándar (1972) dij = − ln k =1 l =1
l a l a
∑∑ x ⋅ ∑∑ x
k =1 l =1
2
ikl
k =1 l =1
2
jkl
l a
∑∑ x ikl ⋅ x jkl
dij = − ln k =1 l =1
⎛ l a
2 ⎞ ⎛ l a
2 ⎞
⎜ 2ni ∑∑ xikl ⎟ − 1 ⎜ 2n j ∑∑ x jkl ⎟ − 1
2. Nei Insesgado (1978)
⎝ k =1 l =1 ⎠ ⋅⎝ k =1 l =1 ⎠
2ni − 1 2n j − 1
⎛ l ⎞
⎜ l ∑ xikl ⋅ x jkl ⎟
dij = − ln ⎜ ∑ k =1 ⎟
1
3. Hillis (1984)
⎜ p k =1 l l ⎟
⎜⎜ ∑ xikl ∑ jkl ⎟
2
⋅ x 2
⎟
⎝ k =1 k =1 ⎠
⎛ ⎞
⎜ ⎟
⎜ l ⎟
⎜
1 l ∑ xikl ⋅ x jkl ⎟
4. Swofford-Olsen (1990) dij = − ln ⎜ ∑ k =1 ⎟
⎜ p k =1 ⎛ l a
2 ⎞ ⎛ l a
2 ⎞
⎟
⎜ ⎜ 2ni ∑∑ xikl ⎟ − 1 ⎜ 2n j ∑∑ x jkl ⎟ − 1 ⎟
⎜ ⎝ k =1 l =1 ⎠ ⋅⎝ k =1 l =1 ⎠ ⎟
⎜ 2 n − 1 2 n − 1 ⎟
⎝ i j ⎠
43
2
1 l ⎛2 l
⎞
∑ cos −1 ∑ xikl ⋅ x jkl ⎟
5. Cavvalli-Sforza y Edwards (1967)
dij = ⎜
(distancia del arco) p k =1 ⎝ π k =1 ⎠
⎛ 1 l ⎛ a ⎞⎞
dij = 2 ⋅ ⎜ 1 − ∑ ⎜ ∑ xikl ⋅ x jkl ⎟ ⎟
6. Cavvalli-Sforza y Edwards (1967)
(distancia de la cuerda)
⎝ p k =1 ⎝ l =1 ⎠⎠
∑(x − x jkl )
1 l a
∑
2
7. Roger (1972) dij = ikl
p k =0 l =0
1 l a
9.Prevosti (Wright, 1978) dij = ∑∑ xikl ⋅ x jkl
p k =1 l =1
(x − x jk )
2
m
=∑
ik
10. BS (Balakrishnan y Sanghvi, 1968) d ij
(x
k =1 ik + x jk )
44
Figura 17. Menú GENETICA. Comando Similitudes y distancias, datos de genotipos
por individuo o datos de frecuencias alélicas o genotípicas.
Nei Estandard
Población 1 Población 2 Población 3
Población 1 0,000 0,040 0,104
Población 2 0,040 0,000 0,185
Población 3 0,104 0,185 0,000
Interpretación
Para datos continuos y discretos, como puede ser la información sobre marcadores
genéticos, es posible aplicar las métricas de distancias y/o similitudes cuya expresión se
presenta en la Tabla 2. Para este tipo de métricas se necesitan tablas de datos con
formato extendido. Principalmente para el caso de datos continuos como pueden ser
45
distintos tipos de descriptores morfológicos, Info-Gen permite estandarizar los datos de
cada variable (marcador) previo al cálculo de la distancia. Las distancias o similitudes
pueden calcularse a partir de pares de filas o elementos definidos por un criterio de
clasificación (como puede ser población) de la tabla de datos (generalmente este
procedimiento se usa para medir distancias entre muestras multivariadas a través de
todos los marcadores) o bien a partir de pares de columnas de la tabla (generalmente
usado para medir distancias o parecido entre marcadores).
Métrica Expresión
1r
⎡m r ⎤
1. Minkowski d ij = ⎢ ∑ xik − x jk ⎥
⎣ k =1 ⎦
m
2. City Block o Manhattan d ij = ∑ xik − x jk
(Minkowsi con r=1) k =1
1⎛ m ⎞
3. Manhattan promedio d ij = ⎜ ∑ xik − x jk ⎟
m ⎝ k =1 ⎠
12
⎡m 2⎤
d ij = ⎢ ∑ xik − x jk ⎥
4. Euclidea
(Minkowski con r=2)
⎣ k =1 ⎦
⎡m 2⎤
5.Euclidea cuadrado d ij = ⎢ ∑ xik − x jk ⎥
⎣ k =1 ⎦
12
1⎡m 2⎤
6. Euclidea promedio d ij = ⎢ ∑
m ⎣ k =1
xik − x jk ⎥
⎦
xim − x jm
7. Gower (Caracteres continuos) Sijm = 1 −
rm
M
∑w s
ijm ijm
8. Gower (1971) (Caracteres cotinuos y
discretos)
Sij = m =1
M
∑w
m =1
ijm
∑x ik − x jk
9. Bray-Curtis d ij = k =1
∑(x + x jk )
m
ik
k =1
1⎛ m ⎞
∑ x − x jk ⎟⎠
m ⎜⎝ k =1 ik
10. Bray-Curtis promedio (Canberra) d ij = m
∑ ( xik + x jk )
k =1
⎛ n ⎞
⎜ ∑ ( xij − x j )( xik − xk ) ⎟ /(n − 1)
rjk =
S jk
= ⎝ i =l ⎠
11. Correlación de Pearson
S 2j Sk2 ⎛⎛ n 2 ⎞ ⎞⎛ ⎛ n 2⎞ ⎞
⎜ ⎜ ∑ ( xij − x j ) ⎟ /(n − 1) ⎟⎜ ⎜ ∑ ( xik − xk ) ⎟ /(n − 1) ⎟
⎝ ⎝ i =l ⎠ ⎠⎝ ⎝ i = l ⎠ ⎠
46
⎛ n +1⎞
n 2
∑ R( xij ) R( xik ) − n ⎜
⎝ 2 ⎠
⎟
12. Correlación de Spearman Srjk = i =1
⎛ n ⎛ n +1⎞ ⎞⎛ n
2
⎛ n +1⎞ ⎞
2
⎜⎜ ∑ R ( xij ) − n ⎜ ⎟ ⎜ ∑ ik − ⎟ ⎟
2 2
⎟ R ( x ) n ⎜
⎝ i =l ⎝ 2 ⎠ ⎟⎠ ⎜⎝ i = l ⎝ 2 ⎠ ⎟⎠
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.
1. Roger&Tanimoto (a + d ) ( a + d + 2 ( b + c ) ) [0,1]
6. Sokal&Sneath_2 { }
0.25 ⎡⎣ a ( a + b ) ⎤⎦ + ⎡⎣ a ( a + c ) ⎤⎦ + ⎡⎣ d ( d + b )⎤⎦ + ⎡⎣ d ( d + c ) ⎤⎦ [0,1]
7. Jaccard a (a + b + c) [0,1]
8. Ochiai a ( a + b )( a + c ) [0,1]
9.Kulczynski {
0.5 ⎣⎡ a ( a + c ) ⎦⎤ + ⎣⎡ a ( a + b ) ⎦⎤ } [0,1]
11 Anderberg a ⎡⎣ a + 2 ( b + c ) ⎤⎦ [0,1]
11 Dice 2a ( 2a + b + c ) [0,1]
47
13. Sokal&Sneath_3 ( a.d ) ⎡⎣( a + b ) . ( a + c ) . ( d + b ) . ( d + c ) ⎤⎦ [0,1]
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.
48
Figura 18. Menú GENÉTICA. Comando Similitudes y distancias, datos numéricos.
Solapa de caracteres continuos.
Euclidea
CA Colombia Ecuador Perú Venezuela
CA 0,00
Colombia 3,13 0,00
Ecuador 1,54 2,10 0,00
Perú 7,01 5,63 6,22 0,00
Venezuela 4,27 2,57 3,34 5,28 0,00
Interpretación
49
el archivo Fusarium.idb se seleccionó el cálculo del índice de similitud de Jaccard y la
transformación raíz cuadrada (1-similitud) para obtener distancias entre ocho muestras
de aislamientos fúngicos (A, B, C, D, E, F, G) a través de 18 bandas RAPD producidos
por un primer.
Jaccard (sqrt(1-S))
C162 C203B C214 C237B C42 C65 RC208 RC357
C162 0,00
C203B 0,82 0,00
C214 0,41 0,83 0,00
C237B 0,41 0,76 0,53 0,00
C42 0,75 0,86 0,67 0,77 0,00
C65 0,67 0,82 0,71 0,71 0,76 0,00
RC208 0,84 0,52 0,85 0,85 0,82 0,83 0,00
RC357 0,84 0,65 0,85 0,85 0,82 0,83 0,47 0,00
Interpretación
50
II.6. Clasificación. Análisis de Conglomerados
El objetivo del Análisis de Conglomerados es formar grupos tal que los elementos de un
grupo sean más parecidos entre sí que con los elementos de otro grupo. El Análisis de
Conglomerados o análisis de clusters es una combinación de técnicas o algoritmos
matemáticos que tienen por objeto la búsqueda de grupos similares. En el análisis de
conglomerados no se conoce a priori el grupo de pertenencia de las entidades a agrupar.
Cuando se realizan agrupamientos de casos se busca clasificar a los objetos en grupos lo
más homogéneos posible en base a todas las variables (marcadores) involucradas. En el
análisis de conglomerados para agrupar casos, si se utiliza una matriz de datos n×m
(casos×variables), se calcula primero una matriz de distancias (n×n) que contiene las
interdistancias entre todos los pares de casos y luego sobre esa matriz se aplica un
procedimiento de conglomeración o agrupamiento. Cuando se agrupan variables
(marcadores) se busca clasificar a las mismas en función de su perfil a través de todos
los casos, luego el algoritmo de conglomeración trabajará sobre una matriz de
interdistancias m×m.
51
cofenética podría utilizarse como criterio de selección del algoritmo, i.e. aquel
algoritmo con el mayor coeficiente de correlación cofenética.
La distancia más común cuando se trabaja con datos cuantitativos viene dada por
d ij =d((i1, i2 ,...,im ),((j1, j2 ,...,jm ))=((i1 -j1 )2 +(i2 -j2 )2 +...+(im -jm )2 )1/2 . A esta distancia se le llama
distancia Euclídea. Cuando las variables poseen naturaleza binaria, como puede ser el
caso de presencia/ausencia de determinadas bandas de amplificación para marcadores
moleculares, la distancias Euclídea puede no ser apropiada y por eso existen numerosas
propuestas de distancia para datos binarios.Al comparar dos objetos, para cada variable
binaria, existen cuatro eventos disjuntos posibles: 1) en los dos objetos se observa la
presencia de la característica deseada, denotado como evento (1,1); 2) ninguno de los
objetos presenta la característica deseada, evento denotado como (0,0); 3) el primer
objeto presenta la característica, evento denotado como (1,0) y 4) el primero no presenta
la característica pero el segundo si, denotado como evento (0,1), La frecuencia con que
ocurre cada uno de estos eventos cuando se comparan dos objetos caracterizados por
múltiples variables binarias se denominarán a, b, c, y d según correspondan a los
eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Tabla 5).
52
Las frecuencia de “desacuerdos” representados por los eventos (1,0) y (0,1), de co-
presencia (1,1) y de co-ausencia (0,0) contienen toda la información relevante para la
construcción de índices de similitud entre dos objetos, i.e. los índices pueden ser
expresados como función de dichos recuentos.
∑W ijc Sijc
Sij = c =1
p
∑W
K =1
ijc
donde:
xic − x jc
Sijc = 1 −
rc
53
Ejemplo 17: Clasificación. Análisis de Conglomerados. Archivo Fusarium
54
número de conglomerados (desde dos hasta el número indicado por el usuario),
identificando los grupos formados con diferentes colores, el número recomendado de
grupos es aquel que se asocia con una caída mayor de la función respecto al número
inmediato anterior.
55
Cuadro 11: Resultado Ejemplo 17.
Análisis de conglomerados
Dice (sqrt(1-S))
A B C D E F G H
A 0,000
B 0,535 0,000
C 0,577 0,302 0,000
D 0,642 0,620 0,535 0,000
E 0,577 0,302 0,408 0,655 0,000
F 0,707 0,707 0,728 0,761 0,642 0,000
G 0,728 0,734 0,756 0,707 0,756 0,397 0,000
H 0,728 0,734 0,756 0,707 0,756 0,513 0,354 0,000
Distancias en el dendrograma
A B C D E F G H
A 0,000
B 0,563 0,000
C 0,563 0,355 0,000
D 0,613 0,613 0,613 0,000
E 0,563 0,302 0,355 0,613 0,000
F 0,727 0,727 0,727 0,727 0,727 0,000
G 0,727 0,727 0,727 0,727 0,727 0,455 0,000
H 0,727 0,727 0,727 0,727 0,727 0,455 0,354 0,000
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
56
Interpretación
57
II.7. Ordenación. Coordenadas Principales
Q = EDE′
Los auotvalores, elementos de la diagonal de D , expresan la variabilidad de los datos
explicada por cada dimensión. Como los autovalores se ordenan en forma decreciente,
los dos primeros ejes (coordenadas principales) explican la mayor cantidad de variación
en Q que puede representarse en un espacio bidimensional. Las columnas de Z = ED1 2
forman las coordenadas principales que permiten proyectar las relaciones implícitas en
la matriz de distancias en planos.
58
Representación gráfica de ordenaciones
Gráfico de dispersión
Un ARM se construye como una colección de segmentos de línea recta que conectan
puntos de una ordenación gráfica sin formar circuitos cerrados. Cada punto está
conectado con el resto de manera directa o indirecta a través del conjunto de segmentos.
El ARM es generado conectando los puntos de manera tal que la suma de las longitudes
de los segmentos entre puntos sea mínima. Un ARM puede calcularse a partir de la
matriz de distancia de las observaciones multivariadas en el espacio m-dimensional en
el que viven o a partir de las matrices de distancia en espacios de menor dimensión.
Cuando puntos m-dimensionales, con m>2, son conectados en el plano en función de su
distancia en el espacio original, el ARM puede proveer información sobre similitudes de
las observaciones en dimensiones no directamente representadas en el plano. Por
ejemplo, algunos puntos que se encuentran muy cerca en el espacio bidimensional
podrían estar, en su espacio original, más lejos de lo que aparentan en el plano. Los
ARM conceptualmente se ligan al algoritmo de agrupamiento conocido como
encadenamiento simple y en ese sentido son usados no solo para representación gráfica
de las interdistancias entre puntos, sino también para formar conglomerados de éstos.
59
Ejemplo 18: Ordenación. Análisis de Coordenadas Principales. Archivo
Perfiles moleculares medios
Se calculó un perfil modal para cada uno de los grupos genéticos identificados por
Phillips (2003) para un conjunto de 4 marcadores morfológicos: Rint20 (cantidad de
anillos a los 20 días), Prod (producción de esporas por caja de petri), G24h
(germinación de esporas a las 24 horas) y Glo (porcentajes de esporas globosas) y para
4 marcadores moleculares: W5, W8, X15, Y18 (Tabla 6 y Tabla 7). Si bien se disponía
de información sobre numerosos marcadores morfológicos y moleculares, se
seleccionaron sólo aquellos que en estudios previos mostraron mayor poder de
discriminación entre grupos y se trabajó con los perfiles modales y no con los
aislamientos individuales para aplicar las técnicas de análisis sobre una matriz de datos
que permite interpretar relaciones entre grupos. Para ilustrar un ACoorP se analizaron
separadamente los datos de marcadores morfofisiológicos (Tabla 6) y los datos de
marcadores moleculares (Tabla 7) debido a las diferencias en la naturaleza de las
variables. Con las cuatro marcadores continuos, se calculó una matriz de distancias
Euclídeas sobre la que se operó para extraer las coordenadas principales, previa
estandarización.
Tabla 6. Perfil modal de cuatro marcadores morfológicos para cinco grupos genéticos
de Moniliophthora roreri
1 2 3 4
Grupo Genético Rint2O Prod Ge24h Glo
Tabla 7. Perfil modal de cuatro marcadores moleculares tipo AFLP para cinco grupos
genéticos de Moniliophthora roreri
Bolivar 1 1 1 0
Co-Central 1 1 0 1
Co-East 0 1 0 0
Co-West 1 1 1 1
Gileri 1 0 0 1
60
En la Figura 23 se muestran los gráficos de ordenamiento de aislamientos por el
ACoorP. Vale aclarar que también se podría haber seleccionado una métrica de
distancia como la de Gower para realizar un ordenamiento del material en función de la
información que simultáneamente proveen los marcadores morfológicos y los
marcadores moleculares.
Euclidea
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 2,853 0,000
Co-East 1,390 2,686 0,000
Co-West 3,187 1,786 2,980 0,000
Gileri 3,297 3,705 2,170 3,343 0,000
Coordenadas principales
61
3.12
1.94
Bolivar
-0.41
Co-West Gileri
-1.59
-2.37 -1.07 0.24 1.54 2.84
PCO 1 (55.2%)
Luego se realizó un ACoorP sobre los datos binarios provenientes de los marcadores
del índice de similitud de Dice y a partir de una matriz de distancias Euclídeas con el
propósito de ejemplificar el efecto del uso de éste tipo de métricas, recomendadas para
datos continuos, en un contexto de datos binarios.
62
Figura 24. Menú GENÉTICA. Comando Ordenaciones.
Dice (sqrt(1-S))
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 0,577 0,000
Co-East 0,707 0,707 0,000
Co-West 0,378 0,378 0,775 0,000
Gileri 0,775 0,447 1,000 0,577 0,000
Autovalores
Lambda Valor Proporción Prop Acum
1 0,537 0,617 0,617
2 0,245 0,281 0,898
3 0,063 0,072 0,970
4 0,026 0,030 1,000
Euclidea
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 1,414 0,000
Co-East 1,414 1,414 0,000
Co-West 1,000 1,000 1,732 0,000
Gileri 1,732 1,000 1,732 1,414 0,000
Distancia: (Euclidea)
Autovalores
Lambda Valor Proporción Prop Acum
1 1,851 0,463 0,463
2 1,526 0,381 0,844
3 0,474 0,119 0,963
4 0,149 0,037 1,000
63
1,0 1,0
A Co-East
B
0,5 0,5
Bolivar Gileri
CP 2 (28,1%)
CP 2 (38,1%)
Co-West
0,0 Co-Central
Co-Central 0,0
Co-East
Gileri
-0,5 -0,5 Bolivar
Co-West
-1,0 -1,0
-1,0 -0,5 0,0 0,5 1,0 -1,0 -0,5 0,0 0,5 1,0
CP 1 (61,7%) CP 1 (46,3%)
Figura 25. ARM para cuatro marcadores moleculares y ordenamiento de cinco grupos
genéticos de Moniliophthora roreri (Cif.) Evans et al. en el plano conformado por las
dos primeras coordenadas principales sobre la matriz de distancias genéticas obtenidas
por la transformación (1 − Sij ) del índice de similitud de Dice (A) y sobre la matriz de
12
Interpretación
El porcentaje de variación total explicado por el AcoorP basado en Dice, es mayor que
el obtenido usando las distancias Euclídeas. La distancia entre los perfiles modales del
grupo Gileri respecto a Co-East es, relativa a las otras distancias, mayor si se trabaja con
el índice de similitud de Dice respecto a las distancias Euclídeas, ya que el único
parecido entre ambos perfiles se da por la ausencia simultánea del marcador X15. Las
diferencias entre los perfiles de los grupos Bolivar y Co-West son relativamente
menores, a nivel del primer Eje, para la distancia basada en el índice de Dice que para
las distancias Euclídeas ya que el índice de Dice pondera con mayor peso el parecido
entre ambos perfiles que provienen de la co-presencia de 3 de los 4 marcadores
involucrados. Si bien en ambos gráficos la CP1 separa Gileri de Co-East, usando la
distancia de Dice explica un 61.7% de la variabilidad total, mientras que con la distancia
Euclídea la variabilidad sobre este eje más importante de análisis representa el 46,3% de
la variabilidad total.
64
II.8. Muestra mínima diversidad
Info-Gen permite encontrar el tamaño de muestra mínimo para calcular alguna medida
de variabilidad genética. Para ello calcula, desde la tabla de datos piloto, el valor de la
medida de variabilidad genética seleccionada para un número muestras obtenido por re-
muestreo (por defecto 250 muestras). La medida de variabilidad genética es obtenida a
partir de remuestreos de muestras de 1, 2, 3,...,20 casos (o alternativamente locus) y su
valor es graficado es graficado en función del tamaño muestral. Info-Gen reporta la
curva de ajuste del valor medio a través de los re-muestreos de la medida de
variabilidad genética seleccionada para cada valor de tamaño de muestra y así como
bandas de confianza para estos valores esperados.
Para determinar la muestra mínima requerida para la estimación de una cierta medida de
variabilidad genética a partir de un conjunto de datos piloto, ir a menú GENETICA,
comando Muestra mínima diversidad se despliega la ventana “selector de variables”, se
ingresan en loci los marcadores (columnas) que se consideraran en el cálculo. Cuando
se tiene datos de individuos repetidos se debe ingresar en Submuestra la columna que
contiene el factor que clasifica las repeticiones. Al aceptar se presentan la ventana de
opciones de medida de diversidad (Porcentaje de loci polimórficos, Diversidad genética,
Heterocigosis media (conteo directo), Heterocigosis media (insesgada de Nei), Media
del número de alelos por locus, Media del número de alelos efectivos) para que el
usuario seleccione qué medida desea encontrar el tamaño mínimo de muestra. Además
se debe especificar si se quiere Remuestrear casos (desea conocer el número de
muestras a tomar) o locus (desea conocer el número de locus a analizar).
65
Figura 26. Menú GENETICA. Comando Muestra mínima diversidad
0.36
0.27
Diversidad genética
0.18
0.09
0.00
0 9 18 27 36
Número de loci
ARGENTINA CHINA
Interpretación
El ajuste logrado muestra, tanto para variedades de soja de Argentina como de China,
que a partir de muestras de tamaño 9 prácticamente no se observan cambios en la
estimación de la diversidad genética. La muestra mínima requerida para detectar
diversidad genética es de 9 de locus para ambas procedencias.
66
Parte III. Menú Estadística
III.1. Estadística descriptiva
Medidas resumen
68
El primer cuartil (Q1), la mediana y el tercer cuartil (Q3) al igual que cualquier otro
percentil pueden ser obtenidos mediante el ordenamiento de la muestra y la selección de
uno de los valores observados de acuerdo a su posición o bien estimados a partir de una
aproximación de función de distribución empírica. Si el usuario selecciona FDE en la
sub-ventana Percentiles, Info-Gen estimará previamente la función de distribución
mediante el método propuesto por Collings y Hamilton (1988) y luego usará esta
función para reportar el percentil solicitado. Si se elige la opción muestrales, el
percentil será uno de los valores de la muestra obtenido después del ordenamiento de la
misma. Por este motivo, ambos procedimientos no producen necesariamente el mismo
resultado numérico.
69
Cuadro 15: Resultado Ejemplo 20.
Estadística descriptiva
Interpretación
Como ejemplo se interpreta los resultados para la variable D10. El valor esperado de
D10 (Media) es mayor para el grupo Co-Central, la desviación estándar es relativamente
baja respecto a la de otros grupos por el que el Coeficiente de Variación de este grupo
no será el mayor. Los valores de D10 en este grupo estuvieron entre 4.80 y 6.20. La
mediana es cercana a la media, por lo que se deduce que la distribución de valores de
D10 es relativamente simétrica respecto a la Media.
70
Tablas de frecuencias
Siguiendo con los datos del archivo AFLP.idb, se obtuvo la tabla de frecuencia para la
variable D10 para cada uno de los grupos genéticos invocando las siguientes acciones:
ESTADÍSTICAS ⇒ TABLAS DE FRECUENCIAS, en la ventana Distribución de
frecuencias-solapa variables se seleccionó D10 y antes de Aceptar se activó la solapa
Particiones... donde en la sub-ventana Seleccionar por se pasó la variable Grupos
genéticos. Al Aceptar aparece la ventana Distribución de Frecuencias-Opciones de la
Tabla de Frecuencia donde el usuario puede indicar que tipo de información desea
visualizar en la tabla y cómo se definirá el número de clases. En este caso se aceptaron
todas las opciones que se encuentran activadas por defecto, por lo que sólo se presionó
Aceptar y el número de clases fue calculado automáticamente.
71
Figura 28. Menú ESTADÍSTICA. Comando Tablas de Frecuencias.
72
Ajustes
Los datos del archivo Aberrantes, muestran las frecuencias observadas del número de
elementos con aberraciones cromosómicas en una población de 200 individuos. Estos
valores se usan para probar la hipótesis que la distribución de la variable ajusta el
modelo binomial negativo.
73
las frecuencias absolutas esperadas de acuerdo con el modelo distribucional propuesto
(E(FA)), y el valor p de la prueba de bondad de ajuste.
Interpretación
74
III.2. Análisis Multivariado
En esencia, los métodos de ordenación extraen sucesivos componentes desde una matriz
de similitudes o distancias, entre el material genético, calculada a partir de múltiples
marcadores. Esos componentes son usados como ejes para la representación gráfica de
las observaciones. En la ordenación, cada individuo es ubicado sobre uno o más ejes tal
que su posición geométrica relativa refleja las similitudes y/o distancias entre ellos
75
(Randerson, 1993). En particular, los gráficos biplots propuestos por Gabriel (1971)
permiten representar ambas, las observaciones y las variables en un mismo plano.
Las TRD usadas con fines exploratorios, no requieren de supuestos distribucionales, por
ejemplo datos que ajusten a una distribución normal. La característica de distribución
libre las hace especialmente apropiadas para su utilización sobre información derivada
de secuencias de fragmentos de nuecleótidos o marcadores de ADN dado que éstos rara
vez siguen una distribución normal debido al sesgo selectivo que puede introducirse
cuando se usa un primer o un conjunto de enzimas de restricción en particular (Bridge,
1998). En general, las ordenaciones basadas en matrices de distancias son utilizadas
cuando se desea relacionar material genético perteneciente a un único taxón o a un
taxón específico, i.e., donde la variación está más cercana a ser continua o
semicontinua, sin amplios quiebres, como puede ocurrir cuando se involucran diferentes
especies (Burnett, 2003).
76
principales) de máxima varianza. Las componentes se ordenan según los niveles de
información (variabilidad que expresan los datos sobre éstas). El ACP se basa en la
búsqueda de una base ortogonal de los datos de manera tal que el primer eje se
encuentra en la dirección de mayor variación y los ejes subsecuentes maximicen la
explicación de la varianza condicionados a que sean ortogonales a sus ejes previos (es
decir cada eje aporta nueva información sobre la variabilidad total). El método opera
sobre una matriz de varianzas-covarianzas ( S ) preservando las distancias Euclídeas
entre observaciones. Los datos pueden o no ser estandarizados. Si se estandariza, el
ACP opera sobre una matriz de correlación ( R ). La técnica de estandarización se
recomienda para situaciones donde las variables no sean conmensurables (distintas
unidades de medidas) y/o tienen varianzas muy distintas.
77
Es decir, la j-ésima componente principal, es una combinación lineal de las m variables
originales ponderadas por los autovectores. La varianza de la componente j-ésima es
Var (CPj ) = λ j .
Para interpretar un Biplot obtenido a partir de un ACP clásico (no corregido por el
efecto de filas ni columnas, también denominado ACP no centrado) se recomienda
seguir los siguientes pasos:
2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que representan
los casos. Identificar los de mayor inercia, i.e. los puntos que se encuentran a mayor
distancia del cero, ya sea que se alejan hacia la derecha o hacia la izquierda.
2.2. Analizar las proyecciones de los puntos que representan las variables sobre la CP1.
Identificar las variables de mayor inercia.
9 Interpretar “correlaciones” entre variables según los ángulos de los vectores que
los representan. Ángulos agudos indican correlaciones positivas, ángulos obtusos
78
corresponden a correlaciones negativas y ángulos rectos indican que no hay correlación
entre las variables.
Se aplicó el análisis de componetes principales (ACP) sobre los datos del archivo
Perfiles moleculares medios.idb de marcadores de cacao. Este análisis podría ser
aplicado sobre la tabla completa de casos, lo cual sería más recomensable para el
cálculo de varianzas y co-varianzas. Se trabajó con estandarización de los datos de cada
uno de los cuatro marcadores morfológicos. Para numerosas aplicaciones, sobre todo si
los resultados del ACP serán utilizados como input de otros análisis, se recomienda
mantener el espíritu del procedimiento extrayendo los componentes principales desde la
matriz S en lugar de R (matriz de correlación) (Rencher, 1992). No obstante en este
trabajo se usaron datos estandarizados (matriz R ) dado que las unidades de medida de
éstos marcadores morfológicos, las correlaciones entre variables y sus varianzas difieren
notablemente. El análisis se solicitó como se muestra en la Figura 29.
79
Figura 29. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de
Componentes Principales.
Autovalores
Lambda Valor Proporción Prop Acum
1 2,210 0,552 0,552
2 1,415 0,354 0,906
3 0,337 0,084 0,990
4 0,039 0,010 1,000
Autovectores
Variables e1 e2
Rint2O 0,503 0,444
Prod -0,529 0,485
Ge24h 0,645 -0,202
glo 0,225 0,726
Para ilustrar las diferencias entre ambos análisis, se presentan los autovalores (Tabla 8)
y los autovectores (Tabla 9) tanto de la descomposición espectral de R como de S . Las
dos variables con mayor varianza son aquella de mayor influencia en las dos primeras
componentes cuando se utiliza S en lugar de R . En casos como éste, R puede
producir componentes que mejor reflejen los efectos mutuos de las variables.
80
Tabla 8. Matriz de covarianzas ( S ) y matriz de correlación ( R ). Datos de marcadores
morfológicos.
S Rint2O Prod Ge24h glo
Rint2O 1.29
Prod -14.87 3686.60
Ge24h 1.58 -129.48 5.87
glo 7.11 111.11 3.32 126.18
R Rint2O Prod Ge24h glo
Rint2O 1.000
Prod -0.215 1.000
Ge24h 0.573 -0.880 1.000
glo 0.556 0.163 0.122 1.000
Interpretación
Para datos estandarizados, las correlaciones ordenan (columna orden) a las variables de
la misma manera que los autovectores, mientras que para datos no estandarizados
existen diferencias, en la primera componente, entre el orden dado por las correlaciones
y el orden dado por las contribuciones a las componentes. Estas diferencias se deben a
que las correlaciones de las variables con las componentes proveen sólo información
81
univariada sobre cómo opera cada variable por sí misma ignorando la presencia de las
otras variables. Por otro lado, ya que las componentes principales son ortogonales
(provienen de autovectores de una matriz simétrica) es posible expresar el coeficiente de
correlación múltiple de las dos primeras componentes con la variable xi mediante la
siguiente partición rx2i ,CP 1 + rx2i ,CP 2 = Rx2i |CP 1,CP 2 . Por ejemplo, para la variable Prod, el
valores de R2 del ejemplo muestran que las variables de mayor contribución para
separar los aislamientos en el plano son Ge24h (0.980) y Prod (0.950). El cálculo de
correlaciones entre variables y componentes puede ayudar a mejorar la interpretación de
los datos.
82
influencia para la caracterización morfológica de los grupos genéticos. A nivel del Eje
2, las variables que más se separan son Glo y Ge24h, oponiendosé entre sí con
coeficientes de autovectores de 0.864 y -0.241 respectivamente. Las variables Rint20
(cantidad de anillos a los 20 días) y Glo (porcentaje de esporas globosas), presentan
vectores con menor ángulo entre ellas, indicando una mayor asociación entre ellas.
Puede obsevarse a nivel de la CP1, que la variable Ge24h permite correlacionarla
positivamente con los aislamientos pertenecientes a los grupos Co-Central y Co-West,
mientras que Prod y Glo correlacionan positivamente con los aisalmientos del grupo
Bolivar y negativamente con los aislamientos del grupo Gileri. Luego, los aisalmientos
del grupo Gileri se contraponen con los del grupo Co-Central y Co-West por presentar
mayor producción de esporas de menor número de anillos a los 20 días y menor
germinación a las 24 hs. y de los aislamientos del grupo Bolivar por presentar un menor
porcentaje de esporas globosas. Biológicamente, el bajo número de anillos a los 20 días
que presentan los aislamientos caracterizados como grupo Gileri estaría evidenciando
una alternancia del periodo de crecimiento y esporulación del hongo, procesos
normalmente regidos por ciclos biológicos que dependen de la luz, i.e., un hongo con
baja producción de anillos, estaría indicando una falta de adaptación al ritmo biológico
regido por la cantidad de luz recibida afectando su nivel de esporulación y
consecuentemente su sobrevivencia.
3.12
glo
Prod
Rint2O
1.94 Bolivar
CP 2 (35.4%)
0.77
Co-East
Co-Central
-0.41
Co-West
Gileri Ge24h
-1.59
-2.37 -1.07 0.24 1.54 2.84
CP 1 (55.2%)
Figura 30. Gráfico biplot obtenido a partir de ACP. Ordenamiento, producido por
cuatro marcadores morfológicos, de perfiles modales de cinco grupos genéticos de
Moniliophthora roreri
83
Procrustes como técnicas para consensuar ordenaciones
84
coordenadas {X1,X 2 ,…, Xk } m-dimensionales, se deben encontrar: las traslaciones
{T1,T2 ,...,Tk } , las rotaciones ortogonales {H1,H2 ,...,Hk } y los coeficientes de escala
{r1,r2 ,...,rk } tal que las configuraciones resultantes {Xi* =r i X i H i +T i ; i=1,...,k} sean
lo más parecidas posible entre ellas. El promedio de estos nuevos sistemas de
coordenadas produce el sistema de consenso. El nuevo sistema puede ser submitido, por
ejemplo, a un ACP para obtener una ordenación de consenso en un espacio de menor
dimensionalidad.
transformación (1 − Sij )
12
donde Sij es el índice de similitud de Dice (Figura 32).
85
Figura 32. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de
Coordenadas principales.
86
Figura 34. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de
Procrustes Generalizado. Ventana “Selector de Variables”.
87
Interpretación
88
En la Figura 36 A, se puede destacar el parecido del grupo Co-West y Co-Central,
cuando se consideran simultanemente ambos tipos de marcadores el parecido
morfológico de estos aislamientos es alto.
Los grupos Gileri y Co-West se diferencian más a nivel molecular que morfológico. El
grupo Bolivar está más cercano a Co-East que cualquier otro grupo si se consideran
ambos tipos de marcadores. En la Figura 36 B, se observó que la suma de cuadrados
(SC), función de las diferencias entre las ordenaciones individuales y la de consenso
dentro de cada caso es bastante similar ya que la ordenación de consenso se da para
todos los casos en el punto medio de las distancias entre las configuraciones
individuales y estas distancias son similares para todos los casos.
0.51 0.51
Moleculares(1) A Moleculares(1) B
Morfológicos(2) Morfológicos(2)
Consenso (1,2) Consenso (1,2)
Co-West Co-West
0.26 0.26
Co-Central Co-Central
CP 2 (33.2%)
CP 2 (33.2%)
Bolivar Bolivar
0.00 0.00
-0.26 -0.26
Co-East Co-East
Gileri Gileri
-0.51 -0.51
-0.58 -0.29 0.00 0.29 0.58 -0.58 -0.29 0.00 0.29 0.58
CP 1 (47.4%) CP 1 (47.4%)
89
que los grupos Co-West y Co-Central se encuentran a una distancia muy pequeña al
igual que antes, pero que el grupo Gileri, no se asocia de manera directa a estos perfiles
modales, si no que lo hace a través del grupo Co-East y el grupo Bolivar. Observando
los resultados, vemos que las asociaciones que se presentan en este consenso hacen
referencia a los parecidos de los perfiles modales morfológicos, pero estos no se
condicen con los parecidos a nivel molecular, de hecho, entre el perfil modal molecular
del grupo Gileri y el perfil modal molecular del grupo Co-East hay sólo una
coincidencia y ésta es por la ausencia simultanea de amplificación, mientras que con los
grupos Co-Central y Co-West, el grupo Gileri presenta más coincidencias, y éstas son
debido a las presencia simultánea de los marcadores, característica explotada en el
análisis anterior donde se realizó previo al APG un ACoorP sobre la matriz de
distancias del índice de similitud de Dice para los datos moleculares.
CW
G Co-Central CC
0.00
CE
B
-0.26
Co-East Bolivar
CE B
-0.52
-0.60 -0.30 0.00 0.30 0.60
CP 1 (41.3%)
90
Referencias Bibliográficas
91