Você está na página 1de 97

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/286931183

Análisis de Datos de Marcadores con Info-Gen

Book · September 2006

CITATION READS

1 602

4 authors:

Mónica Balzarini Alejandra Arroyo


National University of Cordoba, Argentina Universidad EARTH
271 PUBLICATIONS   1,478 CITATIONS    17 PUBLICATIONS   33 CITATIONS   

SEE PROFILE SEE PROFILE

Cecilia Bruno Julio Alejandro Di Rienzo


National University of Cordoba, Argentina National University of Cordoba, Argentina
51 PUBLICATIONS   142 CITATIONS    209 PUBLICATIONS   1,776 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

PE PNCyO1127022 período 2013-2018. Identificación de situaciones de riesgo, impacto em los territórios y medidas de manejo para
reducir la contaminación com produtos fitossanitários em grano de Cereales y oleaginosas View project

QEco: A tool for analysis of ecological communities View project

All content following this page was uploaded by Mónica Balzarini on 16 December 2015.

The user has requested enhancement of the downloaded file.


Análisis de Datos de Marcadores
con Info-Gen

Ing. Agr. (PhD) Mónica Balzarini

Ing.Agr. Alejandra Arroyo

Ing.Agr. (MSc) Cecilia Bruno

Biol. (MSc) Julio Di Rienzo

Facultad de Ciencias Agropecuarias. Universidad Nacional de Córdoba-CONICET

2006
Info-Gen es un software para análisis estadístico de datos genéticos que implementa una
variedad de técnicas de análisis en un ambiente integrado capaz de procesar grandes
volúmenes de datos. Info-Gen es un software de desarrollo nacional orientado al análisis
estadístico genómico y sus aplicaciones en el Mejoramiento Genético Vegetal. Este
software fue desarrollado en el marco de dos proyectos trianuales (Agencia Córdoba
Ciencia, Nro 034002316600) y (FONCyT PICT/2000, Nro. 0808302) por docentes-
investigadores de Estadística y Biometría con sede en la Facultad de Ciencias
Agropecuarias de la Universidad Nacional de Córdoba. Este documento contiene
aplicaciones de Info-Gen para el análisis de datos de marcadores genéticos ya sean
moleculares, morfológicos y/o bioquímicos.

La cita bibliográfica para este documento preparado para el minicurso “Taller de Análisis de
Datos de Marcadores con Info-Gen” organizado por el XXXV Congreso Argentino de Genética
que se realizó en Septiembre del 2006 en San Luis, Argentina, es:

Balzarini, M, Arroyo A., Bruno, C. y Di Rienzo, J. 2006. Análisis de datos de marcadores con
Info-Gen. XXXV Congreso Argentino de Genética, San Luis. Argentina.

Info-Gen como obra de software debe citarse de la siguiente manera:

Balzarini, M. y Di Rienzo, J. 2003. Info-Gen: Software para análisis estadístico de datos


genéticos. Facultad de Ciencia Agropecuarias. Universidad Nacional de Córdoba. Argentina.

ii
iii
Tabla de Contenidos

Parte I: Sobre Info-Gen..................................................................................................... 1

I.1. Ambiente de trabajo ............................................................................................. 2

I.2. Tipos de tablas de datos........................................................................................ 7

Parte II: Menú Genética.................................................................................................. 12

II.1. Descriptiva de marcadores ................................................................................. 13

II.2. Variabilidad Genética ......................................................................................... 17

II.3. Equilibrio ............................................................................................................ 34

II.4. Análisis Molecular de la Varianza...................................................................... 38

II.5. Similitudes y Distancias ..................................................................................... 43

II.6. Clasificación. Análisis de Conglomerados......................................................... 51

II.7. Ordenación. Coordenadas Principales................................................................ 58

II.8. Muestra mínima diversidad ................................................................................ 65

Parte III. Menú Estadística ............................................................................................. 67

III.1. Estadística descriptiva .................................................................................... 68

III.2. Tablas de frecuencias...................................................................................... 71

III.3. Análisis Multivariado ..................................................................................... 75

Referencias Bibliográficas.............................................................................................. 91

iv
v
Parte I: Sobre Info-Gen
I.1. Ambiente de trabajo

Info-Gen ofrece distintas herramientas para explorar su información de manera sencilla.


Al abrir Info-Gen, se visualizará una barra de herramientas localizada en la parte
superior de la ventana del programa, la que contiene los siguientes menúes: Archivo,
Edición, Datos, Resultados, Genética, Mejoramiento, Estadísticas, Gráficos y
Ventanas.

Info-Gen trabaja con tres tipos de ventanas: la ventana donde se encuentran los datos
(Datos), aquella donde se muestran y acumulan los resultados de los procedimientos
solicitados (Resultados) y la ventana donde se muestran y acumulan los gráficos
realizados por el usuario (Gráficos). Si se maximiza la ventana Resultados cuando
recién se abre el programa, Info-Gen reportará que no hay resultados disponibles. Esta
ventana irá recibiendo contenido a medida que se ejecuten acciones (análisis) que
produzcan resultados. Las ventanas Gráficos y Herramientas Gráficas sólo se activan
cuando se ha producido un gráfico. Varias ventanas de Datos pueden mantenerse
abiertas simultáneamente. En tal caso la ventana activa es aquella que presenta el marco
superior coloreado (no gris). Todas las acciones serán ejecutadas sobre la ventana de
datos activa. Las ventanas Resultados y Gráficos contienen una hoja para cada
resultado y/o gráfico producido. El usuario puede moverse a través de las distintas hojas
haciendo un clic sobre las solapas que se encuentran al pie de la ventana y que indexan
las salidas.

En el menú ARCHIVO Info-Gen permite abrir y guardar


ARCHIVO
archivos de datos de distintos tipos. Por ejemplo, si se acciona
Nueva Tabla, el usuario podrá ingresar información, desde el
teclado, en la tabla o archivo denominado, temporalmente,
NuevaTabla. Sobre esa tabla podrá realizar análisis de datos y
producir resultados y gráficos. En el menú ARCHIVO también
se encuentra el comando Guardar Tabla que permite guarda
archivos de datos para ser ejecutados en futuras aplicaciones con
Info-Gen. La extensión de los archivos así guardados es .idb. Con
el comando Abrir Tabla, Info-Gen puede abrir archivos de
InfoStat, archivos de Excel y de texto con extensión .txt o .dat.

2
EDICIÓN En el menú EDICIÓN se encuentran los comandos para cortar,
copiar y pegar información desde ventanas de datos, resultados y
gráficos. Info-Gen permite importar información de bases de
datos desde otros programas para análisis genéticos que producen
archivos de texto y también información parcialmente procesada
como son las matrices de distancias obtenidas a partir de otros
programas de análisis de datos genéticos. Esta posibilidad permite
procesar con técnicas multivariadas diversas, datos de secuencias
de nucleótidos o aminoácidos que han sido previamente alineadas
con programas específicos

DATOS El menú DATOS permite realizar operaciones de diversa índole


sobre la grilla de datos, es posible ordenar el archivo, generar
nuevas columnas a partir de fórmulas, activar y desactivar casos,
crear una nueva tabla con los casos activos, buscar y reemplazar
información de manera automática, entre otras actividades que
ayudan acondicionar la tabla de datos. Para ordenar un archivo ir
al menú DATOS, comando Ordenar, se despliega una ventana
de diálogo que muestra en una lista a la izquierda los nombres de
las columnas de la tabla activa. Seleccionar la/s columna/s por
la/s que se prefiere ordenar el archivo e indicar la forma del
orden, ascendente o descendente.

RESULTADOS Desde el menú RESULTADOS se pueden invocar acciones


relacionadas a la presentación y a la exportación de resultados en
formato de tabla, por ejemplo es posible obtener en los resultados
una matriz de distancia y exportarla, de los resultados, a una tabla
de datos de manera de utilizarla en otras aplicaciones o análisis.
Todos los resultados producidos (tablas y gráficos) pueden ser

3
copiados utilizando el menú EDICIÓN (Copiar) y luego
pegados en el procesador de texto, siendo ésta la manera más
simple de transportar los resultados de Info-Gen a un documento
o informe escrito. El uso de los comandos Copiar y Pegar también
es la forma más sencilla de importar y exportar datos entre Info-
Gen y un procesador de texto o una planilla de cálculo como por
ejemplo Excel. Para simplificar la migración de planillas de datos,
Info-Gen provee al usuario con los comandos Copiar y Pegar
con nombres de columnas para conservar los nombres o etiquetas
de columnas. También es posible importar y exportar información
en formato ASCII.

ESTADÍSTICAS En el menú ESTADÍSTICAS Info-Gen ofrece la posibilidad de


implementar a través de ventanas de diálogo una serie de análisis
estadísticos clásicos. Es posible realizar estadística descriptiva,
tablas de frecuencias, pruebas de hipótesis basadas en una y dos
muestras, análisis de la varianza paramétrico y no paramétrico,
regresión lineal, no lineal y logística, análisis de correlación,
tablas de contingencia y análisis multivariado. Después de
seleccionar la aplicación estadística que se desea utilizar para
analizar los datos de un archivo abierto (tabla activa), se presenta
una ventana (Selector de Variables) donde a la izquierda se listan
todas las columnas del archivo para que el usuario seleccione la o
las columnas que participarán en el análisis, ya sea como variable
de interés o como criterio de clasificación. Las columnas
seleccionadas deberán transportarse a la lista de Variables que se
encuentra a la derecha de la ventana utilizando el botón que
contiene la flecha . Si una variable fue seleccionada
equivocadamente o ya no es necesaria, puede eliminarse de la lista
de variables y agregarse nuevamente a la lista de columnas del
archivo oprimiendo la tecla después de seleccionar la
variable o haciendo doble clic sobre la misma.

4
GENÉTICA En el menú GENÉTICA Info-Gen ofrece la posibilidad de
realizar análisis estadísticos propios de estudios genéticos. Con el
comando exploración de datos es posible determinar el número
de marcadores duplicados, polimórficos, invariantes, etc., estimar
medidas de variabilidad genética como porcentajes de loci
polimórficos, heterocigosis media, frecuencias alélicas, entre otras
como frecuencias genotípicas esperadas, coeficientes de
desequilibrio alélico, calcular distancias o similitudes de a pares,
realizar análisis molecular de la varianza, clasificar y ordenar
individuos o muestras. Todos los comandos que se despliegan a
partir del menú GENETICA activan una ventana del mismo tipo
que la del menú ESTADÍSTICAS llamada “Selector de
Variables”.

MEJORAMIENTO En el menú MEJORAMIENTO Info-Gen permite realizar


estudios de interacción genotipo*ambiente posibilitando obtener
gráficos del tipo AMMI Biplot, GGE Biplot o GEE biplot. Las
instrucciones para su uso se encuentran documentadas en Balzarini
et al., 2005.

GRÁFICOS En el menú GRÁFICOS, Info-Gen brinda herramientas gráficas


de índole profesional para la presentación de resultados. Las
técnicas gráficas implementadas son variadas. El graficador
permite incluir en un mismo gráfico varias series y editar
virtualmente todos sus atributos a través de la ventana
Herramientas Gráficas que se abre automáticamente al solicitar
un gráfico. Info-Gen cuenta con un algoritmo de copia y
suscripción de formato que facilita la creación de series de
gráficos de formato personalizado. Los gráficos creados por Info-

5
Gen pueden ser guardados o copiados y pegados a cualquier
aplicación Windows que soporte imágenes (metarchivo mejorado)
usando los clásicos comandos Windows de copiado y pegado (o
pegado especial).

VENTANAS A través del menú VENTANAS el usuario puede migrar de una


ventana a otra simplemente moviendo el cursor hacia la ventana
deseada. El menú VENTANAS también permite seleccionar el
modo en que las ventanas abiertas serán presentadas en pantalla.
Estas pueden estar en cascada, presentación vertical u horizontal
según el usuario haga un clic sobre la opción Cascada, Ordenar
vertical u Ordenar horizontal, respectivamente. A partir de este
menú se puede acceder a la ventana Resultados, donde se
acumulan los resultados de una sesión que el usuario no haya
borrado deliberadamente. De la misma manera se puede migrar a
la ventana Gráficos. Además se listan los nombres de las tablas de
datos abiertas.

6
I.2. Tipos de tablas de datos

La información molecular se analiza de acuerdo al tipo de marcador y de organismo.


Para marcadores dominantes como RAPDs, AFLPs o ISSRs los datos típicamente se
codifican como binarios (1 indica presencia y 0 ausencia de bandas en una posición
específica del gel). Para marcadores codominantes como aloenzimas, RFLPs o SSRs
donde los genotipos pueden ser homocigotos o heterocigotos, hay dos posibilidades 1)
los fragmento amplificados pueden ser codificados con datos binarios indicando la
ausencia/presencia de cada alelo o 2) ingresando el genotipo, ya sea diploide, por
ejemplo homocigoto=AA, heterocigoto=AB o haploide, por ejemplo alelo A y alelo B.
En la Figura 1 se presenta como ejemplo un patrón de bandas electroforéticas y la
matriz de datos binarios con la que se codificó la información para 8 muestras y 3
controles (-, + y M).

- M A B C D E F G H +

M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13

Muestras M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13


A 0 0 0 0 1 1 1 0 1 0 0 0 0
B 0 0 0 0 0 0 0 0 0 0 1 1 0
C 0 0 0 0 0 0 0 0 0 0 0 1 1
D 0 0 1 0 1 1 1 1 1 0 0 0 0
E 0 0 0 0 0 0 0 0 0 0 0 1 1
F 1 1 0 1 0 0 1 0 0 1 0 0 0
G 1 0 0 0 0 0 1 0 0 1 1 0 0
H 1 0 0 0 0 0 1 0 0 1 1 0 0

Figura 1. Patrón de bandas electroforéticas para 13 marcadores RAPD obtenidos con un


primer en 8 aislamientos de F. moniliforme (Fuente: Iglesias et al., 2001) y matriz de
datos binarios usada para representar el patrón de amplificación. Las columnas representan
individuos y las filas marcadores, 1 indica presencia de producto de amplificación y 0
ausencia del mismo.

7
Cuando los marcadores se disponen en columnas y las observaciones en fila, Info-Gen
puede interpretar dos tipos de tablas: a) Formato extendido y b) Formato compactado.

Tablas con formato extendido

Los datos pueden disponerse en una matriz donde las filas representan las muestras y las
columnas los marcadores o loci. Los datos de marcadores pueden ser de tipo binarios
(Ejemplo 1) o genotípicos (Ejemplo 2). Todas las aplicaciones del menú GENETICA
interpretan este tipo de formato de tabla.

Ejemplo 1. Marcadores en columnas, formato extendido, datos binarios

Dimensión de la Tabla: 84 filas (observaciones) y 107 columnas (datos clasificatorios


de grupo genético y presencia/ausencia de amplificación de cada uno de 106 marcadores
de tipo AFLP).

Figura 2. Marcadores AFLP para distintos niveles de un factor de clasificación (archivo


AFLP.idb, gentileza: Dr. Wilbert Phillips. Centro Agronómico Tropical de
Investigación y Enseñanza – CATIE). Solo se muestran 10 marcadores y 9
observaciones.

8
Ejemplo 2. Marcadores en columnas, formato Extendido, datos genotípicos

Dimensión de la tabla: 302 filas (observaciones) y 7 columnas (datos clasificatorios de


población y genotipo de cada uno de 6 marcadores de tipo Isoenzimas.

Figura 3. Marcadores Isoenzimas (archivo: VG Isoenzimas.idb, gentileza:Biol. Norma


Julio) Solo se muestran 9 observaciones.

Tablas con formato compactado

Cada perfil de marcadores observado se encuentra representado por una fila


(marcadores en columnas) y se indica en otra columna la cantidad de veces (frecuencia)
que aparece ese perfil en la población o grupo de individuos. Los datos de marcadores
pueden ser de tipo binarios (Ejemplo 3), genotípicos (Ejemplo 4) o haplotipos (Ejemplo
5). Con este formato es posible implementar la siguientes aplicaciones del menú
GENÉTICA: Distancias y similitudes, Análisis molecular de la varianza, Filogenia y
Endocría.

Ejemplo 3. Marcadores en columnas, formato compacto, datos binarios

Dimensión de la tabla: 95 filas (observaciones) y 38 columnas (datos clasificatorios de


región, población, nombre del haplotipo, frecuencias del haplotipo y presencia/ausencia
de amplificación de cada uno de 34 marcadores.

9
Figura 4. Marcadores RFLP. Haplotipos de ADN mitocondrial humano (Excoffier et al,
1992). (archivo: AMOVA Haplotipo.idb) Solo se muestran 9 marcadores y 15
observaciones.

Ejemplo 4. Marcadores en columnas, formato compacto, datos genotípicos

Dimensión de la tabla: 13 filas (observaciones) y 4 columnas (clasificatoria de


población y de locus, nombre del genotipo y frecuencia).

Figura 5. Marcadores Isoenzimas (Archivo: FrecuenciasGenotípicas.idb, gentileza: Biol.


Norma Julio, FCEFyN-UNC)

Ejemplo 5. Marcadores en columnas, formato compacto, datos haplotípicos

Dimensión de la tabla: 13 filas (observaciones) y 4 columnas (clasificatoria de


población y de locus, nombre del haplotipo (alelo) y frecuencia).

10
Figura 6. Marcadores Isoenzimas (Archivo: FrecuenciasHaplotípicas.idb, gentileza:
Biol. Norma Julio, FCEFyN-UNC)

Info-Gen también puede interpretar tablas de datos donde cada fila representa una banda
o marcador y cada columna una muestra (Ejemplo 6).

Ejemplo 6. Marcadores en filas, datos binarios

Dimensión de la Tabla: 282 filas (marcadores) y 10 columnas (la dos primeras


columnas son clasificatorias de primer y banda mientras que las siguientes indican
presencia/ausencia de amplificación de cada banda en cada uno de 8 individuos
(observaciones).

Figura 7. Marcadores RAPD obtenidos desde distintos primers (archivo RAPD.idb,


gentileza: Dra. Laura Giorda, Dra. María José Martínez y Biól. Juliana Iglesias). Sólo se
muestran 24 marcadores.

11
Parte II: Menú Genética
II.1. Descriptiva de marcadores

Info-Gen permite realizar la descripción de datos de marcadores mediante la cual es


posible determinar el número de muestras (observaciones) y marcadores en el archivo,
detectar muestras duplicadas (filas duplicadas), marcadores duplicados, marcadores
invariantes (donde todas las observaciones son cero o todas son 1), porcentaje de
marcadores polimórficos, grupos de marcadores, número promedio de marcadores por
grupo y porcentaje de amplificación.

Para realizar Exploración de datos el formato de la tabla debe ser del tipo marcadores en
columnas formato extendido ya sea de datos binarios, genotípicos o haplotípicos. Ir a
menú GENETICA, comando Descriptiva para datos de marcadores se despliega la
ventana “selector de variables” que permite seleccionar aquellos marcadores
(columnas) para los que se requiere la descripción. Al aceptar, se despliega una ventana
que contiene las opciones de cálculo, que el usuario puede seleccionar (Figura 8).

Figura 8. Ventana de opciones del comando Descripción de datos de marcadores.

La opción Muestras determina la cantidad de observaciones, Muestras duplicadas


determina si existen observaciones que tengan el mismo perfil a través de todos los
marcadores o bandas, es posible desactivarlas en la tabla de datos automáticamente, si
así se especifica haciendo clic en Desactivarlas. La opción Bandas (número) cuenta el
número de columnas ingresadas en el selector de variables. Patrón bandas duplicadas
determina si existen marcadores (bandas) que presenten el mismo perfil a través de
todas las observaciones y si se selecciona la opción marcar, Info-Gen pinta de color
verde, sobre la tabla de datos, las columnas duplicadas y presenta en la ventana de
Resultados un cuadro que lista los marcadores (columnas) que presentan patrones de

13
bandas duplicados. Bandas Monomórficas determina el número de marcadores que no
varían a través de todo el perfil de observaciones, es decir aquellos marcadores que, por
ejemplo, son siempre cero o son siempre 1, si se selecciona la opción marcar, Info-Gen
pinta de color amarillo, sobre la tabla de datos, las columnas (bandas) monomórficas y
presenta en la ventana de Resultados un cuadro que lista las bandas (columnas)
monomórficas. Bandas polimórficas (%) calcula el porcentaje de marcadores
polimórficos. Primers, si se trata de marcadores donde cada columna contiene una de
las bandas de un primer, ésta opción determina el número de primers o grupos de
marcadores. Sobre el espacio en blanco que se encuentra al pie de la ventana de
opciones se indica el carácter/es separador/es primer-banda. Por ejemplo: si los
nombres de las bandas están dados de la siguiente manera: OPAs07#400bp,
OPAs07#500bp, OPAs07#564bp el carácter de separación primer-banda es “#“, en este
caso el nombre del primer es OPAs07. A la derecha de la ventana de opciones se
encuentra la lista de nombres de columnas (marcadores o bandas), una vez ingresado el
carácter separador del nombre del primer, muestra la lista de nombres de primer que
está interpretando. Por defecto Info-Gen espera un carácter separador del nombre del
primer, cuando no se indica un carácter separados de primers-banda, se abre una
ventana de diálogo que consulta si es un error o no se tiene grupos (Figura 9).

Figura 9. Ventana de diálogo que aparece cuando no se indica carácter separador


primers-banda

Además de las opciones antes detalladas, Info-Gen calcula por defecto, para cada
primers (o grupo de marcador) el número de bandas polimórficas (BP), número de
bandas monomórficas (BM) y número de bandas totales (BT), la proporción de loci
polimórficos (PMF(95))1, el contenido de información polimórfica (PIC) 1 promedio,
el error estándar del PIC (EE), el porcentaje de amplificación (porcentaje de datos
iguales a 1) y la probabilidad que dos individuos compartan el mismo alelo

1
Ver Variabilidad Genética

14
(PDICMA). La probabilidad de que dos individuos (muestras) compartan el mismo
alelo se calcula como Pi(XD)n, donde (XD) representa el índice de similitud promedio
para todos los pares de comparaciones, calculado como XD=(2NAB)/(NA+NB), donde
NAB representa el número de bandas presentes en ambas muestras, NA y NB representan
el número total de bandas en las muestras A y B respectivamente, y n representa el
número promedio de productos de amplificación por muestra (Wetton et al.,1987)

Ejemplo 7. Descripción de datos de marcadores. Archivo RAPD sugarcane

Descripción de datos de marcadores RAPD para 8 primers en 50 cultivares de caña de


azúcar (Archivo RAPD sugarcane.idb; gentileza, Dr. Jonhy Demey). Se muestran los
resultados obtenidos a partir del archivo RAPD sugarcane.idb cuyas dimensiones son 50
filas (observaciones o muestras) y 105 columnas (103 representan marcadores RAPD y
2 factores de clasificación que indican la procedencia y el nombre de la muestra). En la
ventana “selector de variables” se seleccionaron las 103 columnas que indican los
marcadores (Cuadro 1).

Cuadro 1. Resultados Ejemplo 7.


Descripción de datos de marcadores

Resumen Datos
Muestras 50.00
Muestras Duplicadas 1.00
Bandas (número) 103.00
Patrón bandas duplicadas 0.00
Bandas monomórficas 0.00
Bandas polimorficas (%) 100.00
Primers 8

Resumen por Primer

Primer BP BM BT PMF(95) PIC EE AMP PDICMA


OPAs07 20 0 20 0.80 0.19 0.02 14.70 1.9E-11
OPMs04 12 0 12 0.58 0.15 0.02 21.50 1.5E-05
OPMs16 10 0 10 0.90 0.20 0.01 22.20 5.9E-09
OPMs18 7 0 7 0.86 0.28 0.02 44.29 1.8E-11
OPYs04 11 0 11 0.73 0.25 0.02 49.27 4.7E-09
OPYs07 14 0 14 1.00 0.31 0.01 33.14 1.1E-15
OPYs09 16 0 16 0.94 0.29 0.02 33.25 4.0E-13
OPYs17 13 0 13 0.77 0.23 0.02 38.92 1.1E-08
Total 103 0 103 30.37 7.6E-79

15
Interpretación

De las 50 muestras (materiales) una se encuentra duplicada. Todos los marcadores son
polimórficos (100%) y hay 8 grupos de marcadores o primers. El primer que más
bandas amplificó fue el OPAs07 (20 bandas) con un 14.7 % de amplificación a través de
las 50 muestras. Los valores de contenido de información polimórfica fueron obtenidos
con los primers OPMs18, OPYs07 y OPYs09, que es más que el 50% que el rango
teórico del contenido de información polimórfica (0.01 a 0.50) el cual es muy
informativo y será útil en subsecuentes estudios de “fingerprinting”. La menor
probabilidad de que dos individuos compartan el mismo alelo por primer fue encontrada
para el primer OPYs07. Esto indica que dicho primer mostró un alto grado de confianza
en la identificación de, hasta 1015, cultivares de caña de azúcar comparados
simultáneamente. Estos resultados también muestran que el primer OPMs04 tiene los
menores valores de capacidad discriminatoria y contenido de información polimórfica;
el resto de los primers mostraron similar capacidad discriminatoria.

16
II.2. Variabilidad Genética

Hay diferentes maneras de medir variación genética. Los descriptores más simples son
las frecuencias alélicas y las frecuencias genotípicas que se obtienen en la solapa
Frecuencias de Info-Gen. También se usan como indicadores de variabilidad genética
medidas de resumen tales como heterocigosis y diversidad genética. En el menú
GENÉTICA, comando Variabilidad genética, solapa Frecuencias se presentan las
opciones para el cálculo de casos por locus (número de observaciones por locus), de
frecuencias alélicas y genotípicas por locus, así como la posibilidad de obtener medidas
resúmenes (media, error estándar (E.E.), desvío estándar (D.E.), Mínimo y máximo) de
éstas frecuencias a través de los subgrupos de datos que pudieran existir.

Al seleccionar la solapa Medidas, Info-Gen permite calcular para todos los loci las
siguientes medidas de variabilidad genética: proporción de loci polimórfico, diversidad
genética, heterocigosis media por conteo directo y heterocigosis media insesgada,
contenido de información polimórfica (PIC), número de alelos efectivos, media del
número de alelos por locus y media del número de alelos efectivos. Las medidas
seleccionadas pueden obtenerse para cada nivel de un factor de clasificación sin tener en
cuenta el criterio de clasificación seleccionado, es decir, a través de todos los grupos de
muestras que se tengan.

Para cada locus, Info-Gen permite calcular diversidad genética, heterocigosis, contenido
de información polimórfico (PIC) y número de alelos efectivos. Estas medidas son
calculadas para cada grupo de muestras conformado según factor indicado como criterio
de clasificación en el “selector de variables”. Cuando existe un criterio de clasificación
también se puede solicitar: a) gráficos de perfiles promedios, b) medidas resúmenes a
través de grupos y c) realizar una prueba estadística para comparar el nivel medio de la
medida de variabilidad genética seleccionada entre grupos (Prueba T apareada, Prueba
no paramétrica de Wilcoxon o Prueba no paramétrica de Friedman). Para cada una de
las medidas de variabilidad seleccionadas es posible obtener además su error estándar
(EE) y el intervalo de confianza derivada a partir de técnicas de re-muestreo (Bootstrap
y Jackknife).

17
Solapa Frecuencias

Una población puede ser caracterizada genéticamente a través de sus frecuencias


alélicas y genotípicas. Dichas frecuencias pueden ser modificadas por fuerzas como
mutación, selección (natural y artificial), migración y deriva genética. La frecuencia del
alelo i en una población se puede interpretar como la probabilidad de que un haplotipo
(combinación de alelos que no se encuentran en equilibrio de ligamiento, es decir,
algunos alelos se encuentran en "exceso" y otos en "falta") lleve dicho alelo. La
frecuencia de un genotipo puede ser estimada directamente por conteo de los individuos
con dicho genotipo en la muestra.

Ejemplo 8: Estimación de frecuencias. Archivo VG Isonenzimas

En el “selector de variables” se seleccionaron opciones para los tres primeros locus:


frecuencias alélica por locus, frecuencias genotípicas por locus y resumen a través de
grupos de frecuencias genotípicas por locus (Figura 10). Los resultados se observan en
el

18
Cuadro 2.

Figura 10. Solapa Frecuencia. Menú GENETICA. Comando Variabilidad Genética.

19
Cuadro 2. Resultados Ejemplo 8.
Variabilidad genética

Tabla de frecuencias alélicas relativas


Locus y alelos en filas, poblaciones en columnas

Locus Alelos Población 1 Población 2 Población 3


Locus 1 A 0,049 0,125 0,096
B 0,697 0,634 0,795
C 0,254 0,241 0,109
Locus 2 A 0,204 0,256 0,324
B 0,660 0,565 0,398
C 0,136 0,179 0,278
Locus 3 A 0,057 0,163 0,161
B 0,943 0,837 0,598
C 0,000 0,000 0,241

Tabla de frecuencias genotípicas relativas


Locus y genotipos en filas, poblaciones en columnas

Locus Genotipo Población 1 Población 2 Población 3


Locus 1 AA 0,033 0,054 0,000
AB 0,033 0,107 0,167
AC 0,000 0,036 0,026
BB 0,525 0,500 0,628
BC 0,311 0,161 0,167
CC 0,098 0,143 0,013
Locus 2 AA 0,062 0,107 0,093
AB 0,235 0,274 0,389
AC 0,049 0,024 0,074
BB 0,457 0,298 0,037
BC 0,173 0,262 0,333
CC 0,025 0,036 0,074
Locus 3 AA 0,007 0,102 0,036
AB 0,100 0,122 0,089
AC 0,000 0,000 0,161
BB 0,893 0,776 0,500
BC 0,000 0,000 0,107
CC 0,000 0,000 0,107

Tabla resumen de frecuencias genotípicas relativas


Locus y genotipos en filas

Locus Genotipo Media E.E. D.E. Mínimo Máximo


Locus 1 AA 0,026 0,002 0,022 0,000 0,054
AB 0,108 0,004 0,056 0,033 0,167
AC 0,021 0,001 0,014 0,000 0,036
BB 0,559 0,004 0,057 0,500 0,628
BC 0,210 0,005 0,069 0,161 0,311
CC 0,077 0,004 0,055 0,013 0,143
Locus 2 AA 0,087 0,001 0,020 0,062 0,107
AB 0,288 0,004 0,060 0,235 0,389
AC 0,046 0,001 0,020 0,024 0,074
BB 0,292 0,011 0,162 0,037 0,457
BC 0,247 0,004 0,063 0,173 0,333
CC 0,041 0,001 0,020 0,025 0,074
Locus 3 AA 0,033 0,002 0,037 0,007 0,102
AB 0,102 0,001 0,011 0,089 0,122
AC 0,037 0,004 0,068 0,000 0,161
BB 0,780 0,010 0,159 0,500 0,893
BC 0,024 0,003 0,045 0,000 0,107
CC 0,024 0,003 0,045 0,000 0,107

20
Interpretación

Se puede observar que algunos alelos tienen frecuencia cero en algunas poblaciones
(alelo C del locus 3 en la Población 1 y 2), otro alelo (B) en ese locus tiene una
frecuencia muy alta sugiriendo escasa variabilidad genética a niveles de Locus 3 en la
Población 1. La segunda Tabla muestra las frecuencias genotípicas por locus. Cuando se
colectan datos genotípicos, las frecuencias genotípicas constituyes los primeros
descriptores de cada población. Cuando las poblaciones son muestreadas en tal forma
que cada miembro de la población tiene igual chance de estar en la muestra, y los
individuos son muestreados independientemente, los conteos o frecuencias absolutas de
genotipo tienen distribuciones multinomiales. Cuando se trabaja bajo la aproximación
de efectos fijos de población (i.e. las poblaciones bajo análisis han sido deliberadamente
seleccionadas por el investigador) las poblaciones para la misma especie se comparan
simplemente a través de la comparación de éstas frecuencias genotípicas. La
comparación a través de frecuencias genotípicas también es usada en situaciones donde
no se puede suponer que se cumpla el principio de Hardy-Weinberg. Bajo Hardy-
Weinberg, es posibles interpretar a lo datos como frecuencias alélicas multinomiales y
realizar comparaciones a nivel de frecuencias alélicas. En la Tabla resumen de
frecuencias genotípicas relativas por ejemplo, la frecuencia del genotipo AA en el
Locus 1 varió entre 0 (mínimo valor) a 0.054 (máximo valor); en promedio la
frecuencia fue de 0.026 (promedio ponderado por la cantidad de individuos en cada
población). Info-Gen también reporta la desviación típica (ponderada) de la frecuencia
observada en cada población respecto a la media general, valor que se denota como
D.E. Además se informa el error estándar (E.E.) de la estimación promedio, el cual debe
interpretarse como una medida de confiabilidad de la frecuencia media (ponderada) que
se reporta ya que éste depende del número de individuos usados en la estimación.

21
Solapa Medidas

A continuación se presenta una breve descripción de cada una de las medidas de


variabilidad genética que se pueden obtener en Info-Gen:

Proporción de loci polimórficos

Un locus es considerado polimórfico si se observan variaciones en la población para ese


locus y si la frecuencia del alelo más común no supera 0.99 o 0.95. Otros valores de
frecuencia pueden ser usados como criterio de detección de polimorfismo. Cuando
existen múltiples loci y cada locus se clasifica como polimórfico o no, es posible
calcular el porcentaje de loci polimórfico. La proporción de loci polimórficos se calcula
como el número de loci polimórficos/número total de loci.

Diversidad Genética

Es una medida de variabilidad apropiada para poblaciones endocriadas donde hay muy
pocos individuos heterocigotas pero muchos tipos diferentes de alelos que se encuentran
en homocigosis. La diversidad genética (múltiples loci) es una función de la
heterocigosis y se calcula a partir de la suma de cuadrados de frecuencias alélicas. Así,
1 m l 2
para m loci, la diversidad genética promedio es D = 1 − ∑∑ pij donde pij es la
m j =1 i =1
frecuencia del alelo i en el locus j. Para un locus la diversidad genética se calcula como
l
D = 1 − ∑ pi2 .
i =1

Heterocigosis

Una medida simple de variación genética en una población es la proporción de


individuos heterocigotas observados, la cual puede ser calculada para cada locus o como
un promedio a través de todos los loci. La heterocigosis de un locus estima la
probabilidad de que un individuo sea heterocigota para ese locus en la población. Info-
Gen calcula la heterocigosis de dos maneras: (1) por conteo directo, como la proporción
de individuos muestreados que son heterocigotas y (2) realizando una estimación
insesgada basada en el valor esperado condicional de las frecuencias alélicas
(Heterocigosis esperada o insesgada de Nei) (Nei, 1978).

22
Si se considera una población con individuos diploides y cruzamientos aleatorios,
existen l(l+1)/2 genotipos posibles para un locus con l alelos codominantes. En dicha
población, l genotipos son homocigotas y l(l-1)/2 genotipos son heterocigotas. La
l l
heterocigosis esperada para un locus se define como: H e = 1 − ∑ pii donde ∑p ii es la
i =1 i =1

frecuencia de los genotipos homocigotas.

Si la población se encuentra en equilibrio Hardy-Weinberg para el locus, entonces la


heterocigosis puede ser escrita en términos de frecuencias alélicas como
l l i −1 l
H = 1 − ∑ pi2 = 2∑∑ pi p j donde
i =1 i = 2 j =1
∑p
i =1
2
i es la frecuencia esperada para l genotipos

homocigotas. Es importante notar que la heterocigosis será mayor cuando hay más
alelos y/o cuando la distribución de las frecuencias alélicas sea menos uniforme.

El estimador insesgado para la heterocigosis (Heterocigosis insesgada) es


∧ N ⎛ l ∧2

H= ⎜ ∑ p i ⎟ donde N es el tamaño de muestra.
1 −
N − 1 ⎝ i =1 ⎠

La endocría podría reducir la heterocigosis. Si el coeficiente de endocría es F, entonces


la heterocigosis esperada en una población se reduce (1 − F ) H . Ott (1992) considera a
un locus como un marcador polimórfico cuando su heterocigosis es ≥ 0.1 y como
altamente polimórfico cuando su heterocigosis era ≥ 0.7 .

Contenido de Información polimórfica (PIC)

Para cuantificar el polimorfismo también es común utilizar el contenido de información


polimórfica (PIC) (Botstein et al., 1980). Un valor de PIC alto indica mayor contenido
de información de ligamiento. El contenido de información polimórfica (PIC) es
i −1
definido como: PIC = 1 − ∑ pi2 − 2∑∑ ( pi2 p 2j )
l l

i =1 i = 2 j =1

i −1 i −1
PIC = 2∑∑ ( pi p j ) − 2∑∑ ( pi2 p 2j )
l l

i = 2 j =1 i = 2 j =1

i −1
PIC = 2∑∑ ⎡⎣ pi p j (1 − pi p j ) ⎤⎦
l

i = 2 j =1

23
Cuando el número de alelos es grande, el contenido de información polimórfica se
aproxima a la heterocigosis. Cuando todos los alelos tienen igual frecuencia el PIC es
menor que la heterocigosis (Liu, 1998).

Número de alelos efectivos por locus

Se calcula como el recíproco de la suma de frecuencias alélicas al cuadrado para el


1
locus en cuestión, l
.
∑p
i =1
2
i

Media del número de alelos efectivos para múltiples loci

Es el promedio del número de alelos efectivos por locus calculado a través de todos los
loci.

Media del número de alelos por locus para múltiples loci

Es el total de número de alelos diferentes en la muestra dividido por el número total de


loci examinados (usualmente denotado por A).

Ejemplo 9: Estimación de Medidas de Variabilidad Genética. Archivo VG


Isonenzimas

Para obtener medidas de variabilidad genética para los tres primeros loci del Archivo
VG Isoenzimas ir a menú GENÉTICA, comando Variabilidad genética. Se desplegará
la ventana “selector de variables”. Una vez seleccionadas las variables de interés (Locus
1, Locus 2 y Locus 3) y el criterio de clasificación que conforma los grupos de interés
(Población), ir a la ventana de opciones de medidas y seleccionar aquellas que se desea
reportar (Figura 11).

24
Figura 11. Solapa Medidas. Menú GENETICA. Comando Variabilidad Genética.

Cuadro 3: Resultados Ejemplo 9.


Variabilidad genética

Medidas de diversidad genética por locus


Locus y medidas de diversidad en filas, poblaciones en columnas

Locus Estadístico Población 1 Población 2 Población 3


Locus 1 Diversidad genética 0,448 0,524 0,347
Heterocigosis 0,344 0,304 0,359
PIC 0,382 0,463 0,320
Alelos efectivos 1,810 2,103 1,532
Locus 2 Diversidad genética 0,504 0,583 0,659
Heterocigosis 0,457 0,560 0,796
PIC 0,450 0,516 0,585
Alelos efectivos 2,015 2,397 2,935
Locus 3 Diversidad genética 0,108 0,273 0,558
Heterocigosis 0,100 0,122 0,357
PIC 0,102 0,236 0,495
Alelos efectivos 1,121 1,376 2,263

Medidas de diversidad genética por múltiples locus


Medidas de diversidad en filas, poblaciones en columnas

Estadístico Población 1 Población 2 Población 3


Loci polimorficos(95).. 1,000 1,000 1,000
Diversidad genética 0,353 0,460 0,522
Heterocigosis promedi.. 0,300 0,329 0,504
# promedio de alelos 2,667 2,667 3,000
# efectivo de alelos 1,649 1,959 2,243

25
Interpretación

En la tabla superior de la salida se observan las medidas de variabilidad genética


solicitadas para cada locus y para cada población definida en función del criterio de
clasificación indicado. En la tabla inferior se muestran los estadísticos de variabilidad
genética calculados a través de todos los loci para cada población. La Figura 12 muestra
los gráficos de perfiles promedios (con sus errores estándar) para cada una de las
medidas seleccionadas por población para facilitar su comparación.

Diversidad genética Heterocigosis

0,7 0,7

Heterocigosis (conteo directo)


0,6 0,5
Diversidad genética

0,4 0,4

0,3 0,3

0,2 0,2
Población 1 Población 2 Población 3 Población 1 Población 2 Población 3
Grupos Grupos

PIC Alelos efectivos


0,7 3,0

0,6 2,5
Alelos efectivos
PIC

0,4 2,0

0,3 1,5

0,2 1,0
Población 1 Población 2 Población 3 Población 1 Población 2 Población 3
Grupos Grupos

Figura 12. Promedios ( ± EE), de diversidad genética, heterocigosis, contenido de


información polimórfica (PIC) y alelos efectivos, por población.

26
Comparación entre grupos

Info-Gen permite realizar la comparación de medias entre grupos de la medida de


variabilidad genética seleccionada. Para ello Info-Gen ofrece la prueba T para muestras
apareadas, pruebas no paramétricas de Wilcoxon (caso de que existan dos grupos) y la
prueba no paramétrica de Friedman (para el caso de dos o más grupos). Todas las
pruebas provistas permiten contrastar la hipótesis nula de “no efecto de grupo” vs. la
hipótesis alternativa de diferencia entre grupos. Si el valor p de la prueba es menor al
nivel de significación (α) seleccionado (por ej. nivel=0.05) los datos sugieren el rechazo
de la hipótesis nula indicando diferencia entre grupos para la medida de variabilidad
analizada. Las pruebas no paramétricas permiten relajar los supuestos distribucionales
de las pruebas paramétricas. Todas las pruebas disponibles permiten controlar la
variación de la medida analizada dentro de cada grupo debido al efecto propio de los
loci. Por ejemplo, si se comparan dos poblaciones a nivel de heterocigosis y para cada
población se analizan 6 loci, estas pruebas controlaran la variación sistemática
introducida por las diferencias de loci a loci dentro de cada población, es decir, el efecto
loci se considera como un efecto que estratifica la información y la comparación entre
poblaciones se hace para cada loci concluyendo en función de la comparación a través
de todos los loci.

Prueba T para muestras apareadas

La prueba T para muestras apareadas permite probar la hipótesis de igualdad de medias


cuando se toman observaciones de a pares desde dos distribuciones (poblaciones o
grupos). Si se dispone de una muestra de tamaño n de pares de observaciones (cada
miembro de un par proveniente de una distribución (población o grupo)), ésta prueba se
basa en la distribución de la variable diferencia entre los pares de observaciones, d. Si la
hipótesis nula que se quiere probar es H0: µ1-µ2=0, donde µ1 es la media poblacional en

el grupo 1 y µ2 la media poblacional en el grupo 2. Esta misma hipótesis se puede


expresar como µd=0, donde µd es la media de la variable diferencia. La prueba puede
usarse para comparar la diferencia entre dos poblaciones a través de n loci; para cada
loci habrá un par de observaciones (uno proveniente de la Población 1 y otro de la
Población 2).

27
Prueba no paramétrica de Wilcoxon

La prueba no paramétrica de Wilcoxon permite obtener una prueba para la comparación


de dos distribuciones (poblaciones o grupos), cuando se dispone de observaciones como
en el caso descripto anteriormente. A diferencia de la prueba T para muestras apareadas,
la prueba de Wilcoxon no necesita el supuesto de distribución normal. La prueba
emplea la magnitud y signo de las diferencias entre los pares de observaciones. Dado un
conjunto de observaciones pareadas (Xi,Yi); i=1,...,n, el procedimiento calcula Di=(Xi-
Yi), los valores absolutos de las diferencias, y a ellos les aplica la transformación rango:
Ri=rango⏐Xi–Yi⏐=posición en la muestra ordenada de los Di . Posteriormente asocia a
los rangos los signos de las diferencias originales.

Prueba no paramétrica de Friedman

El ANAVA propuesto por Friedman (1937) permite comparar las medias de 2 o más
grupos de datos controlando por el efecto de otro factor que genera variabilidad
sistemática dentro de grupos, como por ejemplo los distintos loci. Al ser una prueba no
paramétrica no es necesario verificar el cumplimiento del supuesto de normalidad
requerido para el uso del estadítico F del ANAVA paramétrico.

Ejemplo 10: Comparación de medidas de variabilidad genética entre grupos.


Archivo VG Isonenzimas

Figura 13. Solapa Medidas. Menú GENETICA. Comando Variabilidad Genética.

28
Cuadro 4: Resultados Ejemplo 10.
Variabilidad genética

Medidas de diversidad genética por locus


Locus y medidas de diversidad en filas, poblaciones en columnas

Locus Estadístico Población 1 Población 2 Población 3


Locus 1 Heterocigosis 0,344 0,304 0,359
PIC 0,382 0,463 0,320
Locus 2 Heterocigosis 0,457 0,560 0,796
PIC 0,450 0,516 0,585
Locus 3 Heterocigosis 0,100 0,122 0,357
PIC 0,102 0,236 0,495

Comparaciones múltiples para la prueba de Friedman (Heterocigosis )


Friedman p-valor = 0,0494
Grupos Medias n
Población 3 0,504 3 A
Población 2 0,329 3 B
Población 1 0,300 3 B
Letras distintas indican diferencias significativas(p<= 0,05)

Comparaciones múltiples para la prueba de Friedman (PIC )


Friedman p-valor = 0,4444
Grupos Medias n
Población 3 0,467 3 A
Población 2 0,405 3 A
Población 1 0,311 3 A
Letras distintas indican diferencias significativas(p<= 0,05)

Interpretación

La Población 3 parece tener más variabilidad genética que las otras, ya que su
heterocigosis y su PIC medio es mayor. La prueba sugiere que se rechace la hipótesis de
igualdad entre heterocigosis media (p=0.0494). Es decir, la probabilidad de que las
diferencias en heterocigosis sean sólo por azar es 0.0494. La prueba de comparaciones
múlptiples aplicada a posteriori de la Prueba de Friedman indica que la Población 3
tiene una heterocigosis media estadísticamente mayor a la de las Poblaciones 1 y 2. No
obstante, a nivel de PIC las diferencias entre poblaciones no son estadísticamente
significativa (p=0.4444). Al contemplar la co-variabilidad entre distintos alelos de un
locus, las diferencias entre poblaciones disminuyen. En cualquier contraste de hipótesis
el no rechazo de la hipótesis nula puede también deberse a una falta de potencia
estadística, producida por un n bajo. Es el contexto en que se usó la prueba, n es el
número de loci, para este ejemplo n es 3.

29
Estimaciones y medidas de confianza por re-muestreo

Los métodos de re-muestreo (toma de muestras desde una muestra) toman importancia
en situaciones donde se quiere comparar estadísticos o cálculos muestrales para los
cuales las distribuciones estadísticas muestrales son desconocidas o no existen.
Jackknife (Quenouille, 1949) y Bootstrap (Efron, 1979) son poderosos métodos
numéricos de re-muestro utilizados en tales situaciones. El procedimiento de re-
muestreo provee una simulación empírica de los componentes aleatorios del estadístico
de interés.

En estudios de variabilidad genética, las propiedades distribucionales de las medidas


calculadas pueden no ser fáciles de derivar analíticamente debido a complejas
estructuras de muestreo o expresiones no lineales de los estadísticos usados. En estos
casos los procedimientos bootstrap y jackknife pueden proveer una estimación empírica
de parámetros genéticos y de los errores estándares necesarios para construir un
intervalo de confianza (Di Rienzo y Balzarini, 2002).

Bootstrap

Si consideramos una muestra original de tamaño n, ésta puede ser utilizada para obtener
varias muestras bootstrap. Una muestra bootstrap es obtenida por un muestreo aleatorio
con reposición desde la muestra original con reposición. Comúnmente las muestras
bootstrap tienen el mismo tamaño (n) que la muestra original.

Cuando se solicita un cálculo de error estándar (EE) por bootstrap para un estimador de
variabilidad genética, Info-Gen realiza el siguiente procedimiento:

1. Obtiene una muestra bootstrap y calcula el estimador deseado ( θ ).

2. Repite el paso anterior k veces.

3. La estimación bootstrap del parámetro θ es la media de los valores del estimador


∧ −B 1 k ∧
( θ ) obtenidos a través de las k muestras bootstrap, θ =
K
∑θ
i =1
i y el error estándar

2
1 k ⎛ ∧ −B ⎞
del estimador es EE =
B
∑ ⎜θ i −θ ⎟
K − 1 i =1 ⎝ ⎠

30
Jackknife

La muestra original de tamaño n, puede ser utilizada para obtener n muestras jackknife.
Una muestra jackknife es obtenida desde la muestra original dejando fuera un objeto o
unidad muestral (la muestra jackknife es una muetra de tamaño n-1). La i-ésima muestra
jackknife es el conjunto de datos de la muestra original con el i-ésimo objeto removido.
Cuando se solicita un error estándar jackknife par el estimador de la variabilidad

genética θ , Info-Gen realiza el siguiente procedimiento:

1. Obtiene una muestra jackknife y calcula el estimador del parámetro deseado ( θ ).

2. Repite el paso anterior tantas veces como observacioenes haya excluyendo una
unidad muestral diferente cada vez. Para una muestra original de tamaño n, el
número total de muestras jackknife será n.

3. La estimación jackknife es la media de los valores estimados a través de las n


−J 1 n
θ = ∑θi
n i =1
muestras jackknife. y el estimador jackknife del error estándar es
2
n −1 a ⎛ ∧ − J ⎞
EE =
J
∑ ⎜θ i − θ ⎟
n i =1 ⎝ ⎠

El método jackknife también puede usarse exluyendo más de un individuo en cada


extracción de una muestra jackknife.

Ejemplo 11: Estimación y medidas de medidas de confianza por re-


muestreo. Archivo VG Isoenzimas

Ir a menú GENÉTICA, comando Variabilidad genética en las opciones de


Estimaciones y medidas de confianza puede seleccionarse la estimación puntual y el
intervalo de confianza por re-muestreo de la medida de variabilidad genética
seleccionada ya sea para un locus o para múltiples locus. Tanto el estimador puntual

31
como los errores estándares pueden ser obtenidos por bootstrap o jackknife, con el error
estándar calculado Info-Gen construye intervalos de confianza para el nivel de
significación indicado (por ejemplo, 0.95).

A modo de ejemplo, se seleccionó como medida de variabilidad genética el porcentaje


de loci polimórfico y se pidió la estimación puntual de ese parámetro genético con su
medida de error estándar obtenida por el método bootstrap con k=250, donde k es el
número de ciclos o muestras bootstrap que serán extraídas a partir de la muestra
original. Para el cálculo de estimación puntual y error estándar se recomienda usar entre
250 y 500 muestras bootstrap. En caso de seleccionar el método jackknife es necesario
indicar cuantos casos de la muestra original serán excluidos en cada muestra jackknife.
Habitualmente se usa este método excluyendo un caso.

Figura 14. Solapa Medidas. Menú GENETICA. Comando Variabilidad Genética.

32
Cuadro 5: Resultados Ejemplo 11.
Variabilidad genética

Medidas de diversidad genética por locus


Locus y medidas de diversidad en filas, poblaciones en columnas

Locus Estadístico Población 1 Población 2 Población 3


Locus 1 Diversidad genética 0,448 0,524 0,347
Locus 2 Diversidad genética 0,504 0,583 0,659
Locus 3 Diversidad genética 0,108 0,273 0,558
Locus 4 Diversidad genética 0,023 0,233 0,085
Locus 5 Diversidad genética 0,527 0,211 0,579
Locus 6 Diversidad genética 0,000 0,000 0,117

Estimaciones puntuales por Bootstrap para medidas de diversidad


genética por locus
Locus y medidas de diversidad en filas, poblaciones en columnas

Locus Estadístico Población 1 Población 2 Población 3


Locus 1 Diversidad genética 0,445 0,518 0,345
Locus 2 Diversidad genética 0,502 0,581 0,654
Locus 3 Diversidad genética 0,109 0,269 0,554
Locus 4 Diversidad genética 0,025 0,230 0,088
Locus 5 Diversidad genética 0,521 0,209 0,573
Locus 6 Diversidad genética 0,000 0,000 0,117

Errores estándares por bootstrap para medidas de diversidad genética


por locus
Locus y medidas de diversidad en filas, poblaciones en columnas

Locus Estadístico Población 1 Población 2 Población 3


Locus 1 Diversidad genética 0,047 0,049 0,047
Locus 2 Diversidad genética 0,039 0,024 0,009
Locus 3 Diversidad genética 0,026 0,067 0,049
Locus 4 Diversidad genética 0,018 0,056 0,044
Locus 5 Diversidad genética 0,026 0,049 0,030
Locus 6 Diversidad genética 0,000 0,000 0,048

Interpretación

En la ventana Resultados se reportan tres tablas, en la primera se muestra el valor de la


medida de variabilidad seleccionada obtenido a partir de la muestra original sin el uso
de re-muestreo. En la segunda la estimación de dicha medida vía el método de
estimación seleccionado (bootstrap en este caso) y en la última tabla la medida de
confiabilidad (EE) para dicha estimación obtenida por el método seleccionado. Para la
Población 1 Locus 1, el porcentaje de loci polimórfico observado es 44.8%, a través de
la estimación por Bootstrap se obtuvo que dicha medida es 44.5% con un error estándar
del 4.7%.

33
II.3. Equilibrio

El principio de equilibrio Hardy-Weinberg es comúnmente usado para derivar


procedimientos de estimación de frecuencias alélicas útiles en el análisis de ligamiento
y mapeo de genes. Info-Gen permita estimar el coeficiente de desequilibrio entre alelos
en base a dicho principio. Una vez que se han estimado las frecuencias alélicas y las
frecuencias genotípicas, usualmente el próximo análisis en tablas de datos genéticos
poblacionales es el de asociación entre los alelos que un individuo recibe en un locus.
Cuando no existen fuerzas que disturben las frecuencias alélica en el tiempo tales como
selección, mutación o migración y cuando existe cruzamiento aleatorio entre individuos
de una población grande se espera que los alelos presentes en un locus no estén
asociados. Como consecuencia de ésta independencia, las frecuencias genotípicas son el
producto de las frecuencias alélicas, i.e., frecuencias del genotipo homocigota AA = p A2 ,

frecuencias del genotipo heterocigota Aa = 2 p A pa y frecuencia del genotipo

homocigota aa = pa2 .

Estas proporciones se conocen como frecuencias genotípicas esperadas bajo el principio


de Hardy-Weinberg. Teóricamente para un locus de un cromosoma autosomal una
población alcanza el equilibrio Hardy-Weinberg después de una generación de
cruzamientos aleatorios. El desequilibrio es definido como la distancia entre la situación
observada respecto a la sitaución esperada para cada locus. Para cauantificar el
desequilibrio, Info-Gen calcula un coeficiente de desequilibrio que es simplemente la
diferencia entre la frecuencia observada y su valor esperado cuando no hay asociación
entre alelos.

En Info-Gen las frecuencias genotípicas esperadas pueden ser calcualdos directamente


desde las tablas de frecuencias observadas o bien aplicando una corrección por el sesgo
que se produce al estimar frecuencias desde muestras pequeñas, propuesto por Levene
(1919). Las frecuencias esperadas son comparadas con las frecuencias observadas
mediante la prueba Chi-cuadrado, se reporta el estadístico Chi-cuadrado y la
significancia del mismo (p-valor).

34
Ejemplo 12: Equilibrio. Archivo VG Isoenzimas

En el menú GENÉTICA, comando Equilibrio se encuentran las opciones para el


cálculo de frecuencias genotípicas esperadas bajo Hardy-Weinberg, frecuencias
genotípicas esperada bajo Hardy-Weinberg para muestras pequeñas y el coeficiente de
desequilibrio entre alelos. Se usó el archivo VG Isoenzimas.idb y los dos primeros loci.

Figura 15. Solapa Medidas. Menú GENETICA. Comando Variabilidad Genética.

Cuadro 6: Resultados Ejemplo 12.


Equilibrio génico

Tabla de frecuencias genotípicas esperadas bajo el modelo de equilibrio de Hardy-


Weimberg
Locus y genotipos en filas, poblaciones en columnas

Locus Genotipo Población 1 Población 2 Población 3


Locus 1 AA 0.1475 0.8750 sd
AB 4.1803 8.8750 11.9231
AC sd 3.3750 1.6346
BB 29.6107 22.5045 49.2821
BC 21.5984 17.1161 13.5128
CC 3.9385 3.2545 0.9263
Chi cuadrado 25.9802 18.7625 0.2059
gl 2.0000 3.0000 2.0000
p-valor 2.3E-06 0.0003 0.9022

Locus 2 AA 3.3611 5.5030 5.6713


AB 21.7963 24.3155 13.9352
AC 4.4815 7.6786 9.7222
BB 35.3364 26.8601 8.5602
BC 14.5309 16.9643 11.9444
CC 1.4938 2.6786 4.1667
Chi cuadrado 1.4788 8.1552 15.1333
gl 3.0000 3.0000 3.0000
p-valor 0.6872 0.0429 0.0017

35
Tabla de frecuencias genotípicas esperadas (muestras pequeñas) bajo el modelo de
equilibrio de Hardy-Weimberg
Locus y genotipos en filas, poblaciones en columnas

Locus Genotipo Población 1 Población 2 Población 3


Locus 1 HomoAMF BB(32/29.6107) BB(28/22.5045) BB(49/49.2821)
HetAMF BX(21/25.7787) BX(15/25.9911) BX(26/25.4359)
Otros XX(8/4.0861) XX(13/7.5045) XX(3/2.5609)
Chi cuadrado 4.6349 8.6723 0.0878
gl 1.0000 1.0000 1.0000
p-valor 0.0313 0.0032 0.7670

Locus 2 HomoAMF BB(37/35.3364) BB(25/26.8601) BB(2/8.5602)


HetAMF BX(33/36.3272) BX(45/41.2798) BX(39/25.8796)
Otros XX(11/9.3364) XX(14/15.8601) XX(13/19.5602)
Chi cuadrado 0.6012 0.5534 8.8519
gl 1.0000 1.0000 1.0000
p-valor 0.4381 0.4569 0.0029

Tabla de coeficientes de desequilibrio entre alelos


Locus y genotipos en filas, poblaciones en columnas

Locus Genotipo Población 1 Población 2 Población 3


Locus 1 AA 0.0357 0.0759 sd
AB 0.0357 0.0513 -0.0138
AC sd 0.0246 -0.0047
BB 0.0783 0.1963 -0.0072
BC 0.0426 0.1449 0.0066
CC 0.0426 0.1695 0.0019
Locus 2 AA 0.0405 0.0833 -0.0249
AB 0.0345 0.0157 -0.1308
AC 0.0059 0.0676 0.1060
BB 0.0411 -0.0443 -0.2430
BC 0.0066 -0.0599 -0.1121
CC 0.0125 0.0077 -0.0062

Interpretación

En la primera tabla se muestran las frecuencias para cada genotipo del locus en estudio.
Cuando un genotipo está ausente Info-Gen reporta la sigla sd (sin dato). El estadístico
Chi-cuadrado es calculado como la suma de las diferencias (a través) de todos los
genotipos entre las frecuencias observadas y las esperadas al cuadrado sobre la
frecuencia esperada con l alelos en un locus, los conteos genotípicos en cada uno de los
grupos se arreglan en una tabla de contingencia l(l+1)/2×g y se usa el estadístico Chi-
cuadrado con [l(l+1)/2×g] ×(g-1) grados de libertad. Este valor se compara con el valor
de una variable Chi-cuadrada con los grados de libertad correspondientes, valores altos
de Chi-cuadrado conducen al rechazo de la hipótesis de proporciones esperadas bajo
Hardy-Weinberg. El valor-p indica la probabilidad de que las diferencias entre valores
observados y esperados sean por azar. Para el Locus 1 en la Población 1 y 2 es
suficientemente bajo (0.0000023 y 0.0003 respectivamente) por lo que se concluye que
las frecuencias genotípicas no sugieren la existencia de equilibrio. Para la Población 3 o
se rechaza la hipótesis de equilibrio.

36
En la segunda tabla reportada se contrastan las mismas hipótesis que en la primera, pero
usando el estadístico Chi-cuadrado sobre una tabla de clasificación cruzada reducida
conformada con tres clases: el genotipo homocigota (el alelo más frecuente), el genotipo
heterocigota para el alelo de mayor frecuencia y los otros genotipos juntos como una
nueva clase. Este método tiene como objetivo evitar el problema que podrían ocasionar
celdas de la tabla con conteos pequeños (el estadístico Chi-cuadrado podría no ser un
buen estadístico sobre tablas con frecuencias esperadas menores que cinco).

37
II.4. Análisis Molecular de la Varianza

Cuando algún factor realiza una subdivisión-partición de los individuos de una especie,
se espera que se incremente la diversidad genómica (Slatkin, 1987). Tradicionalmente la
estructura genética de poblaciones dentro de una especie se ha estudiado mediante la
comparación de las frecuencias alélicas observadas respecto a las esperadas bajo la ley
de Hardy-Weinberg. La mayoría de los métodos empleados para estudiar estructura de
poblaciones involucran transformaciones no lineales de los datos originales que son
válidas bajo una serie de supuestos sobre los procesos evolutivos subyacentes.
Alternativamente, la información sobre la divergencia a nivel molecular de muestras de
haplotipos se puede procesar en el formato de un modelo de Análisis de la Varianza y la
consecuente partición de una suma de cuadrados total en sumas de cuadrados
correspondiente a cada término del modelo.

Dada la naturaleza de la información molecular (booleana multidimensional) las sumas


de cuadrados se obtienen a partir de la matriz de distancias entre todos los pares de
muestras y no a partir de cada variable observada como es tradicional. El método de
partición de sumas de cuadrados, en el contexto de información molecular multivariada,
se conoce como AMOVA (Excoffier et al., 1992) y es ampliamente usado ya que no
depende de tantos supuestos biológicos como las técnicas de análisis basadas en
frecuencias alélicas.

El AMOVA es útil cuando se pretende estudiar la variabilidad de una respuesta


(multivariada de datos binarios) y conocer la influencia de ciertos factores de
clasificación (que generan categorizaciones en los datos) sobre esa respuesta. Permite
concluir sobre la significancia de uno o más factores de clasificación de los elementos
individuales (muestras o haplotipos) y provee estimaciones por el método de los
momentos de las componentes de varianza asociadas a cada uno de éstos factores. De
existir dos o más factores de clasificación, éstos deben presentar una estructura
jerárquica o anidada. Tales componentes de varianza permiten obtener estadísticos
análogos al estadístico F para reflejar la correlación de diversidad de los elementos
individuales a diferentes niveles de la subdivisión jerárquica realizada por los factores
reconocidos. La significancia de las componentes de varianza y de los estadísticos
derivados se obtienen mediante pruebas de permutación para evitar los supuestos de

38
normalidad usuales en el análisis de varianza clásico que podrían resultar inapropiados
para las métricas de distancias basadas en datos moleculares.

El método se basa en el hecho de que una suma de cuadrados puede ser escrita como la
sumatoria de las distancias al cuadrado entre todos los pares de observaciones. Por ello,
se construye el análisis jerárquico de variación molecular directamente desde la matriz
de distancias (al cuadrado) entre todos los pares de observaciones.

Para introducir los términos utilizados en el AMOVA suponga un estudio donde se


recogen muestras de segmentos genómicos y sus perfiles electroforéticos desde varias
poblaciones de elementos individuales; cada una de ellas proveniente de un muestreo
realizado en una localidad que pertenece a una región determinada. Las observaciones
obtenidas desde cada muestra pueden clasificarse de manera tal que se identifique la
fuente de cada dato. La clasificación que identifica la población se conoce como
“factor”. Cada población individual representa un “nivel” del “factor”.

Cada factor produce una partición de las muestras bajo estudio. Cuando se desea
estudiar la influencia de la variabilidad inducida por múltiples factores principales (e.g.
localidades y regiones) se definen factores compuestos en términos de los factores
principales. Supongamos que el factor A representa las regiones y el factor B las
localidades. Si todos los individuos con el mismo valor de B tienen necesariamente el
mismo valor de A y por lo tanto cualquier variabilidad en las clases de A contribuyen a
la variabiliad entre las clases de B, se dice que A es marginal a B, o que B está anidado
en A, lo que se denota como B>A.

Suponga que para cada clase del factor población existen n muestras de haplotipos
tratadas en laboratorio con un conjunto de enzimas de restricción. Consecuentemente, se
tendrán n observaciones en las que un número s de sitios de restricción polimórficos
(bandas) podrían ser identificados. Así para cada muestra es posible conformar una
observación multivariada (s-dimensional) que lleva valores 1 o 0 para cada uno de los
sitios de restricción según la banda para ese sitio esté presente o ausente en la muestra.
El vector booleano s-dimensional es denotado como p′ = [ p1 , p2 ,.., ps ] donde pi = 1 con

i=1,...s si la banda correspondiente al sitio s está presente y cero si la banda está ausente.
La diferencia entre dos muestras m j y mk es definida como p j − p k . Se define una

métrica de distancia euclídea entre las muestras mj y mk como

39
d 2jk = ( p j − p k )′ W ( p j − p k ) donde W es una matriz de pesos diferenciables para los

distintos sitios o marcadores. Si todos los sitios se asumen independientes e igualmente


informativos, entonces W = I y la métrica de distancia es igual al número de
diferencias entre las dos muestras. La metodología de análisis no depende de la forma
particular de W que se elija. Una vez obtenida la matriz de distancia, ésta es
particionada en componentes jerárquicos de acuerdo a los factores de clasificación que
se estipulen en el modelo.

La partición de la matriz de distancias en componentes jerárquicos se realiza para


comparar la magnitud de las distancias de a pares entre observaciones correspondientes
a diferentes clases de un factor respecto a las distancias entre pares de observaciones
dentro de cada clase. La suma de cuadrados total (SCT) es función de la suma de las
distancias (cuadradas) entre todos los pares de N elementos individuales
N N
1
SCT =
2N
∑∑ d
j =1 i =1
2
jk . Dicha suma de cuadrados es equivalente a la suma de cuadrados

de las desviaciones de cada observación s-dimensional respecto al centroide del espacio


multidimensional.

Cuando los elementos individuales son arreglados de acuerdo a dos factores con
estructura jerárquica (e.g. región y región>localidades) el modelo lineal que se analiza
es pikj = p + Ai + A > Bk [ i ] + ωikj donde pikj es el perfil del j-ésimo elemento individual

en la i-ésima clase del factor A (región) de la k-ésima clase del factor B (localidad
anidada en región) y p el perfil esperado (desconocido). Los efectos de los factores A,
A>B y del elemento individual se asumen aditivos, aleatorios, no correlacionados y
distribuidos con componentes de varianza iguales a σ A2 , σ A2 > B y σ ω2ikj , respectivamente.

Estas componentes de varianza representan los parámetros que deben ser estimados.
Para cualquier partición jerárquica de los N elementos individuales ocasionados por un
factor A es posible escribir la suma de cuadrados totales como SCT=SCEntre clases de
A+SCDentro de clases de A. La suma de cuadrados asociada a un factor anidado se
obtiene adicionando la suma de cuadrados marginal para ese factor y la suma de
cuadrados asociada a cada combinación de los dos factores. Las desviaciones
(cuadradas) promedio son obtenidas dividiendo cada suma de cuadrados por los grados
de libertad apropiados (Excoffier et al., 1992).

40
Debido a los supuestos realizados sobre los efectos en el modelo, la varianza total ( σ 2 )
es la suma de componentes de variación asociados a cada efecto, i.e.
σ 2 = σ A2 + σ A2 > B + σ ω2 . En términos de los estadísticos φ (Cockerham, 1969, 1973) se
definen los siguientes tipos de correlaciones:

σ A2 + σ A2 > B
1. φST =
σ2

σ A2
2. φCT =
σ2

σ A2 > B
3. φSC = .
σ A2 > B + σ ω2

El coeficiente φST se interpreta como la correlación de las muestras dentro de las


poblaciones relativa a la correlación entre pares de muestras seleccionadas al azar desde
la especie. El coeficiente φCT se interpreta como la correlación de las muestras dentro de
un grupo de poblaciones (i.e., dentro de una clase del factor marginal) relativa a la
correlación entre pares de muestras relacionadas al azar dentro de la especie. El
coeficiente φSC es la correlación de la diversidad molecular de muestras dentro de
poblaciones, también conocida en estadística como correlación intraclase. Los supuestos
necesarios para la interpretación de estos coeficientes φ son: muestreo aleatorio en la
creación de las subdivisiones en cada nivel de la jerarquía, deriva génica pura y no
migración. A pesar que estos supuestos pueden no ser ciertos en la práctica, los
coeficientes φ se usan continuamente porque representan un buen resumen de la
información genética dentro y entre poblaciones.

Ejemplo 13: Análisis Molecular de la Varianza (AMOVA). Archivo VG


Isoenzimas

En el menú GENÉTICA, comando Estructura de poblacionesÆAnálisis de la


varianza molecular, aparecerá el “selector de variables” donde se debe indicar la/las
características y el o los criterios de clasificación jerárquico (en caso de ser varios el
número que se debe seleccionar es el factor más marginal). Para este ejemplo se
compararon tres poblaciones a través de seis locus (características).

41
Figura 16. Ventana “selector de variables”. Menú GENETICA. Comando Estructura de
poblacionesÆ Análisis molecular de la varianza.

Cuadro 7: Resultados Ejemplo 13.


Análisis de la varianza molecular

Cuadro de Análisis de la Varianza

F.V. SC gl CM p-valor Iter.#


Población 243,47 2,00 121,74 <0,0001 750
Dentro 691,10 125,00 5,53 <0,0001 750
Total 934,57 142 6,58

Interpretación

El AMOVA sugiere que existe variabilidad genética entre las tres poblaciones (p-
valor<0.0001) y dentro de cada una de las poblaciones (p-valor<0.0001). Se usaron 750
iteraciones (permutaciones) para el cálculo del valor p en cada caso.

42
II.5. Similitudes y Distancias

Info-Gen presenta opciones para el cálculo de similitudes y distancia entre datos


genéticos. La métrica a seleccionar depende del tipo de datos sobre los que se está
trabajando.

Las métricas disponibles en Info-Gen para medir similitudes y/o distancias para datos
genotípicos son: Nei Estándar, Nei Mínimo, Nei Insesgado, Hillis, Rogers, RogersW,
Prevosti, Cavali-Sforza y Edwards (Arco), Cavali-Sforza y Edwards (Cuerda),
Swofford-Olsens, Reynolds (Coancenstría), BS, Sanghvi. La expresión de éstas
métricas se presentan en la Tabla 1. Al seleccionar una medida de distancia es posible
usar la transformación 1-D, donde D es la distancia, o exp(-D) para obtener una métrica
de similitud. Las matrices de distancia pueden guardarse automáticamente en formato
de tabla de datos de Info-Gen para solicitar la implementación de procedimientos
aplicables a matrices de distancia.

Tabla 1. Medidas de distancias genéticas dij entre individuos o grupos de individuos


basadas en las frecuencias alélicas correspondientes a l loci, cada una con a alelos.
K=1,2,...,l y m=1,2, ...,a. ni y nj indican tamaño de la muestra en los grupos i y j.

Nombre Expresión
l a

∑∑ x ikl ⋅ x jkl
1. Nei Estándar (1972) dij = − ln k =1 l =1
l a l a

∑∑ x ⋅ ∑∑ x
k =1 l =1
2
ikl
k =1 l =1
2
jkl

l a

∑∑ x ikl ⋅ x jkl
dij = − ln k =1 l =1

⎛ l a
2 ⎞ ⎛ l a
2 ⎞
⎜ 2ni ∑∑ xikl ⎟ − 1 ⎜ 2n j ∑∑ x jkl ⎟ − 1
2. Nei Insesgado (1978)
⎝ k =1 l =1 ⎠ ⋅⎝ k =1 l =1 ⎠
2ni − 1 2n j − 1
⎛ l ⎞
⎜ l ∑ xikl ⋅ x jkl ⎟
dij = − ln ⎜ ∑ k =1 ⎟
1
3. Hillis (1984)
⎜ p k =1 l l ⎟
⎜⎜ ∑ xikl ∑ jkl ⎟
2
⋅ x 2

⎝ k =1 k =1 ⎠
⎛ ⎞
⎜ ⎟
⎜ l ⎟

1 l ∑ xikl ⋅ x jkl ⎟
4. Swofford-Olsen (1990) dij = − ln ⎜ ∑ k =1 ⎟
⎜ p k =1 ⎛ l a
2 ⎞ ⎛ l a
2 ⎞

⎜ ⎜ 2ni ∑∑ xikl ⎟ − 1 ⎜ 2n j ∑∑ x jkl ⎟ − 1 ⎟
⎜ ⎝ k =1 l =1 ⎠ ⋅⎝ k =1 l =1 ⎠ ⎟
⎜ 2 n − 1 2 n − 1 ⎟
⎝ i j ⎠

43
2
1 l ⎛2 l

∑ cos −1 ∑ xikl ⋅ x jkl ⎟
5. Cavvalli-Sforza y Edwards (1967)
dij = ⎜
(distancia del arco) p k =1 ⎝ π k =1 ⎠
⎛ 1 l ⎛ a ⎞⎞
dij = 2 ⋅ ⎜ 1 − ∑ ⎜ ∑ xikl ⋅ x jkl ⎟ ⎟
6. Cavvalli-Sforza y Edwards (1967)
(distancia de la cuerda)
⎝ p k =1 ⎝ l =1 ⎠⎠

∑(x − x jkl )
1 l a


2
7. Roger (1972) dij = ikl
p k =0 l =0

dij = ∑∑ ( xikl − x jkl )


l a
8. RogerW (Distancia de Roger modificada 2

por Wright, 1978) k =0 l =0

1 l a
9.Prevosti (Wright, 1978) dij = ∑∑ xikl ⋅ x jkl
p k =1 l =1

(x − x jk )
2
m
=∑
ik
10. BS (Balakrishnan y Sanghvi, 1968) d ij
(x
k =1 ik + x jk )

Ejemplo 14: Similitudes y distancias. Archivo VG Isoenzimas

En el menú GENÉTICA, comando Similitudes y distanciasÆdatos de genotipos por


individuo, aparecerán opciones de métricas disponibles para el caso de datos
genotípicos. En este ejemplo en el “selector de variables” se indicó que las variables
que constituye las coordenadas para el cálculo de distancia son los 6 loci y como
criterios de clasificación a Población. En este caso se reporta una matriz de distancia
entre poblaciones. De no seleccionar ningún criterio de clasificación la matriz de
distancia contiene las distancias de a pares entre todos los casos del archivo. En el caso
de trabajar con el formato de datos compactos el comando a seleccionar será datos de
frecuencias alélicas o genotípicas.

44
Figura 17. Menú GENETICA. Comando Similitudes y distancias, datos de genotipos
por individuo o datos de frecuencias alélicas o genotípicas.

Cuadro 8: Resultados Ejemplo 14.

Similitudes y distancias para datos genotípicos

Nei Estandard
Población 1 Población 2 Población 3
Población 1 0,000 0,040 0,104
Población 2 0,040 0,000 0,185
Población 3 0,104 0,185 0,000

Interpretación

La matriz de distancia es siempre una matriz simétrica y cuadrada. En la diagonal la


matriz presenta elementos iguales a cero, esto se debe a que ellos representan la
distancia de una población consigo misma. Las Poblaciones 1 y 2 se encuentran a una
distancia de 0.04, siendo esta la menor distancia entre todos los pares de poblaciones.
Estas poblaciones tienen una similitud multivariada (i.e., a través de todos los loci)
mayor que cualquier otro para de poblaciones evaluadas.

Para datos continuos y discretos, como puede ser la información sobre marcadores
genéticos, es posible aplicar las métricas de distancias y/o similitudes cuya expresión se
presenta en la Tabla 2. Para este tipo de métricas se necesitan tablas de datos con
formato extendido. Principalmente para el caso de datos continuos como pueden ser

45
distintos tipos de descriptores morfológicos, Info-Gen permite estandarizar los datos de
cada variable (marcador) previo al cálculo de la distancia. Las distancias o similitudes
pueden calcularse a partir de pares de filas o elementos definidos por un criterio de
clasificación (como puede ser población) de la tabla de datos (generalmente este
procedimiento se usa para medir distancias entre muestras multivariadas a través de
todos los marcadores) o bien a partir de pares de columnas de la tabla (generalmente
usado para medir distancias o parecido entre marcadores).

Tabla 2. Medidas de distancias para caracteres continuos.

Métrica Expresión
1r
⎡m r ⎤
1. Minkowski d ij = ⎢ ∑ xik − x jk ⎥
⎣ k =1 ⎦
m
2. City Block o Manhattan d ij = ∑ xik − x jk
(Minkowsi con r=1) k =1

1⎛ m ⎞
3. Manhattan promedio d ij = ⎜ ∑ xik − x jk ⎟
m ⎝ k =1 ⎠
12
⎡m 2⎤
d ij = ⎢ ∑ xik − x jk ⎥
4. Euclidea
(Minkowski con r=2)
⎣ k =1 ⎦
⎡m 2⎤
5.Euclidea cuadrado d ij = ⎢ ∑ xik − x jk ⎥
⎣ k =1 ⎦
12
1⎡m 2⎤
6. Euclidea promedio d ij = ⎢ ∑
m ⎣ k =1
xik − x jk ⎥

xim − x jm
7. Gower (Caracteres continuos) Sijm = 1 −
rm
M

∑w s
ijm ijm
8. Gower (1971) (Caracteres cotinuos y
discretos)
Sij = m =1
M

∑w
m =1
ijm

∑x ik − x jk
9. Bray-Curtis d ij = k =1

∑(x + x jk )
m

ik
k =1

1⎛ m ⎞
∑ x − x jk ⎟⎠
m ⎜⎝ k =1 ik
10. Bray-Curtis promedio (Canberra) d ij = m
∑ ( xik + x jk )
k =1

⎛ n ⎞
⎜ ∑ ( xij − x j )( xik − xk ) ⎟ /(n − 1)
rjk =
S jk
= ⎝ i =l ⎠
11. Correlación de Pearson
S 2j Sk2 ⎛⎛ n 2 ⎞ ⎞⎛ ⎛ n 2⎞ ⎞
⎜ ⎜ ∑ ( xij − x j ) ⎟ /(n − 1) ⎟⎜ ⎜ ∑ ( xik − xk ) ⎟ /(n − 1) ⎟
⎝ ⎝ i =l ⎠ ⎠⎝ ⎝ i = l ⎠ ⎠

46
⎛ n +1⎞
n 2

∑ R( xij ) R( xik ) − n ⎜
⎝ 2 ⎠

12. Correlación de Spearman Srjk = i =1

⎛ n ⎛ n +1⎞ ⎞⎛ n
2
⎛ n +1⎞ ⎞
2

⎜⎜ ∑ R ( xij ) − n ⎜ ⎟ ⎜ ∑ ik − ⎟ ⎟
2 2
⎟ R ( x ) n ⎜
⎝ i =l ⎝ 2 ⎠ ⎟⎠ ⎜⎝ i = l ⎝ 2 ⎠ ⎟⎠

Para el cálculo de similitudes entre observaciones multivariadas binarias Info-Gen


construye la Tabla 3 para cada para de elementos que se comparan a partir de ésta tabla
de clasificación cruzada obtiene los índices de similitud presentados en la Tabla 4.

Tabla 3. Frecuencias de eventos cuando se comparan dos muestras de ADN mediante


marcadores dominantes.
Muestra 2
Muestra 1 Amplificación Presente (1) Amplificación Ausente (0)

Amplificación Presente (1) a b


Amplificación Ausente (0) c d

Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.

Tabla 4. Índices de similitud entre observaciones multivariadas discretas (binarias).

Nombre Expresión Rango

1. Roger&Tanimoto (a + d ) ( a + d + 2 ( b + c ) ) [0,1]

2.Emparejamiento Simple (a + d ) (a + b + c + d ) [0,1]

3. Hamman ⎣⎡( a + d ) − ( b + c ) ⎦⎤ ( a + b + c + d ) [-1, 1]

4. Sokal&Sneath_1 (a + d ) ( a + d + 0.5 ( b + c ) ) [0,1]

5. Coeficiente Phi ⎡⎣( a.d ) − ( c.b ) ⎤⎦ ⎡⎣( a + b ) . ( a + c ) . ( b + d ) . ( c + d ) ⎤⎦ [-1, 1]

6. Sokal&Sneath_2 { }
0.25 ⎡⎣ a ( a + b ) ⎤⎦ + ⎡⎣ a ( a + c ) ⎤⎦ + ⎡⎣ d ( d + b )⎤⎦ + ⎡⎣ d ( d + c ) ⎤⎦ [0,1]

7. Jaccard a (a + b + c) [0,1]

8. Ochiai a ( a + b )( a + c ) [0,1]

9.Kulczynski {
0.5 ⎣⎡ a ( a + c ) ⎦⎤ + ⎣⎡ a ( a + b ) ⎦⎤ } [0,1]

11 Anderberg a ⎡⎣ a + 2 ( b + c ) ⎤⎦ [0,1]

11 Dice 2a ( 2a + b + c ) [0,1]

12. Braun-Blanquet a/max[(a+b),(a+c)] [0,1]

47
13. Sokal&Sneath_3 ( a.d ) ⎡⎣( a + b ) . ( a + c ) . ( d + b ) . ( d + c ) ⎤⎦ [0,1]

14.Emparejemiento Positivo a (a + b + c + d ) [0,1]

15. Kulczynski_1 a (b + c ) [0,1]

16. Yule&Kendall ⎡⎣( a.d ) − ( b.c ) ⎤⎦ ⎡⎣( a.d ) + ( b.c ) ⎤⎦ [-1, 1]

Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.

Ejemplo 15: Similitudes y distancias. Archivo AFLP

En el menú GENÉTICA, comando Similitudes y distanciasÆdatos numéricos, solapa


caracteres continuos aparecerán opciones de métricas disponibles para datos
continuos. En este ejemplo se calcula la distancia Euclídea entre muestras de hongos
que afectan el cultivo de cacao de cinco procedencias donde se midieron por caracteres
morfológicos (diámetro radial de esporas a los 10 días (D10), cantidad de días a
esporulación (SDays), cantidad de anillos a los 20 días (Rint20), producción de esporas
por caja de petri (Prod), densidad de esporulación por cm2 (Dens), germinación a las 24
horas (Ge24h), porcentaje de esporas globosas (Glo), ancho de la espora globosa
(Glowi), longitud de la espora alongada (no oblonga) (Ellipwi) y longitud de esporas
elipsoides (Ellilen)). Dado que las variables que representan los descriptores
morfológicos no son conmensurables se solicitó estandarizar los descriptores antes del
cálculo de distancia. En el “selector de variables” se indicaron como variables a los
descriptores morfológicos y como criterio de clasificación al país de procedencia de las
muestras. Se seleccionó que las distancias se calculase entre filas (i.e., entre las filas de
valores de descriptores promedios generados por el criterio de clasificación). De
seleccionar columnas se tendrá una medida de distancia/similitud entre los descriptores.

48
Figura 18. Menú GENÉTICA. Comando Similitudes y distancias, datos numéricos.
Solapa de caracteres continuos.

Cuadro 9: Resultados Ejemplo 15.

Medidas de distancia y similitudes

Euclidea
CA Colombia Ecuador Perú Venezuela
CA 0,00
Colombia 3,13 0,00
Ecuador 1,54 2,10 0,00
Perú 7,01 5,63 6,22 0,00
Venezuela 4,27 2,57 3,34 5,28 0,00

Interpretación

La procedencia que presentó mayor distancia a nivel de sus caracteres morfológicos


respecto a las otras procedencias fue Perú. Su perfil de marcadores fue más diferente del
perfil de marcadores CA que de los perfiles de marcadores de Colombia, Ecuador y
Venezuela.

Ejemplo 16: Similitudes y distancias. Archivo Fusarium

En el menú GENÉTICA, comando Similitudes y distanciasÆdatos numéricos, solapa


caracteres discretos aparecerán opciones de métricas (generalmente de similitud)
disponibles para el caso de datos discretos. Al seleccionar un índice de similitud, Info-
Gen permite seleccionar una función para transformar la similitud en distancia. Usando

49
el archivo Fusarium.idb se seleccionó el cálculo del índice de similitud de Jaccard y la
transformación raíz cuadrada (1-similitud) para obtener distancias entre ocho muestras
de aislamientos fúngicos (A, B, C, D, E, F, G) a través de 18 bandas RAPD producidos
por un primer.

Figura 19. Menú GENÉTICA. Comando Similitudes y distancias, datos numéricos.


Solapa de caracteres discretos.

Cuadro 10: Resultados Ejemplo 16.

Medidas de distancia y similitudes

Jaccard (sqrt(1-S))
C162 C203B C214 C237B C42 C65 RC208 RC357
C162 0,00
C203B 0,82 0,00
C214 0,41 0,83 0,00
C237B 0,41 0,76 0,53 0,00
C42 0,75 0,86 0,67 0,77 0,00
C65 0,67 0,82 0,71 0,71 0,76 0,00
RC208 0,84 0,52 0,85 0,85 0,82 0,83 0,00
RC357 0,84 0,65 0,85 0,85 0,82 0,83 0,47 0,00

Interpretación

Info-Gen reporta una matriz de distancia triangular inferior. Las observaciones E y C


parecen presentar el perfil molecular más similar, por tener la menor distancia entre
ellos.

50
II.6. Clasificación. Análisis de Conglomerados

El objetivo del Análisis de Conglomerados es formar grupos tal que los elementos de un
grupo sean más parecidos entre sí que con los elementos de otro grupo. El Análisis de
Conglomerados o análisis de clusters es una combinación de técnicas o algoritmos
matemáticos que tienen por objeto la búsqueda de grupos similares. En el análisis de
conglomerados no se conoce a priori el grupo de pertenencia de las entidades a agrupar.
Cuando se realizan agrupamientos de casos se busca clasificar a los objetos en grupos lo
más homogéneos posible en base a todas las variables (marcadores) involucradas. En el
análisis de conglomerados para agrupar casos, si se utiliza una matriz de datos n×m
(casos×variables), se calcula primero una matriz de distancias (n×n) que contiene las
interdistancias entre todos los pares de casos y luego sobre esa matriz se aplica un
procedimiento de conglomeración o agrupamiento. Cuando se agrupan variables
(marcadores) se busca clasificar a las mismas en función de su perfil a través de todos
los casos, luego el algoritmo de conglomeración trabajará sobre una matriz de
interdistancias m×m.

Para realizar una análisis de conglomerado, es necesario seleccionar una medida de


distancia o proximidad entre los objetos a agrupar y un criterio o algoritmo de
agrupamiento (este puede ser jerárquico o no jerárquico). Hay numerosos algoritmos
disponibles, entre los jerárquicos, el más usado es el conocido como UPGMA o
encadenamiento promedio que define la distancia entre dos grupos o conglomerados
como el promedio de todas las distancias de a pares entre elementos de un grupo y
elementos del otro grupo. Entre los no jerárquicos, el más conocido es el algoritmo K-
means.

Los resultados del agrupamiento jerárquico se visualizan en un dendrograma. El


dendrograma resultante puede presentarse acompañado del coeficiente de correlación
cofenético el cual que mide la correlación entre las interdistancias en el dendrograma y
las interdistancias en la matriz de distancia sobre la que se aplicó el procedimiento.

Los distintos algoritmos de conglomeración jerárquica, por ejemplo, el método del


vecino más cercano, el método del vecino más lejano, el método de encadenamiento
promedio o UPGMA y el método de Ward, podrían producir agrupamientos diferentes
sobre un mismo conjunto de datos. En estos casos, el coeficiente de correlación

51
cofenética podría utilizarse como criterio de selección del algoritmo, i.e. aquel
algoritmo con el mayor coeficiente de correlación cofenética.

Respecto a medidas de distancias, es importante seleccionar una que se adecue al tipo


de datos (cuantitativo o cualitativo). Definiremos la distancia entre un objeto
denominado “i” y otro objeto denominado “j” como dij. Las expresiones dij deben
cumplir propiedades para ser consideradas como medidas de distancia entre el par de
objetos (i,j), éstas son: (i) dij > 0 si i≠j, (ii) dij = 0 y (iii) dij = dij. Además, existen
propiedades que de cumplirse permiten identificar las distancias como ultra-métricas.
Las distancias ultra-métricas cumplen las 3 propiedades mencionadas anteriormente y
además la desigualdad triangular, i.e., dij ≤ d ik + d jk . Este tipo de sistancias son

recomendadas cuando el objetivo del estudio es obtener una ordenación de las


observaciones. Las distancias en el dendrograma son siempre distancias ultramétricas.

La distancia más común cuando se trabaja con datos cuantitativos viene dada por
d ij =d((i1, i2 ,...,im ),((j1, j2 ,...,jm ))=((i1 -j1 )2 +(i2 -j2 )2 +...+(im -jm )2 )1/2 . A esta distancia se le llama
distancia Euclídea. Cuando las variables poseen naturaleza binaria, como puede ser el
caso de presencia/ausencia de determinadas bandas de amplificación para marcadores
moleculares, la distancias Euclídea puede no ser apropiada y por eso existen numerosas
propuestas de distancia para datos binarios.Al comparar dos objetos, para cada variable
binaria, existen cuatro eventos disjuntos posibles: 1) en los dos objetos se observa la
presencia de la característica deseada, denotado como evento (1,1); 2) ninguno de los
objetos presenta la característica deseada, evento denotado como (0,0); 3) el primer
objeto presenta la característica, evento denotado como (1,0) y 4) el primero no presenta
la característica pero el segundo si, denotado como evento (0,1), La frecuencia con que
ocurre cada uno de estos eventos cuando se comparan dos objetos caracterizados por
múltiples variables binarias se denominarán a, b, c, y d según correspondan a los
eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Tabla 5).

Tabla 5. Frecuencias de eventos cuando se comparan dos objetos mediante variables


binarias.
Muestra 2 Característica Presente Característica Ausente
Muestra 1 (1) (0)
Característica Presente (1) a b
Característica Ausente (0) c d
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.

52
Las frecuencia de “desacuerdos” representados por los eventos (1,0) y (0,1), de co-
presencia (1,1) y de co-ausencia (0,0) contienen toda la información relevante para la
construcción de índices de similitud entre dos objetos, i.e. los índices pueden ser
expresados como función de dichos recuentos.

Pueden construirse, distintos índices de similitud o asociación variando la importancia


relativa (mediante ponderación) que se le asigna a cada uno de los cuatro eventos antes
mencionados. Un índice de similitud muy utilizado en el caso de variables binarias es el

índice de Jaccard ( a ( a + b + c ) ) que no tienen en cuenta el evento de ausencia


simultanea. Este debiera usarse cuando por la naturaleza del problema, se supone que
dos objetos son más parecidos entres sí por presencia de una característica que por
ausencia. Desde cada índice de similitud, es posible obtener una medida de distancia.

La transformación dij = 1 − S ij , aplicada sobre matrices de similitud definidas o


semidefinidas positivas, asegura la obtención de una métrica y por lo tanto es
recomendada. Existe un coeficiente de similaridad que permite el tratamiento de
diferentes tipos de variables simultaneamente, i.e., variables continuas y discretas como
por ejemplo las variables binarias. Fue propuesto por Gower (Gower, 1971) para
agrupar objetos caracterizados por distintos tipos de variables:
m

∑W ijc Sijc
Sij = c =1
p

∑W
K =1
ijc

donde:

Sij = similaridad entre el i-ésimo y j-ésimo objeto

m = número de variables o características observadas

Wijc = ponderación para la c-ésima variable entre el i-ésimo y j-ésimo objeto

Si la c-ésima variable es de tipo binaria o cualitativa, la similitud entre el objeto i y el


objeto j para la variable c (Sijc) vale 0 si los datos entre El i-ésimo (xi) y El j-ésimo
objeto son diferentes y vale 1 si son iguales. Para el caso de una variable cuantitativa,
donde rc es el rango de la variable c, la similaridad está dada por:

xic − x jc
Sijc = 1 −
rc

53
Ejemplo 17: Clasificación. Análisis de Conglomerados. Archivo Fusarium

En el Menú GENËTICA, comando Clasificación, Info-Gen permite implementar


distintos procesos para agrupar objetos descriptos por un conjuntos de valores de varias
variables. Los objetos generalmente representan las filas de la tabla de datos.
Ocasionalmente, estos procedimientos son usados para agrupar variables en lugar de
observaciones (es decir conglomerar columnas en lugar de filas). La ventana “selector
de variables” permite seleccionar las variables del archivo que se usarán en el análisis e
indicar una o más variables como criterio de clasificación con el objetivo de resumir
varios registros en un único caso. Al presionar el botón Aceptar aparece otra ventana
llamada Análisis de conglomerados la cual tiene tres solapas: Jerárquicos, No
jerárquicos y Medidas resumen. En caso que se haya indicado un criterio de
clasificación de registros, en la solapa Medidas de resumen, Info-Gen permite escoger
entre medidas como la media, mediana, mínimo, máximo, varianza y desviación
estándar para obtener el perfil típico que represente a un objeto en el caso de tener más
de un caso (fila de la tabla de datos) por objeto a agrupar. Estas medidas permiten
resumir la información de cada variable en cada conjunto de registros definido por el
criterio de clasificación (por defecto usa la media). En la solapa Jerárquicos y No
jerárquicos, se puede elegir el método (por defecto se selecciona automáticamente el
agrupamiento promedio entre los jerárquicos o Kmeans como algoritmo no jerárquico),
y el tipo de distancia (por defecto Euclídea promedio) a utilizar en la conformación de
conglomerados.

Activando la celda estandarizar los datos, se estandariza automáticamente cada


columna seleccionada como variable antes de realizar el agrupamiento. El análisis
puede realizarse por filas, en tal caso se agruparán registros o por columnas para formar
conglomerados de variables. Tanto para los conglomerados no jerárquicos como para
los jerárquicos, cuando se está agrupando casos (conglomerar filas) o variable
(conglomerar columnas), mediante la activación del casillero Guardar clasificación,
Info-Gen genera una nueva columna en la tabla de datos activa que contiene la
designación del número de grupo al que fue asignada cada observación. El número de
grupos debe ser especificado de antemano en el casillero Número de conglomerados.

En el caso de conglomerados no jerárquicos, Info-Gen provee automáticamente de un


gráfico indicando la reducción en la función objetivo del agrupamiento, en relación al

54
número de conglomerados (desde dos hasta el número indicado por el usuario),
identificando los grupos formados con diferentes colores, el número recomendado de
grupos es aquel que se asocia con una caída mayor de la función respecto al número
inmediato anterior.

Para los conglomerados jerárquicos, Info-Gen produce automáticamente el dendrograma


correspondiente a la evolución del agrupamiento en función de la distancia
seleccionada. La información visualizada en el dendrograma puede ser leída en la
ventana Resultados. A continuación se ejemplifica el uso del método de agrupamiento
jerárquico UPGMA sobre la matriz de distancias conformada a partir del índice de
similitud Dice y la transformación raís cuadrada de (1-similitud) en el agrupamiento de
8 cepas de aislamiento de Fusarium. El dendrogram obtenido se presenta en la Fig.21.

Figura 20. Menú GENÉTICA. Comando Clasificación. Análisis de Conglomerados.

55
Cuadro 11: Resultado Ejemplo 17.

Análisis de conglomerados

Promedio (Average linkage)


Distancia: (Dice (sqrt(1-S)))
Correlación cofenética= 0,969
Variables no estandarizadas

Dice (sqrt(1-S))
A B C D E F G H
A 0,000
B 0,535 0,000
C 0,577 0,302 0,000
D 0,642 0,620 0,535 0,000
E 0,577 0,302 0,408 0,655 0,000
F 0,707 0,707 0,728 0,761 0,642 0,000
G 0,728 0,734 0,756 0,707 0,756 0,397 0,000
H 0,728 0,734 0,756 0,707 0,756 0,513 0,354 0,000

Distancias en el dendrograma
A B C D E F G H
A 0,000
B 0,563 0,000
C 0,563 0,355 0,000
D 0,613 0,613 0,613 0,000
E 0,563 0,302 0,355 0,613 0,000
F 0,727 0,727 0,727 0,727 0,727 0,000
G 0,727 0,727 0,727 0,727 0,727 0,455 0,000
H 0,727 0,727 0,727 0,727 0,727 0,455 0,354 0,000

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Figura 21. Dendrograma obtenido a partir de la matriz de distancia basada en el índice


de similitud de Dice. Transformación: raíz cuadrada del complemento a uno de la
similitud.

56
Interpretación

Los perfiles moleculares de los aislamientos B y E se unen a menor distancia que el


resto de los aislamientos, formado un grupo. A ese grupo se unen (en orden decreciente
de parecido) los perfiles C, A y D. Los perfiles H y G conforman otro grupo, el perfil F
es más parecido a este grupo que al conformado por los perfiles B y E. Estos dos grupos
se presentan como diferentes, ya que se unen recién a una distancia mayor al 70% del
rango de las distancias observadas.

57
II.7. Ordenación. Coordenadas Principales

El ordenamiento de muestras basado en la caracterización molecular y/o


morfofisiológica de material genético, realizado a partir de datos de múltiples
marcadores, se optimiza cuando la descripción marcador a marcador se complementa
con el estudio de relaciones o asociaciones entre marcadores y entre materiales.
Numerosas herramientas de la estadística multivariada permiten el análisis de
observaciones multidimensionales (múltiples marcadores) (Johnson y Wichern, 1998).
En particular el Análisis de Coordenadas Principales (AcoorP) también conocido como
Escalamiento Multidimensional Métrico es ampliamente usado para ordenación ya que
permite trabajar con datos de marcadores de distinta naturaleza (continuos, binarios,
etc.).

El análisis de coordenadas principales es utilizado para mostrar las relaciones definidas


por distancias o similitudes en un espacio de baja dimensión tal que las distancias o
similitudes en el espacio en el que son calculadas sean preservadas tanto como sea
posible. El ACoorP es una forma de escalamiento multidimensional métrico o clásico
(Gower, 1967). Esta técnica opera sobre la matriz Q derivada de un doble proceso de
centrado de la matriz de similitudes (o distancias) A , tal que el elemento ij-ésimo es
_ _ _
Qij = Aij − Ai . − A. j − A..
_
donde Aij es la similitud entre las observaciones i y j, Ai . es la media de las similitudes
_ _
para la fila i, A. j es la media de las similitudes para la columna j y A.. es la media

general de las similitudes en A . El criterio de optimalidad implica la extracción de un


conjunto de ejes ortogonales desde la descomposición espectral de Q :

Q = EDE′
Los auotvalores, elementos de la diagonal de D , expresan la variabilidad de los datos
explicada por cada dimensión. Como los autovalores se ordenan en forma decreciente,
los dos primeros ejes (coordenadas principales) explican la mayor cantidad de variación
en Q que puede representarse en un espacio bidimensional. Las columnas de Z = ED1 2
forman las coordenadas principales que permiten proyectar las relaciones implícitas en
la matriz de distancias en planos.

58
Representación gráfica de ordenaciones

Gráfico de dispersión

El diagrama de dispersión representa un conjunto de puntos ordenados en el plano con


coordenadas X e Y. Los gráficos de dispersión de las dos primeras coordenadas son
comúnmente utilizados para representar ordenaciones o para visualizar relaciones entre
distintos tipos de distancias, por ejemplo, las relaciones entre distancias genéticas y
distancias geográficas de pares de individuos.

Árbol de recorrido mínimo

Las representaciones en planos conformados por las coordenadas principales no siempre


representan exactamente las relaciones que verdaderamente existen entre los elementos
que se ordenan. La distancia en el plano puede ser menor a la verdadera distancia
multidimensional entre dos elementos debido a las deformaciones ocurridas al proyectar
una nube de puntos multidimensional en un plano. La técnica conocida como Árbol de
Recorrido Mínimo (ARM) puede ayudar a mejorar las interpretaciones ya que permite
identificar este tipo de deformaciones (Arroyo et al., 2005)

Un ARM se construye como una colección de segmentos de línea recta que conectan
puntos de una ordenación gráfica sin formar circuitos cerrados. Cada punto está
conectado con el resto de manera directa o indirecta a través del conjunto de segmentos.
El ARM es generado conectando los puntos de manera tal que la suma de las longitudes
de los segmentos entre puntos sea mínima. Un ARM puede calcularse a partir de la
matriz de distancia de las observaciones multivariadas en el espacio m-dimensional en
el que viven o a partir de las matrices de distancia en espacios de menor dimensión.
Cuando puntos m-dimensionales, con m>2, son conectados en el plano en función de su
distancia en el espacio original, el ARM puede proveer información sobre similitudes de
las observaciones en dimensiones no directamente representadas en el plano. Por
ejemplo, algunos puntos que se encuentran muy cerca en el espacio bidimensional
podrían estar, en su espacio original, más lejos de lo que aparentan en el plano. Los
ARM conceptualmente se ligan al algoritmo de agrupamiento conocido como
encadenamiento simple y en ese sentido son usados no solo para representación gráfica
de las interdistancias entre puntos, sino también para formar conglomerados de éstos.

59
Ejemplo 18: Ordenación. Análisis de Coordenadas Principales. Archivo
Perfiles moleculares medios

Se calculó un perfil modal para cada uno de los grupos genéticos identificados por
Phillips (2003) para un conjunto de 4 marcadores morfológicos: Rint20 (cantidad de
anillos a los 20 días), Prod (producción de esporas por caja de petri), G24h
(germinación de esporas a las 24 horas) y Glo (porcentajes de esporas globosas) y para
4 marcadores moleculares: W5, W8, X15, Y18 (Tabla 6 y Tabla 7). Si bien se disponía
de información sobre numerosos marcadores morfológicos y moleculares, se
seleccionaron sólo aquellos que en estudios previos mostraron mayor poder de
discriminación entre grupos y se trabajó con los perfiles modales y no con los
aislamientos individuales para aplicar las técnicas de análisis sobre una matriz de datos
que permite interpretar relaciones entre grupos. Para ilustrar un ACoorP se analizaron
separadamente los datos de marcadores morfofisiológicos (Tabla 6) y los datos de
marcadores moleculares (Tabla 7) debido a las diferencias en la naturaleza de las
variables. Con las cuatro marcadores continuos, se calculó una matriz de distancias
Euclídeas sobre la que se operó para extraer las coordenadas principales, previa
estandarización.

Tabla 6. Perfil modal de cuatro marcadores morfológicos para cinco grupos genéticos
de Moniliophthora roreri

1 2 3 4
Grupo Genético Rint2O Prod Ge24h Glo

Bolivar 2.56 261.35 2.33 72.12


Co-Central 3.93 176.25 6.40 56.65
Co-East 2.13 275.37 2.93 57.58
Co-West 2.16 128.77 7.15 59.31
Gileri 0.75 221.60 2.00 40.55
1
Rint20: cantidad de anillos a los 20 días, 2Prod: producción de esporas por caja de petri, 3Ge24h: germinación de
esporas a las 24 horas, 4Glo: porcentaje de esporas globosas.

Tabla 7. Perfil modal de cuatro marcadores moleculares tipo AFLP para cinco grupos
genéticos de Moniliophthora roreri

Grupo Genético W5 W8 X15 Y18

Bolivar 1 1 1 0
Co-Central 1 1 0 1
Co-East 0 1 0 0
Co-West 1 1 1 1
Gileri 1 0 0 1

60
En la Figura 23 se muestran los gráficos de ordenamiento de aislamientos por el
ACoorP. Vale aclarar que también se podría haber seleccionado una métrica de
distancia como la de Gower para realizar un ordenamiento del material en función de la
información que simultáneamente proveen los marcadores morfológicos y los
marcadores moleculares.

Figura 22. Menú GENÉTICA. Comando Ordenaciones.

Cuadro 12: Resultado Ejemplo 17.


Medidas de distancia y similitudes

Euclidea
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 2,853 0,000
Co-East 1,390 2,686 0,000
Co-West 3,187 1,786 2,980 0,000
Gileri 3,297 3,705 2,170 3,343 0,000

Coordenadas principales

PCO(1) PCO(2) PCO(3) PCO(4)


0.501 1.602 -0.412 -0.172
-1.620 0.118 0.780 -0.087
0.945 0.556 0.231 0.305
-1.503 -0.842 -0.710 0.084
1.676 -1.434 0.110 -0.130

61
3.12

1.94
Bolivar

PCO 2 (35.4%) 0.77


Co-East
Co-Central

-0.41

Co-West Gileri
-1.59
-2.37 -1.07 0.24 1.54 2.84
PCO 1 (55.2%)

Figura 23. Diagramas de dispersión a partir de las coordenadas principales (PCO)


obtenidas utilizando distancias Euclídeas entre cinco grupos genéticos de
Moniliophthora roreri a partir de cuatro marcadores morfológicos.

Luego se realizó un ACoorP sobre los datos binarios provenientes de los marcadores

AFLP usando la matriz de distancia obtenidas a partir de la transformación (1 − Sij )


12

del índice de similitud de Dice y a partir de una matriz de distancias Euclídeas con el
propósito de ejemplificar el efecto del uso de éste tipo de métricas, recomendadas para
datos continuos, en un contexto de datos binarios.

62
Figura 24. Menú GENÉTICA. Comando Ordenaciones.

Cuadro 13: Resultado Ejemplo 17.


Análisis de coordenadas principales

Dice (sqrt(1-S))
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 0,577 0,000
Co-East 0,707 0,707 0,000
Co-West 0,378 0,378 0,775 0,000
Gileri 0,775 0,447 1,000 0,577 0,000

Distancia: (Dice (sqrt(1-S)))

Autovalores
Lambda Valor Proporción Prop Acum
1 0,537 0,617 0,617
2 0,245 0,281 0,898
3 0,063 0,072 0,970
4 0,026 0,030 1,000

Euclidea
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 1,414 0,000
Co-East 1,414 1,414 0,000
Co-West 1,000 1,000 1,732 0,000
Gileri 1,732 1,000 1,732 1,414 0,000

Distancia: (Euclidea)

Autovalores
Lambda Valor Proporción Prop Acum
1 1,851 0,463 0,463
2 1,526 0,381 0,844
3 0,474 0,119 0,963
4 0,149 0,037 1,000

63
1,0 1,0
A Co-East
B

0,5 0,5
Bolivar Gileri
CP 2 (28,1%)

CP 2 (38,1%)
Co-West
0,0 Co-Central
Co-Central 0,0

Co-East
Gileri
-0,5 -0,5 Bolivar

Co-West
-1,0 -1,0
-1,0 -0,5 0,0 0,5 1,0 -1,0 -0,5 0,0 0,5 1,0
CP 1 (61,7%) CP 1 (46,3%)

Figura 25. ARM para cuatro marcadores moleculares y ordenamiento de cinco grupos
genéticos de Moniliophthora roreri (Cif.) Evans et al. en el plano conformado por las
dos primeras coordenadas principales sobre la matriz de distancias genéticas obtenidas
por la transformación (1 − Sij ) del índice de similitud de Dice (A) y sobre la matriz de
12

distancias Euclídeas (B).

Interpretación

El porcentaje de variación total explicado por el AcoorP basado en Dice, es mayor que
el obtenido usando las distancias Euclídeas. La distancia entre los perfiles modales del
grupo Gileri respecto a Co-East es, relativa a las otras distancias, mayor si se trabaja con
el índice de similitud de Dice respecto a las distancias Euclídeas, ya que el único
parecido entre ambos perfiles se da por la ausencia simultánea del marcador X15. Las
diferencias entre los perfiles de los grupos Bolivar y Co-West son relativamente
menores, a nivel del primer Eje, para la distancia basada en el índice de Dice que para
las distancias Euclídeas ya que el índice de Dice pondera con mayor peso el parecido
entre ambos perfiles que provienen de la co-presencia de 3 de los 4 marcadores
involucrados. Si bien en ambos gráficos la CP1 separa Gileri de Co-East, usando la
distancia de Dice explica un 61.7% de la variabilidad total, mientras que con la distancia
Euclídea la variabilidad sobre este eje más importante de análisis representa el 46,3% de
la variabilidad total.

64
II.8. Muestra mínima diversidad

Info-Gen permite encontrar el tamaño de muestra mínimo para calcular alguna medida
de variabilidad genética. Para ello calcula, desde la tabla de datos piloto, el valor de la
medida de variabilidad genética seleccionada para un número muestras obtenido por re-
muestreo (por defecto 250 muestras). La medida de variabilidad genética es obtenida a
partir de remuestreos de muestras de 1, 2, 3,...,20 casos (o alternativamente locus) y su
valor es graficado es graficado en función del tamaño muestral. Info-Gen reporta la
curva de ajuste del valor medio a través de los re-muestreos de la medida de
variabilidad genética seleccionada para cada valor de tamaño de muestra y así como
bandas de confianza para estos valores esperados.

Para determinar la muestra mínima requerida para la estimación de una cierta medida de
variabilidad genética a partir de un conjunto de datos piloto, ir a menú GENETICA,
comando Muestra mínima diversidad se despliega la ventana “selector de variables”, se
ingresan en loci los marcadores (columnas) que se consideraran en el cálculo. Cuando
se tiene datos de individuos repetidos se debe ingresar en Submuestra la columna que
contiene el factor que clasifica las repeticiones. Al aceptar se presentan la ventana de
opciones de medida de diversidad (Porcentaje de loci polimórficos, Diversidad genética,
Heterocigosis media (conteo directo), Heterocigosis media (insesgada de Nei), Media
del número de alelos por locus, Media del número de alelos efectivos) para que el
usuario seleccione qué medida desea encontrar el tamaño mínimo de muestra. Además
se debe especificar si se quiere Remuestrear casos (desea conocer el número de
muestras a tomar) o locus (desea conocer el número de locus a analizar).

Ejemplo 19: Determinación de la muestra mínima. Archivo Datos Soja

En el “selector de variables” se seleccionaron las columnas (loci) correspondientes a los


primers 30, 42 y 45 y se indicó en partición la procedencia de las variedades de Soja
que se están analizando molecularmente. Por lo que el análisis se hizo para cada
procedencia (Argentina o China) por separado. Luego en la ventana de opciones se
seleccionó: Diversidad genética, remuestrear Locus y Tamaño muestral 100 para indicar
que se deben obtener 100 muestras por remuestreo para cada tamaño de muestra.
Además se indicó que los resultados de cada procedencia (particiones) se reporten en el
mismo gráfico (Cuadro 14).

65
Figura 26. Menú GENETICA. Comando Muestra mínima diversidad

Cuadro 14: Resultado Ejemplo 19.

0.36

0.27
Diversidad genética

0.18

0.09

0.00
0 9 18 27 36
Número de loci

ARGENTINA CHINA

Interpretación

El ajuste logrado muestra, tanto para variedades de soja de Argentina como de China,
que a partir de muestras de tamaño 9 prácticamente no se observan cambios en la
estimación de la diversidad genética. La muestra mínima requerida para detectar
diversidad genética es de 9 de locus para ambas procedencias.

66
Parte III. Menú Estadística
III.1. Estadística descriptiva

El primer bloque del menú ESTADÍSTICAS permite describir un conjunto de datos


mediante medidas resumen univariadas, tablas de frecuencias y ajustes de funciones de
distribución teóricas sobre distribuciones empíricas (tablas de frecuencia muestrales).
Todas las acciones pueden realizarse para el conjunto de filas activas como un todo o
para cada subgrupo o partición del archivo si se indica una variable que lo particione o
clasifique, en la solapa Partición. Para medidas resumen y tablas de frecuencias, es
posible trabajar con archivos de formato extendido o compactado. En el primer caso, en
el selector de variable deberá indicarse la o las variables de análisis y no se deberá
llenar el campo opcional Frecuencias. En el segundo caso, se deberá indicar la columna
que contiene los distintos valores de la variable en la ventana variables del selector y la
columna que contiene las frecuencias en la ventana Frecuencias (opcional- solo una).

Medidas resumen

Se dispone de las siguientes medidas de resumen: número de observaciones (n),


media, desviación estándar (D.E), varianza con denominador n-1 (Var(n-1)), varianza
con denominador n (Var(n)), error estándar (E.E.), coeficiente de variación (CV),
valor mínimo (Mín), valor máximo (Máx), mediana, cuantil 0.25 o primer cuartil
(Q1), cuantil 0.75 o tercer cuartil (Q3), suma de las observaciones (Suma), asimetría,
kurtosis, suma de cuadrados no corregida (Suma Cuad.), suma de cuadrados corregida
por la media (SCC), mediana de los desvíos absolutos respecto de la mediana (MAD),
datos faltantes, percentiles 5, 10, 25, 50, 75, 90 y 95 (P(05), P(10), etc.).

El número de observaciones reportado corresponde al número de casos activos. Los


estadísticos muestrales son calculados usando como tamaño de muestra el número de
casos obtenidos después de descartar las observaciones con datos faltantes. El código de
datos faltantes puede ser ingresado por el usuario. El estadístico media se refiere a la
media aritmética. Desviación estándar corresponde a la raíz cuadrada de la varianza
muestral calculada como la suma de los cuadrados de los desvíos con respecto a la
media muestral, dividida por (n–1). El error estándar corresponde al desvío estándar
dividido por raíz de n. El coeficiente de variación es el cociente entre la desviación
estándar y la media muestral, expresado en porcentaje.

68
El primer cuartil (Q1), la mediana y el tercer cuartil (Q3) al igual que cualquier otro
percentil pueden ser obtenidos mediante el ordenamiento de la muestra y la selección de
uno de los valores observados de acuerdo a su posición o bien estimados a partir de una
aproximación de función de distribución empírica. Si el usuario selecciona FDE en la
sub-ventana Percentiles, Info-Gen estimará previamente la función de distribución
mediante el método propuesto por Collings y Hamilton (1988) y luego usará esta
función para reportar el percentil solicitado. Si se elige la opción muestrales, el
percentil será uno de los valores de la muestra obtenido después del ordenamiento de la
misma. Por este motivo, ambos procedimientos no producen necesariamente el mismo
resultado numérico.

La presentación de los resultados puede ser orientada en forma horizontal o vertical. La


primera es útil para exportar los resultados en una nueva tabla de datos con el objeto de
realizar otros análisis sobre las medidas resumen.

Ejemplo 20: Medidas Resumen. Archivo AFLP

Ir a Menú ESTADÍSTICAS, comando Medidas Resumen, con el “selector de


variables” seleccionar la o las variables que se desean analizar, si se especifica una
variable para producir una partición del archivo en la solapa Partición se obtendrán las
medidas resumen solicitadas para cada grupo o partición. En este ejemplo se
seleccionaron las variables “D10”, “SDays” y “Rint20”, y en la solapa Partición se
indicó la variable “Grupo Genético”. Se activaron o solicitaron las siguientes medidas:
n, Media, D.E., Var(n-1), Mín, Máx y Mediana y se seleccionó presentación horizontal.

Figura 27. Menú ESTADÍSTICA. Comando Medidas Resumen. Estadística Descriptiva.

69
Cuadro 15: Resultado Ejemplo 20.

Estadística descriptiva

Grupo genético Variable n Media D.E. Var(n-1) Mín Máx Mediana


Bolivar D10 15 4.79 0.83 0.70 2.70 5.80 5.00
Bolivar SDays 15 7.19 2.19 4.81 5.00 13.80 6.80
Bolivar Rint2O 15 2.56 1.59 2.52 0.80 5.00 2.30

Co-Central D10 6 5.52 0.60 0.36 4.80 6.20 5.65


Co-Central SDays 6 6.17 0.75 0.57 5.00 7.00 6.50
Co-Central Rint2O 6 3.93 0.71 0.51 3.00 5.00 4.00

Co-East D10 6 4.58 0.58 0.34 3.50 5.10 4.80


Co-East SDays 6 7.00 0.00 0.00 7.00 7.00 7.00
Co-East Rint2O 6 2.13 1.46 2.12 0.50 4.00 1.80

Co-West D10 55 3.66 0.78 0.61 1.30 5.70 3.50


Co-West SDays 55 7.45 1.45 2.12 5.50 13.80 7.00
Co-West Rint2O 55 2.16 1.03 1.06 0.00 4.50 2.30

Gileri D10 2 4.05 0.21 0.05 3.90 4.20 4.05


Gileri SDays 2 7.00 0.00 0.00 7.00 7.00 7.00
Gileri Rint2O 2 0.75 0.07 0.01 0.70 0.80 0.75

Interpretación

Como ejemplo se interpreta los resultados para la variable D10. El valor esperado de
D10 (Media) es mayor para el grupo Co-Central, la desviación estándar es relativamente
baja respecto a la de otros grupos por el que el Coeficiente de Variación de este grupo
no será el mayor. Los valores de D10 en este grupo estuvieron entre 4.80 y 6.20. La
mediana es cercana a la media, por lo que se deduce que la distribución de valores de
D10 es relativamente simétrica respecto a la Media.

70
Tablas de frecuencias

Menú ESTADÍSTICAS, comando Tablas De Frecuencias, permite obtener una tabla


de frecuencias y/o probar el ajuste de modelos distribucionales teóricos sobre una
distribución de frecuencia empírica. Las tablas de frecuencias pueden, de acuerdo a los
campos activados por el usuario, contener la siguiente información: límites inferiores
(LI) y superiores (LS), de los intervalos de clase, marca de clase (MC), frecuencias
absolutas (FA), frecuencias relativas (FR), frecuencias absolutas acumuladas (FAA) y
frecuencias relativas acumuladas (FRA). El número de clases, puede ser obtenido en
forma automática o definido por el usuario (PERSONALIZADO). Para la forma
automática Info-Gen obtiene el número de clases tomando el log2(n+1). Para el caso
personalizado, Info-Gen permite especificar el mínimo, máximo y número de intervalos.
Los intervalos que construye son cerrados a la derecha. Si la variable es categórica, la
personalización no es aceptada y la tabla de frecuencias presentará tantas clases como
categorías tenga la variable. Si los valores de la variable fueron declarados como
enteros, Info-Gen tiene la opción, por defecto, de considerarla como una variable de
conteo y muestra las frecuencias de todos los valores enteros entre el mínimo y el
máximo. Si la variable contiene valores enteros y se desactiva la casilla Tratar a las
variables enteras como conteo, Info-Gen tratará a la variable como continua definiendo
intervalos de clases y construyendo la tabla a partir de ellos.

Siguiendo con los datos del archivo AFLP.idb, se obtuvo la tabla de frecuencia para la
variable D10 para cada uno de los grupos genéticos invocando las siguientes acciones:
ESTADÍSTICAS ⇒ TABLAS DE FRECUENCIAS, en la ventana Distribución de
frecuencias-solapa variables se seleccionó D10 y antes de Aceptar se activó la solapa
Particiones... donde en la sub-ventana Seleccionar por se pasó la variable Grupos
genéticos. Al Aceptar aparece la ventana Distribución de Frecuencias-Opciones de la
Tabla de Frecuencia donde el usuario puede indicar que tipo de información desea
visualizar en la tabla y cómo se definirá el número de clases. En este caso se aceptaron
todas las opciones que se encuentran activadas por defecto, por lo que sólo se presionó
Aceptar y el número de clases fue calculado automáticamente.

71
Figura 28. Menú ESTADÍSTICA. Comando Tablas de Frecuencias.

Cuadro 16: Resultado Ejemplo 20.


Tablas de frecuencias

Grupo genético Variable Clase LI LS MC FA FR


Bolivar D10 1 2.70 3.48 3.09 1 0.07
Bolivar D10 2 3.48 4.25 3.86 2 0.13
Bolivar D10 3 4.25 5.03 4.64 6 0.40
Bolivar D10 4 5.03 5.80 5.41 6 0.40

Grupo genético Variable Clase LI LS MC FA FR


Co-Central D10 1 4.80 5.50 5.15 3 0.50
Co-Central D10 2 5.50 6.20 5.85 3 0.50

Grupo genético Variable Clase LI LS MC FA FR


Co-East D10 1 3.50 4.30 3.90 1 0.17
Co-East D10 2 4.30 5.10 4.70 5 0.83

Grupo genético Variable Clase LI LS MC FA FR


Co-West D10 1 1.30 2.18 1.74 1 0.02
Co-West D10 2 2.18 3.06 2.62 9 0.16
Co-West D10 3 3.06 3.94 3.50 28 0.51
Co-West D10 4 3.94 4.82 4.38 13 0.24
Co-West D10 5 4.82 5.70 5.26 4 0.07

Grupo genético Variable Clase LI LS MC FA FR


Gileri D10 1 3.90 4.05 3.98 1 0.50
Gileri D10 2 4.05 4.20 4.13 1 0.50

72
Ajustes

Menú ESTADÍSTICAS, comando Tablas De Frecuencias, solapa Ajustes, permite


obtener pruebas de bondad de ajuste. La hipótesis nula especifica un modelo
distribucional teórico para los datos. Los valores observados en la muestra son
comparados con los valores esperados, según el modelo especificado, mediante el uso
del estadístico Chi-Cuadrado y/o el estadístico máximo-verosímil G (Agresti, 1990). El
usuario deberá seleccionar entre uno de estos dos estadísticos para realizar la prueba de
bondad de ajuste. Además deberá especificar si desea estimar desde la muestra o
especificar externamente los parámetros de la distribución teórica que, hipotéticamente,
tienen los datos. Si se selecciona especificar aparecerán tantas casillas como parámetros
tenga la distribución teórica seleccionada para recibir la información desde el usuario.
Las casillas reservadas para cada parámetro de una distribución contendrán
automáticamente los valores de los estimadores muestrales de los mismos. En caso de
variables continuas, la distribución empírica se construirá a partir de la información
sobre intervalos de clase automáticamente generados. Estos intervalos pueden ser
generados con límites inferiores y superiores abiertos o cerrados, según especifique el
usuario en la ventana Distribución de Frecuencias-Ajustes.

Las distribuciones teóricas que se pueden especificar automáticamente en la hipótesis


nula son: Normal, Chi cuadrado (Chi Cuad.), Uniforme, Binomial, Poisson y Binomial
negativa (BinNeg). La opción Ninguna (seleccionada por defecto) permite visualizar la
función de distribución empírica.

Ejemplo 21: Tablas de Frecuencia. Archivo AFLP

Los datos del archivo Aberrantes, muestran las frecuencias observadas del número de
elementos con aberraciones cromosómicas en una población de 200 individuos. Estos
valores se usan para probar la hipótesis que la distribución de la variable ajusta el
modelo binomial negativo.

En la ventana Tabla de distribución de frecuencias, subventana Variable ingrese


“Aberrantes” y en Frecuencias ingrese “observados”. En Ajustes elegir Binomial
negativa. Se obtendrá una tabla conteniendo las frecuencias absolutas observadas (FA),

73
las frecuencias absolutas esperadas de acuerdo con el modelo distribucional propuesto
(E(FA)), y el valor p de la prueba de bondad de ajuste.

Cuadro 17: Resultado Ejemplo 21.

Tabla de Distribución de Frecuencias

Ajuste: Binomial Negativa con estimación de parámetros: k=1.1091 y


m=1.2050
Variable Clase MC FA FR E(FA) E(FR) Chi-Cuadrado p
Aberrantes 1 0 89 0.45 88.46 0.44 0.00
Aberrantes 2 1 52 0.26 51.09 0.26 0.02
Aberrantes 3 2 24 0.12 28.06 0.14 0.61
Aberrantes 4 3 15 0.08 15.14 0.08 0.61
Aberrantes 5 4 10 0.05 8.10 0.04 1.05
Aberrantes 6 5 5 0.03 4.31 0.02 1.16
Aberrantes 7 6 4 0.02 2.28 0.01 2.45
Aberrantes 8 7 1 0.01 1.21 0.01 2.49
Aberrantes 9 8 0 0.00 1.35 0.01 3.83 0.70

Interpretación

Un valor p menor al nivel de significación nominal de la prueba conduce al rechazo del


modelo distribucional propuesto. En este ejemplo se puede decir que la distribución del
conteo de aberrantes puede modelarse con la distribución Binomial negativa con los
parámetros especificados en el encabezamiento de la tabla dado que p>0.05. Los
parámetros son estimados automáticamente a partir de la muestra en estudio.

74
III.2. Análisis Multivariado

Para la representación de datos mutidimensionales (múltiples marcadores) en un espacio


de 1, 2 o 3 dimensiones, cobran especial importancia las técnicas de reducción de
dimensión (TRD). Estas permiten explorar las relaciones existentes entre el material
genético mediante ordenaciones del mismo sobre planos que, bajo distintos criterios de
representación, son “óptimos”. Las TRD son útiles para: (1) resumir y graficar los datos,
(2) explorar tendencias y relaciones entre observaciones, entre marcadores y sus
interrelaciones y (3) agrupar y clasificar material genético y/o marcadores. La
ordenación en la dimensión real de las observaciones, aquella dada por el número de
marcadores que proveen información, queda sólo reflejada parcialmente en el espacio
reducido de representación. Las representaciones gráficas resultantes pueden,
posteriormente correlacionarse con información auxiliar sobre las observaciones
proveyendo información útil para la modelación.

La interpretación de la información multidimensional mejora sustancialmente al poder


visualizar en un espacio de baja dimensión las observaciones. El uso de las diferentes
técnicas de análisis para obtener una redución de la dimensión, depende del tipo de
datos con el que se trabaja y el objetivo del análisis. Para datos de naturaleza binaria es
conveniente utilizar un ACoorP y una medida de distancia acorde a datos discretos,
mientras que cuando se trabaja con datos de naturaleza continua, como los obtenidos a
partir de variables morfológicos se recomienda trabajar con ACP de datos
estandarizados, sobre todos si las variables no son inconmensurables o su variabilidades
son muy distintas. El APG es una técnica útil cuando se desea estudiar las relaciones
entre materiales a partir de datos de marcadores de diferente naturaleza. Pero es
importante tener en cuenta la naturaleza de los grupos de variables que se desean
consensuar y elegir un método de ordenación apropiado para cada tipo de marcador
antes de consensuar las ordenaciones.

En esencia, los métodos de ordenación extraen sucesivos componentes desde una matriz
de similitudes o distancias, entre el material genético, calculada a partir de múltiples
marcadores. Esos componentes son usados como ejes para la representación gráfica de
las observaciones. En la ordenación, cada individuo es ubicado sobre uno o más ejes tal
que su posición geométrica relativa refleja las similitudes y/o distancias entre ellos

75
(Randerson, 1993). En particular, los gráficos biplots propuestos por Gabriel (1971)
permiten representar ambas, las observaciones y las variables en un mismo plano.

Las TRD usadas con fines exploratorios, no requieren de supuestos distribucionales, por
ejemplo datos que ajusten a una distribución normal. La característica de distribución
libre las hace especialmente apropiadas para su utilización sobre información derivada
de secuencias de fragmentos de nuecleótidos o marcadores de ADN dado que éstos rara
vez siguen una distribución normal debido al sesgo selectivo que puede introducirse
cuando se usa un primer o un conjunto de enzimas de restricción en particular (Bridge,
1998). En general, las ordenaciones basadas en matrices de distancias son utilizadas
cuando se desea relacionar material genético perteneciente a un único taxón o a un
taxón específico, i.e., donde la variación está más cercana a ser continua o
semicontinua, sin amplios quiebres, como puede ocurrir cuando se involucran diferentes
especies (Burnett, 2003).

Info-Gen permite implementar diversa TRD en el Menú ESTADÍSTICA, comando


Análisis Multivariado. Estas técnicas son aplicables a la ordenación de material
genético a partir de datos de marcadores moleculares ya sean, disponibles como única
fuente de información o acompañados de datos de marcadores morfofisiológicos.
Siempre hay que recordar que las TRD la visualización en planos puede conducir a
malas interpretaciones por problemas de deformaciones en la proyección de un conjunto
de observaciones multivariadas en espacios de menor dimensión. Por ello hay juzgar la
pertinencia de distintas estrategias de representación gráfica (biplots y árboles de
recorrido mínimo) sobre las ordenaciones producidas en cualquiera de los análisis
clásicos de reducción de dimensión: análisis de componentes principales, coordenadas
principales y procrustes generalizado.

Análisis de componentes principales

El objetivo del análisis de componentes principales (ACP) es proyectar observaciones


multivariadas en un plano de manera tal que sea posible explicar variabilidad
multivariada, ya sea entre observaciones o entre variables. Mediante la técnica de
análisis de componentes principales se persigue la transformación de variables
continuas que originalmente pueden estar correlacionadas en un grupo de variables no
correlacionadas denominadas componentes principales. Se busca proyectar los datos
multidimensionales en un espacio bidimensional, construído por ejes (componentes

76
principales) de máxima varianza. Las componentes se ordenan según los niveles de
información (variabilidad que expresan los datos sobre éstas). El ACP se basa en la
búsqueda de una base ortogonal de los datos de manera tal que el primer eje se
encuentra en la dirección de mayor variación y los ejes subsecuentes maximicen la
explicación de la varianza condicionados a que sean ortogonales a sus ejes previos (es
decir cada eje aporta nueva información sobre la variabilidad total). El método opera
sobre una matriz de varianzas-covarianzas ( S ) preservando las distancias Euclídeas
entre observaciones. Los datos pueden o no ser estandarizados. Si se estandariza, el
ACP opera sobre una matriz de correlación ( R ). La técnica de estandarización se
recomienda para situaciones donde las variables no sean conmensurables (distintas
unidades de medidas) y/o tienen varianzas muy distintas.

El ACP podría aplicarse a la matriz m×m de covarianza (o correlaciones) entre los m


marcadores (es decir, una matriz que en la diagonal principal lleve las varianzas de cada
marcador y fuera de la diagonal las covarianzas entre ellos) o bien sobre la matriz n×n
de covarianzas (o correlaciones) entre observaciones. La primera estrategia provee un
ordenamiento de las observaciones, mientras que la segunda otorga un ordenamiento de
las variables.

Si X es una matriz n×m, de datos de n observaciones (material genético) sobre los


cuales se registran m variables (marcadores), una solución del ACP es obtenida
mediante la descomposición espectral de la matriz X ' X (m×m) que contiene la
información de la matriz de varianzas y covarianzas de los marcadores, i.e.,
1
S = X'X .
n −1
m
X ' X = ∑ λ j e je'j = EDλE '
j =1

donde e j es el j-ésimo autovector y λ j es el j-ésimo autovalor de la descomposición

espectral de X ' X , E es la matriz que contiene todos los autovectores y Dλ es una


matriz diagonal cuyos elementos no nulos son los autovalores. La otra solución puede
obtenerse de manera análoga, a partir de la descomposición espectral de la matriz XX '
(n×n). Las componentes principales se construyen a partir de los autovectores de estas
descomposiciones de la siguiente forma:

CPj = e'j X = e1 j X1 + e 2 j X 2 + ... + e mj X m

77
Es decir, la j-ésima componente principal, es una combinación lineal de las m variables
originales ponderadas por los autovectores. La varianza de la componente j-ésima es
Var (CPj ) = λ j .

Una excelente forma de visualizar los resultados de un ACP es a través de gráficos


Biplot. Los gráficos Biplot (Grabriel, 1971) permiten visualizar las conexiones entre las
ordenaciones de las filas (generalmente muestras) y de las columnas (generalmente
marcadores) de la tabla de datos. El nombre Biplot refleja que ambas ordenaciones (de
muestras y de marcadores) se representan simultáneamente en el mismo gráfico.

¿Cómo interpretar un Biplot?

Para interpretar un Biplot obtenido a partir de un ACP clásico (no corregido por el
efecto de filas ni columnas, también denominado ACP no centrado) se recomienda
seguir los siguientes pasos:

1. Observar el porcentaje de variabilidad total explicado por el Biplot. Si el Biplot


conformado por las CP1 y CP2 no explica más del 60% de la variabilidad total, juzgar
la necesidad de explorar los patrones de variabilidad en un segundo Biplot conformado
por las CP1 y CP3. Si son necesarios muchos Biplot para explicar un porcentaje
razonable de la variabilidad total, digamos mayor a 60-70%, habrá indicios de que el
ACP no es suficiente para representar confiablemente las relaciones entre los casos y las
variables (Arroyo et al., 2005).

2. Concentrarse en la CP1, que por construcción, siempre explicará el mayor porcentaje


de variabilidad total.

2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que representan
los casos. Identificar los de mayor inercia, i.e. los puntos que se encuentran a mayor
distancia del cero, ya sea que se alejan hacia la derecha o hacia la izquierda.

9 Interpretar “similaridades/disimilaridades” entre casos en función de las


distancias entre proyecciones sobre la CP1.

2.2. Analizar las proyecciones de los puntos que representan las variables sobre la CP1.
Identificar las variables de mayor inercia.

9 Interpretar “correlaciones” entre variables según los ángulos de los vectores que
los representan. Ángulos agudos indican correlaciones positivas, ángulos obtusos

78
corresponden a correlaciones negativas y ángulos rectos indican que no hay correlación
entre las variables.

Nota: La longitud de los vectores correspondientes a las variables no son de interés


cuando los datos han sido previamente estandarizados. Si no se estandarizan los datos,
las longitudes de los vectores son proporcionales a las varianzas de las variables.

2.3. Interpretar correlaciones entre casos y variables en función de la orientación, pero


no de la cercanía entre puntos, i.e. las variables orientadas hacia la derecha tendrán altos
valores en los casos orientados en la misma dirección y las variables orientadas hacia la
izquierda tendrán altos valores en los casos orientados hacia la izquierda.

3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un procedimiento


análogo al realizado para la CP1 pero teniendo en cuenta que las variables en esta
dimensión son de menor importancia que los realizados sobre la CP1 según indican los
porcentajes de variabilidad total explicados por cada CP.

Ejemplo 22: Análisis de Componentes Principales. Archivo Perfiles


moleculares medios

Se aplicó el análisis de componetes principales (ACP) sobre los datos del archivo
Perfiles moleculares medios.idb de marcadores de cacao. Este análisis podría ser
aplicado sobre la tabla completa de casos, lo cual sería más recomensable para el
cálculo de varianzas y co-varianzas. Se trabajó con estandarización de los datos de cada
uno de los cuatro marcadores morfológicos. Para numerosas aplicaciones, sobre todo si
los resultados del ACP serán utilizados como input de otros análisis, se recomienda
mantener el espíritu del procedimiento extrayendo los componentes principales desde la
matriz S en lugar de R (matriz de correlación) (Rencher, 1992). No obstante en este
trabajo se usaron datos estandarizados (matriz R ) dado que las unidades de medida de
éstos marcadores morfológicos, las correlaciones entre variables y sus varianzas difieren
notablemente. El análisis se solicitó como se muestra en la Figura 29.

79
Figura 29. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de
Componentes Principales.

Cuadro 18: Resultado Ejemplo 22.

Análisis de componentes principales


Datos estandarizados

Autovalores
Lambda Valor Proporción Prop Acum
1 2,210 0,552 0,552
2 1,415 0,354 0,906
3 0,337 0,084 0,990
4 0,039 0,010 1,000

Autovectores
Variables e1 e2
Rint2O 0,503 0,444
Prod -0,529 0,485
Ge24h 0,645 -0,202
glo 0,225 0,726

Para ilustrar las diferencias entre ambos análisis, se presentan los autovalores (Tabla 8)
y los autovectores (Tabla 9) tanto de la descomposición espectral de R como de S . Las
dos variables con mayor varianza son aquella de mayor influencia en las dos primeras
componentes cuando se utiliza S en lugar de R . En casos como éste, R puede
producir componentes que mejor reflejen los efectos mutuos de las variables.

80
Tabla 8. Matriz de covarianzas ( S ) y matriz de correlación ( R ). Datos de marcadores
morfológicos.
S Rint2O Prod Ge24h glo
Rint2O 1.29
Prod -14.87 3686.60
Ge24h 1.58 -129.48 5.87
glo 7.11 111.11 3.32 126.18
R Rint2O Prod Ge24h glo
Rint2O 1.000
Prod -0.215 1.000
Ge24h 0.573 -0.880 1.000
glo 0.556 0.163 0.122 1.000

Tabla 9. Autovalores de la descomposición espectral de R y S


Proporción Proporción
Lambda Valor R Valor S
Acumlada Acumulada
1 2.210 0.552 0.552 3694.657 0.967 0.967
2 1.415 0.354 0.906 123.633 0.032 1.000
3 0.337 0.084 0.990 1.438 3.8E-04 1.000
4 0.039 0.010 1.000 0.218 5.7E-05 1.000

En la Tabla 10 se comparan los coeficientes de los autovalores obtenidos desde R y


desde S y las correlaciones de cada variable con los primeros dos componentes
principales.

Tabla 10. Autovectores (coeficientes) de las matrices de varianzas y covarianzas de


los datos estandarizados ( R ) y sin estandarizar ( S ) y correlaciones de cada variable
con los dos primeros componentes principales.
Datos estandarizados ( R ) Datos sin estandarizar ( S )
Coeficientes Orden Correlación Orden Coeficientes Orden Correlación Orden
Primera componente principal (CP1)
Rint20 0.503 3 0.748 3 -0.004 4 -0.212 3
Prod -0.529 2 -0.786 2 0.999 1 1.000 1
Ge24h 0.645 1 0.960 1 -0.035 2 -0.879 2
Glo 0.225 4 0.335 4 0.031 3 0.168 4
Segunda componente principal (CP2)
Rint20 0.444 3 0.528 3 0.062 2 0.607 2
Prod 0.485 2 0.576 2 -0.029 4 -0.005 4
Ge24h -0.202 4 -0.241 4 0.060 3 0.277 3
Glo 0.726 1 0.864 1 0.996 1 0.986 1

Interpretación

Para datos estandarizados, las correlaciones ordenan (columna orden) a las variables de
la misma manera que los autovectores, mientras que para datos no estandarizados
existen diferencias, en la primera componente, entre el orden dado por las correlaciones
y el orden dado por las contribuciones a las componentes. Estas diferencias se deben a
que las correlaciones de las variables con las componentes proveen sólo información

81
univariada sobre cómo opera cada variable por sí misma ignorando la presencia de las
otras variables. Por otro lado, ya que las componentes principales son ortogonales
(provienen de autovectores de una matriz simétrica) es posible expresar el coeficiente de
correlación múltiple de las dos primeras componentes con la variable xi mediante la

siguiente partición rx2i ,CP 1 + rx2i ,CP 2 = Rx2i |CP 1,CP 2 . Por ejemplo, para la variable Prod, el

cuadrado del coeficiente de correlación múltiple es ( -0.786 ) + ( 0.576 ) = 0.950 . Los


2 2

valores de R2 del ejemplo muestran que las variables de mayor contribución para
separar los aislamientos en el plano son Ge24h (0.980) y Prod (0.950). El cálculo de
correlaciones entre variables y componentes puede ayudar a mejorar la interpretación de
los datos.

Tabla 11. Valores de coeficiente de correlación múltiple al cuadrado de los datos


estandarizados sus correspondientes factores que dieron lugar la coeficiente de
correlación múltiple.
Primera componente principal Segunda componente principal
Variable R2
(CP1) (CP2)
Ge24h 0.96 -0.241 0.980
Prod -0.786 0.576 0.950
Rint20 0.748 0.528 0.838
Glo 0.335 0.864 0.859

El análisis de los resultados se realizó a partir de los datos estandarizados y se


consideraron sólo los dos primeros componentes principales, ellos explican un 90.6% de
la varianza total. El primer autovector tiene elementos positivos a excepción del
correspondiente a la variable Prod (-0.786); las variables de calidad de esporas (Rint20
y Ge24h) presentan coeficientes de magnitudes similares a la variable relacionada a la
cantidad de espora (Prod), pero de signos opuestos. Luego la primera componente
separa los aislamientos con mayor producción (CP1 de menor valor) de aquellos con
menor producción de esporas pero con mayor germinación de las mismas a las 24hs y
mayor cantidad de anillos (CP1 de mayor valor). En la segunda componente se oponen
los aislamientos con mayor porcentaje de esporas globosas (CP2 de mayor valor) de
aquellos con menor porcentaje, principalmente dentro de los aislamientos de mayor
producción de esporas. Estas relaciones se pueden interpretar mejor a partir de su
representación gráfica en un biplot (Figura 30). Los coeficientes de mayor valor
absoluto corresponden a las variables que mayor peso tienen para caracterizar los
grupos genéticos. En este ejemplo, las variables Ge24h y Prod tienen una fuerte

82
influencia para la caracterización morfológica de los grupos genéticos. A nivel del Eje
2, las variables que más se separan son Glo y Ge24h, oponiendosé entre sí con
coeficientes de autovectores de 0.864 y -0.241 respectivamente. Las variables Rint20
(cantidad de anillos a los 20 días) y Glo (porcentaje de esporas globosas), presentan
vectores con menor ángulo entre ellas, indicando una mayor asociación entre ellas.
Puede obsevarse a nivel de la CP1, que la variable Ge24h permite correlacionarla
positivamente con los aislamientos pertenecientes a los grupos Co-Central y Co-West,
mientras que Prod y Glo correlacionan positivamente con los aisalmientos del grupo
Bolivar y negativamente con los aislamientos del grupo Gileri. Luego, los aisalmientos
del grupo Gileri se contraponen con los del grupo Co-Central y Co-West por presentar
mayor producción de esporas de menor número de anillos a los 20 días y menor
germinación a las 24 hs. y de los aislamientos del grupo Bolivar por presentar un menor
porcentaje de esporas globosas. Biológicamente, el bajo número de anillos a los 20 días
que presentan los aislamientos caracterizados como grupo Gileri estaría evidenciando
una alternancia del periodo de crecimiento y esporulación del hongo, procesos
normalmente regidos por ciclos biológicos que dependen de la luz, i.e., un hongo con
baja producción de anillos, estaría indicando una falta de adaptación al ritmo biológico
regido por la cantidad de luz recibida afectando su nivel de esporulación y
consecuentemente su sobrevivencia.

3.12
glo

Prod
Rint2O
1.94 Bolivar
CP 2 (35.4%)

0.77
Co-East
Co-Central

-0.41

Co-West
Gileri Ge24h

-1.59
-2.37 -1.07 0.24 1.54 2.84
CP 1 (55.2%)

Figura 30. Gráfico biplot obtenido a partir de ACP. Ordenamiento, producido por
cuatro marcadores morfológicos, de perfiles modales de cinco grupos genéticos de
Moniliophthora roreri

83
Procrustes como técnicas para consensuar ordenaciones

Cuando las observaciones son caracterizadas mediante k≥2 conjuntos de variables


(marcadores) puede ser de interés obtener una ordenación para cada conjunto, las
variables en estos conjuntos pueden ser de igual o diferente naturaleza. Es de interés,
consensuar las ordenaciones obtenidas para lograr una única configuración. La
cuantificación del consenso mediante análisis procrustes generalizado (APG) provee
información a cerca de la armonización o adecuación de las configuraciones producidas
por cada conjunto de variables. La técnica se basa en rotaciones y escalamientos de las
ordenaciones individuales para su representación en un mismo espacio (espacio de
consenso). El término procrustes (Hurley y Catell, 1962) deriva de la mitología griega,
donde la historia cuenta que el dueño de un hospedaje (Procruestes) que tenía una única
cama estiraba o acortaba las extremidades de los huéspedes para que se amoldaran a la
cama. Inicialmente el análisis de procrustes fue utilizado para adecuar o ajustar la
configuración producida por una ordenación a otra preestablecida. La adecuación entre
ambas configuraciones se describió como una transformación en que una matriz era
rotada y contraída para coincidir, tanto como sea posible, con otra matriz objetivo
(transformación procrusteana). El uso de dicha transformación, basada en el criterio de
mínimos cuadrados para minimizar las distancias entre los puntos análogos en la
configuración final, se restringía a matrices con igual número de columnas y de rango
completo. La idea de la rotación de una matriz para ajustarla a otra se extendió con el
propósito de rotar varias matrices hacia una matriz centroide común (procrustes
generalizado). Gower (1975) describe la configuración final lograda por este
procedimiento, como configuración de consenso y propone una técnica de cálculo que
produce, en el formato de un análisis de la varianza, una medida para cuantificar el
consenso entre las ordenaciones.

Las sucesivas transformaciones que se realizan en un APG incluyen normalización,


rotación, traslación y escalamiento de los datos tratando que: (1) se mantengan las
distancias entre los individuos de las configuraciones individuales, y (2) se minimice la
suma de cuadrados entre puntos análogos (provenientes de distintas configuraciones
pero para el mismo individuo) y su centroide. La configuración de consenso se obtiene
como la media de las configuraciones individuales apropiadamente tranformadas. Para
ello, a partir de los n puntos {P1,P2 , …,Pn } representados en los k sistemas de

84
coordenadas {X1,X 2 ,…, Xk } m-dimensionales, se deben encontrar: las traslaciones

{T1,T2 ,...,Tk } , las rotaciones ortogonales {H1,H2 ,...,Hk } y los coeficientes de escala

{r1,r2 ,...,rk } tal que las configuraciones resultantes {Xi* =r i X i H i +T i ; i=1,...,k} sean
lo más parecidas posible entre ellas. El promedio de estos nuevos sistemas de
coordenadas produce el sistema de consenso. El nuevo sistema puede ser submitido, por
ejemplo, a un ACP para obtener una ordenación de consenso en un espacio de menor
dimensionalidad.

Ejemplo 23: Análisis de Procrustes Generalizado. Archivo Perfiles


moleculares medios

Para combinar en un mismo espacio la información brindada por marcadores


morfológicos y moleculares del archivo Perfiles moleculares medios.idb se realizó un
análisis de procrustes generalizado (APG). Dado que las variables morfológicas son de
diferente naturaleza que las variables moleculares, es conveniente, previo a realizar el
APG, extraer coordenadas apropiadas para cada conjunto de datos. Se muestran los
resultados obtenidos del APG previa obtención de las componentes principales (CP) de
los datos morfológicos estandarizados (Figura 31) y las coordenadas principales (PCO)
de datos moleculares derivados del ACoorP sobre la matriz de distancia obtenida con la

transformación (1 − Sij )
12
donde Sij es el índice de similitud de Dice (Figura 32).

Figura 31. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de


Componentes principales.

85
Figura 32. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de
Coordenadas principales.

Siempre que se realiza un ACP existe la posibilidad en Info-Gen de guardar las


componentes calculadas. Igualmente al realizar un AcoorP es posible guardar las
coordenadas principales resultantes. Para realizar el APG se conformó un archivo con
las componentes obtenidas del análisis de marcadores morfológicas y con las
coordenadas obtenidas de marcadores moleculares (Figura 33). En el menú
ESTADISTICA, comando Análisis MultivariadoÆProcrustes Generalizado, se
indicó que las componentes principales conformaban las variables de un Grupo (u
ordenación) y que las coordenadas principales conformaban las variables de un Nuevo
Grupo (segunda ordenación) (Figuras 34 y 35).

Figura 33. Tabla de datos para el Análisis de Procrustes.

86
Figura 34. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de
Procrustes Generalizado. Ventana “Selector de Variables”.

Figura 35. Menú ESTADÍSTICA. Comando Análisis Multivariado. Análisis de


Procrustes Generalizado. Ventana “Selector de Grupos”.

87
Interpretación

Los autovalores indican que la variabilidad explicada a través del Eje 1 de la


descomposición de la matriz de consenso es 47.4%. Con los dos primeros ejes se
explica el 80.6% de la variabilidad contenida en el total de los marcadores. En el cuadro
de Análisis de la Varianza se presenta la suma de cuadrados dentro por caso
(aislamientos) y la suma de cuadrados dentro por grupo de marcadores. El total de la
suma de cuadrados (total de las suma de cuadrados de consenso dentro de cada grupo de
marcador) es dos, si se calcula el cociente entre el consenso y la suma de cuadrados
total (1.726/2), se concluye que existe un 86.3% de consenso entre el ordenamiento
producido por los marcadores moleculares y el producido por marcadores morfológicos.

Tabla 12. Resultados del análisis de procrustes generalizado (APG) combinando


información proveniente de cuatro marcadores morfológicos y cuatro marcadores
moleculares de cinco grupos genéticos de Moniliophthora roreri
Autovalores Valor Proporción de la variabilidad total explicada Proporción Acumulada
1 0.409 0.474 0.474
2 0.287 0.332 0.806
3 0.133 0.154 0.960
4 0.035 0.040 1.000
Cuadro de Análisis de la Varianza
Sumas de cuadrados dentro por caso
Consenso Residual Total
Bolivar 0.311 0.039 0.351
Co-Central 0.217 0.057 0.274
Co-East 0.388 0.094 0.482
Co-West 0.270 0.028 0.298
Gileri 0.540 0.056 0.596
Total 1.726 0.274 2.000
Sumas de cuadrados dentro por grupo
Consenso Residual Total
Grupo1 (Moleculares) 0.863 0.137 1.000
Grupo2 (Morfológicos) 0.863 0.137 1.000
Total 1.726 0.274 2.000

Se puede observar el consenso de las ordenaciones dado por las componentes


principales de los marcadores morfológicos y las coordenadas principales de los
marcadores moleculares. Sobre la figura de la izquierda se construyó un ARM para las
configuraciones individuales dadas por cada tipo de marcador y para la configuración de
consenso. En el diagrama de dispersión de la derecha se observan las ordenaciones
individuales y de consenso sin el ARM pero se identifican los casos para poder
interpretar el consenso por aislamiento.

88
En la Figura 36 A, se puede destacar el parecido del grupo Co-West y Co-Central,
cuando se consideran simultanemente ambos tipos de marcadores el parecido
morfológico de estos aislamientos es alto.

Los grupos Gileri y Co-West se diferencian más a nivel molecular que morfológico. El
grupo Bolivar está más cercano a Co-East que cualquier otro grupo si se consideran
ambos tipos de marcadores. En la Figura 36 B, se observó que la suma de cuadrados
(SC), función de las diferencias entre las ordenaciones individuales y la de consenso
dentro de cada caso es bastante similar ya que la ordenación de consenso se da para
todos los casos en el punto medio de las distancias entre las configuraciones
individuales y estas distancias son similares para todos los casos.

0.51 0.51
Moleculares(1) A Moleculares(1) B
Morfológicos(2) Morfológicos(2)
Consenso (1,2) Consenso (1,2)
Co-West Co-West
0.26 0.26
Co-Central Co-Central
CP 2 (33.2%)

CP 2 (33.2%)

Bolivar Bolivar
0.00 0.00

-0.26 -0.26
Co-East Co-East
Gileri Gileri

-0.51 -0.51
-0.58 -0.29 0.00 0.29 0.58 -0.58 -0.29 0.00 0.29 0.58
CP 1 (47.4%) CP 1 (47.4%)

Figura 36. Ordenamiento de cinco grupos genéticos de Moniliophthora roreri (Cif.)


Evans et al. en el plano conformado por los dos primeros ejes de un APG con ARM
(A) y sin ARM (B). Se calculó la distancia genética del índice de similitud de Dice
mediante la transformación (1 − Sij ) con cuatro marcadores moleculares para obtener
12

las coordenadas principales, y la distancia euclidea para los marcadores morfológicos.

A modo de ilustración, se realizó un APG directamente desde la matriz de datos


moleculares y morfológicos previa estandarización de estos últimos. Este proceder es
equivalente a realizar un APG partiendo de las coordenadas principales (PCO) de un
ACoorP sobre una matriz de distancias Euclídeas obtendidas desde los marcadores
moleculares y de las componentes principales (CP) de un ACP sobre la matriz de
marcadores morfológicos. En la Fig. 37 se observa el gráfico de dispersión de los
ordenamientos individuales y de consenso, sobre las que se construyeron ARM. Note

89
que los grupos Co-West y Co-Central se encuentran a una distancia muy pequeña al
igual que antes, pero que el grupo Gileri, no se asocia de manera directa a estos perfiles
modales, si no que lo hace a través del grupo Co-East y el grupo Bolivar. Observando
los resultados, vemos que las asociaciones que se presentan en este consenso hacen
referencia a los parecidos de los perfiles modales morfológicos, pero estos no se
condicen con los parecidos a nivel molecular, de hecho, entre el perfil modal molecular
del grupo Gileri y el perfil modal molecular del grupo Co-East hay sólo una
coincidencia y ésta es por la ausencia simultanea de amplificación, mientras que con los
grupos Co-Central y Co-West, el grupo Gileri presenta más coincidencias, y éstas son
debido a las presencia simultánea de los marcadores, característica explotada en el
análisis anterior donde se realizó previo al APG un ACoorP sobre la matriz de
distancias del índice de similitud de Dice para los datos moleculares.

0.52 Moleculares (1)


Morfológicos(2)
G Consenso (1,2) CW
Gileri Co-West
0.26 CC
CP 2 (40.3%)

CW
G Co-Central CC
0.00

CE
B
-0.26
Co-East Bolivar

CE B
-0.52
-0.60 -0.30 0.00 0.30 0.60
CP 1 (41.3%)

Figura 37. Análisis de procrustes generalizado (APG) desde la matriz de datos


morfológicos y moleculares de cinco grupos genéticos de Moniliophthora roreri

90
Referencias Bibliográficas

Arroyo, A., Balzarini, M., Bruno,C., Di Rienzo,J., 2005. Árboles de expansión


mínimos: ayudas para una mejor interpretación de ordenaciones en bancos de
germoplasma. Interciencia, ISSN 0378-1844 Vol 30 Nº 9: 550-554.
Balzarini, M., Bruno, C. y Arroyo A. 2005. Análisis de Ensayos Agrícolas
Multiambientales. Ejemplos en Info-Gen. Ed. Brújas ISBN 987-05-0349-7.
Córdoba, Argentina. 141 pp.
Botstein, D., White, R. L., Skolnick, M. Y Davis, R. W. 1980. Construction of a genetic
linkage mape in man usin restriction fragment length polymorphis. Am. J. Hum.
Genet. 32:314-331.
Cockerham, C. 1969. Variante of gene frequencies. Evolution 23:72-84.
Cockerham, C. 1973. Analyses of gene frequencies. Genetics 74:679-700.
Di Rienzo J. and Balzarini, M. Bootstrap and Jackknife for Genetic Diversity Parameter
Estimates. 2002. In: M.S. Kang (Ed.) Handbook of formulas and software for
geneticists and breeders. Food Products Press, Binghamton, NY, USA ISBN -
56022-948-9 and 1-56022-949-7.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. Annals of Statistics
7: 1-26.
Excoffier, L, Smouse P. y Quattro, J. 1992. Analysis of Molecular Variance Inferred
From Getric Distances Among DNA Haplotypes: Application to Human
Mitochondrial DNA Restriction Data Genetics 131: 479-491.
Friedman, M. 1937. The use of ranks to avoid the assumption of normality implicit in
the analysis of variance. Journal of American Statistical Association, 32: 675-
701.
Friedman, M. 1937. The use of ranks to avoid the assumption of normality implicit in
the analysis of variance. Journal of American Statistical Association, 32: 675-
701. Quenouille, 1949
Gabriel, k. R. 1971. Biplot display of multivariate matrices with application to principal
components analysis. Biometrika, 58:453-467.
Levene, H. 1949. On a matching problem arising in genetics. Ann Math. Atat. 20:91-94.
Liu, B. H. 1998. Statistical Genomics. CRC. Press. Boca Raton. NY.
Nei, M. 1978. Estimation of average heterozygocity and genetic distance from a small
number of individuals. Genetics 89:583-590.
Ott, J. 1992. Strategies for characterizing higly polymorphic markers in human gene
mapping. Am. J. Hum. Genet. 51:283-290.
Slatkin, M., 1987 The average number of sites separating DNA sequences drawn from a
subdivided population. Theor. Popul. Biol. 32: 42-49.
Wetton JH, Carter RE, Parkin DT, Walters D 1987. Demographic study of a wild House
Sparrow population by DNA fingerprinting. Nature 327: 147-149.

91

View publication stats

Você também pode gostar