Escolar Documentos
Profissional Documentos
Cultura Documentos
microarray
Rodrigo Santamara
S
Anlisis de datos de
microarray
Introduccin
Tecnologa de microarrays
Esquema de anlisis
Fabricantes y BBDDs
Preprocesamiento
Anlisis
Validacin
Otras tecnologas
S
Introduccin
mRNA
microarray chip
Con la tecnologa de
microarray se De manera que
podemos cuantificar
imprimen las
secuencias biolgicas
en un chip
~ el nivel de
transcripcin en una
matriz numrica
Microarray
En cada celda de un chip se
pegan miles de copias de un
segmento de mRNA (sonda)
Celdas distintas contienen
secuencias de mRNA distintas
Todas las celdas contienen el
mismo n de segmentos
Anlisis de la imagen:
conversin de la cantidad de
secuencias hibridadas (con
etiqueta fluorescente) en una
intensidad de luz (un nmero)
Matriz de expresin
h1 d1 conditions
h1 h2 d1 d2
Matriz de expresin:
cada matriz de
intensidad se estira a
una columna de la
matriz de expresin
Columna: condiciones
(arrays, ensayos, casos,
probes
h2 d2 muestras, factores
experimentales)
Fila: sondas o
conjuntos de sondas. Se
resumirn en genes en
el preprocesamiento
Una matriz de
103-4 genes
expresin tiene un
tamao considerable
necesidad de mtodos
genes
informticos para su
anlisis
101-2 conditions
Anlisis de datos de microarray
S Affymetrix
S Es el principal fabricante y vendedor de chips
S Muchos de los mtodos de preprocesamiento han sido desarrollados por
Affymetrix o para chips de Affymetrix
S Los ficheros de intensidad de Affymetrix tienen extensin .cel
S Agilent
S La segunda compaa en microarrays, heredera de HP
S Illumina
S Introduce el concepto de microarray beads
S Ms centrada en la fabricacin de secuenciadores (Solexa)
Terminologa
S Descargar R: http://www.r-project.org/
S Mediante BioConductor
S bibliotecas GEOquery y ArrayExpress
library(GEOquery)
geo=getGEO("GSE1397)
library(ArrayExpress)
ae=ArrayExpress("E-TABM-25)
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis exploratorio
Correccin de fondo
Normalizacin
RMA
Anlisis
Validacin
S
Preprocesamiento
S Representacin de la distribucin
de intensidades para cada Esta chepa puede Algunas muestras
muestra en el experimento indicar un error discrepan de la
sistemtico media
S Evaluacin de la calidad de las
muestras, se esperan
S Formas similares
S Alturas y anchuras
S Posicin
S Distribucin normal
Boxplots
La muestra 12 se desva de nuevo
del comportamiento general
percentil 75
mediana
percentil 25
mnimo
Normalizacin
S Affymetrix
S En las celdas del chip, por cada sonda con la secuencia
deseada, de 25 nucletidos normalmente (PM), se coloca
tambin una sonda con esa misma secuencia, pero con el
nucletido 13 cambiado al complementario (MM)
S PM: Perfect Match, secuencia exacta
S MM: MisMatch, secuencia cambiada
S MM permite medir la hibridacin no especfica
S Aqullas sondas que se pegan sin tener la secuencia buscada
S Es decir, mide el fondo debido a esta causa
Correccin de fondo
ACGTTGCACGTGGTGCCCGATGATCGCTCGATCCAACTCG !
CACGTGGTGCCCGATGATCGCTCGA!PM
CACGTGGTGCCCCATGATCGCTCGA MM
PMs
MMs
Normalizacin
S Normalizacin paramtrica
S Asume que los datos se parecen a una distribucin normal
S ANOVA y t-test son normalizaciones paramtricas muy usadas
S Normalizacin no paramtrica
S No se asume ninguna distribucin por defecto
S La normalizacin por cuantiles es muy utilizada en microarrays
Normalizacin por cuantiles
S Mtodo
S Ordenar las columnas de la matriz de intensidad X Xsort
S Calcular la media de las filas de Xsort, y aplicar dichos valores a
cada elemento Xsort
S Restaurar el orden original de X Xnorm
Normalizacin por cuantiles
S Es la normalizacin ms usada
S Utilizada por Affymetrix
S Incorporada por RMA
S Artculo original: Bolstad et al.
2003
S http://bmbolstad.com/misc/
normalize/normalize.html
S Precisin
S Una buena precisin se caracteriza por resultados reproducibles
S Se comprueba mediante medidas repetidas de la misma muestra
(rplicas tcnicas)
S Puntera (accuracy)
S Una buena puntera se comprueba mediante resultados bien
conocidos, independientes de nuestro experimento
S Por ejemplo, el uso de spike-in ARN, medidas conocidas de las
concentraciones de unas determinadas sondas
Robust Multiarray Analysis
(RMA)
S Correccin de fondo
S RMA estima que MM contiene hibridacin especfica e
inespecfica y no es por tanto til para corregir el fondo
S Los MMs se descartan
S Sea n la sonda, j el conjunto de sondas al que pertenece e i el array
S Se estima que PMijn = bgijn + sijn
S bgijn es el fondo, tanto debido a hibridacin inespecfica como a
errores en el reconocimiento ptico, igual para todas las sondas
de un mismo array i
S sijn es la seal biolgica que nos interesa extraer
S Se utiliza un modelo de convolucin para separar bgijn de sijn
RMA
X 0 0 2! j
0 0 3! -4.5! 0 0 1!
3 4 6! Median -0.5! -1 0 0!
5 0 7! polish
=4.5!
0.5! 0 -5 0!
8 6 3! 1.5! 2 0 -5!
i
residuos (rij)
RMA
S GCRMA
S Ajuste de RMA para la extraccin de hibridacin no especfica
S Mejora la puntera de RMA, manteniendo su precisin
Validacin
S
Anlisis
S Umbrales de expresin
S La forma ms evidente y sencilla de determinar DEGs es
realizar el ratio de expresin entre una condicin experimental
y el control, y tomar los genes con un ratio mayor (o menor)
que un umbral
S Es una forma rpida de determinar los genes muy expresados
diferencialmente, pero
S Los umbrales slo se pueden establecer de una manera arbitraria
S No podemos determinar la significatividad estadstica de su
expresin diferencial
Test-t
S Testeo de hiptesis
S Hiptesis nula H0: no hay diferencia de seal entre las
condiciones que estamos testeando
S Estadstico: figura matemtica que caracteriza los datos de
expresin y en funcin suya rechacemos o aceptemos H0
S Nivel de significacin (): probabilidad de rechazar H0
cuando es verdadera ( ~ probabilidad de un falso positivo)
S Tpicamente<0.05 (ver temas anteriores sobre la significatividad
estadstica y la probabilidad de rechazo)
Test-t
S Estadstico-t
S Es el ms usado para probar H0 en microarrays
S Sea una matriz de expresin con n condiciones experimentales
de tipo A y m condiciones de tipo B
S A y B pueden significar, por ejemplo, enfermedad y control
S Para un determinado gen, tenemos los niveles de expresin:
S (xa1, , xan) y (xb1, , xbm)
S Con media y varianza (para la condicin A, anlogo para B):
a a
1 n 1 n
x A = ! xi 2
s =
A ! (xi " x A )2
n i=a1 n "1 i=a1
Test-t
xA ! xB
estadstico ! t =
sA2 sB2
+
n m
S A partir del estadstico-t podemos calcular un p-valor que comparar
con el nivel de significatividad para aceptar o rechazar H0
S Un p = 0.01 quiere decir que de cada 100 tests uno ser un falso
positivo
Test-t
S La maldicin de la dimensionalidad
S Cada una de nuestras muestras tiene tantas dimensiones como
genes (para humano, aprox. 20000)
S Cada condicin se puede ver como un punto de 20000 dimensiones
S Es imposible imaginar un espacio de 20000 dimensiones
S Comparar dos puntos de 20000 dimensiones generalmente dar
distancias muy largas y aproximadamente iguales
S Anlogamente, cada gen tiene tantas dimensiones como condiciones
S Necesitamos mtodos matemticos para explorar estos datos que se
encuentran en un espacio altamente dimensional
Estadstica descriptiva
&"#( X ! X ) (Y ! Y )$%
i i
i=1
r=
(N !1)! x! y
Clustering jerrquico
aglomerativo divisivo
Clustering jerrquico
S Es un mtodo iterativo
S Se asigna aleatoriamente cada elemento a un grupo
S En cada iteracin, se reasignan los grupos intentando minimizar
la distancia media entre elementos de un grupo
Clustering jerrquico
S Software
S Hierarchical Clustering Explorer (HCE)
S http://www.cs.umd.edu/hcil/hce/ (slo para Windows)
S TreeView
S http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
S Mtodos y paquetes R
S Mtodo hclust para clustering jerrquico aglomerativo
S Biblioteca cluster y mtodo diana para clustering jerrquico divisivo
S Mtodo kmeans para clustering de k-medias
S Biblioteca pvclust para significatividad estadstica
Biclustering
http://www.embl.de/aboutus/communication_outreach/media_relations/2010/100408_Hinxton/press08apr10.pdf
Brazma et al. A human map of gene expression (2010).
Las 2 primeras componentes para la expresin gnica Representacin de tres componentes (asociadas a
de 8 genes en pacientes de control (Cx) y pacientes neurologa, hematopoiesis y malignidad) para 5372
con sndrome de Down (DSx) muestras de tejido humano. Se identifican 6 grupos
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis
Validacin
Anotacin biolgica
Validacin estructural
Validacin biolgica
S
Anotacin biolgica
S Ventaja
S Dota a nuestros resultados de un valor biolgico aadido
S Desventaja
S Si se usa para guiar el anlisis, puede desviar los resultados
hacia el conocimiento biolgico ya conocido
2)
1)
3)
Subramanian et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. 2005
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis
Validacin
Otras tecnologas
Tiling arrays y RNA-seq
ChIP-on-chip
S
Otras tecnologas
S Las secuencias extradas mediante ChIP pueden lanzarse sobre un microarray para
medir el nivel de enlace de la POI a las distintas sondas
Preguntas a debate
S La tecnologa de microarrays mide el nivel de S Hay que tener en cuenta que la expresin depende
expresin (transcripcin), resultando en una en gran medida del tipo de tejido y del momento
matriz de expresin de genes (filas) bajo distintas celular, y que el nivel de transcripcin no es
condiciones (columnas) directamente el nivel de expresin
S El anlisis de expresin gnica tiene como S Muchos anlisis caen en errores a la hora de
objetivo determinar qu genes se encuentran identificar grupos, siendo los ms corrientes 1) no
diferencialmente expresados entre dos hacer correcciones para contrastes de mltiples
condiciones (estadstica inferencial), y qu grupos hiptesis, 2) no hacer una normalizacin
de genes/condiciones tienen un patrn de adecuada, ni chequeos de la calidad de los arrays,
expresin similar (estadstica descriptiva) 3) exceso de libertad paramtrica en el anlisis de
los datos y 4) exceso de limitaciones biolgicas en
el anlisis de los datos
S Existen una gran cantidad de mtodos de anlisis.
Casi todos devuelven una salida. Lo difcil es
confirmar que esa salida es vlida desde un punto S Las correlaciones entre genes a nivel de expresin
de vista biolgico y estructural que queramos concluir como causales deben
acompaarse de experimentos de laboratorio que
aseguren que la relacin a nivel transcriptmico se
mantiene a niveles superiores (qRT-PCR, chIP-
on-chip, etc.)
Lecturas adicionales
S Ashburner et al. Gene Ontology: tool for the unification of biology. Nat
Genet 25(1): 25-29. 2000. PMCID: PMC3037419
http://carpex.usal.es/~visusal/bicoverlapper/