Você está na página 1de 74

Introduccin a los microarrays

Nuevas aproximaciones al estudio de la actividad de los genes

Esquema de la presentacin
Presentacin Introduccin Construccin y uso de microarrays de expresin Experimentos con microarrays Software for microarray data analysis Recursos disponibles en internet Conclusiones y perspectivas

Presentacin

Y quien es l
Alex Snchez
Profesor titular del departamento de Estadstica, de la facultad de Biologa de la Universidad de Barcelona Group Leader del grupo de investigacin Mtodos Estadsticos en Bioinformtica Profesor de Bioinformtica, aqu all y acull
UB, UOC, UVic

The Statistics and Bioinformatics Research Group


A research group arising from the Statistics Department at the Biology School in the University of Barcelona.

Nuestra web

http://estbioinfo.stat.ub.es

Objetivos
Conocer la tecnologa de experimentacin con microarrays Comprender sus posibilidades y limitaciones Familiarizarse con el proceso de experimentacion basado en los microarrays Saber donde acudir para aprender ms

Introduccin-Objetivos

Contenidos
Introduccin
Antecedentes histricos: El cambio de paradigma Que es un microarray Que tipos de microarrays existen Aplicaciones de los microarrays

Experimentos con microarrays


Cmo funciona un microarray de expresin El ciclo de vida de un experimento con microarrays
Introduccin-Contenidos

Introduccin

Antecedentes histricos
La biologa molecular dispone de mltiples tcnicas para medir los niveles de ARN, ADN, protenas o metabolitos
Northern Blot, differential display, SAGE Southern Blott: [similar a los microarrays]

Lo que caracteriza la era post genmica no es lo que se puede medir sino la cantidad de mediciones simultaneas que se pueden realizar
Antecedentes Histricos

Una analoga
En la era pre-genmica la biologa espiaba los genes
Individualmente, de uno en uno Cada gen se poda estudiar a fondo

Antecedentes Histricos

Una analoga (y 2)
En la era prost-genmica se pueden estudiar muchos genes a la vez Pero, como separamos el grano de la paja?

Lo he odo todo

W W W
Antecedentes Histricos

El cambio de paradigma (J. Dopazo)


Con los mismos recursos Con los mismos recursos Obtenemos una imagen de Obtenemos una imagen de menor resolucin pero con menor resolucin pero con una perspectiva ms una perspectiva ms general general

Antecedentes Histricos

Pero, Qu es un microarray?
Un formato experimental, basado en la sntesis o fijacin de sondas, que representan los genes (o proteinas, o metabolitos), sobre un sustrato slido (cristal, plstico, silice,...), y expuestos a las molQues es un microarray

Cmo funciona un microarray


El nivel de hibridacin entre
la sonda especfica (probe) y la molcula diana (target)

se indica generalmente
mediante fluorescencia y se mide por anlisis de imagen

e indica el nivel de expresin del gen


Cmo funciona un microarray

Que tipos de microarrays existen


De Protenas De Tejidos De DNA
Arrays de CGH SNPs

De Expresin
De cDNA De oligonucletidos:
GeneChip Affymetrix Otras marcas

Tipos de microarrays

Tipos de microarrays de expresin

*****

Nylon membrane

Illumina Bead Array

Microarrays de expresin

GeneChip Affymetrix

cDNA microarray

Agilent: Long oligo Ink Jet

Aplicaciones de los microarrays


Los microarrays se han aplicado al estudio de casi cualquier tipo de problema biolgico El numero de publicaciones anuales con la palabra microarray en el ttulo es muy alto y continua creciendo
1600 1400 1200 1000 800 600 400 200 0
98 19

1372 1305

1061

789

434

169 15
99 19

55
00 01 02 03 04 20 05 20

20

20

20

20

Aplicaciones de los microarrays


Estudio de genes que se expresan diferencialmente entre varias condiciones
Sanos/enfermos, mutantes/salvajes, tratados/no tratados

Clasificacin molecular en enfermedades complejas Identificacin de genes caractersticos de una patologa (firma o signature) Prediccin de respuesta a un tratamiento Deteccin de mutaciones y polimorfismos de un nico gen (SNP) Etc, etc, etc

Construccin y uso de los microarrays de expresin

Microarrays de expresin
Existen muchos tipos de microarrays Los principios en que se basan son similares Los detalles de su funcionamiento varan de uno a otro caso En este primer contacto nos centraremos en los arrays de expresin
Arrays de 2 colores (spotted) Arrays de oligonucletidos sintetizados in situ

Microarrays de 2 colores (spotted)


1. 2. 3. 4. 5. Diseo y produccin del chip Preparacin de la muestra Hibridacin Escaneado del chip Anlisis de la imagen

1. Construccin del chip


Las sondas a imprimir se seleccionan de una base de datos (GenBank, dbEST,,,) Tras generar los cDNAs se imprimen en el array

2. Preparacin de la muestra
Tras extraer el RNA de las muestras se marca con un colorante fluorescente distinto (Cy-3 / Cy-5) cada miembro del par a hibridar. Las muestras marcadas se mezclan y preparan para hibridar sobre el array.

3. Hibridacin: sondas + muestras


Targets labeled and mixed

4. Escaneado y captura de la imagen

5. Anlisis de la imagen y cuantizacin

M =

Rg R bgR g , or M CORR = g Gg G g bgG g

Visin general del proceso

Pulse este enlace para visualizar una animacin del proceso

Microarrays sintetizados in situ


Diseo ms avanzado que los de 2 colores Utilizan tecnologas desarrolladas en el entorno de la microelectrnica Algunos rasgos distintivos
No se basan en hibridacin competitiva: cada chip contiene muestras de un solo tipo ( 1 color) Las sondas se sintetizan directamente sobre el chip en vez de sintetizarlas in vitro y adherirlas despus

Los GeneChips de Affymetrix


Affymetrix (www.affymetrix.com) es la compaa lider en este tipo de chips Se denominan genericamente GeneChips Cada gen representado por un conjunto de secuencias cortas que lo caracterizan Algunos chips: genomas completos con ms de 50.000 grupos de sondas! NOTA: Grupos de sondas = Probesets

Probesets, probes, PM & MM


Un grupo de sondas se utiliza para medir niveles de mRNA de un nico gen Cada grupo (probeset) consta de mltiples pares de celdas (probe cells)
Con millones de copias de un oligo de 25bp Organizadas en parejas (probe pairs) con un Perfect Match (PM) y un Mismatch (MM)
PM: coincide exactamente con una parte del gen MM: idntico al PM excepto en el nucletido central reemplazado por su complementario

Ejemplo de grupo de sondas para medir el nivel de expresin de un gen particular


gene sequence ...TGCAATGGGTCAGAAGGACTCCTATGTGCCT... perfect match sequence AATGGGTCAGAAGGACTCCTATGTG mismatch sequence AATGGGTCAGAACGACTCCTATGTG probe pair probe cell

probe set

Distintos Pares de Sondas representan partes distintas del mismo gen (1 gen=1 grupo de sondas)
Secuencia del gen

Las sondas se seleccionan para ser especficas del gen que representan y para tener buenas propiedades de hibridacin

Sntesis de oligonucletidos por fotolitografa1


mask mask mask mask mask mask mask mask

A T G A

C T T C GeneChip

T T C A

C A A G

1Animacin

tomada del curso de Dan Nettleton

Resultado de la sintesis de oligos en el chip


Cada celda contiene mltiples copias de la misma secuencia

Image courtesy of Affymetrix.

Obtencin del cRNA marcado

Proceso de hibridacin
Tras la sntesis de los oligos se realiza la hibridacin, depositando el mRNA marcado del tejido a estudiar sobre cada chip
Image courtesy of Affymetrix.

Estimulacin de la muestra hibridada


Iluminando la muestra hibridada con luz laser las secuencias marcada emiten fluorescencia

Source: www.affymetrix.com

Imagen de un chip de Affymetrix hibridado

Source: www.affymetrix.com

Visin general del proceso (Affy)

@Affymetrix

Comparacin entre los 2 tipos de chips


Microarrays de cDNA VENTAJAS
Econmicos Flexibilidad en el diseo experimental Elevada intensidad de seal (secs largas) DESVENTAJAS Baja Reproducibilidad Hibridacin cruzada (baja especificidad) Elevada manipulacin manual (Posibilidad de contaminacin)

Microarrays de Oligonucletidos
VENTAJAS Fabricacin Rpida y ms robotizada Elevada Reproducibilidad Elevada especificidad (secuencias cortas) Utiliza muchas sondas/gen

DESVENTAJAS Requiere equipamiento ms especializado Caros Poca flexibilidad

Experimentos con microarrays

Experimentos con microarrays


Fuentes de variabilidad y su control Ciclo de vida de un experimento con microarrays El diseo del experimento
Tipos de cuestiones que se desea responder Factores que debemos tener en cuenta

Preprocesado: de los datos crudos al anlisis


Control de calidad Normalizacin

Experimentos con microarrays


Tal y como su nombre indica un experimento con microarrays es un experimento, es decir:
Se lleva a acabo para determinar si ciertas hiptesis previas son ciertas o falsas (aun cuando tambin puede llevar a generar nuevas hiptesis

Como todo experimento est sujeto a errores que pueden provenir de mltiples fuentes y ser de tipos distintos
Aleatorios

Fuentes de variabilidad
Biological Heterogeneity in Population. Specimen Collection/ Handling Effects.
Tumor: surgical bx, FNA. Cell Line: culture condition, confluence level.

Biological Heterogeneity in Specimen. RNA extraction. RNA amplification. Fluor labeling. Hybridization. Scanning. PMT voltage. laser power.

(Geschwind, Nature Reviews Neuroscience, 2001)

Tipos de variabilidad
La variabilidad sistemtica es aquella que afecta de manera similar a todas las mediciones
Cantidad de material disponible Instrumental de laboratorio

La variabilidad aleatoria puede afectar de forma distinta a cada componente del experimento
Calidad del material Eficiencia de los procedimientos de laboratorio

Cmo se afronta la variabilidad


Cada tipo se trata de forma distinta
Variabilidad Sistemtica
Podemos estimar las correciones necesarias a partir de los datos: NORMALIZACION o CALIBRACIN

Variabilidad Aleatoria
Suponemos ciertos modelos de error (e.g. ei~N(0, 2)) y recurrimos al
DISEO EXPERIMENTAL Para controlarla INFERENCIA ESTADSTICA para extraer conclusiones en su presencia

El ciclo de vida de un experimento

De la cuestion biologica al experimento


Una vez planteada una cuestin los implicados en el estudio deberan planearlo conjuntamente Researchers / Core Facility/ Statisticians Es preciso especificar
Cual es el propsito del estudio Que objetivos persigue Que limitaciones y de que tipo presenta

A partir de aqu podr elaborarse el diseo experimental adecuado

Diseo experimental
Deben tomarse decisiones relativas a aspectos diversos implicados en el experimento
Tipos de muestras
Mezcladas (pooled) o individuales Con rplicas independientes o sin ellas

Limitaciones fsicas (coste)


Nmero de arrays necesarios/posibles Cantidad de material necesaria/disponible

De aqu saldr
La forma en que se realizar el experimento

1. Experimento comparativo
Wild KO

2. Estudio de evolucin temporal


t1 t2 t3 t4 x5 x5 Control x5 x5

x5 x5 Problem x5 x5

Y por fin el experimento


Una vez realizado los pasos previos puede llevarse a cabo el experimento Si la ejecucin es la adecuada y no surgen problemas el experimento concluye con los datos provenientes del anlisis de imagen

Software for microarray data analysis

Which software for the analysis?


Microarray experiments generate huge quantities of data which have to be.
Stored, managed, visualized, processed

Many options available. However No tool satisfies all users needs. Trade-off. A tool must be.
Powerful but user friendly. Complete but without too many options, Flexible but easy to start with and go further. Available, to date, well documented but affordable.

We picked up some options


Silicon Genetics GeneSpring.
Commercial market leader, many useful facilities, some infelicities. Just bought by Agilent.

Bioconductor.
Open Source R software package. Vigorous development, new things show up here first.

BRB Array Tools.


Free. Various tools linked together as Excel macros.

So, what you need is R?


R is an open-source system for statistical computation and graphics. It consists of.
A language. A run-time environment with.
Graphics, a debugger, and. Access to certain system functions,

It can be used.
Interactively, through a command language. Or running programs stored in script files.

R and Microarrays
R is a popular tool between statisticians. Once they started to work with microarrays they continued using it.
To perform the analysis. To implement new tools.

This gave rise very fast to lots of free Rbased software to analyze microarrays. The Bioconductor project groups many of these (but not all) developments.

The Bioconductor project


http://www.bioconductor.org Open source and open development software project for the analysis and comprehension of genomic data. Most early developments as R packages. Extensive documentation and training material from short courses. Has reached some stability but still evolving !!! what is now a standard may not be so in a future.

Some pros & cons


Powerful, Used by statisticians Easy to extend Not very easy to learn Command-based Documentation Creating add-on packages sometimes cryptic Many already available Memory intensive Freely available Worst in windows Unix, windows & Mac the pity!!! times We believe the effort is worth Slow at Lot of documentation do statistical analysis If you just want to
Easy to find alternatives If you intend to do microarray data analysis Probably one of best options

BRB-ArrayTools
Integrated software package using Excelbased user interface but state-of-the art analysis methods programmed in R, Java & Fortran. Publicly available for non-commercial use. http://linus.nci.nih.gov/BRBArrayTools.html

Selected Features of BRB-ArrayTools


Multivariate permutation tests for class comparison to control false discovery proportion with any specified confidence level SAM Find Gene Ontology groups and signaling pathways that are differentially expressed Survival analysis Analysis of variance Class prediction models (7) with prediction error estimated by LOOCV, k-fold CV or .632 bootstrap, and permutation analysis of cross-validated error rate DLDA, SVM, CCP, Nearest Neighbor, Nearest Centroid, Shrunken Centroids, Random Forests Clustering tools for class discovery with reproducibility statistics on clusters Built in access to Eisens Cluster and Treeview Visualization tools including rotating 3D principal components plot exportable to Powerpoint with rotation controls Import of Affy CEL files and apply RMA probe processing and quantile normalization Extensible via R plug-in feature Links genes to annotations in genomic databases Tutorials and datasets

Some pros & cons


Much easier to learn User friendly (Excel interface) Freely available Good, uniform, documentation Less powerful than "raw" R and Bioconductor, Difficult to extend
If you miss something it's hard to get it

Only available for Windows

So what, R, BRB, ?
This is an example of the trade-off
If you feel comfortable with command lines, programming, and statistics Probably R is for you If you want a user friendly interface, but still free and accurate software BRB may be your choice

Recursos disponibles en internet

Herramientas de anlisis de datos


BioConductor BRB Array Tools TM4 MAExplorer Jexpress Expression Profiler R libraries for all type of microarray and related analysis Excel Add-Inn for the analysis of Microarray Data Suite of Java Programs for microarray data store, preprocessing and analysis MicroArray Explorer for data mining Gene Expression, free download Java tools for gene expression data analysis, free download Online clustering and analysis tools

Bases de datos pblicas (1)


SMD Chip DB ExpressDB GEO RAD Expression Connection EpoDB yMGV The Stanford Microarray Database Searchable database on gene expression Public queries of E. coli and yeast data Gene expression data repository and online resource RNA Abundance Database Saccharomyces Genome Database expression data retrieval Expression information retrieval for one gene at a time Public queries of yeast data

Bases de datos pblicas (2)


AMAD ArrayExpress maxdSQL GXD GeNet Downloadable web driven database system Public data deposition and public queries Downloadable data warehouse and visualisation environment Mouse expression data storage and integration Distribution and visualization of gene expression data from any organism

Bases de datos pblicas (3)


Drosophila microarray project Samson Lab SageMap NCI60 cancer project Serum-response Breast cancer Cancer Molecular Pharmacology Drosophila Metamorphosis Time Course Database

Yeast Transcriptional Profiling Experiments NCBI SAGE data and analysis tools Supplement to Ross et al. (Nat Genet., 2000). Supplement to Lyer et al.(1999) Science 283:8387 Supplement to Perou et al. Nature 406:747752(2000) Integration of large databases on gene expression and molecular pharmacology.

Conclusiones y perspectivas

Conclusiones y perspectivas
Los experimentos con microarrays han revolucionado el estudio de la genmica funcional
Mejorando el conocimiento de la funcin de los genes a partir de la similitud de patrones de expresin Mejorando el conocimiento de las familias de genes:
Permiten incluir nuevos genes en las familias Descubren patrones de expresin coordinados Aumenta el nmero de familias conocidas de genes

Limitaciones
Como toda tecnologas los tiene sus limitaciones
Algunas como la baja reproducibilidad o la calidad del genoma se solucionaran con el tiempo Otras como el uso adecuado de sus posibilidades dependen del buen (o mal) uso que se haga de ellas

The Promise of Microarray Technology in Treating Disease (NCBI) (1) Now that you understand the concept behind array technology, picture this: A hand-held instrument that a physician could use to quickly diagnose cancer or other diseases during a routine office visit. What if that same instrument could also facilitate a personalized treatment regimen-exactly right for you?

The Promise of Microarray Technology in Treating Disease (NCBI) (2)


Personalized drugs, Molecular diagnostics and Integration of diagnosis and therapeutics These are the long-term promises of microarray technology Maybe not today or even tomorrow, but someday For the first time, arrays offer hope for obtaining global views of biological processesby providing a systematic way to survey DNA and RNA variation

Você também pode gostar