Você está na página 1de 14

ANLISIS LONGITUDINAL

Notas
ndice 1. DEFINICIONES ...............................................................................................................1 2. QU ES UN ESTUDIO LONGITUDINAL?.....................................................................2
2.1. El estudio longitudinal en la epidemiologa ................................................................................................ 2 2.2. El estudio longitudinal en la estadstica ..................................................................................................... 2

3. DIFERENCIAS ENTRE LOS ESTUDIOS LONGITUDINALES Y LOS DE TABLA DE VIDA ....................................................................................................................................3 4. PARTICULARIDADES DE LOS ESTUDIOS LONGITUDINALES ...................................4 5. ANLISIS.........................................................................................................................5 6. DISEOS MIXTOS: MULTINIVEL Y LONGITUDINALES ...............................................6 8. APLICACIN DEL ANLISIS LONGITUDINAL AL ESTUDIO DE LA PRESIN ARTERIAL .........................................................................................................................10 9. MODELOS ESTADSTICOS Y ALGUNOS PROGRAMAS INFORMTICOS PARA SU ANLISIS...........................................................................................................................13 10. BIBLIOGRAFA CITADA..............................................................................................13 11. BIBLIOGRAFA ADICIONAL........................................................................................14

1. Definiciones
Anlisis longitudinal. El anlisis longitudinal sigue la evolucin en el tiempo de un conjunto de lneas de vidas, cohortes, generaciones o promociones y la incidencia de los diferentes fenmenos que las afectan. Es decir, su inters fundamental reside en estudiar como los sucesos demogrficos se relacionan con el transcurso de la vida de los individuos que forman una generacin. El anlisis longitudinal, llamado tambin anlisis histrico, estudia los acontecimientos demogrficos en el curso del tiempo referidos a grupos bien definidos, como una cohorte una generacin o una promocin. El anlisis longitudinal hace nfasis en las particularidades del grupo demogrfico estudiado. Cohorte. Este es el termino genrico que designa en demografa a aquel conjunto de personas que han vivido el mismo acontecimiento demogrfico (nacimiento, matrimonio, divorcio, viudez) durante el mismo lapso de tiempo (mes, ao, quinquenio, decenio). Generacin. El termino generacin designa particularmente al conjunto de personas que han nacido durante el mismo periodo de tiempo. Casi siempre la generacin se refiere a las que han nacido durante el mismo ao calendario. Promocin. Este termino se utiliza para designar los matrimonios celebrados durante el mismo lapso de tiempo, generalmente un ao calendario determinado. El termino cohorte encierra el de generacin y promocin que se refieren a nacimientos y matrimonios respectivamente. Anlisis transversal. El anlisis transversal observa los acontecimientos demogrficos de un mismo ao o periodo referidos a las personas que confrontan la poblacin en ese momento y por lo tanto incluyendo cohortes, generaciones y promociones diferentes. Por ejemplo, el estudio de la mortalidad del ao 2002 incluir varias generaciones, promociones y diversas cohortes. Las defunciones del 2003 incluirn personas nacidas hace mas de 100 aos y personas de 0 aos, personas que contrajeron matrimonio en aos diferentes y cohortes diversas de divorciados y viudos.

2. Qu es un estudio longitudinal?
La discusin sobre el significado del trmino longitudinal la resumi Chin (1989): para los epidemilogos es sinnimo de estudio de cohortes o seguimiento, mientras que para algunos estadsticos implica mediciones repetidas. l mismo decide no definir el trmino longitudinal, por ser difcil encontrar un concepto aceptable para todos, y opta por considerarlo equivalente a seguimiento, el pensamiento ms habitual para los profesionales de la poca.

2.1. El estudio longitudinal en la epidemiologa


En la dcada de 1980 era muy comn utilizar el trmino longitudinal para separar simplemente la causa del efecto. En oposicin al trmino transversal. Miettinen lo define como un estudio cuya base es la experiencia de la poblacin a lo largo del tiempo (al contrario que un corte de la poblacin). Consistente con esta idea, Rothman (1986) indica que la palabra longitudinal denota la existencia de un intervalo de tiempo entre la exposicin y el comienzo de la enfermedad. Bajo esta acepcin, el estudio de casos y controles, que es una estrategia de muestreo para representar esa experiencia de la poblacin a lo largo del tiempo (sobre todo segn las ideas de Miettinen), tambin sera un estudio longitudinal. De igual forma coincide con esta idea Abramson, que adems diferencia los estudios descriptivos longitudinales (estudios de cambio) de los analticos longitudinales, que incluyen dentro a los estudios de casos y controles. Kleinbaum tambin define el trmino longitudinal en oposicin al transversal pero, con un matiz algo diferente, habla de experiencia longitudinal de una poblacin (frente a experiencia transversal) que implica la realizacin de al menos dos series de observaciones a lo largo de un periodo de seguimiento. ste autor excluye los estudios de casos y controles. Kahn y Sempos tampoco se refieren a estos estudios y en el ndice por palabras clave, en la entrada estudio longitudinal se lee ver estudio prospectivo. Esto lo refleja el Diccionario de Epidemiologa de Last, que considera el trmino estudio longitudinal como sinnimo de estudio de cohortes o estudio de seguimiento. En el texto clsico de Breslow y Day sobre los estudios de cohortes, el trmino longitudinal se considera equivalente al de cohorte y se utiliza de manera indistinta. No obstante, Cook y Ware definieron el estudio longitudinal como aqul en el que un mismo individuo es observado en ms de una ocasin y lo diferenciaron de los estudios de seguimiento, en los que los individuos son seguidos hasta la ocurrencia de un suceso tal como la muerte o una enfermedad (aunque este suceso es ya la segunda observacin). A partir de 1990, varios textos consideran el trmino longitudinal equivalente a otros nombres, aunque la mayora lo omiten. Reflejo de ello es el libro de Rothman y Greenland, en el que no hay un apartado especfico para los estudios longitudinales dentro de los captulos dedicados al diseo, y tambin coincide con esta tendencia la Enciclopedia de Mtodos Epidemiolgicos, que no ofrece una entrada especfica para este tipo de estudios. La cuarta edicin del Diccionario de Epidemiologa de Last reproduce su entrada de ediciones anteriores. Gordis lo considera sinnimo de estudio de cohortes prospectivo concurrente. Aday sigue parcialmente las ideas de Abramson, ya mencionadas, y diferencia los estudios descriptivos (varios estudios transversales secuenciados en el tiempo) de los analticos, entre los que estn los estudios de cohortes prospectivos o longitudinales. En otros terrenos de la medicina clnica, el sentido de longitudinal se considera opuesto al transversal y se equipara a cohorte, con frecuencia prospectiva. Esto se comprueba, por ejemplo, en las publicaciones centradas en el campo de la menopausia.

2.2. El estudio longitudinal en la estadstica


Aqu las ideas estn mucho ms claras: un estudio longitudinal es el que implica ms de dos mediciones a lo largo de un seguimiento; deben ser ms de dos, ya que todo estudio de cohortes tiene este nmero de mediciones, la del principio y la del final del seguimiento. ste es el concepto existente en el texto mencionado de Goldstein de 1979. En ese mismo ao Rosner era explcito al indicar que los datos longitudinales implican mediciones repetidas en los sujetos a lo largo del tiempo, proponiendo un nuevo procedimiento de anlisis para ese tipo de datos. Desde ese momento, los artculos en revistas de estadstica y textos son consistentes en el mismo concepto. Dos obras de referencia en epidemiologa, aunque no definen en el apartado correspondiente los estudios longitudinales, coinciden con la nocin estadstica prevaleciente. En el libro de Rothman y Greenland, dentro del captulo Introduccin a la modelacin de la regresin, el propio Greenland afirma que los datos longitudinales son las mediciones repetidas en los sujetos a lo largo de un periodo de tiempo y que se pueden realizar para exposiciones dependientes del tiempo (por ejemplo, tabaquismo, consumo de alcohol, dieta o presin arterial) o resultados recurrentes (por ejemplo, dolor, alergia, depresin, etc.). En la

Enciclopedia de Mtodos Epidemiolgicos, la entrada del tamao de muestra incluye un apartado de estudios longitudinales en el que se ofrece la misma informacin proporcionada por Greenland. Conviene matizar que la visin estadstica de estudio longitudinal parte de un anlisis de datos particular (tener en cuenta las medidas repetidas) y que lo mismo sera aplicable a los estudios de intervencin, que tambin tienen seguimiento. Para finalizar este apartado, en el nmero monogrfico de Epidemiologic Reviews dedicado a los estudios de cohortes, Tager, en su artculo centrado en la variable resultado de los estudios de cohortes, clasifica de manera amplia los estudios de cohortes en dos grandes grupos, de tabla de vida y longitudinales, aclarando que esta clasificacin es algo artificial. Los primeros son los convencionales, en los que el resultado es una variable discreta, la exposicin y la poblacin-tiempo se resumen, se estiman incidencias y la medida principal es el riesgo relativo. Los segundos incorporan un anlisis diferente, aprovechndose de las mediciones repetidas en los sujetos a lo largo del tiempo, permitiendo una inferencia, adems de poblacional, a escala individual en los cambios de un proceso a lo largo del tiempo o en las transiciones entre diferentes estados de salud y la enfermedad. Las ideas anteriores denotan que en epidemiologa hay una tendencia a esquivar el concepto de estudio longitudinal. No obstante, resumiendo las ideas comentadas con anterioridad, la nocin de estudio longitudinal hace referencia al estudio de cohortes en el que se realizan ms de dos mediciones a lo largo del tiempo y en el que se realiza un anlisis que tiene en cuenta las diferentes medidas. Los tres elementos claves son: seguimiento, ms de dos medidas y un anlisis que las tenga en cuenta. Esto puede hacerse de manera prospectiva o retrospectiva, y el estudio puede ser de observacin o de intervencin.

3. Diferencias entre los estudios longitudinales y los de tabla de vida


En la tabla 1 se resumen las caractersticas generales de ambos tipos de diseos. Los estudios de cohortes tipo tabla de vida son los que resumen la exposicin y la enfermedad en los grupos que se comparan, por ejemplo, frecuencia del cncer de pulmn en fumadores y no fumadores. La inferencia proporcionada por estos estudios se refiere a medias poblacionales. Llevan implcita la asuncin de que la exposicin acta de manera constante en el tiempo y tiene un efecto tambin constante por unidad de tiempo a lo largo del seguimiento, y slo pueden proporcionar una inferencia limitada sobre la dependencia en el tiempo de las asociaciones entre la exposicin y el efecto. Un ejemplo de este tipo de estudio puede ser el Nurses' Health Study, con ms 120.000 enfermeras en 11 estados de EE.UU., en el que la exposicin acumulada a los anticonceptivos orales se valor como factor de riesgo del cncer de mama. Los estudios longitudinales en cualquier momento se pueden comportar como los estudios tipo tabla de vida. Pueden adems realizar inferencias tambin a escala individual, valoran el cambio de procesos a lo largo del tiempo y las transiciones entre los distintos estados de salud-enfermedad. Un ejemplo, al igual que el Nurses' Health Study, prolfico en publicaciones, es el MACS (Multicenter AIDS Cohort Study), en el que se reclutaron casi 5000 varones en cuatro ciudades estadounidenses. Cuando se miden cambios de una variable en funcin del tiempo, en el diseo hay que tener en cuenta la duracin del seguimiento y el espaciamiento de las mediciones.

caracterstica
Seleccin de los sujetos TV nivel de exposicin al inicio de la cohorte L adems puede no estar relacionado con el nivel de una exposicin nica y explcita (estudio de historia natural) TV lo resumen

comentario

cada grupo de exposicin debe ser representativo de la poblacin lo mismo que los TV. Los sujetos deben ser representativos de la poblacin diana. La poblacin diana puede consistir en sujetos con problemas de salud conocidos Tiempo estiman incidencias medias durante el seguimiento, por edades, o pocas L lo resumen y pueden evaluar adems pueden separar los efectos de cohorte y edad, ciertos efectos explcitamente modelar las asociaciones relacionadas con el tiempo entre las observaciones a lo largo del seguimiento, y la correlacin del efecto sobre varios intervalos de tiempo Exposicin TV basal, resumirla o categorizarla categoriza los sujetos segn su exposicin inicial o segn medidas acumuladas de la misma (medidas durante el seguimiento) y calcular exposiciones promedio durante todo el perodo o fracciones 3

caracterstica
L

comentario

adems, pueden formular adems evala los efectos de la nueva exposicin explcitamente la dependencia durante el seguimiento sobre los acumulados hasta el en el tiempo del efecto inicio del mismo. Distingue efectos sobre los individuos de efectos promedio poblacionales. Evala la asociacin exposicinefecto en cualquier momento de la historia de los sujetos, y la exposicin actual sobre perfiles de exposicin pasados Resultado TV primera ocurrencia del mismo malo para los efectos continuos, que se categorizan o efecto perdindose informacin. Las mediciones: tasa, riesgo y sus cocientes. L adems, tasa de cambio adems, describe la historia natural de un proceso, de (crecer, declinar) y transiciones estados precursores, y elimina la restriccin de la entre estados de salud. primera ocurrencia de un proceso de salud Correlacin del efecto del tiempo Inferencia TV medias de grupo o poblaciones slo se establecen conclusiones en el mbito de grupo, no a escala individual L adems, inferencia a escala lo ya mencionado individual e historia natural del proceso Tabla 1. Caractersticas de los estudios de cohortes de tablas de vida (TV) y Longitudinales (1)

4. Particularidades de los estudios longitudinales


Al realizarse mediciones a lo largo del tiempo, el control de la calidad juega un papel esencial. Hay que garantizar que todas las mediciones se realicen en el momento oportuno y con tcnicas normalizadas. La larga duracin de algunos estudios obliga a prestar una atencin especial al cambio de personal, al deterioro de los equipos, al cambio de tecnologas y a las inconsistencias de las respuestas de los participantes a lo largo del tiempo. Existe una mayor probabilidad de abandono durante el seguimiento. Los factores que intervienen en ello son varios La definicin de una poblacin segn un criterio inestable. Por ejemplo, vivir en un rea geogrfica concreta puede motivar que participantes con cambios de domicilio no sean elegibles en fases ulteriores; Ser mayor cuando en los respondedores que no se contactan una vez, no se vuelve a intentar establecer el contacto en fases ulteriores del seguimiento; El objeto del estudio influye; por ejemplo, en un estudio de ciencia poltica los no interesados en poltica abandonarn ms; La cantidad de atencin personal dedicada a los respondedores. Las entrevistas telefnicas y por carta son menos personales que las que se realizan cara a cara, y no se aprovechan para fortalecer los vnculos con el estudio; El tiempo invertido por el respondedor en satisfacer la demanda de informacin de los investigadores. Cuanto mayor sea, mayor ser la frecuencia de abandonos;

La frecuencia del contacto puede tambin influir, aunque no todos estn de acuerdo. Hay estudios que han documentado que un exceso de contactos perjudica el seguimiento, mientras que otros, o no han encontrado relacin o sta es negativa. Para evitar los abandonos conviene establecer estrategias con el fin de retener y rastrear a los miembros participantes. Debe valorarse al comienzo la voluntad de participacin e informar de lo que se espera de los participantes. Hay que establecer puentes de unin con los participantes mediante el envo de cartas de felicitacin, actualizaciones del estudio, etc. La frecuencia de contacto debe ser regular. El personal del estudio debe ser entusiasta, con facilidad de comunicacin, que responda rpida y adecuadamente a los problemas de los participantes y adaptable a sus necesidades. No hay que desdear dar incentivos que motiven la continuacin en el estudio.

En tercer lugar, otro problema de mayor calibre frente a otros estudios de cohortes es la existencia de datos perdidos. Si se requiere que un participante tenga todas las mediciones hechas, puede producir un problema similar al de los abandonos durante el seguimiento. Para ello se han desarrollado tcnicas de imputacin de valores perdidos y, aunque se ha sugerido que pueden no ser necesarias si se aplican las ecuaciones de estimacin generalizadas (anlisis GEE), se ha comprobado que otros procedimientos dan mejores resultados, incluso cuando las perdidas son completamente aleatorias. Con frecuencia las prdidas de informacin son diferenciales y se pierden ms mediciones en los pacientes con un peor nivel de salud. Se recomienda en estos casos que la imputacin de datos se haga teniendo en cuenta los datos ya existentes del propio individuo al que le faltan.

5. Anlisis
En el anlisis de los estudios longitudinales es posible tratar covariables dependientes del tiempo que pueden a la vez influir sobre la exposicin en estudio y ser influidas por ella (variables que se comportan simultneamente como confundidoras e intermedias entre exposicin y efecto). Tambin, de manera similar, permite controlar resultados recurrentes que pueden actuar sobre la exposicin y ser ocasionados por ella (se comportan a la vez como confundidores y efectos). El anlisis longitudinal se puede utilizar cuando existen mediciones del efecto y/o de la exposicin en diferentes momentos del tiempo. Supongamos que la relacin entre una variable dependiente Y es funcin de una variable X que cambia en el tiempo (tmporodependiente) y otra Z que es estable en el tiempo (tmporoindependiente), que se estudian n sujetos en k momentos del tiempo, lo cual se expresa segn la ecuacin siguiente:

y it = b xit + z i + eit
donde i es un subndice que hace referencia al individuo; es un subndice que hace referencia al instante del tiempo; y es un trmino de error ( Z no cambia al ser estable y por eso tiene un solo subndice).

t e

La existencia de varias mediciones permite estimar el coeficiente b sin necesidad de conocer el valor de la las variables independientes:

variable estable, al realizar una regresin de la diferencia en el efecto (Y ) sobre la diferencia de valores de

y i t y i1 = b ( x it x i1 ) + a ( z i z i ) + e i t e i1 = b ( x it x i1 ) + e i t e i1

Es decir, no es necesario saber el valor de las variables tmporoindependientes (o estables) en el tiempo. Esto supone una ventaja sobre otros anlisis, en los que hay que conocer dichas variables. El modelo anterior es fcilmente generalizable a un vector multivariado de factores cambiantes en el tiempo. El anlisis longitudinal se realiza dentro del contexto de los modelos lineales generalizados y tiene dos objetivos: adoptar las herramientas convencionales de regresin, en las que se relaciona el efecto con las diferentes exposiciones y tener en cuenta la correlacin de las medidas entre sujetos. Este ltimo aspecto es muy importante. Supongamos que analizamos el efecto del crecimiento sobre la presin arterial; los valores de presin arterial de un sujeto en los distintos exmenes realizados dependen del valor inicial o basal y por ello hay que tenerlo en cuenta. Por ejemplo, el anlisis longitudinal se podra realizar en una cohorte infantil en la que se valora como exposicin principal la deficiencia de vitamina A (que puede cambiar en el tiempo) sobre el riesgo de infeccin (que puede ser mltiple a lo largo del tiempo), controlando la influencia de la edad, el peso y la talla (variables tmporodependientes). El anlisis longitudinal se puede clasificar en tres grandes grupos: (a) Modelos marginales: combinan las diferentes mediciones (que son cortes en el tiempo) de la prevalencia de la exposicin para obtener una prevalencia media u otra medida resumen de la exposicin a lo largo del tiempo, y la relaciona con la frecuencia de la enfermedad. El elemento longitudinal es la edad o la duracin del seguimiento en el anlisis de regresin. Los coeficientes de este tipo de modelos se transforman en una razn de prevalencias poblacionales; en el ejemplo de la vitamina A y la infeccin sera la prevalencia de infeccin en nios con deficiencia de vitamina A dividida por la prevalencia de infeccin en nios sin dficit de vitamina A. (b) Los modelos de transicin realizan una regresin del resultado presente sobre valores pasados y sobre las exposiciones pasadas y presentes. Un ejemplo de ellos son los modelos de Markov. Los coeficientes 5

del modelo se transforman directamente en un cociente de incidencias, esto es, en RRs; en el ejemplo sera el RR del dficit de vitamina A sobre la infeccin. (c) Los modelos de efectos aleatorios permiten que cada individuo tenga parmetros de regresin nicos, y existen procedimientos para resultados normalizados, binarios y datos de persona-tiempo. Los coeficientes del modelo se transforman en una odds ratio referida al individuo, que se asume constante en toda la poblacin; en el ejemplo sera la odds de infeccin en un nio con dficit de vitamina A frente a la odds de infeccin en el mismo nio sin deficiencia de vitamina A. Los modelos lineales, logstico, de Poisson y muchos anlisis de supervivencia se pueden considerar casos particulares de modelos lineales generalizados. Hay procedimientos que permiten las entradas tardas o en momentos diferentes y de manera desigual en la observacin de una cohorte. Adems de los modelos paramtricos indicados en el prrafo anterior, es posible el anlisis mediante mtodos no paramtricos; por ejemplo, el uso de anlisis funcional con splines. Se han mencionado varios textos especficos sobre anlisis de datos longitudinales. Uno de ellos ofrece incluso ejemplos con las rutinas a escribir para realizar correctamente el anlisis usando diferentes paquetes estadsticos convencionales (STATA, SAS, SPSS).

6. Diseos mixtos: multinivel y longitudinales


En el anlisis estadstico aplicado en epidemiologa estn proliferando los ejemplos de diseos mixtos, caracterizados por considerar simultneamente dos o ms dimensiones de anlisis. Comprenden, por un lado, los diseos multinivel o de niveles mltiples, tambin denominados jerrquicos y, por otro, los estudios longitudinales o de medidas repetidas. Los estudios multinivel tienen una estructura jerrquica, con agrupaciones de datos en grupos o clusters. En la bibliografa cientfica estos niveles jerrquicos se denominan nivel uno y nivel dos, estadio uno y estadio dos, nivel individual y nivel poblacional o nivel individual y nivel cluster. La caracterstica peculiar de los estudios longitudinales es la medicin repetida a lo largo del tiempo en cada individuo o sujeto de estudio. Por tanto, se puede considerar la estructura como mixta, con las observaciones (repetidas) agrupadas dentro de cada individuo y el tiempo se puede considerar como una variable explicativa ms dentro de cada grupo. Con el fin de ilustrar el anlisis de los diseos longitudinales, en la figura 1 se representan los registros correspondientes a dos individuos cualesquiera de una submuestra del estudio VlagtweddeVlaardingen (2) (Vlaardingen es una comunidad urbana situada en el sudoeste de Holanda, y Vlagtwedde es una comunidad rural del nordeste). Se trata de un estudio de medidas repetidas sobre la enfermedad pulmonar obstructiva crnica, cuyo principal objetivo fue identificar los factores de riesgo causantes de la prdida de capacidad pulmonar en los adultos. En particular cada tres aos, empezando en 1967 (Vlagtwedde) y en 1969 (Vlaardingen), se midi en los sujetos el volumen respiratorio forzado en un segundo (FEV1), junto con la altura y la edad de los sujetos, registrndose tambin la presencia de sntomas respiratorios.

Figura 1 Diseo del estudio longitudinal. NA: ausencia de datos. Mientras cada una de las columnas de la figura 1 constituira un corte transversal, cada fila se podra considerar como una serie temporal para cada individuo. Como caractersticas diferenciadoras, en un diseo longitudinal los perodos de observacin no coinciden necesariamente en todos los individuos; las variables explicativas pueden ser fijas (como el gnero) o variables en el tiempo (como la edad) y puede haber una ausencia de datos, codificados como NA en este ejemplo. 6

Como ventaja respecto a los cortes transversales, los anlisis longitudinales permiten estudiar el orden temporal de los sucesos de inters. En particular, permiten determinar si los factores de riesgo preceden a los posibles efectos de esos factores sobre las variaciones de la variable de inters, caracterstica denominada temporalidad. Aunque temporalidad no equivale a causalidad, es evidente que es una condicin sine qua non. En comparacin con los estudios de series temporales, que suelen utilizar observaciones agregadas, los estudios longitudinales se basan en observaciones individuales, por lo que el riesgo de incurrir en sesgos debidos a la agrupacin de sujetos es mucho menor. Por otra parte, a diferencia del longitudinal, el anlisis de series temporales no permite ni discontinuidades en las observaciones de las variables de inters ni intervalos de observacin de distinto tamao. El anlisis longitudinal, al tener en cuenta explcitamente todas las dimensiones, es ms eficiente (en el sentido de menor variancia en las estimaciones) no slo que el anlisis de series temporales o que los estudios transversales, sino tambin de la simple combinacin de series temporales y corte transversal, diseo denominado pooled. De hecho, el anlisis longitudinal es el nico que permite distinguir entre la variacin entre individuos (interindividual) y la variacin dentro del individuo (intraindividual). En la figura 2A se establece la relacin entre la edad y el FEV1 para pacientes asintomticos (lnea superior) y sintomticos (lnea inferior) en el estudio VlagtweddeVlaardingen, aunque sin distinguir entre las dos dimensiones del anlisis, individuo y tiempo. Un diseo pooled dira que como promedio o, tcnicamente, a escala poblacional, a mayor edad del individuo menor ser su capacidad pulmonar y que la presencia de sntomas respiratorios disminuye la capacidad pulmonar independientemente de la edad. La figura 2B, sin embargo, refleja mucha variabilidad intraindividual. La evolucin de la capacidad pulmonar en el tiempo para cada uno de los individuos depende, entre otras cosas, de la edad en que se empez a medir el FEV1, de la ocurrencia de enfermedades respiratorias, etc. Pues bien, el anlisis longitudinal permite estimar simultneamente la variabilidad interindividual (representada en la fig. 2A) y la variabilidad intraindividual (fig. 2B).

Figura 2 Relacin entre edad y FEV1 en el estudio Vlagtwedde-Vlaardingen: (A) diseo pooled; (B) diseo longitudinal.

7. Aproximaciones al anlisis de datos longitudinales. Modelos marginales y modelos condicionales


Segn el objetivo propuesto, los estudios longitudinales pueden aproximarse marginal o condicionalmente. Se utiliza el enfoque marginal cuando se pretenden realizar inferencias poblacionales, como la representada en la figura 2A, es decir, si lo que se quiere es explicar la relacin entre la variable dependiente y las variables explicativas con independencia de la variabilidad intraindividual. El enfoque condicional pretende realizar inferencias individuales. Para ello, modeliza simultneamente la media de la variable dependiente (la variabilidad interindividual) y la estructura de covariancias o correlaciones (la variabilidad intraindividual). En este enfoque los parmetros que definen la correlacin tienen el mismo, y a veces incluso ms, inters que los correspondientes a la media. Volviendo al estudio de Vlagtwedde-Vlaardingen, nos interesa estimar la relacin entre la capacidad pulmonar y los sntomas respiratorios, controlando por la edad y la altura de los individuos.

FEV1i j = 0 + 1 sntomasi j + 2 edad i j + 3 altura i j + u i j


donde i es el subndice que denota individuo ( i = 1, 2, ,198 sujetos); es el subndice que seala los perodos de medicin ( j = 1, 2, hasta un mximo de 7);


ui j

son parmetros desconocidos a estimar ( 0 es la ordenada en el origen y parmetro de inters); y

es el

es un trmino de perturbacin que recoge, entre otros factores, aquellas variables explicativas de la variabilidad de la capacidad pulmonar distintas de las consideradas en la ecuacin.

La respuesta analizada, el FEV1 , es una variable continua, por lo que seguir una distribucin de probabilidad normal, siendo apropiado en este caso la utilizacin de modelos de regresin lineal mltiple. Consideramos, en primer lugar, un diseo pooled, en el que no se contemplan las dos dimensiones del anlisis, es decir sin tener en cuenta la presencia de observaciones repetidas para los individuos. Los resultados de la estimacin por mnimos cuadrados ordinarios (MCO) se detallan en la primera columna de la tabla 2. Estos resultados, sin embargo, no pueden ser interpretados, puesto que el no tener en cuenta el diseo longitudinal ha implicado cometer importantes errores de especificacin, los cuales se han manifestado en una variancia residual no constante entre individuos, es decir, heterocedasticidad (v. la dispersin que presentan los residuos al cuadrado en la figura 3A) y en autocorrelacin residual (v. la funcin de autocorrelacin simple en la figura 3B).

Figura 3 Diagnsticos del modelo de regresin lineal mltiple. Diseo pooled. (A) heterocedasticidad; (B) autocorrelacin. El enfoque marginal implica que tanto la ordenada en el origen

( ) ( FEV
0

basal) como los coeficientes

asociados a las variables explicativas (el asociado a sntomas respiratorios,

1 , en particular) son comunes

para todos los individuos. No existe heterogeneidad individual o, dicho de otra forma, todos los efectos (de las variables explicativas, incluida la ordenada en el origen) son fijos.

FEV1i j = 0 + 1 sntomasi j + 2 edad i j + 3 altura i j + u i j


El trmino de perturbacin tiene una variancia no constante y est autocorrelacionado. Los parmetros de la covariancia, es decir, la autocorrelacin y/o la heterocedasticidad, no son de inters sino que son tratados como un estorbo (nuisance), que se controlan pero no se estiman en el enfoque marginal. En el caso que se presenta (segunda columna de la tabla 1), un modelo marginal consistira en estimar por mnimos cuadrados generalizados (para controlar la autocorrelacin y la heterocedasticidad) el modelo de regresin lineal mltiple de la segunda ecuacin expuesta utilizado en el diseo pooled. Al igual que el resto de los modelos estimados para el diseo longitudinal, el modelo marginal pasa todas las pruebas diagnsticas, por lo que puede ser interpretado sin problema. As, se utilizar el enfoque marginal cuando interese nicamente la inferencia poblacional. En este sentido (segunda columna de la tabla 1), se puede apreciar que la presencia de sntomas respiratorios reduce la capacidad pulmonar 56,55 mL como promedio, independientemente de la edad y la altura del individuo. Los modelos de efectos aleatorios constituyen el enfoque condicional ms conocido. Suponen que los efectos de algunas (o todas) de las variables explicativas (coeficientes de la regresin) son especficos a los individuos (no comunes a todos ellos). Existe heterogeneidad individual, que es consecuencia de factores no observables (o variables omitidas) comunes a algunos individuos. En la bibliografa especializada se suele distinguir entre modelos de efectos aleatorios, cuando los coeficientes de variables explicativas dicotmicas son especficos a los individuos, y modelos de coeficientes aleatorios, cuando son los coeficientes de variables continuas. Se ha supuesto que tanto la capacidad pulmonar basal como el efecto 8

del resto de variables explicativas de la capacidad pulmonar varan entre los distintos individuos (v. la ecuacin que exponemos a continuacin). En este sentido, se puede apreciar que los parmetros contienen el subndice i que, como ya se ha mencionado, denotan individuo.

FEV1i j = 0 i + 1i sntomasi j + 2 i edad i j + 3i altura i j + u i j


Los resultados de la estimacin del modelo se presentan en la cuarta columna de la tabla 1. El modelo de efectos aleatorios, que tambin pasa todas las pruebas diagnsticas, permite obtener inferencias individuales. Ntese que, como promedio, la presencia de sntomas respiratorios reduce la capacidad pulmonar 47,54 mL, que la capacidad pulmonar se reduce con la edad y que aumenta con la altura. La particularidad de este modelo, sin embargo, se refleja en la fila de efectos aleatorios de la tabla 2 y en la figura 4. Observamos que la variabilidad individual es muy importante. Ntese, incluso, que el efecto de los sntomas sobre la capacidad pulmonar no es el mismo para todos los individuos (figura 4A), contradiciendo el diseo pooled (primera ecuacin expuesta y figura 2).

Figura 4 Efectos aleatorios: (A) sntomas respiratorios; (B) edad; (C) altura; (D) FEV1 basal. Los modelos de transicin de Markov, autorregresivos o de estructura de covarianza, son otro tipo de aproximacin condicional. Modelan en una ecuacin nica la esperanza condicional de la respuesta y la dependencia (correlacin) entre las observaciones dentro de cada grupo. En el ejemplo (cuarta ecuacin), se propone un modelo autorregresivo de orden uno. En l la esperanza condicional de la variable respuesta depende, adems de las variables explicativas, del comportamiento previo de ella misma (es decir, se introduce como una variable explicativa ms la variable respuesta retardada un perodo).

FEV1i j = 0 + 1 sntomasi j + 2 edad i j + 3 altura i j + FEV1i j 1 + u i j


El trmino de perturbacin tiene una variancia no constante y est autocorrelacionado. Los resultados de la estimacin del modelo autorregresivo se presentan en la tercera columna de la tabla 2. Obsrvese que este modelo ha permitido estimar la dependencia entre las observaciones de un mismo individuo, igual a 0,799 como promedio.

Tabla 2. Estimacin de la relacin entre capacidad pulmonar y sntomas respiratorios, controlando por edad y altura de los individuos (estudio Vlagtwedde-Vlaardingen). Los modelos autorregresivos, a diferencia de otros modelos condicionales, suponen que la dependencia entre observaciones repetidas, el coeficiente asociado a la respuesta retardada

( )

es un efecto fijo, es

decir, comn a todos los individuos. Por otra parte, la estructura de dependencia implicada por los modelos autorregresivos de orden uno implica que la mayor influencia sobre la variable dependiente la produce el valor inmediatamente precedente, decayendo la influencia de forma exponencial conforme nos alejamos en el tiempo.

8. Aplicacin del anlisis longitudinal al estudio de la presin arterial


Consideremos el ejemplo, de registrar diferentes medidas de presin arterial para cada paciente en diferentes das. Las diferentes presiones registradas para cada unidad de observacin (paciente) estn correlacionados es razonable pensar que la variabilidad entre las medidas de cada sujeto sea menor que entre los diferentes sujetos y no pueden por tanto considerarse como observaciones independientes, supuesto bsico para estimar un modelo de regresin clsico. Es verdad que mediante el anlisis de la varianza es posible contemplar diseos con medidas repetidas sobre el mismo elemento de observacin, pero tienen el inconveniente de que el nmero de observaciones por elemento debe ser idntico (equilibrado), requisito que salvo en los estudios experimentales es muy difcil de cumplir, y an en stos es posible que se den prdidas que rompen el equilibrio del diseo. Para ilustrar este tipo de situaciones, se plantear el siguiente ejemplo. Supngase que se desea estudiar la influencia de la actividad fsica del sujeto en la variabilidad de la presin ambulatoria, as como las posibles diferencias entre hombres y mujeres y la influencia del ndice de masa corporal. Para simplificar se va a considerar slo la presin arterial sistlica (PAS). Se tiene para cada sujeto diferentes lecturas de PAS, y para cada una de ellas un ndice de actividad fsica (que se supone medido en una escala de 0 a 100). Se empieza formulando un modelo de regresin lineal para cada paciente:

PAS = 0 + 1 actividad + e
Se tendr tantas ecuaciones de regresin (PAS en funcin de la actividad) como pacientes, por lo que se va a representar el modelo de una forma ms general:

10

y i j = 0 + 1 xi j + ei j
donde i es el subndice que corresponde al paciente; es el subndice que corresponde a cada observacin para un mismo paciente; es la variable dependiente, en el ejemplo PAS; es la variable independiente (de momento se va a considerar una sola, que en el ejemplo planteado ser el ndice de actividad); recoge la parte de variabilidad individual no explicada por la regresin (error o residuo).

j y x
e

Si se estudian n pacientes, se tienen n ecuaciones de regresin, y por lo tanto n valores para los coeficientes 0 y para 1 . Los valores de esos coeficientes

pueden considerarse como una variable aleatoria y calcular su

media y desviacin tpica. Si se tienen dos grupos de pacientes clasificados por ejemplo segn el sexo, es razonable calcular para cada grupo la media de 1 (media de las pendientes de las regresiones individuales) y compararlas para ver si existen diferencias: para comprobar si influye de diferente manera el ndice de actividad en la PAS en el grupo de hombres que en el de mujeres. Si, de una forma ms general, se contempla la posible influencia de una variable numrica continua (no cualitativa como el sexo), como por ejemplo el ndice de masa corporal (eso s hay un nico valor de IMC para cada paciente, a lo largo de todas sus observaciones), interesa tambin conocer su posible influencia en esa relacin entre la PAS ambulatoria y el ndice de actividad. Al igual que se hizo antes con los valores de PAS y actividad se puede ajustar una ecuacin de regresin para los coeficientes 0 y 1 en funcin del IMC. Para

en el paciente i se plantea la siguiente ecuacin:

i1 = a10 + a11 IMC i + ri


y para

se tendr una ecuacin similar.

La combinacin de los dos modelos de regresin nos permite considerar la influencia del grado de actividad en la variabilidad de la lectura de PAS ambulatoria, as como tener en cuenta las posibles diferencias debidas al IMC del sujeto. Tanto en la primera ecuacin de regresin como en la segunda pueden intervenir ms variables independientes. As en la primera ecuacin para cada valor de PAS adems del ndice de actividad se podra haber incluido, por ejemplo, una variable dicotmica que indica si la lectura corresponde al da o a la noche. Y en la segunda ecuacin podra intervenir tambin, adems del IMC, el sexo, si fuma, tipo de medicacin antihipertensiva... Otra clase de estudios en los que se encuentran observaciones correlacionadas, no independientes, son los denominados datos agrupados (clustered data), en los que existe un diseo jerrquico. Por ejemplo, pacientes agrupados en hospitales, en los que interesa conocer qu caractersticas del paciente afectan a la variable analizada o tambin qu caractersticas del grupo o bloque (en este caso el hospital) afectan asimismo a ese resultado. Un ejemplo podra ser un estudio para analizar qu factores de riesgo se asocian con hipertensin en pacientes diabticos en atencin primaria, en el que se incluyen centros con diferentes caractersticas. Cada centro aporta inicialmente el mismo nmero de pacientes al estudio, seleccionados de forma aleatoria. Es razonable pensar que con datos agrupados las observaciones pertenecientes al mismo grupo o bloque son en general ms similares entre s que con respecto a las de otros grupos, lo que violara la condicin de independencia entre las observaciones. As en el ejemplo anterior puede ocurrir que los pacientes que atiende uno de los centros sean todos ancianos, otro centro fundamentalmente sujetos desempleados por encontrarse en una zona de poblacin con alta tasa de paro... Cuando las observaciones no son independientes las pruebas estadsticas habituales, que se basan en la existencia de tal independencia, tienden a producir errores estndar ms pequeos, al considerar el tamao de la muestra como el conjunto de todas las observaciones, con lo que se obtiene una sobreprecisin espuria, y ms resultados "estadsticamente significativos" de lo debido. Est claro que si se van a extraer conclusiones respecto a los hospitales, el tamao de muestra no es el nmero de pacientes, sino el nmero de hospitales. Esta estructura jerrquica de los datos: observaciones agrupadas en bloques, hacen que este tipo de modelos se conozca con el nombre de modelos multinivel (multilevel), siendo los ms utilizados los de dos niveles. En el caso de los estudios longitudinales el segundo nivel lo constituyen los sujetos y el primer nivel 11

las observaciones sobre cada sujeto. En los estudios de datos agrupados el segundo nivel corresponde al bloque (por ejemplo hospital) y el primer nivel a las unidades de observacin (sujeto). Se podra tener tres niveles (o ms): hospital, servicio, paciente. Otros tipos de investigaciones con medidas correlacionadas son los estudios de crecimiento, en los que los sujetos se evalan en diferentes edades o momentos, y tambin los de curvas de dosis-respuesta en los que se evala la respuesta de cada sujeto para diferentes dosis del frmaco. Tambin en los metanlisis en los que se dispone de datos individuales de los pacientes, se encuentran asimismo datos agrupados, en el que los pacientes (nivel 1) se agrupan en bloques constituidos por cada estudio particular (nivel 2). De una forma general se puede describir el modelo jerrquico que incluya cualquiera de los casos enunciados anteriormente. Para ello supngase que se tiene i = 1 n unidades en el nivel 2 (bloques en el caso de datos agrupados, sujetos para los estudios longitudinales) y j = 1, , n i observaciones en el nivel 1 (sujetos en datos agrupados, observaciones repetidas en el contexto de estudios longitudinales), el modelo de regresin se puede escribir entonces de forma general como:

y i = Wi + X i b i + e i
donde: y es el vector respuesta de dimensin n i 1 (obsrvese el subndice i que indica que puede haber diferentes observaciones por sujeto o por bloque);

Wi es una matriz diseo n i p para los efectos fijos;

es un vector p1 de coeficientes de regresin fijos a estimar (desconocidos); es una matriz diseo n i r para los efectos aleatorios; es un vector r 1 de efectos individuales a estimar (desconocido); y es un vector n i 1 de residuos de regresin que corresponde a la variabilidad de las

Xi bi ei

observaciones que an queda sin explicar con nuestro modelo. Se han utilizado el alfabeto griego para designar los efectos fijos y el romano para los efectos aleatorios. Con objeto de ilustrar cmo se traduce este modelo a la hora de aplicarlo a datos reales, supngase un ejemplo sencillo en el que se est evaluando dos frmacos antihipertensivos en pacientes nuevos, divididos en dos grupos a los que se les asigna el tratamiento de forma aleatoria. Para simplificar se concentrar el inters nicamente en la PAS que se registra antes del tratamiento (valor basal) y durante los cinco meses siguientes. Se est interesado en evaluar si hay evidencia de mejora diferencial a lo largo del tiempo entre los pacientes tratados con uno u otro frmaco. Una representacin matricial de este modelo para el paciente i es la siguiente:

PAS i 0 1 PAS 1 i1 PAS i 2 1 = PAS i 3 1 PAS i 4 1 PAS i 5 1

0 1 2 3 4 5

Trat i Trat i Trat i b i 0 b + Trat i i1 Trat i Trat i

Trat i 0 Trat i 1 Trat i 2 Trat i 3 Trat i 4 Trat i 5

e i 0 e i1 e i 2 0 + e i3 1 e i 4 e i 5

Se tiene pues un modelo que estima la PAS con dos factores aleatorios: una ordenada (primera columna de unos) y tendencia lineal a lo largo del tiempo (segunda columna 0 ... 5, basal y meses siguientes); y dos factores fijos: tratamiento (primera columna de la segunda matriz, asignando el valor 0 para el primer tratamiento y 1 para el segundo tratamiento). El tratamiento de cada paciente no vara a lo largo de todo el estudio, por lo que para algunos pacientes se tendr una primera columna de 0 y para otros una columna de 1 en la segunda matriz. Y, por ltimo, en la segunda columna de la segunda matriz se tiene la interaccin tratamiento / semana (producto de ambas variables), que permitir evaluar si los dos grupos de pacientes difieren en su evolucin a lo largo del tiempo. Este tipo de modelos aqu planteado se conoce tambin con el nombre de modelos lineales mixtos ("linear mixed model"), debido a que incorporan tanto factores fijos (tratamiento) como aleatorios (evolucin del paciente a lo largo del tiempo). 12

En este ejemplo, la constante u ordenada (en la literatura anglosajona "intercept") determina el nivel basal medio de la PAS para los pacientes que reciben el primer tratamiento (TRAT=0). 0 cuantifica cunto ms alta o baja (signo negativo) es la PAS basal en el segundo grupo de tratamiento (TRAT=1) respecto del primero. Esto es as por cmo se ha elegido la codificacin (0 para el instante basal en la variable tiempo y 0 para el primer grupo de tratamiento), con otra codificacin el significado sera diferente. El coeficiente b1 cuantifica el descenso global (si su signo es negativo) de la PAS de los pacientes a lo largo del estudio, y el coeficiente 1 permite contrastar si hay diferencias en esa evolucin entre los dos grupos de tratamiento. El modelo permite tambin calcular la varianza y covarianza de los efectos aleatorios, es decir la variabilidad individual de la PAS basal y de la evolucin. Esta clase de modelos se puede extender a relaciones no lineales entre las observaciones y los trminos fijos y aleatorios, como puede ser por ejemplo una regresin logstica, cuando la variable resultado es un suceso dicotmico o policotmico (ms de dos respuestas nominales). En este caso se habla de modelos lineales mixtos generalizados ("generalized linear mixed model"), y el concepto e interpretacin son similares a los descritos, aunque la matemtica es todava ms compleja. Los modelos lineales generalizados permiten tambin manejar observaciones multivariantes, es decir situaciones en las que se considera ms de una variable dependiente (variables objetivo) para los sujetos. En el ejemplo podra interesar el anlisis de forma conjunta de la PAS y PAD. La formulacin planteada por los modelos lineales mixtos es ms flexible que la regresin multivariante tradicional, ya que por ejemplo permite usar covariantes diferentes y comunes para cada variable dependiente, y adems no se excluyen los pacientes con ausencias en alguna de las variables dependientes. En el modelo planteado se ha supuesto hasta ahora que los residuos e i j son independientes, pero en los estudios longitudinales, en los que las observaciones siguen una secuencia temporal, es razonable pensar que las observaciones contiguas se parezcan ms entre s que las observaciones separadas en el tiempo. En estos casos se puede considerar incluir esa relacin para los residuos, usando tcnicas del rea de la estadstica matemtica conocida como anlisis de series temporales. La aplicacin de estas tcnicas est poco difundida en la literatura biomdica, probablemente debido a su complejidad, y a que hasta hace poco no exista el software adecuado para efectuar los clculos, y de hecho se encuentran pocas referencias en la literatura mdica. No obstante es indudable su gran utilidad en bastantes situaciones, aunque tambin en muchas otras, en las que no se da la complejidad estructural aqu planteada, ser suficiente con las tcnicas de regresin clsicas. En cualquier caso los modelos matemticos y estadsticos no son sino una herramienta ms para ayudar en la investigacin de teoras que deben estar bien argumentadas y nunca a la inversa, y el objetivo ha de ser siempre simplificar y clarificar la interpretacin de los datos y no aadir complejidad adicional mediante artificios matemticos.

9. Modelos estadsticos y algunos programas informticos para su anlisis


Los modelos estadsticos que se deben utilizar dependen del tipo de variable-respuesta analizada. Si se trata de una variable cuantitativa continua, distribuida normalmente, se utilizan modelos de regresin lineal, denominados modelos mixtos lineales, utilizndose modelos mixtos no lineales en otro caso. Cuando la variable respuesta es cuantitativa discreta se utilizan regresiones (mixtas) de Poisson, y regresiones (mixtas) logsticas binomiales o multinomiales, cuando la variable respuesta es dicotmica (distribucin binomial) o policotmica (distribucin de probabilidad multinomial), respectivamente. Diversos programas y paquetes estadsticos informticos permiten analizar los modelos analizados. BMDP, MLn y HLM permiten estimar modelos multinivel y, muy raramente, modelos longitudinales sencillos. Otros programas ms generales, como SAS y SPlus permiten analizar cualquier tipo de modelo mixto, tanto multinivel como longitudinal. Un enfoque bayesiano para analizar modelos mixtos generales puede encontrarse en el programa BUGS. Desafortunadamente, otros programas de uso ms extendido, como el SPSS, slo permiten el anlisis de modelos marginales.

10. Bibliografa citada


1. Tager IB. Outcomes in cohort studies. Epidemiol Rev. 1998;20(1):15-28. 2. Delgado M, Llorca J. Estudios longitudinales: concepto y particularidades. Rev Esp Salud Pblica 2004;78(141-148). 13

11. Bibliografa adicional


1. Bhargava A. A longitudinal analysis of the risk factors for diabetes and coronary heart disease in the Framingham Offspring Study. Popul Health Metr. 2003;1(1):3. (www.pophealthmetrics.com/1/1/3) 2. Cnaan A, Laird NM, Slasor P. Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data. Stat Med. 1997;16(20):2349-80. 4. Diggle JP, Heagerty P, Liang KY, Seller SL. Analysis of longitudinal data. Oxford: Oxford University Press; 2003. 5. Fitzmaurice GM, Laird NM, Ware JH. Applied longitudinal analysis. Hoboken, NJ: John Wiley & Sons; 2004. 6. Hubbard A, Jewell NP. Analyis of longitudinal studies in epidemiology. Boca Ratn, FA: Chapman & Hall/CRC; en prensa. 7. Saez M. El problema de las medidas repetidas. Anlisis longitudinal en epidemiologa. Gac Sanit 2001;15(4):347-352. 8. Singer JD, Willett JB. Applied longitudinal data analysis: modeling change and event occurrence. New York: Oxford University Press; 2003. 10. Withers E, Radnor Z, Rashman L, Hartley J. Longitudinal analysis of casestudies of engagement learning and improvement through the Beacon scheme. In:. Wetherby. West Yorkshire: Communities and Local Government Publications; 2007. (http://www.communities.gov.uk/documents/localgovernment/pdf/ longitudinalanalysis) http://biosun1.harvard.edu/~fitzmaur/ala/lectures.html http://www.seh-lelha.org/mixedmodels.htm

14