Apuntes de Estadística - I - Propósito - Variables

APUNTES DE ESTADSTICA. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.
OBJETIVOS Y JUSTIFICACIN PARTE I PROPSITO DEL TRATAMIENTO ESTADSTICO DE LOS DATOS. MEDICIN, PRESENTACIN Y CODIFICACIN DE VARIABLES I.1 Finalidad de la Estadstica I. 2 Variables y escalas de medicin I.3 La "Precisin" de las variables I.4 Redondeo de valores de las variables I.5 La tabla de datos de un estudio I.6 Identificacin de outliers PARTE II LA DESCRIPCIN DE UN GRUPO DE DATOS. II.1 La descripcin de un grupo II.2 La tabla de distribucin de frecuencias II.3 Grficos II.4 ndices de tendencia central II.5 ndices de posicin o de frecuencia relativa acumulada y de dispersin PARTE III INFERENCIA ESTADSTICA. CONCEPTOS Y ESTIMACIN DE VALORES POBLACIONALES III.1 La Inferencia Estadstica III.2 El error de muestreo III.3 Distribuciones muestrales o en el muestreo de los estadsticos III.4 Intervalos de confianza - Estimacin de valores poblacionales III.5 Intervalo de confianza de una media cuando no se conoce la DS poblacional- mtodo clsico III.6 Contrastes de hiptesis - La significacin de un valor muestral III.7 Metodos clsicos de Inferencia Estadstica y mtodos basados en simulaciones informticas III.8 Relacin entre intervalos de confianza y contrastes de hiptesis PARTE IV LA COMPARACIN ENTRE DOS MUESTRAS IV.1 Muestras independientes y muestras relacionadas IV.2 La comparacin entre dos proporciones independientes IV.3 La comparacin entre dos proporciones independientes - Prueba de la Chi cuadrado IV.4 La comparacin entre dos proporciones relacionadas - Prueba de McNemar IV.5 La estimacin de la diferencia entre dos proporciones - Intervalo de confianza IV.6 La comparacin entre dos medias - Pruebas "Z" y "t de Student" para muestras independientes y relacionadas IV.7 La estimacin de la diferencia entre dos medias - intervalo de confianza IV.8 Los mtodos no paramtricos para la comparacin entre dos muestras PARTE V CLCULO DEL TAMAO MUESTRAL. EL ERROR ESTADSTICO DE TIPO II V.1 El error estndar V.2 El clculo del tamao muestral para la estimacin de valores poblacionales - Intervalos de confianza V.3 El clculo del tamao muestral para un contrastes de hiptesis V.4 La probabilidad de un error estadstico de tipo II () - Interpretacin de un contraste no significativo PARTE VI CORRELACIN. REGRESIN. ESTIMACIONES AJUSTADAS VI.1 la correlacin VI.2 la regresin VI.3 Correlacin y regresin - inferencia estadstica VI.4 Estimaciones ajustadas RECURSOS INFORMTICOS GRATUITOS Y MANUALES
Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.
OBJETIVOS Y JUSTIFICACIN Puede llamar la atencin el contenido de estos apuntes, en que se juntan la deteccin de outliers, la codificacin de los datos y el redondeo de valores numricos, asuntos muy prcticos, con un esfuerzo por exponer los conceptos bsicos de la inferencia y los razonamientos que hay tras los contrastes de hiptesis bsicos, sin preocupacin por su aplicacin prctica. La explicacin es que esto no es un manual o texto de estadstica. Lo que he intentado es ir directamente a por aquello que, segn mi experiencia, ocasiona problemas en la prctica y que creo que puede ser fcilmente solucionado. Y en la prctica me encuentro con alguna frecuencia con compaeros que han conseguido llegar hasta la redaccin de un original, pero se olvidan de adoptar una decisin consistente sobre el nmero decimales de sus resultados o redondean incorrectamente, por no saber que estos detalles tambin importan; tambin sucede que una de las preguntas estadsticas ms frecuentes se refiere a la elaboracin del fichero de datos de un estudio y, pese a ello, se pierde bastante tiempo arreglando datos mal codificados; quiz por parecer fcil, se dedica poca atencin a la mejor forma de describir los datos, y, en consecuencia, no es raro ver que se usa la media como nica descripcin de distribuciones muy sesgada, con outliers importantes o en estudios con seguimiento incompleto... Sin embargo, yo creo que el problema ms importante con la Estadstica "en nuestro medio" es que es una herramienta cuyo uso no se puede evitar y que se utiliza ms de lo que se comprende. Por ello, la mayor parte de estos apuntes se dedica a los conceptos y el objetivo principal es facilitar su comprensin, limitando el empleo de las matemticas y de los detalles tericos al mnimo imprescindible y sin pretender que lo presentado pueda servir como gua para la aplicacin prctica de las tcnicas estadsticas. Creo que, gracias a los diversos cursos y guas sobre estadstica bsica y anlisis de datos y, sobre todo, a la amplia disponibilidad de los ordenadores y de software estadstico verdaderamente amigable para el usuario, la dificultad, actualmente, no est en el manejo de los datos y en los clculos de los ndices necesarios para describir un conjunto de datos o para realizar un contraste de hiptesis, incluso con las tcnicas ms "avanzadas". Lo que, en mi experiencia, suele fallar es la comprensin real de lo que se est haciendo y, en consecuencia, la interpretacin cabal de lo que se encuentra. Por eso, presento en estos apuntes los razonamientos con que me explico a m mismo, que no soy estadstico ni matemtico y que tengo un inters estrictamente instrumental por estas cuestiones, lo que es un contraste de hiptesis y los criterios en que me baso para elegir entre los diversos estadsticos descriptivos, pues quiz sean tambin tiles para otros mdicos que, como yo, no han recibido otra enseanza reglada que el curso de Bioestadstica de la carrera. Tambin pienso que la mayora de los mdicos, que no se dedican al anlisis de datos, no necesitan conocer ms que unos pocos conceptos estadsticos. Sin embargo, dado que estn en la base de gran parte de las "certidumbres" en que se basa la prctica clnica, para actuar con conocimiento de causa en nuestra profesin, sea como potenciales investigadores o como reales consumidores de la investigacin que otros hacen, no hay otra alternativa que conocer, comprender y utilizar esos pocos conceptos. Ello, adems, capacita para identificar los propios lmites y para percibir, cuando llega, la necesidad de recurrir a especialistas y profesionales de la Estadstica. Por eso, creo que el que quiera iniciarse en la estadstica que necesita como mdico se equivocar si rechaza estos apuntes por la nica razn de que no explican cmo sacar una P o un intervalo de confianza de los datos procedentes de unas observaciones clnicas. El enfoque de "razonamiento personal" que he adoptado, como si me estuviera explicando a m mismo estas cuestiones, me ha llevado a tratar la inferencia estadstica partiendo de la toma de muestras repetidas mediante simulacin informtica para construir con ellas una distribucin que se "aproxima" suficientemente a la distribucin muestral (DM) pertinente y "observar" sus propiedades empricas. Esta aproximacin, que es totalmente rigurosa, me parece ms asequible que la teora de la Inferencia Estadstica y sus deducciones basadas en la Lgica Matemtica sobre la distribucin de probabilidad terica aplicable a cada supuesto, al menos para los que no somos matemticos. Desde la DM emprica, el camino que lleva a la solucin del problema es claro y directo, pues basta con "colocar" la muestra realmente observada en el lugar que le corresponde en dicha distribucin muestral para ver inmediatamente tanto la distancia entre la observacin y la media de la distribucin como la frecuencia relativa con que se dan distancias tan grandes o mayores en ella. Este procedimiento facilita (al menos a m) la comprensin de conceptos como "significacin", "nivel de confianza", "error estadstico", etc. Pero es necesario un paso adicional que una todo lo anterior con las tcnicas clsicas que, al menos por el momento, son utilizadas mayoritariamente, para que quede clara tanto la relacin entre el "juego" informtico descrito y las pruebas que a cualquier mdico como mnimo le suenan (la prueba t de Student, o la Chi cuadrado, etc.) como el hecho de que esas pruebas no son otra cosa que una especie de "rodeo" necesario para deducir las propiedades de la DM, a falta de una DM observable empricamente (carencia que fue absoluta hasta que aparecieron los ordenadores), y poder juzgar la posicin de la muestra observada dentro de ella. Un objetivo de estos apuntes es que quede inmediatamente claro para el lector que tanto la prueba clsica como la basada en la generacin informtica de muestras utilizan exactamente los mismos conceptos, y que la nica diferencia est en el mtodo utilizado para "conocer" la DM pertinente al caso. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.
Estos apuntes han sido redactados con mucha prisa, intentando evitar, primero, y acortar, cuando vi que no me era posible otra cosa, el retraso sobre el plazo que me indic Agustn Julin, Jefe de Estudios de los Residentes de nuestro Hospital, cuando me los encarg. As que no he podido revisarlos con el detalle que me hubiera gustado. Evidentemente y aunque no sea la nica causa, la prisa habr aumentado el nmero de los fallos, defectos y errores. Agradecera a todo el que identifique algn gazapo, error material o conceptual, o que tenga cualquier idea que pueda servir para mejorar el contenido o la utilidad de estos apuntes, que me lo comunicara. PARTE I: PROPSITO DEL TRATAMIENTO ESTADSTICO DE LOS DATOS. MEDICIN, PRESENTACIN Y CODIFICACIN DE VARIABLES. I.1 FINALIDAD DE LA ESTADSTICA:
El tratamiento estadstico de datos pretende dos cosas: 1.- Elaborar ndices, tablas y grficos que resuman y presenten de manera inmediatamente comprensible la informacin relevante de un conjunto de individuos. sta es la finalidad de la Estadstica Descriptiva. 2.- Partiendo de las observaciones realizadas en una muestra, calcular la probabilidad de los distintos valores que la variable puede tener en la poblacin, utilizando para ello los mtodos de la Estadstica Inferencial. Como la probabilidad informa de lo que cabe esperar cuando hay muchas mediciones y los ndices estadsticos se refieren a conjuntos de elementos, la Estadstica trata siempre con grupos (la estructura mnima analizable estadsticamente es un grupo de datos de una sola variable). Pese a ello, es frecuente que, en la prctica, se utilice la informacin probabilstica sobre los ndices estadsticos para tomar decisiones sobre pacientes concretos. I.2 VARIABLES Y ESCALAS DE MEDICIN
Como se ha dicho, cada uno de los items que componen la informacin que va a ser tratada estadsticamente es una variable. A su vez, el conjunto de valores, categoras o "contenidos" que puede tomar una variable constituye su escala de medicin. Aunque las variables pueden ser clasificadas de muchas formas, una de las ms tiles es la que se basa en el grado de detalle de la escala de medicin: 1.- Escalas Dimensionales: En ellas, cada categora es progresivamente mayor o menor que la precedente; adems, a lo largo de toda la escala y entre todo par de categoras adyacentes existe un intervalo medible y de la misma magnitud. Aunque caben sub clasificaciones de estas escalas, en la prctica suele ser posible ignorarlas. Ejemplos: La presin arterial en mmHg (continua), el nmero de hijos de las familias (discreta), la temperatura en grados Celsius (sin cero real) o Kelvin (con cero real), etc. Nmero de cuestiones contestadas correctamente por cada participante en el ejercicio terico-prctico de una oposicin. 2.- Escalas Ordinales: Las categoras sucesivas pueden ser ordenadas de manera monotnica (creciente o decreciente), pero entre categoras adyacentes no existe un intervalo medible y/o de la misma magnitud. Estas escalas se basan en el orden y o bien desprecian la magnitud de la distancia entre los elementos ordenados, o bien tal distancia simplemente no est definida y no es medible. Ejemplos: Evolucin medida en las siguientes categoras: curacin, mejora considerable, mejora leve, sin cambios, empeoramiento moderado, empeoramiento considerable, defuncin. Probabilidad de la existencia de alguna condicin como, p. ej.: infarto definido, probable, dudoso, improbable o excluido (ntese que en estos dos ejemplos varios individuos distintos pueden tener la misma categora). Puesto de orden de los participantes en una oposicin basado en la nota del ejercicio tericoprctico (en casos como este hay tantos valores -puestos de orden- distintos como individuos en la muestra). 3.- Escalas "Cuasi- Dimensionales": Aunque lo parece, no hay un intervalo medible e igual entre valores adyacentes. Tienen una apariencia "cuantitativa" que no es real. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.
Ejemplos: Suma de las puntuaciones obtenidas en varias escalas ordinales que conforman un cuestionario o instrumento de medicin, como algunos cuestionarios de calidad de vida, de inteligencia, de discapacidad, etc. Puntuaciones como el APACHE II, el Apgar, etc. Resultado de la aplicacin de una escala analgica visual para medir cualquier sntoma. 4.- Escalas Binarias o Dicotmicas: Como las nominales, en que slo hay dos categoras, y los datos "existenciales", recogidos como presencia o ausencia de alguna condicin y muy frecuentes en investigacin clnica. Ejemplos: Sexo (masculino o femenino), infarto de miocardio (s o no), etc. 5.- Escalas Nominales: Las categoras carecen de magnitud y de orden. Ejemplos: El antibitico utilizado: macrlido, betalactmico, aminoglucsido... El diagnstico: pancreatitis aguda, ictericia obstructiva por litiasis biliar, cncer de pncreas... etc. Como se puede ver, la diferencia entre estas escalas radica en el nivel de detalle a que llega cada una de ellas. La escala Dimensional es de mayor precisin que la ordinal y sta que la nominal. Las tcnicas estadsticas aplicables para la descripcin y para la inferencia dependen de la escala en que hayan sido medidas las variables a analizar. I.3 LA "PRECISIN" DE LAS VARIABLES:
En las frase previas se acaba de utilizar la palabra precisin, que es un trmino bsico en Estadstica. Es importante distinguir entre la acepcin habitual (y tambin la cientfica) del trmino precisin, donde viene a significar "nivel de detalle", de su significado en Estadstica, donde una medida es precisa si, mientras no cambie la magnitud de lo medido, al repetirla produce los mismos resultados o, tambin, un conjunto de valores son ms precisos si tienen menos variabilidad entre ellos. Por tanto, en Estadstica ms "precisin" significa menos efecto del "error aleatorio". As, p. ej., una anamnesis precisa es una descripcin con detalle de la situacin clnica del paciente. Un clculo preciso es un clculo en que se consiguen muchas cifras decimales significativas. Una medicin precisa, en sentido habitual o cientfico, de una distancia es una medicin hasta en micras. La escala dimensional es ms precisa que la ordinal en la acepcin de "precisin" que significa "nivel de detalle", pues la escala dimensional, adems del orden valora tambin la distancia entre valores. Sin embargo, una medicin de una distancia es ms precisa, en sentido estadstico, cuanto ms parecidos entre s son los resultados de su repeticin. Una estimacin de una media de una poblacin a partir de una muestra es ms precisa si existe menos dispersin entre los valores plausibles. Por tanto, se puede decir que mientras que la cualidad "cientfica" de la precisin se refiere a una nica medicin, la cualidad "estadstica" de la precisin se refiere a un conjunto de ellas. Estos dos usos distintos de una palabra tan importante desde el punto de vista cientfico y estadstico es el origen de muchas confusiones y dificultades de comprensin. Por ello, ha parecido conveniente aclarar ambos conceptos. Las variables que, por su naturaleza cuantitativa, pueden ser medidas en una escala Dimensional, tambin lo pueden ser en una ordinal (despreciando la parte cuantitativa de la informacin) o nominal (obviando el orden y reteniendo solo la igualdad o desigualdad entre valores). Sin embargo, la prdida de detalle que se produce al utilizar una escala de menor detalle cuando es aplicable una de ms precisin puede ocasionar una prdida de eficiencia, haciendo necesario el estudio de un nmero mayor de individuos para llegar a los mismos objetivos. Por ello, al realizar las mediciones de las variables de un estudio y al codificar sus valores se debe conservar la escala de mayor detalle posible, salvo que existan razones claras para lo contrario. I.4 REDONDEO DE VALORES DE LAS VARIABLES:
Para evitar sesgos, impresiones distorsionadas y problemas derivados de que la suma de las partes sea mayor o menor que el total, se recomienda utilizar de forma consistente el siguiente procedimiento de redondeo: Cuando los dgitos finales son 1, 2, 3 4 se eliminan y se mantiene el previo. As; p. ej.; 23,4 se redondea a 23; 23,43 a 23,4; etc. Cuando los dgitos finales son 6, 7, 8 9 se eliminan y se aumenta en una unidad el previo. As; p. ej.; 23,7 se redondea a 24; 23,48 a 23,5; etc. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.
Cuando el dgito final es 5 se elimina y se mantiene el previo, si es par, o se aumenta en una unidad, si es impar. As; p. ej.; 23,5 se redondea a 24; 22,5 a 22; 23,45 a 23,4; 23,55 a 23,6; etc. Es importante mantener todos los dgitos significativos durante los clculos y no realizar el redondeo hasta que se haya llegado al resultado final. De lo contrario, se pueden producir graves errores por redondeo. Adems, para evitar esta clase de errores conviene utilizar calculadoras o programas que trabajen con, al menos, "doble precisin" (12 dgitos decimales) y tener precaucin con las calculadoras que, a veces, no son capaces de almacenar en su memoria nmeros de ms de 9 dgitos. Tambin se debe evitar que el redondeo haga aparecer como idnticos resultados numricos que son distintos; por ejemplo, si se redondea a dos enteros una lista de porcentajes de pacientes que sufrieron una reaccin adversa con diversos frmacos entonces los valores superiores a 0% pero inferiores a 1% (como un 0,7%) se confundiran con la ausencia de toxicidad (0,0%), lo cual puede ser engaoso. Otro ejemplo similar se dara si la ordenacin por resultados o valores numricos hiciera aparecer empates falsos.
I.4
LA TABLA DE DATOS DE UN ESTUDIO:
Los resultados de las mediciones de las variables deben ser dispuestos en una tabla de datos, similar a la de la figura 1, de forma conveniente para el tratamiento por medio de alguno de los programas estadsticos disponibles. Aunque hay diversas posibilidades vlidas, es recomendable utilizar algn mtodo que no sea dependiente de ningn sistema operativo o programa concreto, como puede ser un archivo de texto ASCII, ya sea crendolo directamente con un simple editor de programas o exportndolo desde una hoja de clculo o base de datos. Ello permite procesar los datos en cualquier ordenador y compartirlos con otros investigadores. Si se utiliza una hoja de clculo (sirve cualquiera) para la creacin de la tabla de datos, la informacin de cada individuo de la muestra debe ir en una fila y cada variable en una columna distinta, formando una matriz de datos o fichero rectangular a partir del cual pueden comenzar a trabajar los paquetes de software estadstico. Es conveniente, adems, que la primera fila contenga los nombres de las variables y que estos sean cortos (hasta 8 caracteres), sin signos distintos de letras y nmeros y sin espacios entre ellos, que comiencen con una letra y que (en la medida de lo posible) sean indicativos del contenido de la variable medida. Tambin es preferible que la informacin sea registrada utilizando solo dgitos. Para ello, en caso de variables medidas en una escala dimensional se escribir directamente su valor. Para las ordinales se registrar el puesto de orden del individuo. En el resto de las escalas habr que codificar asignando un cdigo numrico a cada uno de los posibles valores distintos. As mismo, conviene utilizar un cdigo especfico para los valores perdidos o ausentes y que, si es posible, ste sea el mismo para todas las variables; para ello, se puede elegir un nmero que no sea un resultado plausible de ninguna de las mediciones. Por supuesto, nunca hay que olvidar que el cero no es lo mismo que la ausencia de medicin. Siempre debe haber una variable de identificacin del individuo, pero es preferible que en la tabla de datos no figure el nombre del paciente o alguna otra variable que permita su identificacin, en su lugar se puede utilizar el nmero de orden de entrada en el estudio o alguna otra clave que relacione el registro con el individuo a que corresponde. Un problema particular se puede presentar con las variables que pueden tener cdigos mutuamente no excluyentes. Por ejemplo, un paciente podra ser tratado con alguno de estos antibiticos: (0) Amoxicilina, (1) eritromicina, (2) ofloxacino, (3) amoxi-clavulanico y (4) azitromicina; o con cualquiera de las combinaciones de los mismos. Si en un estudio se quisiera evaluar el efecto del tipo de antibitico, en lugar de registrar el tratamiento con una sola variable (en ese caso, la variable "tratamiento" podra tomar los valores 0, 1, 2, 3 4 y tambin 1 y 2, 1y 3, 1 2 y 3, etc. pero de esta forma no sera analizable), debera haber tantas variables dicotmicas como antibiticos distintos y cada una ser codificada como (0) no y (1) s (o alguna alternativa equivalente).
Tabla 1: Ejemplo de tabla de datos de un estudio Aos cumplidos Identif Sujeto 1 Sujeto 2 Sujeto 3 Sujeto n Edad 67 78 59 64 0: No / 1: S Mujer Estadio Qterapia Rterapia Cirugia Recidiva 0 0 1 1 0 4 3 3 1 1 1 0 1 0 0 1 1 1 0 1 0 1 1 0 Meses a partir de la remisin
Tseguim 14 17 10 18
Variable m
Finalmente, las reglas de codificacin y el significado de los nombres de las variables pueden grabarse en el propio fichero de datos, pero claramente separados de las filas en que comienzan los cdigos de los valores de las variables. En todo caso, deben tomarse las precauciones necesarias para que no se pierdan las instrucciones que se han seguido para la codificacin ni la clave de identificacin de los individuos, de forma que sea posible, si es necesario (p. ej. para descartar o corregir errores, para inspeccin administrativa, etc.) relacionar cada registro de la tabla de datos con los datos, informacin y documentos originales correspondientes. I.5 IDENTIFICACIN DE OUTLIERS:
Un outlier es un valor extremo que "llama la atencin" debido a la existencia de un intervalo vaco grande, sin observaciones, entre l o ellos y los valores del conjunto de los datos. Por ejemplo, en el histograma representado en la figura 1de la segunda parte de estos apuntes se identifican dos casos separados de los dems datos en el extremo superior de la distribucin; esas dos observaciones pueden considerarse outliers. Adems, los outliers pueden ser identificados tambin mediante diversas tcnicas estadsticas (en el epgrafe sobre grficos se describe un posible criterio para identificar y representar outliers en un "grfico de caja"). Los outliers son con frecuencia resultado de errores durante la medicin o transcripcin de la informacin. Tambin pueden deberse a la inclusin en el estudio de individuos heterogneos, que no se ajustan a los criterios de seleccin establecidos. Cuando se tiene la seguridad de que un outlier (u otro dato, claro) es un error lo que hay que hacer es corregirlo o, si no es posible, eliminarlo. A veces el valor del dato es imposible (p. ej., en un estudio con adultos, un peso del paciente de 8,7 Kg) o se trata de alguna otra equivocacin obvia, pero en muchas otras ocasiones es difcil llegar a saber con seguridad si el outlier es un error o un valor atpico pero correcto. El problema que plantean los outliers es que unos pocos de ellos pueden llegar a afectar de manera importante a los ndices y estadsticos que, como la media o el coeficiente de correlacin de Pearson, son sensibles a los valores extremos, o empeorar el ajuste de los modelos estadsticos utilizados para el anlisis (p. ej, como en el ANOVA o en la regresin lineal). En general, no se debe eliminar o excluir un dato de un anlisis slo porque sea un outlier y empeore el ajuste del modelo que se est utilizando o parezca afectar a los resultados de una manera no conveniente. En caso de que suceda esto, se deben utilizar mtodos alternativos de anlisis que sean menos afectados por los outliers, como los basados en medianas y percentiles y las tcnicas estadsticas no paramtricas. Tambin cabe la posibilidad de probar diversas transformaciones matemticas de los datos, a fin de encontrar alguna que reduzca los efectos de los valores extremos. PARTE II: LA DESCRIPCIN DE UN GRUPO DE DATOS. II.1 LA DESCRIPCIN DE UN GRUPO:
La finalidad es elaborar ndices resumen que permitan juzgar tanto la posicin de un individuo dentro del grupo como la del grupo con respecto a otros. As mismo, son importantes la forma de la distribucin y la dispersin de los valores. Los instrumentos utilizables con estos propsitos son las tablas de frecuencias, las grficas y los ndices de tendencia central, de posicin o de frecuencia relativa acumulada y de dispersin. II.2 LA TABLA DE DISTRIBUCIN DE FRECUENCIAS:
til con variables medidas con cualquier tipo de escala, resume los datos e informa sobre la forma y dispersin de la distribucin casi sin prdida de detalle, pues a partir de una tabla de distribucin de frecuencias bien construida es posible calcular cualquier estadstico que interese. Consiste en una tabla que incluye la frecuencia absoluta, o nmero de individuos en que aparecen los valores de la variable dentro del grupo o muestra, y la relativa, o porcentaje (o proporcin) que supone ese nmero sobre el total de individuos del grupo. En el caso de variables nominales, binarias y dicotmicas lo habitual es que en la tabla se recoja la frecuencia de cada uno de sus valores. Pero en el caso de variables cuantitativas suele ser necesario dividir el recorrido de los valores en intervalos, llamados clases, ya que de lo contrario se obtiene una tabla con muchos valores distintos y cada uno de ellos con una frecuencia muy pequea, lo cual ni resume la informacin ni muestra el "patrn" de la distribucin. El contenido de las tablas de frecuencia y de cualquier otra debe ser fcilmente identificable y comprensible; para ello, no deben ser excesivamente complejas o contener demasiada informacin y los ttulos, encabezamientos y unidades de medida (si las hay) tienen que ser claros; as mismo, los valores totales y la base de los porcentajes (si los hay) deben figurar y ser fcilmente identificables. En la tabla 1 figura un ejemplo de distribucin de frecuencias de una variable ordinal.

Apuntes de Estadística - I - Propósito - Variables

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apuntes de Estadística - I - Propósito - Variables

Enviado por

Direitos autorais:

Formatos disponíveis

APUNTES DE ESTADSTICA. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

LA TABLA DE DATOS DE UN ESTUDIO:

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Você também pode gostar