Manual Spss 11 Castellano. Cruz

ANALISIS DE DATOS SANITARIOS CON SPSS E INTERPRETACIN DE RESULTADOS
EDITORES:
BARTOLOME MORENO, CRUZ BORQUE MARTIN, JOSE LUIS SANCHEZ ARROYO, RAFAEL VALDEARCOS ENGUDANOS, SANTIAGO
EDITA: UNIDAD DOCENTE DE MEDICINA FAMILIAR Y COMUNITARIA DE NAVARRA IMPRIME: Unidad Docente de MFyC Pamplona Navarra. Noviembre 2006. ISBN: 84-690-3327-1 DEPOSITO LEGAL: NA-369/2007
I.
CONSIDERACIONES PREVIAS
Durante el proceso de investigacin en el rea de ciencias de la salud, debemos siempre aplicar con rigurosidad el mtodo epidemiolgico como expresin final del original mtodo cientfico, siguiendo una a una cada una de sus fases, que no son objeto de este manual, pero del cual tomaremos diferentes aspectos para el desarrollo completo de nuestros estudios. El objetivo principal que vamos a tener va a ser el de analizar una serie de datos que hayamos recabado en cualquiera de aquellos estudios de investigacin en los que participemos, para lo cual nos ayudaremos de una herramienta estadstica importante y potente, como es el programa SPSS. Para poder llegar a utilizar el recurso estadstico nos encontramos ante una premisa o requisito en extremo importante, haber realizado una recogida y codificacin de los datos fiable y sin errores, por lo que abordaremos algunos de los pasos ms importantes necesarios. Hay que tener en cuenta que cualquier programa estadstico analiza datos y da resultados, sin tener en cuenta la calidad de los mismos, por lo que depender de nosotros realizar el correcto control de calidad y filtracin, para no dar por buenos resultados errneos desde su inicio. Sirva como comparativa el que para que un edificio sea correctamente ejecutado, se precisa de un diseo y estudio previo exento de errores que llevaran a la defectuosidad y el riesgo humano. Si tenemos en cuenta que nuestros estudios de investigacin pueden ser publicados en revistas de impacto y servir de base a otros estudios, hay que aplicar con rigor todos los medios a nuestro alcance para la rigurosidad y metodologa. En este manual hemos optado por dar unas nociones tericas bsicas necesarias, para despus, por medio de ejercicios prcticos, aprender la utilizacin, manejo e interpretacin de resultados con el programa SPSS de una forma bsica, sin pretender abarcar todas sus posibilidades completas. La forma de aplicacin de cada tcnica estadstica segn sus tipos de variables a analizar y/o comparar, ser determinante para trasladar
dicho aprendizaje a cualquier otro estudio con variables de caractersticas similares. Hay que tener en cuenta que en algunas ocasiones tendremos que analizar y ofrecer resultados de bases de datos ya existentes, en otras ocasiones seremos nosotros los que realicemos la recogida de datos directamente desde la historia clnica o por medio del paciente, para lo cual disearemos una serie de cuestionarios o plantillas de recogida de datos que luego trasladaremos a nuestra base de datos, sea o no el mismo programa estadstico. Adems, se nos puede presentar la posibilidad de utilizar cuestionarios ya existentes y que despus de recogidos todos los datos de sus variables predefinidas, tengamos que introducir en nuestro programa estadstico o de base de datos para su posterior anlisis. Un programa estadstico como SPSS nos ofrece todas las posibilidades contempladas en el uso de cuestionarios, bases de datos y anlisis de los mismos, as como la presentacin de resultados, informes y grficos. Es por ello que nos basaremos en l preferentemente para su aprendizaje bsico.
II.
TIPOS DE ESTUDIOS
Antes de iniciar cualquier investigacin, hay que decidir segn los objetivos el estudio ms adecuado. Con un estudio EXPERIMENTAL, el investigador tiene el control sobre el factor de estudio. Son los que mejor permiten estudiar la relacin causa-efecto. El ms empleado es el ENSAYO CLNICO ALEATORIO. Con un estudio NO EXPERIMENTAL U OBSERVACIONAL, el investigador no controla el factor de estudio, sino que pasa a ser un mero observador. Pueden ser meramente descriptivos como el TRANSVERSAL, o bien analticos, como los de COHORTES y CASOS-CONTROL. Con el de cohortes podemos calcular incidencia y prevalencia. Con el de casos-control estudiaremos enfermedades poco frecuentes o con largo periodo de latencia. No permiten calcular incidencia o prevalencia pero s riesgos. Con los transversales podremos calcular la prevalencia en la poblacin pero no la relacin causa-efecto debido a la falta de secuencia temporal.
En nuestro caso elegiremos muestras de estudios diferentes, para poder realizar acciones descriptivas y en otros buscar una relacin causaefecto.
III.
DEFINICION DE VARIABLES
Una variable es cada uno de los caracteres o aspectos que se registran en una muestra de individuos. Medir es asignar valores a las variables del estudio. La forma de medir las variables va a determinar el anlisis matemtico, estadstico, de las mismas. Existen varias escalas de medida: 1.- Cualitativas: Miden una caracterstica en trmino de cualidad, nunca de forma numrica. Cada uno de los valores que puede tomar la variable se llama categoras. Pueden ser: - Escala nominal: Determina la igualdad o desigualdad de los individuos. Sexo masculino o femenino. Fumador: S. No. Clasificacin Internacional de Enfermedades - Escala ordinal: Determina el orden de los individuos de mayor, menor o igual que.
Consumo de Tabaco: no fumador, fumador moderado, fumador importante. Consumo de tabaco: Tabaco: 0 c/d, 1-10 c/d, > 10 c/d
Si las variables cualitativas tienen solo dos categoras cualitativa dicotmica, y si tiene ms de dos, variable politmica. 2.- Cuantitativas: Miden una caracterstica de forma numrica. - Discretas o discontinuas: Entre dos valores consecutivos no existe otro valor. variable
Ejemplo: Nmero de hijos. Nmero ordenadores
- Continuas: Entre dos valores consecutivos se pueden encontrar infinitos valores. Ejemplo: Peso, glucemia, etc. Nota: a la hora de poner el nombre a las variables, tendremos en cuenta que luego para introducirlas en SPSS, el nombre tiene que tener como mucho 8 caracteres en total, incluidos los espacios, y que no permite signos del tipo de , , etc. IV. RECOGIDA DE DATOS
Recogeremos exclusivamente aquellas variables necesarias para el anlisis y no otras de forma indiscriminada que slo enlentecen y encarecen el estudio. Hay que recogerlas de la manera que aporten mayor informacin y por ello siempre que sea posible sern cuantitativas. La forma ms correcta y til es a travs de la creacin de un formulario especfico adaptado a las variables que vamos a recoger. Como ejemplo vemos el reflejado en la Figura 1.
Fecha nacimiento: Sexo: H M Estado civil: Soltero Casado/vive en pareja Viudo Separado/divorciado NSS:
Nivel de estudios: sin alfabetizar sabe leer y escribir EGB/Estudios primarios BUP/FP1-FP2 FP3/Diplomaturas de grado medio Universitarios Fumador: SI NO N cig/da: Intentos previos: SI NO cuntos? slo/ ayuda mdico? utiliz tto para dejarlo? SI NO CHICLES- PARCHES- OTROS FIGURA1.
Exfumador: SI NO N cig/da: Intentos previos: SI NO cuntos? slo/ ayuda mdico? utiliz tto para dejarlo? SI NO CHICLES- PARCHES- OTROS
Vemos que la edad se recoger como fecha de nacimiento para evitar errores de clculo. Por lo tanto tendremos que crear una nueva
variable, la variable FECHA, que se refiere a la fecha de nacimiento de la persona incluida en el estudio. A partir de sta variable, "a posteriori", calcularemos la variable EDAD (explicaremos mas adelante como hacerlo). Tanto en el nivel de estudios como en el tipo de trabajo se han creado preguntas de respuesta cerrada para favorecer el anlisis al limitar el n de respuestas. Como se ha comentado anteriormente, tambin se pueden utilizar cuestionarios ya existentes y validados, como en nuestra prctica el I-PSS de valoracin prosttica, o el test de Glasgow.
V.
TRANSFORMACION E INTRODUCCION DE VARIABLES EN LA MATRIZ
Para luego poder analizar los datos en SPSS o cualquier programa estadstico, hay que transformarla en nmeros que el ordenador pueda entender. Se suelen utilizar nmeros enteros empezando por el 1 y evitando el 0 (el cero se suele reservar por acuerdo internacional para representar la ausencia de respuesta), as, en nuestro primer ejemplo de cuestionario de recogida de datos tendramos: FECHA = se puede introducir en formato fecha. EDAD = N entero sin decimales SEXO = Hombre: 1 y Mujer: 2 NCIG (N cigarrillos) = N entero sin decimales ESTUDIOS = sin alfabetizar: 1 Sabe leer y escribir: 2 EGB/ Estudios 1: 3 BUP/FP1-FP2: 4 FP3/ Diplomaturas de grado medio: 5 Universitarios: 6
ESTCIVIL =
ABAND = AYUDFCO = AYUDMED =
soltero: 1 Casado/vive en pareja: 2 Viudo: 3 Separado/divorciado: 4 Si: 1 y No: 2 Si: 1 y No: 2 Si: 1 y No: 2
El siguiente paso sera crear una matriz de datos en SPSS; cuando abrimos SPSS automticamente se abre la pantalla EDITOR DE DATOS y sobre ella un cuadro de dilogo con distintas opciones, nosotros elegiremos INTRODUCIR DATOS y ACEPTAR.
Nos encontraremos con una ventana de datos en la que aparecen 2 pestaas en la zona inferior derecha, una con la vista de datos y otra con la vista de variables. En la primera observaremos los datos en formato tabla ya conocido, a modo de Excel o Access, y en la segunda observaremos las variables que vamos a definir para cada estudio con cada una de sus caractersticas particulares y definitorias.
10
Cada fila representa una persona de la muestra seleccionada (aparecen numeradas de forma automtica a partir de 1) y en cada columna se reflejarn todas las variables recogidas en el estudio referentes a esa persona (inicialmente saldr la etiqueta var). Al igual que existe esta ventana de datos, en SPSS hay que conocer los otros tipos de ventanas con los que nos tendremos que ver o trabajar, y que veremos solamente cuando utilicemos el programa a la hora de codificar, definir, transformar, analizar Todas las acciones que se generan en Windows al ir seleccionando en el men y sus diferentes opciones, tienen su correspondencia en la denominada sintaxis, que es el lenguaje de programacin, por decirlo as, del SPSS, y vienen reflejadas en el editor de sintaxis, de la forma que podemos ver a continuacin y desarrollaremos posteriormente:
De igual manera, cuando ejecutemos las acciones que nos lleven a realizar el anlisis estadstico, tendremos como consecuencia una nueva ventana en la que veremos los resultados obtenidos, los grficos, etc... Esta ventana se llama visor de resultados y la veremos con el siguiente aspecto:
11
A continuacin, una vez visto el aspecto que nos podemos encontrar en el programa, tendremos que plasmar cada una de las variables que se han recogido en el cuestionario que creamos para ello. As pues, para comenzar cambiaremos la etiqueta var que define a cada una de las variables por el nombre con el que queramos asignar a las variables de nuestro estudio. As, para introducir la variable NMERO DE CIGARRILLOS, con el nombre NCIG, primero iremos a la pestaa vista de variables, colocando el cursor en la primera columna de la primera fila, donde escribiremos el nombre de la variable. En esa celda escribiremos en primer lugar el nombre de la variable, en nuestro caso: NCIG:
12
Despus haremos un clic sobre el recuadro TIPO, que nos permitir describir nuestra variable (en este caso numrica), decir cuantos dgitos (ancho) puede llegar a tener como mximo (en nuestro caso 2, puesto que la variable nmero de cigarrillos puede constar de unidades o decenas) y si queremos expresarla o no con decimales (en nuestro caso pondremos cero decimales, ya que el nmero de cigarrillos lo expresaremos como nmero entero sin decimales...). Cuando terminemos daremos a ACEPTAR. Despus haremos un clic sobre el recuadro ETIQUETAS, que nos permite poner el nombre completo de la variable, en nuestro caso: etiqueta de variable: NMERO DE CIGARRILLOS.
Despus haremos un clic sobre el recuadro valores perdidos, en este caso, para nuestra variable NCIG, lo que nos interesa es que no haya valores perdidos, sino tener el nmero de cigarrillos de todas las personas incluidas en la muestra, por lo que haremos un clic sobre "sin valores perdidos".
Hay que tener en cuenta que en pequeos estudios no deben haber valores ausentes o perdidos, pues siempre podemos recuperar la fuente de datos para completar el ausente. Adems, en determinadas ocasiones, si aceptamos valores perdidos, habr que analizar su
13
distribucin, nmero, etc., como si se tratara de una variable ms, dado que un nmero elevado de ellos, puede invalidar un estudio. Hay que tener adems que prever errores en la codificacin si se trata de grandes estudios, por lo que se pueden indicar rangos de valores que pueden considerarse como perdidos. No obstante, este tipo de anlisis queda fuera de los objetivos de este manual. Despus haremos un clic sobre el recuadro COLUMNAS, que nos permite disear la matriz de datos ya que nos permite definir el ancho de la columna y luego la Alineacin del texto dentro de ella.
Definimos ahora la MEDIDA de la variable, en este caso ESCALA, pudiendo elegir entre sta, ordinal o nominal, segn el tipo de variable, aunque la mayor parte de las ocasiones no tiene trascendencia esta eleccin. Ahora ya tenemos nuestra variable perfectamente definida, que veremos si pasamos a la vista de datos.
14
El resto de opciones que nos resta los podemos aplicar en otras variables, como veremos a continuacin. El resto de las variables, las iremos introduciendo de igual modo, de forma que cada una ocupe una columna contigua, con algunas peculiaridades: FECHA: En el recuadro TIPO elegiremos la opcin FECHA y dentro de sta la forma que nosotros queremos, en este caso ser de la forma: dd.mm.aa. Cuando lo tengamos damos a ACEPTAR.
EDAD: igual que NCIG, ya explicada. SEXO: En el recuadro ETIQUETAS, ponemos en primer lugar el nombre completo de la variable, en nuestro caso SEXO, y despus vamos a definir los valores y el nombre de cada valor, as en nuestro caso, hemos designado el valor 1 a los hombres y el 2 a las mujeres, para introducir sto, lo haremos de las siguiente manera: donde pone VALOR escribimos 1, donde pone ETIQUETA DE VALOR, ponemos hombre y damos a AADIR. A continuacin donde pone VALOR escribimos 2, donde pone ETIQUETA DE VALOR, ponemos mujer y damos a AADIR y despus a ACEPTAR.
15
ESTUDIOS: ser similar al anterior, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR sern: 1: sin alfabetizar 2: Sabe leer y escribir 3: EGB/ Estudios 1 4: BUP/FP1-FP2 5:FP3/ Diplomaturas de grado medio 6: Universitarios
ESTCIVIL: ser similar al anterior, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR sern: 1: soltero 2: Casado/vive en pareja 3: Viudo 4: Separado/divorciado
ABAND: ser similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR sern: 1: Si y 2: No Un truco sencillo consiste en seleccionar la variable que es similar a la que vamos a construir, con el botn de la derecha se copia, se selecciona la siguiente fila que est vaca y se pega con el botn de la derecha. Despus solamente deberemos cambiar los valores y etiquetas que son diferentes.
16
AYUDFCO: ser similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR sern: 1: Si y 2: No
AYUDMED: ser similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR sern: 1: Si y 2: No Una vez introducidas todas las variables, el aspecto final de la matriz de datos ser el siguiente, estando ordenadas segn las hayamos colocado en la vista de variables:
Poniendo el cursor sobre el nombre de cada una de las variables, podremos ver la etiqueta de cada una de ellas, que es la que nos aclara realmente el concepto de cada variable.
Llegado este punto, tenemos ya la base de datos, es decir la estructura de lo que va a ser la composicin de los datos que hayamos
17
recogido en nuestro estudio, y que luego veremos como los recogemos y/o analizamos. Una de las acciones que nunca deberemos olvidar, es guardar nuestro trabajo, antes que las inclemencias elctricas nos hagan tener que volver a repetir. Si nos fijamos, en la barra superior de nuestro programa indica Sin Ttulo, que nos est indicando que no tiene nombre de archivo, y por lo tanto no est guardado. Para ello, utilizaremos la opcin ARCHIVO/GUARDAR:
Hay que fijarse bien dnde guardamos nuestro archivo, dado que luego podemos darlo por desaparecido, de igual forma que deberemos recordar el nombre del mismo para poder encontrarlo con la opcin BUSCAR, caso de que desaparezca misteriosamente. Buscaremos el lugar donde lo colocamos, en nuestro caso en la carpeta Spss11 que est en el escritorio de nuestro ordenador (si no est, la podemos crear previamente o sobre la marcha, con la opcin crear carpeta que aparece en la ventana guardar como.
18
Observaremos que los archivos del editor de datos se guardan con la extensin .sav, para as diferenciarlos de los archivos de la ventana de sintaxis, con extensin .sps y de los archivos del visor de resultados, con extensin .spo. Cuando tengamos que abrir un archivo guardado de SPSS, podremos abrirlo clickeando 2 veces sobre el icono del archivo o sencillamente abrir el programa e ir al men ARCHIVO/ABRIR/DATOS:
19
Con todos estos pasos que hemos descrito, ya estamos preparad@s para la introduccin de datos para su posterior anlisis.
VI.
INTRODUCCIN DE DATOS
Una vez creada la matriz vamos a pasar los datos de cada persona que tenemos en los formularios. Hay que hacerlo con mucho cuidado ya que un error a la hora de la transcripcin sera irreparable. El aspecto una vez introducidos los datos podra ser el siguiente:
20
Como hemos podido observar en los ejemplos anteriores, hemos registrado como variables la fecha de nacimiento y la edad, con lo que podemos encontrarnos con varios problemas. En primer lugar, segn la muestra que hayamos elegido, su edad y su capacidad de memoria, puede haber errores a la hora de acordarse de la edad o acertar en el clculo a travs de la fecha de nacimiento. Adems, realizamos el mismo trabajo 2 veces, pues siempre se podra calcular la edad a partir de la fecha de nacimiento. Por ltimo, segn lo que dure el estudio, no ser la misma edad al inicio del mismo que al final, mientras que la fecha de nacimiento no se puede modificar, a pesar de la duracin. Por tanto, siempre se recoger la edad como fecha, al igual que cualquier variable se debe recoger en la forma que ms informacin nos pueda dar, es decir, cuantitativa siempre que se pueda. Ya aprenderemos a recodificarla o transformarla, y automatizar dicho proceso. Tenemos que tener en cuenta que cualquier variable podr convertirse en una variable diferente, con lo que se conserva la original, aunque puede codificarse en la misma variable, desapareciendo la original y conservndose la nueva variable creada. De igual forma, podremos obtener otra variable nueva calculada a partir de otras cual puede ser el caso del ndice Creatinina/Albmina, IMC, etc. VII. CALCULAR NUEVAS VARIABLES (A partir de una de ellas)
Una vez introducidos los datos vamos a calcular la variable EDAD a partir de la variable FECHA NACIMIENTO. Par ello vamos a utilizar una base de datos dispuesta al efecto en la que calcularemos dicha nueva variable. Para ello, abriremos el archivo Ejercicio 1 Calc nuevas variables que encontraremos en la carpeta Prcticas de nuestro escritorio.
21
Nos encontraremos entonces con la siguiente ventana de datos:
Podemos observar que tenemos diferentes variables con formatos diferentes, decimales y sin ellos. A partir de aqu, nos vamos al men TRANSFORMAR / CALCULAR donde aparecer una pantalla con un listado de expresiones numricas que nos permitir crear una nueva variable EDAD a partir de la variable FECHA
22
NACIMIENTO y de la fecha de fin del estudio (o de la fecha actual por ejemplo):
Ahora introduciremos en nombre de la nueva variable EDAD y buscaremos en la columna de la izquierda el trmino TRUNC, que aadiremos al espacio superior donde ir representada la funcin matemtica de reconversin:
23
A continuacin aadiremos en el espacio sealado en negrita que ha quedado la expresin CTIME.DAYS, que buscaremos en la misma columna (Ojo con no quitar la seleccin en azul, pues es donde ir la expresin matemtica seleccionada):
Buscaremos la expresin DATE.CMY y la aadiremos tambin. Quedar un parntesis con interrogantes sobre una fecha, que deberemos aadir. Ser la fecha a partir de la cual se calcula la edad del caso, y puede ser la de fecha de cierre del estudio:
24
A esta fecha habr que restarle (siempre teniendo en cuenta los parntesis la variable FECHA NACIMIENTO, que es la que utilizamos para calcular la variable EDAD:
25
Finalmente se divide por 365.25, para calcular la edad en aos cumplidos:
26
A continuacin pegamos la operacin, porque tendremos por escrito las rdenes de realizar las operaciones todas las veces que lo precisemos, aunque aadamos nuevos casos, abrindose la ventana de sintaxis, en la cual seleccionaremos y ejecutaremos la orden:
Obtendremos entonces la variable EDAD, que saldr sin formato y por tanto con decimales.
27
Tendremos que ir a la vista de variables a modificarla como ya hemos aprendido, sin decimales y ancho necesario.
El editor de sintaxis podemos guardarlo para el caso de que tengamos que aadir nuevos casos, ya que as tendremos la operacin realizada y guardada.
28
VIII.
CALCULAR NUEVAS VARIABLES ellas)
(A partir de varias de
Para calcular otra nueva variable, podemos tener que necesitar los valores de otras que hemos recogido. A estas alturas ya nos parece del todo lgico el no recoger el IMC, cuando se calcula a partir del peso y de la talla, de los cuales disponemos. Al ser un proceso automatizado, eliminamos los errores de calculadora sobre el terreno. Por tanto, como ejemplo, sobre los datos anteriores, vamos a calcular al IMC. Volveremos al mismo procedimiento TRANSFORMAR /CALCULAR ya conocido. Como sabemos, tenemos que implementar la siguiente frmula:
IMC =
Peso
(Talla )
29
Tendremos entonces creada la nueva variable IMC, que tendremos que configurar si la queremos con decimales o no.
IX.
RECODIFICAR EN UNA MISMA VARIABLE
En ocasiones, tenemos recogida alguna variable de tal forma que o bien no es deseable para nuestros resultados y deberamos haberla recogido de otra manera, o no resulta demasiado correcta al utilizarla porque puede confundir, como veremos a continuacin. Podemos ver como en nuestra base de datos con la que trabajbamos anteriormente, la variable SEXO no se ha codificado numricamente sino con letras F y M y etiquetas Femenino y Masculino.
30
As pues, vamos a creer que precisramos cambiar la codificacin a modo numrico, 1 = Hombre y 2 = Mujer. Iremos a TRANSFORMAR/RECODIFICAR en las mismas variables.
Seleccionamos la variable que deseamos recodificar y le indicamos los cambios que queremos.
En la nueva ventana indicaremos los valores antiguos y sus nuevos valores que deseamos. Despus damos a CONTINUAR:
31
Finalmente Pegamos, y ejecutamos en el editor de sintaxis.
Obtendremos los nuevos cambios en la variable, quedndonos pendiente la modificacin de los valores de las etiquetas.
Veremos pues en la vista de datos que salen los valores de las etiquetas al ir a la barra de men y seleccionar VER / ETIQUETA DE
32
VALORES. Tambin puede hacerse directamente mediante un icono de una etiqueta:
IX.
RECODIFICAR EN DISTINTAS VARIABLES
El siguiente tipo de transformacin de una variable consiste en poder obtener una variable nueva a partir de otra, siempre conservando la original. Generalmente ocurre cuando tenemos variables cuantitativas y las queremos convertir a cualitativas de diferentes categoras para hacer diferentes tipos de anlisis segn los objetivos del estudio. Ya hemos indicado que lo preferible es codificar una variable en el formato en que ofrece la mxima informacin, que siempre que sea posible ser cuantitativa. En nuestro caso, vamos a recodificar una variable como el nmero de cigarrillos por otra en la que cataloguemos el tipo de fumador en 4 categoras: No fumador-Fumador Leve- Moderado-Empedernido. Por ello seleccionaremos la variable tab y seguimos idnticos pasos, con TRANSFORMAR / RECODIFICAR / EN DISTINTAS VARIABLES, debiendo indicar cual es la variable de entrada (tab) y la de resultado (en nuestro caso, gradtab). Hay que recordar que hay que pegar las operaciones para conservarlas, y ejecutarlas cada vez que aadamos datos nuevos, para actualizar las recodificaciones. Recordar que los decimales se ponen con la coma (,).
33
Tendremos que indicar que nmero de cigarrillos corresponde a cada rango, prestando atencin a no dejarnos ningn valor sin que lo abarque alguno de los rangos o categoras. Acordamos pues, 0 cig No fumador, 1 a 10 cig Fumador leve,
34
11 a 20 cig F. moderado y 21 en adelante F. empedernido, comenzando ya a codificar desde el 1 para los no fumadores, y luego ponerle la etiqueta y sus valores:
Finalmente damos a CONTINUAR y pegamos lo realizado, as podemos observar las operaciones en el editor de sintaxis, para comprenderlo antes de ejecutarlo. Con ello tambin nos daremos cuenta de los errores que hayamos podido cometer.
As veremos la nueva variable a la que hay que recordar aadirle la etiqueta y sus valores y el formato:
35
Si ahora le damos al icono de valores de etiquetas lo veremos de forma comprensible, y adems, al meter los datos se nos facilita el no tener que recordar los cdigos correspondientes:
Si cada vez que hacemos una operacin la pegamos, al acabar la sesin, tendremos en el editor de sintaxis todo el proceso completo en una sola ventana y un archivo nico, sin confusiones.
Finalmente, llegamos a un punto del manual en el que hemos definido prcticamente todos los tipos de variables que podamos utilizar, as como las transformaciones ms comunes que se suelen utilizar. Para transformaciones ms complejas se recomienda bibliografa ms avanzada1, de la que existe abundante documentacin. De todas las formas, cuando para nuestros objetivos manejamos un programa que no conocemos, ste suele llevar en la mayora de las
36
ocasiones una ayuda, que como en el caso del SPSS, existe y suele ser til si se emplea el tiempo necesario y de forma pausada.
Donde sealemos TEMAS, aparecer la ayuda para buscar por temas. Si sealamos TUTORIAL, aparece un curso interactivo o tutorial sencillo y til cuando se conoce ya bsicamente SPSS. La opcin SYNTAX GUIDE es una gua en ingls de uso de la sintaxis. Finalmente existe un ASESOR ESTADSTICO que nos puede orientar en algunas de las operaciones de anlisis estadstico, interesante abrir de vez en cuando.
En este apartado estamos viendo que estamos introduciendo los datos directamente en SPSS, lo cual a veces no suele ser lo ms cmodo, pues parece mejor introducirlos en un formulario de una base de datos que manejamos bien, como Access, o que nos han prestado para que nos la trabajemos y obtengamos resultados. Al final del manual y una vez duchos en la materia, se explica cmo pasar (importar) bases de datos a SPSS.
37
X. CREACIN DE UNA BASE DE DATOS SPSS A PARTIR DE UN CUESTIONARIO
En numerosas ocasiones, lo que pretendemos con nuestros estudios es aplicar a una muestra seleccionada de pacientes, un cuestionario validado, para despus realizar el anlisis de los datos obtenidos con las distintas variables, que en este caso sern los tems del cuestionario. Hay que tener en cuenta que para obtener una clasificacin de cada paciente en unos grupos u otros segn los resultados de los tems del cuestionario, deberemos crear nuevas variables con las que ya tenemos, de la forma que ya se ha explicado, en otras ocasiones de otras formas y operaciones matemticas que veremos en el siguiente ejemplo, que ser un ejercicio prctico a la vez. Pues bien, vamos a crear una base de datos a partir de un cuestionario para valoracin de la sintomatologa prosttica, el I-PSS:
38
Las 7 primeras Las respuestas
preguntas del test tienen 6 posibles respuestas: 0: Nunca 1: uno de cada 5 2: uno de cada 3 3: uno de cada 2 4: dos de cada 3 5: casi siempre de la pregunta de calidad de vida son 7: 0: Encantado 1: contento 2: ms bien satisfecho 3: indiferente 4: ms bien insatisfecho 5: mal 6: muy mal
La calidad de vida sentida por el paciente se clasificar en aceptable si las respuestas son de la 0 a la 3, y ser de alteraciones en la calidad de vida si las respuestas son de la 4 a la 6. De forma prctica, para evitar repeticiones, crearemos directamente la variable edad y obviaremos los campos identificativos de nombre y apellidos (teniendo en cuenta que deberemos haber recogido como se ha explicado antes, la fecha de nacimiento y calculado la edad por los procedimientos descritos). Por ello, para empezar, crearemos las variables que corresponden a la edad y las 7 preguntas del test y la de la calidad de vida, debiendo quedar de la siguiente manera:
Lgicamente, hay que definir las caractersticas de dichas variables segn las indicaciones previas y lo explicado al inicio del manual de forma que obtendramos unas pantallas tales como las siguientes:
39
Tiene que quedar claro, a partir de este punto, que para obtener el total de puntos de la suma de cada pregunta, primero habr que haberle dado las etiquetas de valor a cada una de las respuestas y asignado dicho valor como se ha visto anteriormente, para luego obtener una nueva variable que ser la suma de dichos valores (var = sumaipss). Iremos a TRANSFORMAR/CALCULAR y realizaremos las operaciones de suma de los valores absolutos de cada una de las preguntas de la forma que se describe a continuacin:
40
Seguidamente pegamos la operacin, como se ha indicado anteriormente, para poder ejecutar la orden conforme se aadan casos y as se actualice la nueva variable:
Y seleccionando y ejecutando obtenemos la nueva variable, a la que habr que ajustarle los decimales, claro est.
As pues, nos quedar, a partir de los puntos totales, clasificar a cada paciente segn los sntomas que padece segn vena en el cuestionario, leves, moderados y graves, siguiendo el modelo descrito en recodificar en diferentes variables:
41
Pegamos la operacin y la ejecutamos, para darle despus los valores a las etiquetas de cada tipo de sntomas:
42
Para finalizar la configuracin de la base de datos, debemos igualmente, como se ha dicho antes, recodificar la variable que recoge la calidad de vida en una de las 2 categoras descritas. Lo realizaremos igualmente con el RECODIFICAR/EN DISTINTAS VARIABLES:
Pondremos las etiquetas correspondientes:
43
Y as tendremos todas las variables para poder empezar a registrar datos para el posterior anlisis.
Finalmente, he aqu como quedara una vez recogidos los datos y ejecutada de nuevo la sintaxis completa que previamente habremos guardado, para evitar repetir cada vez el trabajo.
Con esta base de datos ya podremos realizar anlisis estadsticos, como posteriormente aprenderemos.
44
XI. EJERCICIO PRCTICO AUTOEVALUATIVO Como ejercicio de autoevaluacin, que todo lector de este manual debera autoimponerse para ver su capacidad constructiva, proponemos crear una base de datos a partir de un cuestionario como la escala de Glasgow, aadindole adems como variables la edad en formato correcto, el IMC calculado. Una vez realizada, aadir pacientes ficticios y actualizar las variables recodificadas, viendo que funciona correctamente. Hasta este momento tienes todas las herramientas para poder realizarlo, as que nimo, ser tu primer xito.
XII. ANLISIS DESCRIPTIVO (VARIABLES CUANTITATIVAS) En este apartado vamos ya a comenzar con el anlisis estadstico, propiamente dicho, comenzando por describir cada tipo de variables que hemos aprendido anteriormente a codificar, correspondiente a todos los tipos de variables con los que nos podemos encontrar. Como variable, vamos a describir TAB, que tenamos en la base de datos que reflejbamos en la pgina 20, utilizando las tcnicas adecuadas (calculando medias, modas, cuartiles etc.), y representndolas mediante diagramas de caja o Box-plot.
45
Para describir una variable cuantitativa TAB iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegar un men del que elegiremos la opcin ESTADSTICOS DESCRIPTIVOS, y de ste se desplegar otro men del que elegiremos la opcin FRECUENCIAS:
Se abre entonces un recuadro, en la primera columna estn todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso TAB y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que ser la que el programa estadstico analice, pase a la otra columna.
Abrimos ahora el recuadro ESTADSTICOS, dentro de los VALORES DE PERCENTILES, sealaremos los CUARTILES y PERCENTILES, y dentro de stos escribiremos: 25 y daremos a AADIR, 50 y AADIR, 75 y AADIR.
46
Dentro de TENDENCIA CENTRAL seleccionaremos MEDIA, MEDIANA Y MODA. Dentro de DISPERSION, seleccionaremos DESVIACION TPICA, VARIANZA, AMPLITUD, MNIMO, y MXIMO. Dentro de distribucin marcaremos ASIMETRA y CURTOSIS. Cuando terminemos de hacer la seleccin damos a CONTINUAR.
Abrimos ahora el recuadro GRFICOS, en TIPO DE GRFICA, seleccionamos ninguno en este caso porque nosotros representaremos la variable cuantitativa con un Box-plot que explicaremos ms adelante, en caso de querer realizar alguna grfica, marcaramos aqu la opcin deseada, y despus damos a CONTINUAR.
Abrimos ahora el recuadro FORMATO, en ORDENAR POR seleccionaremos VALORES ASCENDENTES y en MLTIPLES VARIABLES la opcin COMPARAR VARIABLES, y damos a CONTINUAR.
47
Si ya tenemos toda la seleccin damos a PEGAR, con esta opcin, en lugar de ACEPTAR, lo que le estamos pidiendo es no slo que realice las rdenes, sino que adems las pegue en una carpeta, con lo que en caso de error o de que queramos repetir el anlisis, tendremos las rdenes guardadas, podemos volver a ejecutarlas, sin necesidad de repetir todo el proceso anterior lo que ahorrara mucho tiempo. Una vez seleccionada la orden pegar vemos que aparece directamente una pantalla con el nombre de SINTAXIS1, donde estn escritas todas las rdenes, que ejecutaremos como ya hemos descrito anteriormente:
Aparecer lo que hemos solicitado en una buena ventana de resultados, RESULTADOS1, donde aparece analizada la variable TAB:
48
Como ya sabemos, para toda distribucin de valores que queramos analizar, sta debera seguir una distribucin de tipo Normal, si queremos obtener unos resultados homogneos y representativos de la realidad, dado que si no tendremos que utilizar anlisis estadsticos mucho ms complicados. Generalmente damos como normal cualquiera que contenga ms de 30 casos, aunque esto es algo criticable como nico criterio. En el caso de la descripcin de una variable cuantitativa, si sta cumple los criterios de normalidad, la podremos describir con la media y la desviacin tpica. Caso de no cumplirlos, lo haremos con la mediana y el IQR (percentil 75 percentil 25). No obstante, en una variable cuantitativa le exigiremos para ser normal que cumpla los criterios de Asimetra y Curtosis. En la tabla de los resultados, 1 nos fijamos en la asimetra y su error y luego en la curtosis y su error. Error de asimetra=0,564; el intervalo de confianza lo (-1,128 a +1,128). Ahora vemos el coeficiente de multiplicamos por +2 asimetra que es 1,023; Como queda dentro del intervalo, s que cumple el criterio de asimetra. Error de curtosis= 1,091; el intervalo de confianza lo multiplicamos por +2 (-2,182 a +2,182). Ahora vemos el coeficiente de curtosis que es 0,714; Como queda dentro del intervalo, s que cumple el criterio de curtosis. Podremos observar de igual forma un descriptivo del nmero absoluto de veces que se repite cada evento:
49
Ahora vamos a realizar ahora la representacin grfica de la variable cuantitativa TAB mediante un BOX-PLOT, para ello vamos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegar un men del que elegiremos la opcin ESTADSTICOS DESCRIPTIVOS, y de ste se desplegar otro men del que elegiremos la opcin EXPLORAR.
Se abre entonces un recuadro, en la primera columna estn todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso NCIG y damos a la flecha que separa esta columna de la columna DEPENDIENTES otro clic para que la variable seleccionada, que ser la que el programa estadstico analice, pase a la columna denominada DEPENDIENTES.
Dentro de MOSTRAR seleccionamos con un clic GRFICOS. Vamos ahora al recuadro GRAFICOS, en DIAGRAMAS DE CAJAS, seleccionamos NIVELES DE FACTORES JUNTOS, en DESCRIPTIVOS, seleccionamos TALLO Y HOJAS. Damos a CONTINUAR.
50
Una vez seleccionado todo daremos a PEGAR. Se abre entonces de forma automtica la ventana de SINTAXIS1, donde se han pegado las nuevas rdenes a continuacin de las que ya tenamos. Se seleccionan nicamente las nuevas instrucciones y las ejecutamos.
Y en la pantalla RESULTADO1, veremos el grfico de tallo y hojas:
Y en el DIAGRAMA DE CAJA, tendremos el BOX-PLOT:
51
La lnea ms gruesa representa la mediana. Los lmites superior e inferior de la caja corresponden al percentil 75 y 25 respectivamente. Por ello la caja es la representacin grfica del IQR (intervalo intercuartil, que se calcula restando al percentil 75, el percentil 25). Las patas que salen de la caja hacia arriba y hacia abajo son la representacin de los valores mximo y mnimo respectivamente. Los valores que estn dibujados de forma aislada son valores extremos.
XIII.
ANLISIS DESCRIPTIVO (VARIABLES CUALITATIVAS)
Para describir la variable cualitativa SEXO iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegar un men del que elegiremos la opcin ESTADSTICOS DESCRIPTIVOS, y de ste se desplegar otro men del que elegiremos la opcin FRECUENCIAS, al igual que hicimos antes, salvo que elegiremos opciones diferentes correspondientes al nuevo tipo de variable. Se abre entonces un recuadro, en la primera columna estn todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso SEXO y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que ser la que el programa estadstico analice, pase a la otra columna.
Abrimos ahora el recuadro ESTADSTICOS, dentro de los VALORES DE PERCENTILES, no sealaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada.
52
Dentro de distribucin no marcaremos nada Cuando terminemos de hacer la seleccin damos a CONTINUAR.
Abrimos ahora el recuadro GRFICOS, en TIPO DE GRFICA, seleccionamos GRFICOS DE BARRAS en este caso y despus damos a CONTINUAR.
Si ya tenemos toda la seleccin damos a PEGAR, y en la ventana de sintaxis ejecutamos la orden:
53
Y aparecer la pantalla RESULTADOS1, donde aparece analizada la variable SEXO:
Y en el GRFICO DE BARRAS, tendremos el DIAGRAMA DE BARRAS:
54
XIV.
ANLISIS DESCRIPTIVO (VARIABLES ORDINALES)
Como ya se ha comentado desde el principio de este manual, siempre que sea posible, las variables se deben recoger de forma cuantitativa, aunque las necesitemos posteriormente con otras caractersticas, pues una variable cuantitativa siempre puede transformarse en una cualitativa ordinal. No obstante, cuando se valoran determinadas variables, stas siempre se recogen de forma ordinal, como los grados de dolor, por ejemplo. En el desarrollo de cmo vamos a describir una variable ordinal, vamos a utilizar una base de datos como la siguiente:
De ella vamos a elegir la variable ordinal CARDIOVASCULAR (riesgocv), que se compone de los valores: 1: Bajo; 2: Leve; 3: Moderado; 4: Alto
RIESGO
55
Para describir la variable ordinal RIESGOCV iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegar un men del que elegiremos la opcin ESTADSTICOS DESCRIPTIVOS, y de ste se desplegar otro men del que elegiremos la opcin FRECUENCIAS. Se abre entonces un recuadro, en la primera columna estn todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso RIESGOCV y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que ser la que el programa estadstico analice, pase a la otra columna.
Abrimos ahora el recuadro ESTADSTICOS, dentro de los VALORES DE PERCENTILES, no sealaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada. Dentro de distribucin no marcaremos nada. Cuando terminemos de hacer la seleccin damos a CONTINUAR.
Abrimos ahora el recuadro GRFICOS, en TIPO DE GRFICA, seleccionamos ninguno en este caso porque nosotros representaremos la
56
variable ordinal con un diagrama de lneas y despus damos a CONTINUAR.
Si ya tenemos toda la seleccin damos a PEGAR. Una vez ejecutada la orden pegar aparecen en la SINTAXIS1, las rdenes nuevas, que seleccionaremos y ejecutamos:
Aparecer la ventana de resultados donde vemos analizada la variable de inters:
57
Vamos ahora a GRFICOS en la parte superior de la pantalla y hacemos un clic, se desplegar un men del que elegiremos la opcin LNEAS:
Dentro del recuadro GRFICOS DE LNEAS seleccionamos la opcin SIMPLE, y marcamos en LOS DATOS DEL GRFICO SON: RESMENES PARA GRUPOS DE CASOS.
58
Damos al recuadro DEFINIR y seleccionamos en primer lugar el nombre de la variable que queremos representar en la grfica, en nuestro caso RIESGOCV, una vez marcada damos a la flecha que introducir el nombre de la variable, en el recuadro del EJE DE CATEGORAS. En el apartado LA LNEA REPRESENTA marcaremos la opcin N DE CASOS.
Si ya tenemos toda la seleccin damos a PEGAR.
Una vez ejecutada la orden PEGAR vemos que aparece directamente una pantalla con el nombre de SINTAXIS1, donde estn escritas las nuevas rdenes, que seleccionaremos y ejecutaremos. Y en GRFICO, tendremos el DIAGRAMA DE LNEAS:
59
XV.
COMPARACIN DE VARIABLES
Cuando a lo largo de un estudio llegamos al momento de intentar relacionar unas variables con otras para ver si se cumple o no la hiptesis alternativa propuesta o la nula de partida, nos encontramos en la disyuntiva de decidir que prueba estadstica debemos elegir para un correcto anlisis estadstico. Para ello podemos utilizar una tabla a modo resumen que nos indica la prueba estadstica segn las caractersticas de las variables que queremos relacionar, cuando se cumplan condiciones de normalidad: Variable X (independiente) Variable Y (dependien te)
Categrica C=2 Categrica 2 C=2 Categrica 2 c>2 Cuantitativa T de Student
Categrica c>2
2 2 Anova
Cuantitativa
Regresin logstica Regresin simple
Con este esquema, fcilmente podemos saber la prueba estadstica que debemos aplicar. Hay que tener en cuenta, no obstante, que hay que diferenciar cual va a ser la variable independiente y cual la dependiente, pues el sentido en el que se quiere analizar la relacin entre ambas determina el tipo de anlisis. Cuando no se cumplan las condiciones de normalidad, entonces: Variable X (independiente) Variable Y (dependien te)
Categrica C=2
Categrica c>2
Cuantitativa
Categrica Test Exacto de Asociacin lineal por lineal C=2 Fisher Regresin lineal Asociacin Paramtrica Categrica Asociacin por lineal lineal por lineal c>2 Cuantitativa U de Mann Test Kuskrall Correlacin
Whitney Wallis Spearman
no
de
60
XVI.
TABLAS DE CONTINGENCIA, COMPARACIN DE 2 PROPORCIONES: PRUEBA DE X2
Cuando queremos saber si existe relacin o no entre 2 variables cualitativas, siempre tendremos que utilizar la prueba de 2 (Chi2), independientemente de cual de ellas sea la variable independiente. No obstante, habr que clarificar cual de ellas es la independiente, para darle un sentido a la relacin que queremos analizar, y seleccionar en SPSS el comando correspondiente. Utilizaremos la base de datos anterior, referida a factores de riesgo cardiovascular, en la que queremos saber si existe una relacin entre el sexo del fumador y el ser fumador. Para saber si existe o no relacin entre estas dos variables y que tipo de relacin tienen, sabemos que la variable SEXO es cualitativa, con dos categoras (hombre, mujer), y, en nuestro caso sera la variable independiente, y que la variable HTA es cualitativa con dos categoras (si, no), y que sera la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categoras (SEXO), con una variable Y dependiente, cualitativa, con dos categoras (HTA), utilizaremos pues la prueba de 2. Hay que tener en cuenta que todas las pruebas estadsticas tienen unas condiciones de aplicacin de las mismas, al igual, por ejemplo, que asumamos normalidad cuando la muestra era mayor de 30 casos. En el caso de la 2, las condiciones o criterios de aplicacin van a ser: N > 20 Menos del 20% con celdas con valor esperado <5 Si N>40, slo se acepta 1 celda con valor esperado <1 Conviene recordar que con 2 se intenta estudiar la independencia de 2 variables con varias categoras. Si se acepta la hiptesis nula, que es como obtener una p>0,05, se acepta la independencia, no se encuentra relacin en esas variables. Si por el contrario, p<0,05, entonces se aceptar la hiptesis alternativa, se rechaza la hiptesis de independencia y se concluye que las 2 variables estn relacionadas.
61
Este manual no tiene por objeto dar una amplia explicacin terica de los conceptos de cada prueba estadstica, por lo que se recomienda encarecidamente que se repase en otro manual dichos conceptos para el mejor entendimiento de los anlisis. Cuando no se cumplen los criterios de aplicacin de la prueba, hay que utilizar otra prueba estadstica, como ser el Test exacto de Fischer o la Asociacin lineal por lineal. Para ver como se aplica la prueba 2, vamos ahora a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegar un men del que elegiremos la opcin ESTADSTICOS DESCRIPTIVOS, y dentro de ste la opcin TABLAS DE CONTINGENCIA:
Podremos observar una nueva ventana similar a las vistas hasta ahora, pero con varios cuadros internos. En las Filas se colocar a variable a estudiar, la dependiente segn nuestra hiptesis alternativa, y en las Columnas la variable independiente.
62
En la opcin de Estadsticos podremos observar toda una gran variedad de ellos desconocidos para nosotros la mayora, por lo que seleccionaremos la Chi cuadrado y los riesgos; del resto podemos encontrar una breve definicin y finalidad en el Glosario final del libro.
En la opcin casillas seleccionamos todas las opciones posibles, esperadas, observadas, fila, columna y total: 1. Frecuencias: *Observadas: Nmero de casos resultantes de la clasificacin *Esperadas: Nmero de casos que debera haber en cada casilla si las variables utilizadas fueran independientes 2. Porcentajes: *Fila: % de la frecuencia observada frente al total de fila *Columna: % de la frecuencia observada frente al total de columna *Total: % de la frecuencia observada frente al n total de casos
63
Una vez sealadas las opciones damos a PEGAR. Una vez ejecutada la orden PEGAR vemos que aparece directamente la pantalla de SINTAXIS1, donde estn escritas las rdenes, las seleccionamos y ejecutamos:
Y la pantalla RESULTADO1, donde aparecen los resultados del anlisis de las dos variables, HTA y SEXO:
Claramente podemos observar que se cumplen los 3 criterios de aplicabilidad de la prueba N>20 y >40, y no hay un 20% de frecuencias esperadas <5. Por todo ello, podremos pasar al cuadro inferior donde vienen descritos los estadsticos correspondientes, eligiendo entonces los correspondientes a la Chi cuadrado.
64
Los grados de libertad estn calculados multiplicando el nmero de columnas menos 1 por el nmero de filas menos 1 de la tabla de contingencia (categoras de las variables SEXO(2-1)xHTA(2-1)=1. Obtenemos finalmente una p= 0,003, estadsticamente significativa, por lo que se acepta la hiptesis alternativa, negndose la independencia de las variables, y aceptndose su relacin. Concluiremos que existe relacin entre el SEXO y la HTA. A continuacin observaremos el cuadro resultante de los riesgos:
Estimacin de riesgo Intervalo de confianza al 95% Inferior Superior ,132 ,313 1,143 ,667 ,788 2,445
Valor Razn de las ventajas para HTA (si / no) Para la cohorte sexo = hombre Para la cohorte sexo = mujer N de casos vlidos ,297 ,496 1,672 109
65
Hay que tener en cuenta antes del anlisis, el tipo de estudio en el que nos encontraramos, antes de decidir el riesgo a estudiar, dado que la primera lnea se refiere a la OR (Odds Ratio) (Estudios caso-control) y las otras al RR (Riesgo Relativo) (Estudios cohortes). En este caso sera un estudio de cohortes, al elegir una cohorte de hombres y otra de mujeres para estudiar la aparicin de HTA. No es posible hacerlo como caso-control, seleccionando casos de ambos sexos y estudiando si la HTA ha influido en ello (es factible?). La segunda y terceras filas ofrecen dos ndices de riesgo para un diseo de cohortes (evaluaremos el encontrarnos en cualquier categora de la variable). Si lo que interesa encontrar es la presencia de HTA, la probabilidad de encontrar el desenlace entre los hombre es 1/0,496 veces menor, que la de encontrarlo entre los mujer. La probabilidad de encontrar el desenlace entre las mujer es 1,672 veces mayor, que la de encontrarlo entre los mujer. Para continuar con los ejemplos aclaratorios, elegimos estudiar la relacin entre otras dos variables como DIABETES (dm) y HTA:
66
En este caso elegimos estudiar si la DIABETES est relacionada con padecer HTA, que ser la variable independiente. Realizando los mismos pasos obtenemos:
Tabla de contingencia diabetes * HTA HTA si diabetes si no Total Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada 10 12,9 57 54,1 67 67,0 no 11 8,1 31 33,9 42 42,0 Total 21 21,0 88 88,0 109 109,0
Observamos que se cumplen las condiciones de aplicabilidad de la prueba, por lo que analizaremos la Chi cuadrado directamente:
Pruebas de chi-cuadrado Sig. asinttica (bilateral) ,147 ,229 ,151 ,212 2,087 109 1 ,149 ,115 Sig. exacta (bilateral) Sig. exacta (unilateral)
Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitud Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos
Valor 2,106b 1,444 2,060
gl 1 1 1
a. Calculado slo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 8,09.
Obtenemos una significacin p=0,147, que no es estadsticamente significativa, por lo que no aceptaremos que son variables independientes y se acepta la hiptesis nula de que no estn relacionadas. La tabla del riesgo ser entonces innecesario analizarla.
67
XVII. COMPARACIN DE DOS MEDIAS: T DE STUDENT-FISHER Cuando lo que queremos es comparar la media de 2 grupos diferentes, la prueba que debemos elegir ser siempre la T de StudentFischer. Queremos saber si existe una relacin entre el IMC y el sexo de los pacientes de una muestra seleccionada de la poblacin. Para saber si existe o no relacin entre estas dos variables y que tipo de relacin tienen, sabemos que la variable SEXO es cualitativa, con dos categoras (HOMBRE, MUJER), y, en nuestro caso sera la variable independiente, y que la variable IMC es cuantitativa, y que sera la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categoras (SEXO), con una variable Y dependiente, cuantitativa, (IMC) utilizaremos la prueba de T de Student-Fisher. El paso previo para la aplicacin de la prueba es comprobar que cumple las condiciones de aplicacin de la prueba, que en sta sern: A/ Normalidad B/ Homogeneidad de varianzas Para poder realizar dichos anlisis, es conveniente describir la variable cuantitativa estratificada por las 2 categoras de la variable cualitativa, utilizando para ello el mtodo de EXPLORAR, y solicitando ciertas pruebas de normalidad por si acaso nos hicieran falta a posteriori para demostrar sta. Seguiremos la DESCRIPTIVOS/ANALIZAR: ruta ANALIZAR/ESTADISTICOS
68
Despus, en la opcin grficos seleccionamos GRAFICOS CON PRUEBAS DE NORMALIDAD y seguimos los procesos habituales:
Obtendremos los estadsticos descriptivos que nos servirn para verificar los criterios de normalidad:
Descriptivos Indice Masa Corporal Sexo Mujer Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Estadstico 25,256 21,579 28,934 24,810 21,092 47,632 6,9016 20 38 18,0 11,6 1,171 -,354 30,123 24,259 35,988 29,478 23,914 121,121 11,0055 21 51 29,1 19,2 ,899 -,752 Error tp. 1,7254
Lmite inferior Lmite superior
Hombre
,564 1,091 2,7514
Lmite inferior Lmite superior
,564 1,091
69
Explicamos a continuacin, los criterios que debe cumplir de normalidad: A/ Normalidad: n1 y n2 > 30 Si no se cumple la condicin, habr que comprobar que se cumplen los siguientes 3 requisitos siguientes en cada uno de los grupos, n1 y n2: A1.- Comprobar que el mximo y el mnimo quedan dentro del intervalo definido por media + 3 Desviaciones estndar A2.- |Asimetra| < 2xEEAsimetra A3.- |Curtosis| < 2xEECurtosis Si no se cumplieran las 3 condiciones, entonces no podramos confirmar la normalidad, por lo que deberamos recurrir a comprobarla con el test de Kolmogorov-Smirnov o el de Saphiro-Wilks. Curiosamente, al describir la variable cuantitativa, le hemos solicitado los grficos con pruebas de normalidad, que encontraremos en la ventana de resultados:
Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. ,344 16 ,000 ,278 16 ,002
a
Indice Masa Corporal
Sexo Mujer Hombre
Estadstico ,708 ,773
Shapiro-Wilk gl 16 16
Sig. ,000 ,001
a. Correccin de la significacin de Lilliefors
Para que se acepte la normalidad, hay que recordar, que las pruebas no deben ser significativas, es decir, no deben mostrar diferencias, pues si la significacin es adecuada (p<0,05), no podr aceptarse la normalidad, tal y como ocurre en nuestro ejemplo, y entonces, nos veremos abocados directamente a realizar una Prueba No Paramtrica, la U de Mann-Whitney, y no utilizando la T-Student. Ya no sera necesario realizar la homogeneidad de varianzas, que por otro lado, nos viene dada al ejecutar la T-Student.
70
Los pasos que hay que realizar para la prueba de U de MannWhitney son seguir la ruta ANALIZAR/PRUEBAS NO PARAMETRICAS/2 MUESTRAS INDEPENDIENTES:
Con los resultados, podremos interpretar que las diferencias entre las medias de ambos grupos no se deben al azar, que aceptaremos la hiptesis alternativa de que existen diferencias en el IMC segn el sexo, con una p<0,05 (0,10). Si por motivos docentes considerramos que los pasos anteriores han demostrado que se cumplen los criterios de normalidad, entonces deberemos aplicar la prueba de T-Student, que nos facilitar el estadstico de Levene sobre Homogeneidad de varianzas, para poder as interpretar la T-Student de manera correcta. La ruta ser ANALIZAR/COMPARAR MEDIAS/PRUEBA T PARA MUESTRAS INDEPENDIENTES:
71
Antes De interpretar la T-Student, veremos si se cumple la homogeneidad de varianzas, mediante el estadstico de Levene y su significacin. Si es menor de 0,05 se asumirn que existen diferencias y se elegir para analizar la fila que corresponda a esta situacin. En este caso, no se pueden asumir varianzas iguales, por lo que la significacin de Student ser 0,146, que nos indica que hay que aceptar la hiptesis nula de que no existen diferencias en el IMC en las diferentes categoras del sexo. (Recordar que esta suposicin de cumplir normalidad era para explicarlo de forma didctica).
XVIII. COMPARACIN DE X MEDIAS: ANLISIS DE LA VARIANCIA El Anlisis de la varianza (ANOVA) de un factor, sirve para comparar una variable cuantitativa en varios grupos o categoras, por lo que se puede entender como una generalizacin de la T-Student.
72
La variable cualitativa categrica ser la independiente, mientras la cuantitativa ser la dependiente. En este caso vamos a utilizar la Encuesta General USA 1991, para relacionar las variables Nmero de hijos con la variable RAZA (3 categoras = blanca, negra y otras). Seguiremos los pasos ANALIZAR COMPARAR MEDIAS ANOVA DE UN FACTOR, seleccionando como variable dependiente el nmero de hijos e independiente la raza:
En la ventana, nos iremos a OPCIONES Estadsticos descriptivos y homogeneidad de varianzas:
seleccionamos
Una vez sealadas las opciones damos a PEGAR. Vemos que aparece directamente la pantalla de SINTAXIS1, donde estn escritas las rdenes, las seleccionamos y ejecutamos:
73
Obtendremos los descriptivos que hemos solicitado para la variable cuantitativa global y por categoras de raza.
Descriptivos Nmero de hijos Intervalo de confianza para la media al 95% Lmite Lmite inferior superior 1,74 1,92 1,99 2,55 1,63 2,78 1,81 1,99
Blanca Negra Otra Total
N 1259 201 49 1509
Media 1,83 2,27 2,20 1,90
Desviacin tpica 1,707 2,005 1,989 1,765
Error tpico ,048 ,141 ,284 ,045
Mnimo 0 0 0 0
Mximo 8 8 8 8
Antes de proseguir analizando los resultados, debemos en primer lugar comprobar que se cumplen las condiciones de aplicacin de la prueba: 1.- Normalidad: En muestras grandes se va a dar por normalidad, aunque si somos estrictos, deberemos comprobarlo. Para ello, le solicitaremos al SPSS que realice dichas pruebas, que sern la de Kolmogorov-Smirnov y la de Shapiro-Wilk, siguiendo los pasos en ANALIZAR EXPLORAR GRAFICOS PRUEBAS DE NORMALIDAD
Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl ,166 1259 ,196 201 ,174 49
a
Nmero de hijos
Raza del encuestado Blanca Negra Otra
Sig. ,000 ,000 ,001
Estadstico ,878 ,887 ,895
Shapiro-Wilk gl 1259 201 49
Sig. ,000 ,000 ,000
Detectamos que las diferencias son significativas, por lo que no podemos admitir normalidad. Si realmente quisiramos ser totalmente estrictos para llegar a comprobar la normalidad, se debera aplicar dichas pruebas a una nueva variable que creramos, construida con los valores residuales.
74
2.- Homogeneidad de varianzas: Nos la va a detectar el estadstico de Levene, que nos viene dado con la solicitud de la ANOVA en el momento anterior:
Prueba de homogeneidad de varianzas Nmero de hijos Estadstico de Levene 4,551 gl1 2 gl2 1506 Sig. ,011
En este caso, dar diferencias significativas, por lo que no podemos asumir homogeneidad de varianzas. Si se da el caso de NO cumplir cualquiera de las condiciones anteriores, no podemos analizar nuestros datos con la prueba paramtrica ANOVA, y deberemos usar la Prueba NO Paramtrica de KruskallWallis. Debemos recordar que las desventajas de las pruebas no paramtricas, como el caso del Kruskall-Wallis, son que tienen menor potencia y sensibilidad para detectar diferencias entre los grupos, y que no permite construir intervalos de confianza.
La prueba la encontraremos en ANALIZAR/PRUEBAS NO PARAMETRICAS/K MUESTRAS INDEPENDIENTES, donde introduciremos las variables como anteriormente:
Habremos seleccionado la prueba que queramos y definimos los grupos indicando el mnimo y el mximo de categoras:
75
Finalmente aceptamos y obtendremos una tabla con los tamaos de la muestra y otra, presentando el estadstico H, que SPSS llama Chicuadrado, con los grados de libertad y la significacin:
a,b Estadsticos de contraste
Chi-cuadrado gl Sig. asintt.
Nmero de hijos 8,078 2 ,018
a. Prueba de Kruskal-Wallis b. Variable de agrupacin: Raza del encuestado
Observaremos que la significacin es menor de 0,05, por lo que las diferencias entre ambos grupos existen, aceptando la hiptesis alternativa. Aunque la ANOVA no ha podido ser aplicada en este caso, vemos que la significacin que da la No paramtrica es menor y no da el intervalo de confianza. Si intentamos ver si existen diferencias entre el nmero de hijos segn la categora ocupacional, nos encontraremos con los siguientes resultados:
76
Descriptivos Nmero de hijos Intervalo de confianza para la media al 95% Lmite Lmite inferior superior 1,45 1,53 2,01 1,03 1,76 1,89 1,77 1,80 1,81 2,51 2,20 2,31 2,39 1,95
N Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Servicios Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Total 339 456 204 36 162 217 1414
Media 1,63 1,67 2,26 1,61 2,04 2,14 1,86
Desviacin tpica 1,642 1,509 1,818 1,728 1,786 1,854 1,698
Error tpico ,089 ,071 ,127 ,288 ,140 ,126 ,045
Mnimo 0 0 0 0 0 0 0
Mximo 8 8 8 7 8 8 8
Prueba de homogeneidad de varianzas Nmero de hijos Estadstico de Levene 2,066 gl1 5 gl2 1408 Sig. ,067
ANOVA Nmero de hijos Suma de cuadrados 92,213 3980,215 4072,428 gl 5 1408 1413 Media cuadrtica 18,443 2,827 F 6,524 Sig. ,000
Inter-grupos Intra-grupos Total
Podemos ver que segn el estadstico de Levene, al no ser estadsticamente significativo, podemos aceptar la homogeneidad de varianzas y utilizar la Prueba paramtrica ANOVA, encontrando una significacin prxima a 0, lo cual indica que existen diferencias entre las medias de los hijos segn la categora ocupacional. Si deseamos saber cuales son los grupos que tienen diferencias entre s, podramos utilizar las Comparaciones a posteriori (POST HOC) o comparaciones mltiples, que utilizan diferentes mtodos, siendo los ms habituales los de Bonferroni y los de Scheff. En la ventana que se abra en la ANOVA de un factor, seleccionamos POS HOC y dentro las pruebas indicadas antes:
77
78
Comparaciones mltiples Variable dependiente: Nmero de hijos Intervalo de confianza al 95% Lmite superior -,45 -1,13 -,97 -,95 -1,00 -,36 -1,06 -,91 -,88 -,93 ,14 ,12 -,36 -,37 -,43 -1,00 -1,03 -1,66 -1,46 -1,54 -,12 -,15 -,81 -,61 -,69 ,03 ,01 -,66 -,48 -,48 -,40 -1,07 -,85 -,88 -,95 -,31 -1,01 -,80 -,82 -,88 ,20 ,17 -,24 -,30 -,37 -,88 -,92 -1,54 -1,34 -1,42 -,06 -,09 -,74 -,48 -,62 ,09 ,36 -,14 1,00 ,12 -,03 ,45 -,12 1,03 ,15 -,01 1,13 1,06 1,66 ,81 ,66 ,97 ,91 ,36 ,61 ,48 ,95 ,88 ,37 1,46 ,48 1,00 ,93 ,43 1,54 ,69 ,31 -,20 ,88 ,06 -,09 ,40 -,17 ,92 ,09 -,06 1,07 1,01 1,54 ,74 ,60 ,85 ,80 ,24 ,48 ,36 ,88 ,82 ,30 1,34 ,41 ,95
Scheff
(I) Categora ocupacional Direcctivo o profesional liberal
Empleado tcnico, administrativo o comercial
Servicios
Agricultura, forestal y pesca
(J) Categora ocupacional Empleado tcnico, administrativo o comercial Servicios Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Servicios Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Servicios Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Servicios Agricultura, forestal y pesca Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Servicios Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Empleado tcnico, administrativo o comercial Servicios Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Servicios Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Agricultura, forestal y pesca Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Servicios Produccin de precisin, manufactura o reparacin Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal Empleado tcnico, administrativo o comercial Servicios Agricultura, forestal y pesca Operario, fabricacin y mano de obra en general Direcctivo o profesional liberal
Diferencia de medias (I-J) -,05 -,63* ,01 -,41 -,52* ,05 -,59* ,06 -,37 -,47* ,63* ,59* ,65 ,22 ,12 -,01 -,06 -,65 -,43 -,53 ,41 ,37 -,22 ,43 -,11 ,52* ,47* -,12 ,53 ,11 -,05 -,63* ,01 -,41 -,52* ,05 -,59* ,06 -,37 -,47* ,63* ,59* ,65 ,22 ,12 -,01 -,06 -,65 -,43 -,53 ,41 ,37 -,22 ,43 -,11 ,52*
Error tpico ,121 ,149 ,295 ,161 ,146 ,121 ,142 ,291 ,154 ,139 ,149 ,142 ,304 ,177 ,164 ,295 ,291 ,304 ,310 ,303 ,161 ,154 ,177 ,310 ,175 ,146 ,139 ,164 ,303 ,175 ,121 ,149 ,295 ,161 ,146 ,121 ,142 ,291 ,154 ,139 ,149 ,142 ,304 ,177 ,164 ,295 ,291 ,304 ,310 ,303 ,161 ,154 ,177 ,310 ,175 ,146
Sig. 1,000 ,003 1,000 ,255 ,029 1,000 ,004 1,000 ,341 ,042 ,003 ,004 ,473 ,903 ,992 1,000 1,000 ,473 ,864 ,686 ,255 ,341 ,903 ,864 ,996 ,029 ,042 ,992 ,686 ,996 1,000 ,000 1,000 ,157 ,006 1,000 ,001 1,000 ,262 ,010 ,000 ,001 ,495 1,000 1,000 1,000 1,000 ,495 1,000 1,000 ,157 ,262 1,000 1,000 1,000 ,006
Lmite inferior
Produccin de precisin, manufactura o reparacin
Operario, fabricacin y mano de obra en general
Bonferroni
Direcctivo o profesional liberal
Empleado tcnico, administrativo o comercial
Servicios
Agricultura, forestal y pesca
Produccin de precisin, manufactura o reparacin
Operario, fabricacin y mano de obra en general
Observaremos que compara las diferentes categoras, con la significacin estadstica y la diferencia de las medias entre ambos grupos.
79
XIX. REGRESIN LINEAL SIMPLE Se trata de una tcnica estadstica que analiza la relacin entre 2 variables de tipo cuantitativo, tratando de verificar si dicha relacin es lineal. Siempre habr una variable de respuesta o posible efecto y una variable predictora o posible causa, siendo la dependiente e independiente, respectivamente. El primer paso debe ser siempre pedir a SPSS un grfico de dispersin para apreciar visualmente si se puede asumir un modelo lineal entre ambas variables. Se ajustar una regresin cuando la nube de puntos nos sugiera que existe una relacin lineal. Una nube de puntos puede sugerir que no existe ninguna relacin. Si no existe relacin, la pendiente de la curva de regresin b ser igual a 0. Seleccionaremos una base de datos con datos de supervivencia Supervivencia cncer de pecho, para ver la relacin entre el tiempo de supervivencia y el tamao del cncer. Para ver el grfico seguimos GRAFICOS DISPERSION SIMPLE:
En la seleccin de variables, la primera fila corresponde a la dependiente que ser el tiempo de supervivencia y en la segunda la independiente, que ser el tamao del tumor:
80
Pegamos y ejecutamos, obteniendo el siguiente diagrama de dispersin:

140 120
100
80
60
Tiempo (meses)
40
20 0 0 1 2 3 4 5 6 7 8
Tamao del tumor patolgico (cm)
Podemos observar levemente como la mayor parte de los casos de mayor supervivencia se sitan al tamao menor del tumor, pero no apreciamos con claridad la tendencia. Para ello haremos doble clic sobre el grfico, con lo que se abrir el editor de grficos:
81
Iremos entonces a la opcin OPCIONES AJUSTAR LINEA TOTAL:
DISEO,
seleccionaremos
Tras aceptar veremos la recta de regresin con la tendencia que sigue algo ms clara que con anterioridad:
140
120
100
80
60
Tiempo (meses)
40
20 0 0 1 2 3 4 5 6 7 8
Tamao del tumor patolgico (cm)
Una vez que se ha visto que la nube es aproximadamente lineal, aplicamos el modelo de regresin lineal, seleccionando ANALIZAR REGRESION LINEAL e introduciendo las variables como anteriormente, primero la dependiente y luego la independiente:
82
En la opcin ESTADSTICOS elegiremos Ajuste del modelo, Intervalos de confianza y Estimaciones:
En la opcin GUARDAR seleccionamos Residuos
NO tipificados:
83
Y finalmente, en la opcin GRAFICOS, seleccionamos tal como indica la siguiente imagen:
Y aceptamos todo, pasando a continuacin a la ventana de resultados generada, donde vemos en primer lugar un cuadro que nos recuerda lo que hemos hecho:
b Variables introducidas/eliminadas
Modelo 1
Variables introducidas Tamao del tumor patolgico a (cm)
Variables eliminadas ,
Mtodo Introducir
a. Todas las variables solicitadas introducidas b. Variable dependiente: Tiempo (meses)
Luego viene un resumen del modelo donde aparece el Coeficiente de Correlacin de Pearson, pero en valor absoluto, correspondindole el mismo signo que la pendiente de la curva b observable en un cuadro inferior:
b Resumen del modelo
Modelo 1
R R cuadrado ,081a ,007
R cuadrado corregida ,006
Error tp. de la estimacin 29,23200
a. Variables predictoras: (Constante), Tamao del tumor patolgico (cm) b. Variable dependiente: Tiempo (meses)
Como la b es negativa (-2,376), el coeficiente indica una correlacin claramente negativa (-0,801).
84
El siguiente cuadro que observamos nos lo indica como una ANOVA, que llama medias cuadrticas a las varianzas:
ANOVAb Modelo 1 Suma de cuadrados 6268,575 956196,439 962465,015 gl 1 1119 1120 Media cuadrtica 6268,575 854,510 F 7,336 Sig. ,007a
Regresin Residual Total
a. Variables predictoras: (Constante), Tamao del tumor patolgico (cm) b. Variable dependiente: Tiempo (meses)
Al detectarse en el estadstico F significacin estadstica (p=0,007), se rechaza la hiptesis nula de que la pendiente sea 0. Podremos afirmar que existe una relacin estadsticamente significativa entre ambas variables, que vendr claramente definida en el siguiente cuadro que expresa la curva de regresin:
Coeficientesa Coeficientes estandarizad os Beta -,081 t 28,805 -2,708 Sig. ,000 ,007
Coeficientes no estandarizados Modelo 1 B 50,503 -2,376 Error tp. 1,753 ,877
(Constante) Tamao del tumor patolgico (cm)
Intervalo de confianza para B al 95% Lmite superior Lmite inferior 47,063 53,943 -4,097 -,655
a. Variable dependiente: Tiempo (meses)
La ecuacin generada sera: y=a+bx y=50,503-2,376x Supervivencia =50,503 2,376*Tamao del tumor Se obtiene una significacin importante (p=0,007), y adems, el intervalo de confianza no engloba el 0, (-4,097 a -0,655), lo cual refuerza las diferencias estadsticamente significativas. Tendramos entonces, que por cada centmetro que aumenta el tamao del tumor, disminuye su supervivencia media (50,5meses) en 2,38 meses. Podemos ahora que realice una comprobacin de la normalidad de los residuos, dado que nos ha creado una nueva variable llamada Unstandardized Residual (res1) con los residuales:
85
Entonces siguiendo la ruta ANALIZAR ESTADISTICOS DESCRIPTIVOS EXPLORAR DEPENDIENTES RES1 GRAFICOS GRAF ICOS CON PRUEBAS DE NORMALIDAD obtenemos:
Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. ,070 1121 ,000

a
Unstandardized Residual
Estadstico ,955
Shapiro-Wilk gl 1121
Sig. ,000
Al detectarse significacin, no podemos asumir que los residuos sigan una distribucin normal (p= 0,000).
86
XXI
GLOSARIO BASICO DE BIOESTADSTICA
AMPLITUD: Medida de dispersin. Se calcula mediante la diferencia entre el mayor valor de la muestra y el menor. ANLISIS DE LA VARIANCIA: -Prueba estadstica para analizar la relacin entre: una variable X independiente, cualitativa con dos o ms categoras; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicacin: Normalidad y Homogeneidad de variancias. BOX-PLOT: Grfico que permite representar una variable cuantitativa. CURTOSIS: Caracterstica de la distribucin de los datos representados en una curva. Se refiere al grado de aplanamiento de la misma. As tendremos curvas platocrticas (son aplanadas), leptocrticas (son picudas), mesocrticas (intermedias entre las dos anteriores). DESVIACIN TPICA: Medida de dispersin. Se calcula realizando la raz cuadrada de la variancia. GRADOS DE LIBERTAD: El nmero de datos que se pueden variar para que a un total fijo podamos reconstruir dicho total. as la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos variar n-1 datos ya que restante vendr fijado. En una tabla 4x3, si nos dan las frecuencias marginales podremos variar las frecuencias de (41)x(3-1)=3x2=6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. As, los grados de libertad seran en este caso de 6. MEDIA: Medida de tendencia central. Se calcula sumando todos los valores y dividiendo por el nmero de valores. MEDIANA: Medida de tendencia central. Ordenando todos los valores que puede toma runa variable, en orden ascendente, la mediana sera el valor que ocupe el lugar central. Se prefiere a la media cuando hay valores muy extremos. MODA: Medida de tendencia central. Es el valor de la variable que ms veces se repite.
87
PERCENTILES: Medida de tendencia central. Se calcula con los valores ordenados de la muestra. As el percentil 50 ser aquel que deja a tantos valores por debajo, como por encima. El percentil 25 ser aquel que deje al 25% de los valores por debajo y al 75% por encima. El percentil 75 ser aquel que deje al 75% de los valores por debajo y al 25% por encima. PRUEBA DE X2: -Prueba estadstica para analizar la relacin entre: una variable X, independiente, cualitativa, con dos categoras; con una variable Y, dependiente, cualitativa, con dos categoras. -Condiciones de aplicacin: que los valores esperados sean mayores o iguales a cinco. PRUEBA DE T STUDENT-FISHER: -Prueba estadstica para analizar la relacin entre: una variable X, independiente, cualitativa, con dos categoras; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicacin: Normalidad y Homogeneidad de variancias. REGRESIN SIMPLE: -Prueba estadstica para analizar la relacin entre: una variable X, independiente, cuantitativa; con una variable Y, dependiente, cuantitativa. VARIANCIA: Medida de dispersin. Se calcula dividiendo el sumatorio de la diferencia de cada valor de la muestra menos la media al cuadrado por en nmero de sujetos de la muestra, es decir: S2 = (x- media)2 / n
88

Manual Spss 11 Castellano. Cruz

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Manual Spss 11 Castellano. Cruz

Enviado por

Direitos autorais:

Formatos disponíveis

ANALISIS DE DATOS SANITARIOS CON SPSS E INTERPRETACIN DE RESULTADOS

Ejemplo: Nmero de hijos. Nmero ordenadores

TRANSFORMACION E INTRODUCCION DE VARIABLES EN LA MATRIZ

ABAND = AYUDFCO = AYUDMED =

Nos encontraremos entonces con la siguiente ventana de datos:

NACIMIENTO y de la fecha de fin del estudio (o de la fecha actual por ejemplo):

Finalmente se divide por 365.25, para calcular la edad en aos cumplidos:

CALCULAR NUEVAS VARIABLES ellas)

RECODIFICAR EN UNA MISMA VARIABLE

Finalmente Pegamos, y ejecutamos en el editor de sintaxis.

VALORES. Tambin puede hacerse directamente mediante un icono de una etiqueta:

RECODIFICAR EN DISTINTAS VARIABLES

X. CREACIN DE UNA BASE DE DATOS SPSS A PARTIR DE UN CUESTIONARIO

Las 7 primeras Las respuestas

Pondremos las etiquetas correspondientes:

Y en la pantalla RESULTADO1, veremos el grfico de tallo y hojas:

Y en el DIAGRAMA DE CAJA, tendremos el BOX-PLOT:

ANLISIS DESCRIPTIVO (VARIABLES CUALITATIVAS)

Si ya tenemos toda la seleccin damos a PEGAR, y en la ventana de sintaxis ejecutamos la orden:

Y aparecer la pantalla RESULTADOS1, donde aparece analizada la variable SEXO:

Y en el GRFICO DE BARRAS, tendremos el DIAGRAMA DE BARRAS:

ANLISIS DESCRIPTIVO (VARIABLES ORDINALES)

variable ordinal con un diagrama de lneas y despus damos a CONTINUAR.

Aparecer la ventana de resultados donde vemos analizada la variable de inters:

Si ya tenemos toda la seleccin damos a PEGAR.

Categrica C=2 Categrica 2 C=2 Categrica 2 c>2 Cuantitativa T de Student

Regresin logstica Regresin simple

TABLAS DE CONTINGENCIA, COMPARACIN DE 2 PROPORCIONES: PRUEBA DE X2

Valor 2,106b 1,444 2,060

Lmite inferior Lmite superior

,564 1,091 2,7514

Lmite inferior Lmite superior

Indice Masa Corporal

Sexo Mujer Hombre

Estadstico ,708 ,773

Sig. ,000 ,001

a. Correccin de la significacin de Lilliefors

En la ventana, nos iremos a OPCIONES Estadsticos descriptivos y homogeneidad de varianzas:

Blanca Negra Otra Total

N 1259 201 49 1509

Media 1,83 2,27 2,20 1,90

Desviacin tpica 1,707 2,005 1,989 1,765

Error tpico ,048 ,141 ,284 ,045

Raza del encuestado Blanca Negra Otra

Sig. ,000 ,000 ,001

Estadstico ,878 ,887 ,895

Shapiro-Wilk gl 1259 201 49

Sig. ,000 ,000 ,000

a. Correccin de la significacin de Lilliefors

a,b Estadsticos de contraste

Chi-cuadrado gl Sig. asintt.

Nmero de hijos 8,078 2 ,018

a. Prueba de Kruskal-Wallis b. Variable de agrupacin: Raza del encuestado

Media 1,63 1,67 2,26 1,61 2,04 2,14 1,86

Desviacin tpica 1,642 1,509 1,818 1,728 1,786 1,854 1,698

Error tpico ,089 ,071 ,127 ,288 ,140 ,126 ,045

Inter-grupos Intra-grupos Total

(I) Categora ocupacional Direcctivo o profesional liberal

Empleado tcnico, administrativo o comercial

Agricultura, forestal y pesca

Produccin de precisin, manufactura o reparacin

Operario, fabricacin y mano de obra en general

Direcctivo o profesional liberal

Empleado tcnico, administrativo o comercial