Você está na página 1de 70

-1-

ESTADISTICA DESCRIPTIVA CON SPSS 13


Jos Luis Vicente Villardn Departamento de estadstica Universidad de Slamanca

-2-

Introduccin_______________________________________________________ 4
1.1 1.2 1.3 1.4 1.5 Concepto de Estadstica y Estadsticas ____________________________________ 4 Etapas del anlisis estadstico ___________________________________________4 Poblacin y muestra ___________________________________________________ 5 Caracteres de una poblacin ____________________________________________ 5 Tipos de escalas _______________________________________________________6

2 3 4

Entrada y edicin de datos en SPSS ____________________________________ 7 Importar y exportar datos ___________________________________________ 14 Variables estadsticas unidimensionales________________________________ 16
4.1 4.2 Distribucin de frecuencias. Clases. _____________________________________ 16 Propiedades de las frecuencias__________________________________________ 16 Tipos de representaciones grficas ______________________________________ 19 Media aritmtica _____________________________________________________ 23 Media aritmtica ponderada ___________________________________________ 24 Mediana ____________________________________________________________ 24 Moda ______________________________________________________________ 25

5 6

Representaciones grficas ___________________________________________ 18


5.1 6.1 6.2 6.3 6.4

Medidas de tendencia central ________________________________________ 23

7 8

Medidas de posicin no centrales _____________________________________ 26 Medidas de dispersin ______________________________________________ 26


8.1 8.2 Medidas de dispersin absoluta _________________________________________ 27 Medidas de dispersin relativas_________________________________________ 29 Momentos centrales (respecto a la media aritmtica) _______________________ 30 Momentos con respecto al origen _______________________________________ 30 Medidas de asimetra ________________________________________________ 31 Medidas de curtosis o apuntamiento ____________________________________ 33 El box-plot (diagrama de cajas) ________________________________________35 Diagrama de tallo y hojas (stem and leaf)________________________________ 37

Momentos________________________________________________________ 30
9.1 9.2

10

Medidas de forma ________________________________________________ 31


10.1 10.2

11

Algunos grficos adicionales _______________________________________ 35


11.1 11.2

12 Un ejemplo con datos reales: Vinos de las denominaciones de Ribera de Duero y Toro _______________________________________________________________ 38 13 Estadstica descriptiva con SPSS ____________________________________ 39
13.1 13.2 Distribuciones de frecuencias__________________________________________ 39 El comando Descriptivos _____________________________________________ 46

-313.3 Exploracin de los datos ______________________________________________ 48 Diagramas de Barras ________________________________________________ 57 Diagramas de Lneas_________________________________________________ 63 Diagramas de Caja __________________________________________________ 66 Diagramas con barras de error ________________________________________68

14

Representaciones grficas con SPSS _________________________________ 57


14.1 14.2 14.3 14.4

-4-

1 Introduccin
Uno de los programas de Anlisis Estadsticos ms extendidos en la prctica es el SPSS debido a que est disponible en diferentes entornos, para diferentes sistemas operativos. El programa comprende desde tcnicas descriptiva bsicas hasta tcnicas avanzadas, de forma que cubre la mayor parte de las necesidades de los investigadores aplicados en campos tan diversos como las Ciencias Sociales, la Biologa, la Medicina etc... Trataremos de resumir las caractersticas bsicas de su funcionamiento mediante el nmero mnimo posible de conceptos nuevos, teniendo en cuenta la perspectiva del usuario que necesita solamente el manejo de opciones sencillas para el trabajo diario. Las cuestiones ms avanzadas relativas al manejo de los datos sern estudiadas solamente cuando sean necesarias en un contexto concreto. Las ventanas que aparecen en el desarrollo de la prcticas corresponden a la versiones 11 a la 13, aunque con ligeras modificaciones sirven para cualquiera de las versiones pensadas para otros sistemas operativos. Aunque el aspecto general de las ventanas no sea exactamente el mismo, los contenidos son iguales para la misma versin del programa. Comenzaremos con el desarrollo de algunos de los conceptos bsicos

1.1 Concepto de Estadstica y Estadsticas


La primera acepcin del trmino "Estadstica", que tiene origen histrico, hace referencia a una determinada informacin numrica; esta acepcin se encuentra cada da ms arraigada en nuestra sociedad debido al abultado conjunto de nmeros y cifras en el que se encuentra inmersa: P. I. B., ndices de precios, tasas de inflacin, evolucin del paro, cotizaciones burstiles, accidentes de circulacin, porcentajes de votantes, porcentajes de personas que padecen una determinada enfermedad, etc. Una segunda acepcin entiende la estadstica como una ciencia que facilita los mtodos precisos para la obtencin de informacin numrica, y que tambin proporciona mtodos de anlisis de esa informacin recogida y mtodos de investigacin aplicables al resto de las Ciencias. La primera se corresponde bsicamente con la estadstica descriptiva y la segunda con la estadstica inferencial.

1.2 Etapas del anlisis estadstico


Las diversas fases por las que atraviesa el anlisis estadstico son: a) Recogida de datos, que no por ser elemental, est exenta de dificultades e indicaciones que hay que observar, ya que una recogida mal efectuada puede

-5ocasionar un sesgo de la informacin y del posterior anlisis, por lo que el objeto de la investigacin debe plantearse de una manera minuciosa, as como la organizacin del trabajo de campo necesario para la recogida de datos. b) Ordenacin y presentacin de los datos, y que suele presentarse mediante unas tablas de simple o de doble entrada. c) Resumen de la informacin, para tratar de describir las caractersticas ms relevantes que pueden tener los datos, y que se realiza mediante la determinacin de parmetros estadsticos que intentan resumir toda la informacin que aporte el conjunto de datos. d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden detectarse en las etapas previas.

1.3 Poblacin y muestra


Recibe el nombre de Poblacin, Colectivo o Universo, todo conjunto de individuos o elementos que tienen unas caractersticas comunes. Dado que no siempre es posible estudiar todos los elementos de la poblacin, ya sea por razones econmicas, de rapidez de obtencin de la informacin, o porque los elementos se destruyen en el proceso de la investigacin, con frecuencia es necesario examinar slo una parte de la poblacin, que se denomina muestra; para que una muestra sea vlida como objeto de estudio, ha de ser representativa de la poblacin, es decir ha de tener las mismas caractersticas, en los caracteres estudiados, que la poblacin.

1.4 Caracteres de una poblacin


Llamaremos variable al carcter objeto de estudio, que puede tomar distintos valores. Las variables pueden ser cuantitativa o cualitativas, segn que tomen, o no, valores cuantificables.

-6-

Las variables de tipo cuantitativo, que estudian caracteres cuantificables, pueden clasificarse de diversas formas: variables discretas o continuas, segn que slo puedan tomar valores aislados o, por el contrario, todos los valores de un intervalo.

1.5 Tipos de escalas


En determinado tipo de estudios, quiz tenga mayor relevancia diferenciar las variables segn el tipo de escala utilizada, distinguiendo: Escala nominal: el carcter estudiado se clasifica en categoras no

numricas, sin que puedan establecerse ninguna relacin de orden entre ellas, por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el sexo, etc. Escala ordinal: el carcter estudiado es de tipo no numrico, pero se

pueden establecer algn tipo de orden entre las distintas categoras. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc. Escala de intervalo: puede establecerse alguna unidad de medida y

cuantificar numricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrndose en este caso gran nmero de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc. Escala de proporcin: son aquellas variables en las que adems de una

unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el nmero de unidades en stock en un inventario, etc.

-7-

2 Entrada y edicin de datos en SPSS


El primer paso que seguiremos es el de la introduccin de los datos en un archivo para su posterior manipulacin y anlisis. Cuando abrimos el programa aparece la siguiente pantalla, que nos permite decidir cual es la accin siguiente. Desde aqu podemos decidir introducir datos nuevos, abrir datos creados en una sesin anterior incluso con formatos distintos al de SPSS o incluso consultar el tutorial. Si que remos que en sucesivas sesiones el programa se abra directamente sin pasar por esta ventana marcaremos la opcin No volver a mostrar este cuadro de dilogo qiue aparece en la parte inferior. Por el momento vamos a marcar la opcin de Introducir datos ya que queremos aprender como introducir los datos resultantes de nuestro estudio en una base de datos dentro de SPSS, para poder realizar despus los anlisis estadsticos correspondientes.

Figura 1.- Ventana inicial del programa. La estructura habitual de los datos es en forma de tabla o matriz en la que cada una de las filas se corresponde con un individuo (objeto, caso, etc...) y cada una de las columnas se corresponde con una de las variables utilizadas en el estudio.

-8Comencemos con una tabla sencilla en la que tenemos 9 individuos caracterizados por 3 variables: el nombre del individuo, la edad y el sexo. Nombre Pedro Juan Mara Carmen Laura Jos Luis Jess Luca Edad 25 14 17 19 21 30 28 22 32 Sexo Hombre Hombre Mujer Mujer Mujer Hombre Hombre Hombre Mujer

Al iniciar el programa obtenemos sobre el escritorio una ventana con el nombre Sin ttulo- Editor de datos SPSS. Si ya disponemos de una ventana de datos previa, es posible obtener una nueva en la opcin Nuevo (opcin datos) del men Archivo. El aspecto de la ventana es similar al de una hoja de clculo convencional en la que cada casilla contiene un dato.

Figura 2.-Ventana de datos. Comenzaremos con la definicin de las variables, sus tipos y formatos, ya que esto determina cuales son los anlisis que llevaremos a cabo posteriormente. Esta operacin puede llevarse a cabo mediante un doble click sobre la palabra var que aparece en el

-9encabezado de cada columna. Si se ha dado previamente un nombre a la variable, un doble click sobre el mismo permite la modificacin de las caractersticas de la misma. Tras el doble click aparecer la ventana siguiente desde la que es posible introducir el nombre y definir el tipo y formato correspondiente. El aspecto de la ventana es tambin el de una hoja de clculo, pero ahora cada una de las filas corresponde a una variable y cada una de las columnas a una de las caractersticas de dicha variable. Tambin puede saltar entre estas dos ventanas tocando en las pestaas que aparecen en la parte inferior. La pestaa Vista de datos le llevar a la hoja de clculo que contiene los datos (individuos x variables) mientras que la pestaa Vista de variables le llevar a la hoja que contiene la definicin de las caractersticas de cada variable.

Figura 3.- Ventana de definicin de las caractersticas de cada variable. El espacio destinado al nombre es un texto editable que puede ser modificado, el nombre puede tener 8 caracteres y no debe contener caracteres especiales como -, :, @, etc. Se se desea un nombre ms largo que describa mejor el contenido de la variable, este puede ser aadido en la casilla etiqueta. Seleccionaremos el tipo de variable pulsando sobre el botn que aparece al seleccionar la casilla Tipo. La definicin del tipo se lleva a cabo en una ventana como la siguiente.

Figura 4.- Ventana de definicin del tipo y formato de cada variable. El tipo es importante en la seleccin posterior del anlisis. Las variables son bsicamente cualitativas y cuantitativas, aunque son posibles subdivisiones adicionales, especialmente debido a la forma en que se introducen sobre el soporte informtico. Las

-10variables categricas (o cualitativas) son aquellas que, en principio, no pueden ser expresadas en forma numrica, por ejemplo el sexo, que tiene dos categoras: Hombre y Mujer. En SPSS suelen ser introducidas como nmeros (Numrica) enteros desde el 1 hasta el nmero de categoras de la variables, asignando cada nmero entero a uno de sus posibles valores; esta prctica ahorra espacio en disco si el archivo de datos es muy grande ya que se evita la utilizacin de nombres largos para las categoras. Tambin es posible introducirlas como cadenas de caracteres (Cadena) tratando de usar el mnimo nmero de caracteres posible para ahorrar espacio en disco, aunque esto puede producir algunos problemas en el anlisis posterior. Las variables cuantitativas sern normalmente de tipo Numrico. Sobre el programas, los tipos Numrica, Coma, Punto y Notacin Cientfica difieren solamente en la notacin. El Numrico utiliza como separador para los decimales la notacin del sistema (normalmente una coma en Castellano) y no tiene separadores para los miles; el tipo Coma utiliza la coma como separador de los decimales y el punto como separador de los miles, el tipo Punto utiliza el punto como separador de los decimales y la coma como separador de los miles, el tipo Notacin Cientfica utiliza la notacin cientfica habitual. El tipo Fecha permite diversos formatos al ser seleccionado, el ms usual suele ser ddmm-yy (dos nmeros para el da, dos para el mes y dos para el ao). Los tipos Dlar y Moneda personalizada se utilizan para especificar unidades monetarias. El tipo Cadena permite introducir cadenas de caracteres con informacin para la identificacin del individuo, o variables de tipo cualitativo. Al lado del tipo de variable es posible seleccionar la anchura de la misma y el nmero de decimales que se utilizarn por defecto para los tipos numricos, el formato de la fecha, de la moneda o la anchura para las cadenas de caracteres. Una vez seleccionado el tipo podemos seleccionar la anchura de la variable (en nmero de caracteres y el nmero de decimales que queremos que contenga la variable en el caso de que sea uno de los tipos numricos. Cuando se trabaja con variables de tipo cualitativo o categrico, a cada una de las categoras se le suele asignar una etiqueta que clarifica los resultados en el anlisis. Por ejemplo supongamos que queremos introducir la variable Sexo con dos valores 1 para Varones y 2 para Mujeres. Es posible realizar esta asignacin mediante el botn que aparece en la casilla Etiqueta de la ventana de la figura 3. La ventana siguiente corresponde a esta operacin.

Figura 5 : Asignacin de etiquetas a los valores de la variable.

-11Escribiremos cada uno de los posibles valores (probablemente enteros) de la variable y la etiqueta de valor asignada y las iremos aadiendo a la lista. Es importante aadir etiquetas par todos los valores de la variable si queremos una presentacin ptima de los anlisis. Es posible tambin cambiar etiquetas asignadas o eliminarlas de la lista utilizando los botones correspondientes. La asignacin de etiquetas a los distintos valores de la variable mejora la presentacin de los resultados, aunque no es importante para el desarrollo de los anlisis. Cuando hayamos terminado la asignacin pulsaremos el botn Aceptar. El botn Cancelar permite cancelar la operacin y el botn Ayuda permite obtener ayuda sobre las operaciones que se estn tratando de realizar. El programa supone, por defecto, que todos los datos de los que disponemos son vlidos para el anlisis, es decir, que no existen datos perdidos o faltantes. Si esto no es as hemos de decirle al ordenador que valor de la variable ha de entender como dato perdido. La definicin de los valores perdidos se realiza en el botn de la casilla Perdidos de la figura 3. Se obtiene la siguiente ventana para la definicin de los datos perdidos.

Figura 6.- Identificacin de los valores faltantes El programa mantiene por defecto la opcin No hay valores perdidos. Las opciones alternativas son "Valores perdidos discretos con tres casillas para distintos valores. El programa entender que los valores que se han especificado son datos perdidos, suelen utilizarse nmeros extraos como por ejemplo, -9999 o el 0 si no es uno de los posibles valores de la variable. Los datos con los cdigos asignados sern eliminados de los anlisis posteriores. La segunda opcin "Rango ms un valor perdido discreto opcional" considera como faltantes todos aquellos valores comprendidos entre los extremos del intervalo que el usuario especifique en las dos casillas destinadas al efecto y un valor discreto. Utilizando el botn Aceptar volveremos a la ventana de formato de la figura 3. Si deseamos modificar el formato de la variable, utilizaremos casilla Columas de la figura 3, es posible modificar la anchura de la columna. Para modificar la justificacin de los datos utilizamos la casilla Alineacin. Cuando hayamos completado el mismo proceso para todas las variables tendremos entonces definida la tabla de datos dispuesta para introducir la informacin. Recuerde

-12que para desplazarse por las celdas de la tabla puede utilizar la tecla Return para avanzar al caso siguiente para la misma variable (hacia abajo) y la tecla Tab para avanzar a la siguiente variable del caso actual (hacia la derecha). La figura siguiente muestra un conjunto de datos para las variables definidas en la figura 3. El nombre de cada individuo que ser una variable cadena y la edad y el sexo que sern variables numricas. Observe que aunque el sexo es una variable cualitativa, se ha introducido como variable numrica en la que el 1 significa Hombre y el 2 significa Mujer.

Figura 7.- Una tabla de datos sencilla. La figura 8 muestra la misma tabla de datos que la figura 7 pero las variables cualitativas se muestran ahora con sus etiquetas de valor. El cambio entre la forma numrica y la forma con etiquetas se realiza mediante el botn de la barra de herramientas sealado en la figura con una flecha.

-13-

Figura 8.- la misma tabla de datos con las etiquetas para las variables cualitativas. Una vez introducidos los datos, los guardaremos para prximas sesiones utilizando la opcin Guardar como del men Archivo. Asignamos el nombre, el tipo de archivo que queremos guardar y el lugar donde quedar la base de datos, antes de hacer clic en el botn Guardar.

Figura 9.- Opciones para guardar el archivo en disco.

-14-

Pulsando en el botn Variables, es posible seleccionar que variables se guardarn.

Figura 10.- Seleccin de las variables que se guardarn.

3 Importar y exportar datos


El programa SPSS permite tambin la utilizacin de datos procedentes de otros programas mediante lectura directa o indirecta de los mismos. Posee adems la opcin de lectura de archivos ASCII con o sin formato en la forma que se hacia en las antiguas versiones del programa. Para el intercambio de datos entre programas, la forma ms verstil suele ser a travs de archivos delimitados por tabuladores, si bien el SPSS puede leer directamente archivos creados por otros programas. La figura siguiente muestra las posibilidades que ofrece la opcin Abrir Datos del men Archivo.

-15-

Figura 11.- Opciones del men Abrir Datos. Los tipos que comienzan con SPSS no son archivos de datos, salvo el SPSS Data, el programa puede leer directamente ficheros de texto, ficheros de dBASE y de las hojas de clculo Excel y Lotus, siempre que la estructura de la hoja sea similar a la estructura de la tabla de datos tal y como se ha definido en el captulo anterior. Si el archivo seleccionado es de texto obtendremos una nueva ventana para especificar cual es el contenido del archivo, comandos, resultados o datos separados por tabuladores. Es posible obtener archivos de texto con datos separados por tabuladores de infinidad de programas por lo que, en principio, es posible importar datos indirectamente desde cualquier otra aplicacin. La primera fila del archivo suele contener los nombres de las variables separados tambin por tabuladores.

-16-

4 Variables estadsticas unidimensionales


4.1 Distribucin de frecuencias. Clases.
Vamos a tratar ahora de estructurar y ordenar los conjuntos numricos de los datos obtenidos en la observacin de una muestra o poblacin para as poder proceder con ms facilidad a su estudio. Empezaremos estudiando las frecuencias en sus diversas clases: Frecuencia absoluta: es el nmero de veces que se repite cada valor de la variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por fi Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmero total de datos u observaciones. El nmero total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la muestra. Se verifica pues:
Fi = ! f j
j =1 i

Frecuencia relativa acumulada: es el cociente entre la frecuencia absoluta

acumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numrica o, al menos, ordinal. La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica:
F Hi = i = n

!f
j =1

4.2 Propiedades de las frecuencias


1 La suma de las frecuencias absolutas coincide con tamao de la muestra: ! fi = n
i

-17-

2 Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 fi n 3 La suma de las frecuencias relativas es 1: ! hi = 1
i

4 Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 hi n 5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato. DISTRIBUCIN DE FRECUENCIAS Llamaremos distribucin de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. As pues, para determinar una distribucin de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato). Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribucin de frecuencias no est agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el nmero de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin. En la agrupacin en intervalos hay que tener en cuenta tres aspectos: a) Que el mximo de informacin se obtiene en la recogida de datos y que sta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente as, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo isimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1

-18Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es ms cmodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1.- Cmo se debe tomar la amplitud, constante o variable? 2.- Cuntos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultar estriles. Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li1,Li),

es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo

inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms que los de los datos, siendo, normalmente este decimal un 5. Por ltimo cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca de clase del intervalo [Li-1,Li) ser:
ci = Li !1 + Li 2

5 Representaciones grficas
La informacin proporcionada por las tablas de distribucin de frecuencias es bastante completa, pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparacin para relativizar la informacin de unas clases respecto de las otras. Adems, en la experiencia del lector, al comenzar a leer un determinado artculo (cientfico o no), su vista se dirige primero al ttulo, luego a los grficos y, finalmente, a las tablas. As pues, las representaciones grficas constituyen uno de los principales y ms sencillos mtodos de exponer la informacin, por su capacidad de impactar al lector con muy poco esfuerzo por su parte, dando una informacin rpida y global de los datos, siendo tiles incluso al investigador, pues le permiten tener una idea general de los resultados y, a veces, sugerir nuevas hiptesis.

-19-

5.1 Tipos de representaciones grficas


Los diversos tipos de grficos utilizados son: 1 DIAGRAMAS DE BARRAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS: En un sistema de ejes de coordenadas cartesianas, se representan en el eje de abscisas los valores de la variable, y en el de ordenadas las frecuencias. Posteriormente, sobre cada valor de la variable se levanta una barra vertical de altura proporcional a la frecuencia, ya sea absoluta o relativa. Sobre el eje de abscisas la escala de medida puede ser cualquiera y no coincidir con la escala del eje de ordenadas. Incluso el cero del eje de abscisas no tiene porque coincidir con el cero de la medida utilizada.
4

FRECUENCIAS

i
VOCALES

Los grficos de diagrama de barras y de escalera suelen utilizarse en variables de tipo cualitativo, o en las de tipo cuantitativo discretas. 2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS: Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada

-20se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los anteriores. Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3):

Figura 1.3: Polgono de frecuencias.

Estos polgonos de frecuencias se utilizan cuando la variable es de tipo cualitativo o cuando es de tipo cuantitativo discreta.

3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EN INTERVALOS Se construyen levantando, sobre cada intervalo de la variable, un rectngulo de rea proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas respectivas, pues al ser las bases iguales las reas son proporcionales a las alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de los rectngulos deben calcularse dividiendo la frecuencia absoluta por la longitud del intervalo; sta se puede representar por ai y vale pues:

ai =

fi ci

y de esta forma, el rea del rectngulo coincide con la frecuencia:

Si = ai ci =

fi ci = fi ci

-21-

La altura ai correspondera a la frecuencia correspondiente a cada unidad de medida de la variable en cada intervalo, y se le conoce a veces, con el nombre de densidad de frecuencia del intervalo.

Histograma. (Saldo de imposiciones en Cajas de Ahorros).

4 POLGONO DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS Para construir este grfico se levanta en el extremo superior de cada intervalo una ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas. La primera ordenada se une al extremo inferior del primer intervalo, prolongando el polgono desde ese punto a la izquierda sobre el eje x, y prolongando tambin por la derecha a partir del extremo superior del ltimo intervalo, con una recta paralela al eje de abscisas. En el caso de representar las frecuencias no acumuladas se procede, uniendo los puntos medios de los lados superiores de los rectngulos del histograma y prolongando por los extremos hasta cortar al eje X en los puntos medios de las bases del primer y del ltimo rectngulo (ver figura 1.7).

-225 Alturas

3 2

1 x 10 20 30 40 50 60 70 80 90 100 i

Polgono de frecuencias. (Saldo de imposiciones en Cajas de Ahorros).

El rea del polgono cerrado resultante es igual al rea de los rectngulos formados mediante el histograma. A veces se representan en el mismo grfico el histograma y el polgono de frecuencias. 5 DIAGRAMA DE SECTORES Este caso, en una circunferencia se representan sectores circulares cuyo ngulo central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o relativa del elemento, representando, mediante colores o incluyendo dentro de dicho sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias agrupadas, como no agrupadas. Previamente hay que calcular los grados que corresponde a cada elemento multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el total de datos:
gi = fi 360 n

-23-

Figura 1.8: Diagrama de sectores. (Saldo de imposiciones en Cajas de Ahorros).

6 Medidas de tendencia central


Las tablas de distribuciones de frecuencia ofrecen toda la informacin disponible, pero a veces, debido a su extensin nos encontramos con dificultades a la hora de su interpretacin, por lo que interesa resumirla con el fin de facilitar, tanto su anlisis como la comparacin entre distintas muestras o poblaciones. En este proceso de sntesis se buscan valores que determinen el comportamiento global del fenmeno estudiado Las medidas de sntesis de la distribucin se consideran operativas cuando: a) Intervienen todos y cada uno de los elementos en su formacin. b) Es siempre calculable. c) Es nica para cada distribucin de frecuencias. Estos valores se denominan medidas de posicin, en general son promedios de los valores y pueden ser de tendencia central o no. Slo tienen sentido si la variable es cuantitativa. Entre las ms importantes estn la media aritmtica, la mediana, la moda y los cuantiles; adems de stos, tambin estudiaremos la media geomtrica, la media armnica, la media cuadrtica y la media aritmtica ponderada.

6.1 Media aritmtica


Se define como la suma de todos los valores de la distribucin, dividida por el n total de datos. Si designamos por xi al valor de la variable X, que se repite fi veces, la media aritmtica ser:

-24-

x x x x = 1 f1 + 2 f2 + ! + k fk = n n n
VENTAJAS E INCONVENIENTES

!x f
i =1

i i

=!
i =1

k xi fi = ! xi hi n i =1

Como ventajas de utilizar la media aritmtica como un promedio para sintetizar los valores de la variable podemos citar las siguientes: - Considera todos los valores de la distribucin. - Es siempre calculable (en variable cuantitativa). - Es nica. Como inconvenientes de la utilizacin de la media aritmtica cabe citar que, a veces, puede dar lugar a conclusiones errneas, cuando la variable presenta valores muy extremos, que influyen mucho en la media, hacindola poco representativa.

6.2 Media aritmtica ponderada


Se calcula esta media aritmtica cuando cada valor de la variable tiene asociado una ponderacin o un peso, distinto de la frecuencia, y que le haga tener ms o menos importancia en la distribucin. En este caso si el dato xi tiene un peso wi, su media ponderada sera:
xp =

!x w
i =1 k i

!w
i =1

Si cada dato presenta una frecuencia fi, la media ponderada sera:


xp =

!x f w
i =1 k i i

!fw
i =1 i

6.3 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la variable de menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor cuya frecuencia absoluta acumulada es n/2.

-25DATOS SIN AGRUPAR N impar de trminos

Si la distribucin est sin agrupar, y hay un n impar de trminos, la mediana ser el que ocupa la posicin central. Por ejemplo, si los valores de la variable son {1,2,3,4,5} la mediana sera Me = 3 N par de trminos

Pero si hay un n par de trminos habra dos trminos centrales y se toma como mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14} La mediana seria: M e =
7+9 =8 2

VENTAJAS E INCONVENIENTES Como ventajas de la mediana podemos citar que no est influida por los valores extremos como en el caso de la media, y adems tiene sentido en casos de distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms representativa de estos por describir la tendencia central de los mismos. Como inconvenientes puede ser la determinacin de sta en los casos de variables agrupadas en intervalos.

6.4 Moda
Es el valor de la variable que ms veces se repite en una distribucin de frecuencias, es decir, el que tiene mayor frecuencia absoluta. Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en intervalos, se procede de forma diferente: VENTAJAS E INCONVENIENTES Como ventajas de la moda cabe citar que cuando la distribucin es de escala nominal (no susceptible de ordenacin) es la medida ms representativa, pues no es posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las

-26otras medidas. Adems igual que la mediana, no viene influida por los valores extremos de la variable. Como inconveniente cabe citar el modo de calcularla en los casos de variables agrupadas en intervalos y el hecho de que utiliza un nico dato de la distribucin.

7 Medidas de posicin no centrales


Estos valores no reflejan ninguna tendencia central, sino una posicin de la distribucin, dividindola a sta en partes iguales. Cabe citar entre los de uso ms frecuente: cuartiles, deciles y percentiles. 1) Los cuartiles son tres valores que dividen a la distribucin en cuatro partes iguales, estando en cada una de ellas el 25% de sus observaciones. Se indican con Qi. 2) Los deciles son nueve valores que dividen a la distribucin en diez partes iguales, estando en cada una de ellas el 10% de las observaciones. Se indican por Di. 3) Los percentiles son noventa y nueve valores que dividen a la distribucin en cien partes iguales, dejando un 1% de las observaciones entre cada dos de ellos consecutivos. Se nombran por Pi. Hay que tener en cuenta algunas relaciones entre ellos, como son: Me = Q2 = D5 = P50 Q1 = P25 ; Q3 = P75 D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60 Para el clculo de todos los cuantiles el proceso es anlogo al clculo de la mediana, sustituyendo n/2 por r.n/k, siendo r el orden del cuantil y k las partes en que dicho cuantil divide a la distribucin. As en los cuartiles k = 4 y r = 1, 2, 3 ; en los deciles k = 10 y r = 1, 2,....., 9, y en los percentiles k = 100 y r = 1, 2, 3,....., 99.

VENTAJAS E INCONVENIENTES Las ventajas e inconvenientes son las mismas que los de la mediana.

8 Medidas de dispersin
En el apartado anterior hemos definido una serie de medidas de tendencia central, cuyo objetivo era tratar de sintetizar toda la informacin disponible, pero cabe

-27preguntarse posteriormente si esa medida es o no representativa de la distribucin de frecuencias. Si consideramos dos variables X e Y con distribuciones:

xi fi

0 1

500 1

1000 1

yi fi

499 1

501 1

Las medias son : 0 + 500 + 1000 x= = 500 3

y=

499 + 501 = 500 2

Las dos medias son iguales y sin embargo las dos distribuciones son muy diferentes pues los valores de X estn mucho ms dispersa que los de Y. As pues, para intentar medir la representatividad de una determinada medida debemos de cuantificar la separacin de los valores de la distribucin respecto de dicha medida. As pues, resulta necesario que, para completar la informacin de un promedio (por ejemplo media aritmtica), ste vaya acompaado de uno o varios coeficientes que nos midan el grado de dispersin de la distribucin de la variable con respecto a l. Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.

8.1 Medidas de dispersin absoluta


Cabe citar entre stas el recorrido, el recorrido intercuartlico, la desviacin media, la varianza y la desviacin tpica. Todas son referidas en general a un promedio. RECORRIDO O RANGO: Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor de la distribucin: Re = Max (xi) - Min (xi) Si este recorrido es pequeo respecto al nmero de datos puede entenderse que existe poca dispersin. Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que se calcula). RECORRIDO INTERCUARTLICO: Es la diferencia existente entre el tercer y el primer cuartil

-28RI = Q3 - Q1 En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo tanto no se ve influenciado por los valores extremos, y nos indica la longitud del intervalo en el que estn el 50% central de los valores En algunos casos se utiliza el recorrido semiintercuartlico que se define como la mitad del recorrido intercuartlico. RSI = (Q3 -Q1)/2 DESVIACIN MEDIA: Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las anteriores; puede entenderse como la media de las desviaciones de los datos de la variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviacin media resulte igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la desviacin de los datos respecto del promedio. As se definir la desviacin media respecto de la media como: k f Dx = " xi ! x i n i =1 Tambin se puede utilizar la desviacin media respecto de la mediana como: k f DMe = " xi ! Me i n i =1 Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado, en el caso de que sta fuera grande el promedio sera poco representativo. VARIANZA: Se define como la media de los cuadrados de las desviaciones de los valores de la variable respecto de la media aritmtica, es decir: k k 2 f 2 s 2 = " ( xi ! x ) i = " ( xi ! x ) hi n i =1 i =1 Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o menor dispersin de los valores de la variable respecto de la media aritmtica, y por lo tanto, su representatividad. Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el cuadrado de las mismas, por ello se utiliza ms la siguiente.

-29DESVIACIN TPICA O ESTNDAR: Se define como la raz cuadrada positiva de la varianza, es decir:
s=

" ( xi ! x )
i =1

fi = n

"( x
i =1

! x ) hi
2

Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo en la actualidad la ms utilizada. A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1, obtenindose la llamada cuasivarianza:

s 2 = " ( xi ! x )
i =1

fi n !1

y cuasidesviacin tpica:
s=

"( x
i =1

! x)

fi n !1

Siendo la relacin entre la varianza y la cuasivarianza la siguiente: n 2 s2 = s n !1

8.2 Medidas de dispersin relativas


En el caso de intentar comparar la dispersin de dos distribuciones mediante alguna de las medidas de dispersin halladas antes, no podramos efectuar tal comparacin porque las distribuciones, en general, no vendrn dadas en las mismas unidades y tampoco porque los promedios en general tambin sern diferentes. Por ello, para poder comparar las dispersiones, es preciso definir medidas de dispersin adimensionales. Entre stas se encuentra el coeficiente de variacin de Pearson.

COEFICIENTE DE VARIACIN DE PEARSON: Es el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica.

-30-

CV =

s x

Este coeficiente es adimensional luego permite comparar las dispersiones de dos distribuciones diferentes. A menudo se le suele utilizar en forma de porcentaje, empleando CV =

s 100 x

Obviamente, a mayor CV menor es la representatividad de x , pues la desviacin tpica ser mayor comparada con la media.

9 Momentos
Existen dos tipos de momentos:

9.1 Momentos centrales (respecto a la media aritmtica)


Se define el momento central de orden r respecto de la media aritmtica de la media: como la media aritmtica de las potencias de orden r de las desviaciones de los datos respecto

mr = " ( xi ! x )
i =1

fi n

En particular, se verifica que: - El momento central de orden 0 vale 1: k k f n 0 fi m0 = " ( xi ! x ) = " i = =1 n i =1 n n i =1 - El momento central de orden 1 vale 0: k k k f f n 1 f m1 = " ( xi ! x ) i = " xi i ! x " i = x ! x = 0 n i =1 n n i =1 i =1 n - El momento de orden 2 es la varianza.

9.2 Momentos con respecto al origen


Se define el momento de orden r con respecto al origen como la media aritmtica de las potencias de orden r de los datos de la variable:

-31-

ar = ! xir
i =1

fi n

Como casos particulares cabe destacar: - El momento de orden 0 vale 1:

a0 = ! xi0
i =1

k fi f " x! i =1 n i =1 n

- El momento de orden 1 es la media aritmtica Existe una relacin entre los dos momentos, que nos da una forma reducida de calcular la varianza:

s 2 = m2 = " ( xi ! x )
i =1

k fi f = " xi2 i ! x 2 = a2 ! a12 n i =1 n

10 Medidas de forma
Para tratar de conocer una distribucin no basta con conocer sus medidas de dispersin y de posicin, sino que es necesario, en general, conocer algunos aspectos ms de la misma. Dado que la diversidad de comportamientos de las xi de la distribucin se haca ms patente al realizar la representacin grfica, vamos a tratar de determinar a continuacin ms medidas, segn la "forma" de la representacin; clasificaremos estas medidas en dos grupos: medidas de asimetra y medidas de curtosis o apuntamiento.

10.1 Medidas de asimetra


Tienen por objeto establecer el grado de simetra (o asimetra) de una distribucin sin necesidad de realizar la representacin grfica. Entenderemos la simetra respecto al eje determinado por la media aritmtica, de tal forma que diremos que una distribucin es simtrica cuando los valores de la variable equidistantes de este valor central tengan la misma frecuencia, en caso contrario diremos que es asimtrica, siendo esta asimetra negativa o a izquierda si es ms larga la rama de la izquierda, es decir, las frecuencias descienden ms lentamente por la izquierda que por la derecha; analogamente llamaremos asimetra positiva o a derechas aquella en que la rama de la derecha es ms larga, es decir las frecuencias descienden ms lentamente por la derecha que por la izquierda.

-32-

COEFICIENTE DE ASIMETRA DE FISHER Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas de los valores respecto de la media. La figura siguiente nos muestra las distintas distribuciones:

g =0
1

g >0
1

_ x

Distribucin simtrica

Distribucin asimtrica a la derecha

Mo

g <0
1

Distribucin asimtrica a la izquierda

Mo

Dado que

"( x
i =1

! x)

fi =0 n

hay que buscar una medida que venga influida por el signo; sta ser: k 3 f m3 = " ( xi ! x ) i n i =1 ya que si la curva es simtrica m3 = 0 si la curva tiene asimetra positiva o a derechas, m3 > 0 si la curva tiene asimetra negativa o a izquierdas, m3 < 0 Para que no tenga dimensin debemos dividirla por una medida con las mismas unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.

-33-

g1 =

m3 = s3

"( x
i =1 k

! x)

fi n
3 2

# 2 fi & % " ( xi ! x ) n ( $ i =1 '

Siendo su interpretacin: Si g1 > 0 la distribucin es asimtrica positiva o a derecha. Si g1 = 0 la distribucin es simtrica. Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.

COEFICIENTE DE ASIMETRA DE PEARSON Otra medida de asimetra es el coeficiente de asimetra de Pearson definido por:
Ap = x ! Mo s

Teniendo en cuenta que si la curva es simtrica, x = Me = Mo, si la distribucin es asimtrica positiva o a derechas x > Mo y si la distribucin es asimtrica negativa o a izquierdas x < Mo, su interpretacin ser: Ap = 0 la distribucin es simtrica. Ap > 0 la distribucin es asimtrica positiva (derechas) Ap < 0 la distribuciones asimtrica negativa (izquierdas) Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson demostr empricamente que x ! Mo " 3( x ! Me) por lo que algunos autores utilizan como coeficiente de asimetra de Pearson 3( x ! Me ) Ap = s Existen otros tipos de coeficientes de asimetra, pero son menos utilizados.

10.2 Medidas de curtosis o apuntamiento


Estas medidas, aplicadas a distribuciones unimodales simtricas o con ligera asimetra, tratan de estudiar la distribucin de frecuencias en la zona central, dando lugar a distribuciones muy apuntadas, o poco apuntadas.

-34Para estudiar el apuntamiento, debemos hacer referencia a una distribucin tipo que consideraremos la distribucin "Normal"; sta corresponde a fenmenos muy corrientes en la naturaleza cuya representacin grfica es la campana de Gauss. Si una distribucin tiene mayor apuntamiento que la normal diremos que es "leptocrtica", si tiene menor apuntamiento que la normal la llamaremos "platicrtica", y a las que tengan igual apuntamiento que la normal las llamaremos "mesocrticas". Veamos esto en las figuras siguientes:

En la distribucin normal m4 = 3.s4, por lo tanto utilizaremos como coeficiente de apuntamiento o curtosis.

g2 =

m4 = i =1 2 s4 # k 2 fi & % " ( xi ! x ) n ( $ i =1 '

"( x

! x)

fi n

siendo la interpretacin la siguiente: Si g2 > 3 la curva es ms apuntada que la normal (leptocrtica). Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocrtica). Si g2 < 3 la curva es menos apuntada que la normal (platicrtica). A veces se utiliza como coeficiente de curtosis:
g2 = m4 !3 s4

y la comparacin ser con 0, obtenindose:

-35g2 = 0 (mesocrtica). g2 > 0 (leptocrtica). g2 < 0 (platicrtica)

11 Algunos grficos adicionales


11.1 El box-plot (diagrama de cajas)
Un box plot (o diagrama de cajas) es un mtodo grfico inventado por J. Tukey. Para construirlo calculamos primero el primer y el tercer cuartel (Q1 y Q3) y la mediana M. Dibujamos una caja que termine en Q1 y Q3 y situamos la mediana dentro de la caja. En el centro de los extremos de la caja aadimos lneas (whiskers) que van hasta los puntos ms extremos que no son outliers (valores atpicos), esto es, los valores que estn dentro de 3/2 veces el recorrido intercuartlico de los extremos de la caja. Los puntos que quedan ms all de 3/2 veces el recorrido intercuartlico se dibujan en el grfico. Si hay varios puntos con el mismo valor, pueden dibujarse uno al lado del otro.

La forma de construccin de los Box-Plots no es nica. Por ejemplo, en la forma original de Tukey, en lugar de utilizar los cuartiles, utiliza lo que denomina hinges (bisagras) H1 y H2, que en determinadas circunstancias coinciden con los cuartiles. Las lineas (whiskers) no tenan barras cruzadas y se extendan hasta los puntos extremos. En el extremo superior se colocaba un circulo hueco y en el extremo inferior se colocaba una barra horizontal. Otras versiones extienden las lneas hasta valores mximos y mnimos arbitrarios e identifican los valores atpicos con etiquetas.

-36-

Los grficos pueden complementarse con muescas que definen intervalos de confianza para la mediana, o pueden aadirse rombos centrados en la media y cuyos extremos sean el intervalo de confianza para la misma. La utilidad de los box plots se basa en que permiten, mediante una simple inspeccin visual, tener una idea aproximada de la tendencia central (a travs de la mediana), de la dispersin (a travs del recorrido intercuartlico),de la simetra de la distribucin (a travs de la simetra del grfico) y de los posibles valores atpicos. Permiten, adems, la comparacin de varios grupos situando varios box-plots en el mismo grfico.

-37-

11.2 Diagrama de tallo y hojas (stem and leaf)


El diagrama de tallo y hojas es un diagrama similar al histograma en el sentido de que muestra la distribucin de frecuencias de una variable continua. La diferencia fundamental es que se construye utilizando los propios nmeros de los valores de la variable y, a diferencia del histograma, permite recuperar la informacin original. Utilizaremos un ejemplo sencillo para ilustrar la construccin de un diagrama de tallo y hojas. Consideremos los siguientes valores temperatura, en grados Fahrenheit

77 80 82 68 65 59 61 57 50 62 61 70 69 64 67 70 62 65 65 73 76 87 80 82 83 79 79 71 80 77
La temperatura mnima es 50 y la mxima es 87. Si hacemos intervalos de amplitud 10, comenzando en el valor 50 tendramos 4 intervalos con frecuencias 3, 11, 9 y 7 respectivamente. Para estos datos seleccionaremos como tallo la cifra de las decenas y como hojas la cifra de las unidades. Cada tallo ser una fila del grfico y se corresponde con un intervalo de amplitud 10, en cada fila pondremos tantos nmeros como observaciones en el intervalo, cada nmero escrito son las unidades de la observacin correspondiente.
Temperaturas Decenas 5 6 7 8 Unidades 079 11224555789 001367799 0002237

En el grfico anterior la amplitud es 10, podramos construirlo com amplitudes diferentes, por ejemplo 5.
Temperaturas Decenas 5 5 6 6 7 7 8 8 Unidades 0 79 11224 555789 0013 67799 000223 7

Obsrvese que el perfil del grfico tiene la misma informacin que el histograma pero, a diferencia de ste, es posible reconstruir los valores originales de la variable.

-38-

12 Un ejemplo con datos reales: Vinos de las denominaciones de Ribera de Duero y Toro
Los vinos elaborados en reas especficas y reconocidos con denominacin de origen (DO) son de importancia significativa en las diferentes regiones productoras de vinos. La DO reconoce y garantiza calidad de los vinos fabricados. Consecuentemente, son necesarios una serie de parmetros especficos que permitan a los analistas clasificar distintos vinos en sus correspondientes denominaciones de origen. Entre las caractersticas que pueden usarse estn la composicin en ciertos metales, cidos orgnicos, ciertos componentes polifenlicos, etc... Los valores de estas caractersticas dependen de diversos factores, tales como las variedades de uva empleadas en el proceso de elaboracin, o la edad del vino. Para la clasificacin de los vinos en su correspondiente denominacin de origen y la exploracin de las diferencias entre las mismas, es posible utilizar tcnicas. Se ha realizado un estudio sobre las dos denominaciones de origen de vinos castellanos (Ribera de Duero y Toro) en dos aos diferentes (1986, 1987), con el fin de distinguir las caractersticas diferenciales entre las dos denominaciones, mediante medidas objetivas obtenidas en laboratorio, de forma que pueda evitarse el fraude en las etiquetas de la denominacin sustituyendo ambos vinos debido a su proximidad espacial. Se han considerado 4 grupos diferentes procedentes de la combinacin de denominaciones y aos (RD1986, RD1987, T1986, T1987). Se ha considerado el ao como posible factor de confusin en la clasificacin de los vinos de las dos denominaciones. Se han considerado 18 variables qumicas sobre cada uno de Grad:Grado alcohlico, AcVo: Acidez Volatil AcTo:Acidez Total AcFi: Acid. Fija pH Foli: Fenoles tot (Folin) Some: Fenoles (Sommers) SRV: Sustancias reactivas a la vanilina Proc: Procianidoles ACRG: Antocianos1 ACSE: Antocianos2

-39ACHP:Antocianos 3 IC : Indice de color 1 IC2 : Indice de color 2 Tono: de color IIm : Indice de ionizacin. EQ1: Edad qumica V/LA. En el disco adicional encontrar el archivo VINOS.SAV que contiene los datos

relativos a 45 vinos de ambas denominaciones de origen. Cada uno de los vinos est caracterizado por 21 variables: la denominacin de origen a la que pertenece, el ao, la combinacin de denominacin y ao, y las 18 variables qumicas especificadas anteriormente. El objetivo fundamental es la exploracin, mediante tcnicas estadsticas, de las diferencias existentes entre ambas denominaciones de origen y si stas se modifican con los aos.

13 Estadstica descriptiva con SPSS


Los mtodos descriptivos bsicos pueden encontrarse en el tem Estadsticos Descriptivos del men Analizar, con varias alternativas.

13.1 Distribuciones de frecuencias


La primera de las opciones (Frecuencias) permite crear tablas de frecuencias de los posibles valores de la variable, junto con medidas descriptivas de la tendencia central, de la dispersin, asimetra y apuntamiento y algunos grficos. La ventana que se obtiene al seleccionar la opcin Frecuencias es la siguiente.

-40-

Figura 12.- Ventana de seleccin de variables en el comando Frecuencias. Para seleccionar una variable haga click sobre el nombre en la lista de la izquierda y utiliza el botn de seleccin, cuando complete la seleccin, el comando tendr efecto sobre todas las variables de la lista de la derecha. Si desea obtener la tabla de frecuencias ha de seleccionar el cuadro correspondiente bajo la lista de variables. Junto con la tabla de frecuencias es posible seleccionar distintos estadsticos y grficos en la parte inferior de la tabla. Seleccionando el botn Estadsticos obtendr la siguiente ventana que le permite escoger el tipo de seleccin que desea realizar.

-41-

Figura 13.- Estadstica descriptiva del men frecuencias. Las medidas de tendencia central que pueden ser seleccionadas son la media, mediana y moda. La suma de los valores de la variables se selecciona tambin en este apartado aunque no pueda ser considerada exactamente como una mediada de tendencia central. En cuanto a las medidas de dispersin es posible seleccionar la desviacin tpica, la varianza y el recorrido. SPSS utiliza (n-1) en el denominador de las frmulas de clculo de las medidas de dispersin por lo que la Varianza y la Desviacin tpica son, en realidad, la cuasi-varianza y la cuasi-desviacin tpica. En este apartado pueden seleccionarse tambin el mnimo, el mximo y el error estndar de la media. El mnimo y el mximo no son medidas de dispersin, el error estndar de la media mide la variabilidad de la media en el muestreo en contraste con la desviacin tpica que mide la dispersin de los datos. Es posible obtener tambin mediadas de la asimetra y el apuntamiento (curtosis) que permiten la comparacin de la distribucin de nuestros datos con la normal. Recurdese que a hiptesis de normalidad es importante para la aplicacin de muchas de las tcnicas de inferencia que se utilizan en la prctica. En el apartado de percentiles pueden seleccionarse cuartiles, puntos de corte que dividen la muestra en un nmero de partes iguales determinadas por el usuario o bien percentiles que ha de decidir el usuario. Por ejemplo si se desea calcular el dcimo percentil, escribiremos 10 al lado de la palabra Percentiles y usaremos el botn Aadir, al lado tendremos la lista de percentiles que calcular el programa. Los botones Cambiar y Eliminar permiten editar la lista de percentiles. Obsrvese que el programa no selecciona ninguna de las opciones por defecto. A la hora de seleccionar los estadsticos que se desea calcular es necesario tener en cuenta el tipo

-42de variable con el que se est trabajando, por ejemplo, no tendra sentido seleccionar este apartado si se trata de describir una variable cualitativa aunque se haya representado mediante nmeros en el archivo de datos. Si seleccionamos el botn Grficos en la figura 10 obtendremos la venta siguiente, que nos permite seleccionar el tipo de grfico que utilizaremos en la descripcin de los datos.

Figura 14.- Grficos en el comando frecuencias. Si los datos son cualitativos o discretos seleccionaremos un diagrama de barras mientras que si los datos son continuos seleccionaremos un histograma. Sobre el histograma es posible tambin superponer una curva normal con los parmetros obtenidos de la media y de la varianza muestral, para tratar de establecer, de forma visual, la posible normalidad de los datos.

Figura 15.- Formato del resultado del comando frecuencias.

-43-

Es posible ordenar las tablas de acuerdo con los valores de la variable o de las frecuencias en orden ascendente o descendente. Tambin es posible suprimir aquellas tablas que tengan ms de un nmero de categoras especificado por el usuario. Cuado se seleccionan varias variables, los resultados pueden ponerse separadamente para cada variable seleccionando la opcin Organizar los resultados segn las variables o en una nica tabla con una columna para cada una de las variables seleccionando la opcin Comparar variables. Para una variable cualitativa, por ejemplo el Sexo en la tabla anterior, la ventana de resultados es la siguiente es la siguiente

Figura 16.- Ventana de resultados. Observe que la tabla de resultados presenta dos zonas diferenciadas, en la parte izquierda presenta mens de navegacin que permiten acceder de forma rpida a los resultados del anlisis; la parte derecha presenta los resultados propiamente dichos.

-44La tabla presenta la frecuencia absoluta de cada valor de la variable, el porcentaje, y el porcentaje acumulado que solo tendr sentido cuando los valores de la variable estn ordenados. El diagrama de barras correspondiente aparece en la figura. La modificacin de los grficos se estudiar en un captulo separado. Si la variable analizada es cuantitativa, podemos calcular tambin diversos estadsticos tal y como aparece en la tabla siguiente para la variable grado alcohlico en el ejemplo de las dos denominaciones de origen.
Estadsticos Grado Alcohlico

Vlidos Perdidos

45 0 12,4600 ,11684 12,4000 ,78376 ,614

Media Error tp. de la media Mediana Desv. tp. Varianza

Tabla..- Resultados de la opcin Estadsticos del comando Frecuencias. No se ha mostrado la tabla de frecuencias en este caso ya que el programa la ha calculado para todos y cada uno de los valores de la variable sin agrupar en intervalos, las tablas de frecuencias aparecen correctamente cuando se trata de variables discretas o cualitativas, pero no cuando se trata de variables continuas. El histograma correspondiente, con la comparacin con la curva normal, aparece en la figura siguiente. Hay que hacer notar que no es posible elegir la amplitud de los intervalos y es el propio programa el que decide.

-45-

Figura 17.- Histograma resultante del comando Frecuencias.

La comparacin con la curva normal es importante cuando utilicemos los mtodos de la Inferencia Estadstica ya que estos estn diseados para distribuciones normales. Obsrvese que la distribucin normal es una generalizacin del polgono de frecuencias, que comentamos anteriormente, cuando la amplitud de los intervalos tiende a cero y el tamao de muestra tiende a infinito. Pretende modelar la frecuencia relativa de aparicin de cada valor o lo que es lo mismo, la probabilidad de cada uno de los posibles valores de la variable. Se trata de una distribucin simtrica, centrada en el valor de la media, donde alcanza la probabilidad mxima. La probabilidad ms alta se asigna a valores cercanos a la media, mientras que los valores alejados son cada vez menos probables a medida que aumenta la distancia. Si observamos la etiqueta de una botella de vino veremos que aparece el grado alcohlico del mismo, es decir, el porcentaje del contenido que es alcohol. Obviamente no se trata del contenido exacto sino de un valor medio para todas las botellas del mismo tipo de vino; la prueba es que tras medir los grados de muchas botellas no coinciden. Lo que realmente cabe esperar es que los contenidos en alcohol sigan una distribucin normal, es decir, que se concentren con mayor probabilidad alrededor del valor medio y que, valores alejados del valor medio sean poco probables. En este contexto, la desviacin tpica tiene una interpretacin til para el investigador: Si llamamos a la media y a la desviacin tpica de la poblacin de la que se han obtenido los datos, en el intervalo [- ; +] estn aproximadamente el 68% de las observaciones, en el intervalo [-2 ; +2] estn aproximadamente el 95% de las

-46observaciones y en el intervalo [-3 ; +3] estn aproximadamente el 99,7% de las observaciones. Esto quiere decir que es muy improbable encontrar valores de la variable ms all de tres veces la desviacin tpica, tomando como origen la media. En la prctica no tenemos los valores exactos de y as que tenemos que aproximarlos mediante los valores muestrales x y S. El mismo razonamiento puede aplicarse a la media utilizando el error estndar de la media ( ! n ), para distintas muestras, aproximadamente el 95% de los posibles valores de la media muestral para una muestra de tamao n, est en el intervalo # ! 2 " n , + 2 " n % . Cuando se estima mediante los valores muestrales $ &

" x ! 2 S n , x + 2 S n $ = " x ! 2ESM , x + 2ESM $ se denomina intervalo de confianza al % # % # 95% y nos proporciona, no solo una estimacin de la tendencia central sino tambin una medida de la precisin con la que se realiza la estimacin. Cuanto ms corto sea el intervalo, ms precisa es la estimacin realizada. El intervalo de confianza ser objeto de otro captulo dentro del apartado de inferencia estadstica.

13.2 El comando Descriptivos


La segunda opcin del tem Estadsticos Descriptivos del men Analizar, es Descriptivos y permite el clculo de algunos estadsticos sencillos. Bsicamente es muy similar la opcin Estadsticos del comando anterior. La ventana de definicin aparece en la figura siguiente.

Figura 18.- Ventana de definicin del comando Descriptivos. La ventana permite la seleccin de las variables que se van a utilizar en el anlisis, de la misma forma que ya se hizo en el comando anterior. Los recuadros de la parte inferior tienen el mismo significado que en la ventana de formato del comando anterior. Se aade la posibilidad de guardar en el archivo de datos una nueva columna que contenga los valores estandarizados (valores a los que se ha restado la media y se ha dividido por la desviacin tpica) de las variables analizadas.

-47El botn Opciones permite seleccionar los estadsticos a calcular y el formato de los resultados.

Figura 19.- Opciones del comando Descriptivos. Los resultados tpicos aparecen en la tabla siguiente.
Estadsticos descriptivos Rango Estadstico 3,20 Mnimo Estadstico 10,80 Mximo Estadstico 14,00 Media Estadstico 12,4600 Error tpico ,11684 Desv. tp. Varianza

Estadstico Estadstico ,78376 ,614

Tabla : Resultados del comando Descriptivos.

-48-

13.3 Exploracin de los datos


La tercera opcin del tem Estadistios descriptivos del men Analizar es el comando Explorar, que permite explorar las diferencias entre varios grupos para una o varias variables cuantitativas. Este apartado permite, mediante mtodos descriptivos avanzados y algunos contrastes, por ejemplo, de normalidad, explorar las posibles diferencias entre dos grupos, la posible existencia de outliers o la normalidad aproximada de los datos. La ventana de definicin de las opciones del comando aparece en la figura 20.

Figura 20.- Ventana de definicin de las opciones del comando Explore.

En la ventana etiquetada como Dependientes seleccionaremos las variables cuantitativas que queremos analizar, mientras que en la ventana Factores seleccionaremos las variables cualitativas que definen los grupos en los que queremos separar los anlisis. En el ejemplo que aparece en la pantalla se trata de analizar el grado alcohlico de vinos en dos denominaciones de origen, Ribera de Duero y Toro. Es posible etiquetar los casos (individuos) usando los valores contenidos en alguna de las columnas de archivo, si no ponemos etiquetas se utilizar el nmero de orden. Esta opcin es til, por ejemplo, para etiquetar los valores atpicos en un box plot La exploracin de los datos se lleva a cabo mediante la utilizacin de estadsticos y de grficos, o de ambos, tal y como puede seleccionarse en la esquina inferior izquierda de la ventana. Los botones Estadsticos, Grficos y Opciones permiten la seleccin de los anlisis particulatres que se quieren utilizar. La opcin Estadsticos abre la siguiente ventana.

-49-

Figura 21.- Opcin Estadsticos del comando EXPLORAR. Seleccionando el apartado Descriptivos se obtienen estadsticos descriptivos en los distintos grupos tales como media, mediana, moda, desviacin tpica, varianza, mnimo, mximo, etc .. En el apartado Estimadores robustos centrales (M-Estimators) se obtienen estimadores robustos de la tendencia central, estimadores robustos de las medidas de tendencia central son aquellos que no estn afectados por los valores ms extremos de la distribucin, como por ejemplo la mediana. De una forma ms general los estimadores robustos se obtienen asignando ponderaciones mas pequeas a las observaciones ms extremas en el clculo de la medida de tendencia central. Las distintas opciones dependen de la ponderacin que se da a cada observacin en el clculo de la medida. En general se asocian ponderaciones ms pequeas a los valores extremos de la distribucin. En el apartado valore atpicos (outliers) se obtienen los 10 valores ms extremos, 5 en la parte superior y 5 en la inferior. El propsito es encontrar valores anormalmente grandes o pequeos que pueden afectar el funcionamiento de anlisis posteriores. La opcin percentiles muestra diversos percentiles, que se utilizan generalmente en la construccin de los Box-Plot. Una vez seleccionadas las opciones deseadas haremos click sobre el botn Continuar. La opcin Grficos muestra la siguiente ventana.

-50-

Figura 22.- Opcin Grficos del comando EXPLORAR. Varios son los tipos de grficos que pueden se seleccionados: - Box-Plots (diagramas de caja): Mediante este tipo de grficos es posible estudiar la distribucin de la variable a travs de los percentiles. Es posible detectar desviaciones de la simetra, posibles outliers y es posible comparar la distribucin de varios grupos. En general, el programa coloca los Box-Plots correspondientes a los distintos grupos sobre el mismo grfico para permitir las comparaciones, es posible tamben colocar varias variables sobre el mismo grfico si las escalas son comparables usando la opcin Dependientes juntas. La opcin Ninguno realiza grficos separados para cada grupo y cada variable. - Histogramas : Seleccionados en la opcin correspondiente, permiten comparar la distribucin en varios grupos y detectar posibles desviaciones de la normalidad. Es posible situar la curva normal sobre el grfico como se hizo en opciones anteriores. - Steam-and-lef: Tiene la misma informacin que el histograma pero con la particularidad de que los datos originales con los que se construy son ahora recuperables. Permite comparar la distribucin de frecuencias de ambos grupos. - Grficos con pruebas de normalidad: En uno de los ejes se representa la distribucin emprica de los datos y en el otro los valores esperados en el caso de que la distribucin fuera normal. Si los datos proceden de una distribucin normal los puntos deberan estar aproximadamente sobre la diagonal principal. El grfico se complementa con el test de Kolmogorov-Smirnov para normalidad o el test de Shapiro-Wilks para muestras pequeas. En ambos contrastes la hiptesis nula es que los datos se ajustan a una distribucin normal, por tanto aceptamos que la distribucin es normal cuando el pvalor correspondiente es mayor de 0,05 y que la distribucin no es normal en caso contrario. La opcin proporciona, adems, grficos de normalidad sin tendencia; la

-51distribucin de los datos es aproximadamente normal si los grficos no muestran una tendencia definida clara. - Diagramas de Tendencia central-Dispersin: Se representa una medida de tendencia central frente a una medida de dispersin en cada uno de los grupos para ver si existe relacin entre ellas y puede violarse la hiptesis de igualdad de varianzas necesaria para la comparacin de los grupos. El grfico se complementa con el test de Levene para igualdad de varianzas. Es posible seleccionar tambin diversas transformaciones que pueden homogeneizar las varianzas. La seleccin de este tipo de grficos se realiza en el recuadro de la ventana etiquetada como Dispersin por nivel con prueba de Levene. Por ltimo, es posible seleccionar otras opciones relativas a los valores perdidos y que tienen que ver con la forma en que se eliminan del anlisis para distintas variables. La seleccin se hace en la ventana siguiente como resultado del uso del botn Opciones en la ventana del comando Explorar.

Figura 23.- Opciones del comando EXPLORE. La primera de las opciones "Excluir casos segn lista" excluye del anlisis todos aquellos casos que tengan un dato perdido en cualquiera de las variables de la lista de dependientes. La opcin "Excluir casos segn pareja" excluye solamente los casos que tengan datos perdidos en la variable que se analiza en cada momento. La opcin "Mostrar valores" informa de los casos que tienen valores perdidos. Cuando se ha completado el comando, los resultados aparecen en las tablas y grficos siguientes. Los resultados corresponden al anlisis del grado alcohlico para vinos jvenes de dos denominaciones de origen Ribera de Duero y Toro. Presentamos primero los resultados de la opcin Estadsticos en las dos denominaciones para pasar despus a los Box-Plots y grficos de normalidad. En este caso no tienen demasiado sentido los grficos de igualdad de varianzas ya que se dispone solamente de dos puntos por los que siempre pasa una recta. En la primera tabla se muestra el resumen del procesamiento de los casos, es decir, el recuento de los casos procesados para cada uno de los grupos y los porcentajes de casos vlidos y perdidos para cada uno de ellos. Para la comparacin de las denominaciones disponemos de 34 vinos de Ribera de Duero y 11 de Toro.

-52Resumen del procesamiento de los casos Casos DENOMINACION N grado RIBERA TORO 34 11 Vlidos Perdidos N Total Porcentaje 100,0% 100,0%

Porcentaje N Porcentaje 100,0% 100,0% 0 0

,0% 34 ,0% 11

A continuacin se muestra la tabla de estadsticos descriptivos para la comparacin de ambas denominaciones.


Descriptivos DENOMINACION Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza RIBERA Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra grado Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza TORO Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Lmite inferior Lmite superior Lmite inferior Lmite superior Estadstico Error tp. 12,1706 11,9711 12,3701 12,1915 12,2500 ,327 ,57183 10,80 13,00 2,20 ,78 -,605 -,438 13,3545 12,8995 13,8096 13,3884 13,4000 ,459 ,67729 12,10 14,00 1,90 ,90 -,855 -,383 ,661 1,279 ,403 ,788 ,20421 ,09807

-53La figura siguiente contiene el Box-Plot para la comparacin de las dos denominaciones.

Figura 1324.- Box-Plots para la comparacin de las dos denominaciones. Inmediatamente se observa que la graduacin alcohlica de los vinos de Toro es ms alta que la de los vinos de Ribera. La impresin se corrobora a partir de la observacin de las medidas de tendencia central, por ejemplo la media aritmtica que resulta ser de 12,17 para Ribera y 13,35 para Toro. Adems la diferencia de medias puede considerarse estadsticamente significativa ya que los correspondientes intervalos de confianza no se cruzan. Una diferencia similar puede apreciarse en medidas como la mediana, la moda o las medidas de tendencia central robustas, que se muestran en la tabla siguiente.
Estimadores-M DENOMINACION grado RIBERA TORO a La constante de ponderacin es 1,339. b La constante de ponderacin es 4,685. c Las constantes de ponderacin son 1,700, 3,400 y 8,500. d La constante de ponderacin es 1,340*pi. Estimador-M de Huber(a) 12,2515 13,4615 Biponderado de Tukey(b) 12,2673 13,4415 Estimador-M de Hampel(c) 12,2391 13,4212 Onda de Andrews(d) 12,2685 13,4409

-54Obsrvese que los estimadores robustos de la media y la misma media toman valores similares, esto quiere decir que los valores extremos no afectan especialmente a la distribucin que es aproximadamente simtrica. De los percentiles y de los valores extremos para los dos grupos es posible observar que la separacin entre los dos grupos es bastante clara, por ejemplo, el grado ms alto de un vino de la denominacin de Ribera es 13 grados, mientras que solamente 3 de los 11 de Toro estn por debajo de ese valor.
Percentiles DENOMINACION 5 Promedio ponderado(definicin 1) grado RIBERA TORO grado RIBERA TORO 10 25 Percentiles 50 75 90 95

11,1000 11,2500 11,8500 12,2500 12,6250 12,8000 13,0000 12,1000 12,1400 13,0000 13,4000 13,9000 14,0000 11,9000 12,2500 12,6000 13,1000 13,4000 13,9000 .

Bisagras de Tukey

Con respecto a la posible normalidad de los datos, se observa en el Box-Plot como para la denominacin de origen de Ribera los datos son aproximadamente simtricos, lo cual se pone tambin de manifiesto en el hecho de que la media, la mediana y los dems estimadores robustos toman valores muy similares. Se detecta un valor extremo en la parte baja que corresponde a la observacin 17, y un grado de 10,8 inusualmente bajo en comparacin con el resto. Ambos tests de normalidad resultan no significativos, por lo tanto suponemos normalidad.
Pruebas de normalidad DENOMINACION RIBERA TORO Kolmogorov-Smirnov(a) Estadstico grado ,126 ,244 gl 34 11 Sig. ,185 ,066 Shapiro-Wilk Estadstico gl Sig.

,947 34 ,102 ,855 11 ,049

a Correccin de la significacin de Lilliefors

En cuanto a la denominacin de Toro, la distribucin es bastante ms asimtrica, aunque no lo suficiente para rechazar la normalidad, como se pone de manifiesto en la significacin de los tests de normalidad correspondientes. Los grficos de normalidad aparecen en la figura 25.

-55Normal Q-Q Plot of GRADO


For DENOMINA: RIBERA
2

-1

-2 10,5 11,0 11,5 12,0 12,5 13,0 13,5

Normal Q-Q Plot of GRADO


For DENOMINA: TORO
1,5

Observed Value

1,0

,5

0,0

-,5

-1,0

-1,5 12,0 12,5 13,0 13,5 14,0 14,5

Observed Value

Figura 25.- Grficos de normalidad.

Con respecto a la homogeneidad de varianzas se acepta la hiptesis de igualdad (p = 0.540) basndose en la media por lo que las poblaciones pueden considerarse homoscedsticas. La misma conclusin se obtiene con el resto de las variantes de la prueba.
Prueba de homogeneidad de la varianza Estadstico de Levene gl1 Basndose en la media grado Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada ,382 ,359 ,359 ,375 1 1 gl2 Sig.

43 ,540 43 ,552

1 42,396 ,552 1 43 ,544

La normalidad e igualdad de varianzas es importante para decidir el test que se utilizar para comparar las medias de los dos grupos.

-56-

La distribucin de frecuencias de ambas denominaciones puede comparase tambin a partir de histogramas y de diagramas de tallo y hojas. Las figuras siguientes muestran los histogramas y los diagramas de tallo y hojas para ambas denominaciones.

Figura 26.- Histogramas para ambas denominaciones

Grficos de tallo y hojas


grado Stem-and-Leaf Plot for denomina= RIBERA Frequency Stem & Leaf (=<10,8) 2234 5679999 012223444 55666777888 00

1,00 Extremes 4,00 11 . 7,00 11 . 9,00 12 . 11,00 12 . 2,00 13 . Stem width: Each leaf:

1,00 1 case(s)

grado Stem-and-Leaf Plot for denomina= TORO Frequency 2,00 ,00 4,00 3,00 2,00 Stem width: Each leaf: Stem & 12 12 13 13 14 . . . . . Leaf 13 0224 999 00

1,00 1 case(s)

Figura 27.- Diagramas de tallo y hojas para ambas denominaciones Las representaciones ponen de manifiesto de nuevo lo que ya veamos en prrafos anteriores.

-57-

14 Representaciones grficas con SPSS


En el men Grficos de SPSS se presentan varias opciones para la construccin de grficos. Presentaremos aqu las mas sencillas para los grficos ms comnmente usados.

14.1 Diagramas de Barras


Veremos primero un diagrama de barras. Seleccionando barras en el men de grficos obtenemos la siguiente ventana que permite la definicin de distintos tipos de diagramas. Normalmente un diagrama de barras es un diagrama cartesiano que representa las frecuencias de los valores de una variable cualitativa. En SPSS el concepto de diagrama de barras es un poco ms amplio y permite representar barras cuya longitud es igual, por ejemplo, a la media de una variable en varios grupos y muchas otras posibilidades.

Se puede elegir entre diagramas simples, apilados o agrupados, los iconos correspondientes son suficientemente explicativos. Las barras pueden ser resmenes de un grupo de casos, Resmenes para distintas variables o valores individuales de los casos. En el primer caso podemos comparar, por ejemplo, las frecuencias de aparicin de vinos de ribera de Duero y Toro en un diagrama en el que cada barra representa una de las denominaciones. En el segundo caso podemos representar varias variables simultneamente en el mismo grfico, siempre que estas tengan magnitudes comparables, por ejemplo para datos en los que las variables son medidas de la misma magnitud en distintos momentos del tiempo.

-58La posibilidades de combinacin son innumerables, por lo que aqu describiremos solamente algunas de ellas. Seleccionamos, por ejemplo, un diagrama simple donde representaremos resmenes de grupos de casos y pulsamos el botn de definir. Obtendremos la siguiente pantalla de definicin.

La variable categrica que define los grupos se colocar en la casilla etiquetada como Eje de categoras:, en este caso seleccionamos, por ejemplo, la denominacin. En la parte superior seleccionaremos la forma de construir la barras. Si seleccionamos el nmero de casos tendremos el diagrama tradicional en el que se cuenta el nmero de veces que aparece cada una de las denominaciones de origen. Podemos seleccionar tambin el porcentaje en lugar del nmero y lo mismo para frecuencias acumuladas, aunque esto solo tendr sentido cuando los valores de la variable puedan ordenarse. En el recuadro de panel podemos realizar diagramas separados de acuerdo con los valores de otras variables. Por ejemplo, si ponemos los aos en filas, obtendremos el diagrama de barras de las denominaciones separado por aos en filas. Podemos construir tablas completas de diagramas usando tantas variables como queramos.

-59Si aceptamos el diagrama tal y como aparece en la pantalla obtendremos el diagrama siguiente.

Si aadimos el ao en las filas del panel, el grfico obtenido sera el siguiente.

Si aadimos el ao en las columnas del panel, el grfico sera.

-60-

Si seleccionamos un diagrama agrupado en lugar de simple obtendremos la siguiente ventana. Si seleccionamos un diagrama de barras agrupado, para cada una de las denominaciones obtendremos varias barras de acuerdo con los valores de otra variable, por ejemplo, una barra para cada uno de los aos. La pantalla de definicin se muestra en la figura siguiente.

-61-

Obsrvese que aparece una nueva casilla de seleccin etiquetada como Definir grupos por que permite separar por aos los resultados de cada denominacin. El diagrama obtenido sera el siguiente.

La interpretacin del diagrama es inmediata.

-62-

Si seleccionamos diagramas apilados la definicin se muestra en la ventana siguiente, que es completamente anloga a la del caso anterior. Hemos seleccionado aqu el nmero de casos ya que al apilar los porcentajes el diagrama resultante resultara extrao con porcentajes mayores de100.

El diagrama resultante sera el siguiente:

-63-

No consideraremos la posibilidad de utilizar barras diferentes de las que representan recuentos o porcentajes ya que, en la prctica, no se utilizan regularmente. Dejaremos este tipo de grficos para los diagramas de lneas del apartado siguiente.

14.2 Diagramas de Lneas


Los diagramas de lneas tienen bsicamente la misma informacin que los diagramas de barras cuado se hacen sobre los recuentos ya que simplemente consisten en unir los extremos superiores de las barras con lneas. En este tipo de diagramas es ms habitual situar como extremo para el dibujo de la lnea los valores de las medias (u otro estadstico) de una determinada variable. Como ejercicio puede dibujar los grficos correspondientes a los del apartado anterior. En este apartado utilizaremos grficos en los que representaremos la media del grado alcohlico en diferentes grupos. Cuando seleccionamos el diagrama de lneas obtenemos la siguiente ventana.

Las posibilidades son similares a las del diagrama de barras y las describiremos viendo los ejemplos. Las ventanas de definicin son anlogas a las del diagrama de barras. Por ejemplo, la ventana de definicin de un diagrama simple es la siguiente.

-64-

Hemos seleccionado un diagrama de lneas tomando como variable de grupos la denominacin y con lneas que representan a los valores medios de la variable grado alcohlico. Separamos los grficos en paneles por aos obteniendo el siguiente resultado.

-65Pueden utilizarse estadsticos distintos de la media seleccionando el botn Estadsticos. Las posibilidades se muestran en la ventana siguiente.

Si seleccionamos un grfico de lneas mltiple aadiendo el ao, obtenemos el siguiente resultado.

Las lneas que unen las medias del grado alcohlico en ambas denominaciones se han separado por aos. Este grfico ser til posteriormente cuando estudiemos la posible interaccin entre varios factores de variacin. Si seleccionamos un grfico de lneas verticales obtendramos el siguiente resultado.

-66-

14.3 Diagramas de Caja


Los diagramas de cajas para la comparacin de varios grupos que se obtuvieron en el men de exploracin pueden obtenerse de forma separada en el men de grficos utilizando la opcin Diagramas de caja. Los mens son similares a los de los dos grficos anteriores en cuanto a las opciones a seleccionar.

Si seleccionamos diagramas de cajas simples obtenemos la siguiente ventana.

-67-

Tenemos que seleccionar la variable continua que queremos estudiar, en este caso el grado alcohlico, y una variable cualitativa que defina los grupos a comparar, en este caso la denominacin. Opcionalmente podemos seleccionar una variable para etiquetar los casos, por ejemplo los valores atpicos en el box-plot, y todas las variables cualitativas para separar los grficos que consideremos oportunos en el panel. El resultado sera el siguiente, que ya ha sido comentado en el men de exploracin.

-68En la definicin de un diagrama de cajas mltiple simplemente tenemos que aadir una variable adicional de separacin de los grupos, por ejemplo el ao, para obtener un diagrama como el de la figura siguiente.

14.4 Diagramas con barras de error


Los diagramas con barras de error contienen bsicamente la misma informacin que los diagramas de lneas con medias utilizados anteriormente. Para cada grupo se dibuja un punto que representa la media de una variable continua. Alrededor del punto se sitan barras de error cuya longitud puede estar definida por distintos estadsticos como, por ejemplo, la desviacin tpica, el error estndar de la media o un intervalo de confianza para media. La principal ventaja de este tipo de grficos es que permiten aadir a la estimacin de las medias una medida de la precisin de la estimacin y, si la barra de error es el intervalo de confianza, permiten una comparacin estadstica formal aproximada de los grupos mediante la representacin grfica. La ventana de definicin es la siguiente. La estructura es idntica a la estructura de definicin de diagramas de cajas, con la nica diferencia de que tenemos que elegir que representan las barras de error.

-69-

La figura siguiente muestra las medias y barras de error para la variable grado alcohlico en ambas denominaciones de origen.

Observamos que las barras de error son ms cortas para la denominacin de Ribera lo que indica que la precisin de la estimacin es mayor en este grupo. Adems las barras no se cruzan por lo que la diferencia entre las medias del grado alcohlico en ambos grupos es estadsticamente significativa. Si seleccionamos un diagrama agrupado separando los aos obtenemos lo siguiente.

-70-

Obsrvese que la longitud de los intervalos para algunos de los grupos es muy grande por lo que es difcil detectar diferencias. Esto se debe a que en algunos grupos los tamaos muestrales son muy pequeos.

Você também pode gostar