Você está na página 1de 23

El anlisis multivariable: conceptos bsicos

Joaqun Alds Manzano1 Universitat de Valncia Dpto. de Direccin de Empresas Juan Jos Renau Piqueras

Estas notas son una seleccin de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epgrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi nica tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales.

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

El anlisis multivariable: conceptos bsicos


1. Qu es el anlisis multivariable?
(Hair, Anderson, Tatham y Black, 1995) El anlisis multivariable no es fcil de definir. En general, se refiere a aquellos mtodos estadsticos que analizan simultneamente diversas variables en cada individuo u objeto sobre el cual se investiga. Cualquier anlisis simultneo de ms de dos variables, puede considerarse anlisis multivariable. De hecho, muchas tcnicas multivariable son la simple extensin de anlisis univariados o bivariados. As, por ejemplo, la regresin simple (con una sola variable independiente), es una tcnica multivariable cuando se extiende a varios regresores. Otras tcnicas, sin embargo, como el anlisis factorial o el anlisis discriminante, estn especficamente diseadas para trabajar nicamente con estructuras multivariables.

2. Conceptos bsicos
Escalas de medida (Manzano, 1995; Uriel, 1995) El anlisis de datos, implica la identificacin y medida de la variacin en un conjunto de variables, bien entre ellas mismas o entre una variable dependiente y una o ms independientes. La palabra clave es medida, puesto que el investigador no puede identificar la variacin hasta que sta sea medida. En cualquier tcnica de anlisis multivariable, juega un papel muy importante el tipo de escala en que las variables estn medidas de hecho, como veremos, un criterio determinante para decidir qu tcnica multivariable es la adecuada para resolver un problema determinado, ser el tipo de escala en que estn medidas las variables dependientes e independientes. Podemos distinguir entre: Escalas nominales. En este caso, los nmeros se comportan como etiquetas, con tanta validez como una letra del alfabeto. Su misin es distinguir entre diferentes valores; por ejemplo: sexo (hombre, mujer). En el proceso de codificacin se puede asignar 1 al valor hombre y 2 al valor mujer. Esto no significa que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2), ni que existan personas de sexo intermedio (1,5).

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Escalas ordinales. No slo consigue distinguir entre valores, como la anterior, sino que adems establece un orden entre ellos. El dato representado por un 3 es superior al representado por un 2; por ejemplo tamao relativo (enorme, grande, normal, pequeo, diminuto). Si codificamos estos valores de la siguiente forma: 1 diminuto; 2 pequeo; 3 normal; 4 grande; 5 enorme entonces es cierta la relacin de orden, puesto que 1<2<3<4<5, pero no es cierto que entre grande y enorme exista la misma diferencia que entre pequeo y normal (5-4 = 1 = 3-2), como tampoco que pequeo sea el doble que diminuto (2=1x2). Escalas de intervalo. Adems de distincin y orden, la distancia o diferencia entre dos valores consecutivos cualesquiera es siempre la misma. En este caso, entre el valor representado por un 3 y el representado por un 2, existe la misma diferencia que entre 5 y 4. Por ejemplo, la temperatura medida en grados centgrados. En este caso, no slo 100 es diferente a 80, sino que es mayor (100>80); inclusive la diferencia de temperatura entre ambos es la misma que entre 80 y 60 (100-80 = 80-60). Pero no existe un cero absoluto, ya que la temperatura de 0 no significa ausencia de temperatura. De esta forma 100 no es el doble de 50. Vemoslo con un ejemplo. Creemos una nueva escala de temperatura que llamaremos en arcias, donde 1 arcia = 1 grado centgrado. Pero esta escala no tiene el cero cuando el agua se congela (0C) sino cuando entre en ebullicin (100C). Como se observa en la figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto como afirmar que 140 es el doble de 120. Figura 1. Ejemplo de escalas de intervalo
Arcias Centgrados

80 60 40 20 0 -20

180 160 140 120 100 80

Escalas de razn. Adems de la distincin, orden e intervalo, se aade un origen absoluto, de forma que no slo cabe hallar diferencias (ya se poda

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

hacer en la escala de intervalo), sino tambin mltiplos exactos. En este caso el valor representado por 4 tiene doble cantidad medida que el representado por 2. ste es el caso, por ejemplo, de la edad expresada en aos. As, 40 y 20 aos son edades distintas, 40 aos es una edad superior a 20 aos, entre 20 y 40 aos hay la misma diferencia de edad que entre 30 y 50 y, adems, el 0 tiene sentido. Una persona con 0 aos realmente no tiene edad, todava no ha nacido. De esta forma, 40 es exactamente el doble de 20. En estos apuntes, en diferentes ocasiones, utilizaremos las expresiones escalas mtricas, escalas no mtricas. No es una clasificacin alternativa, sino que la literatura agrupa a las escalas nominales y ordinales bajo el nombre de no mtricas y a las de intervalo y razn bajo el de escalas mtricas. La inferencia estadstica (Manzano, 1995) Todas las tcnicas multivariables, excepto el anlisis cluster y el escalamiento multidimensional, estn basados en inferir los valores reales que toma una variable en una poblacin, a partir de los valores que toma esa variable en una muestra aleatoria de la misma. Por ello es importante que nos acostumbremos a manejar con propiedad algunos trminos que aparecern con frecuencia a lo largo de nuestra relacin con las tcnicas multivariables. Cuando se juzga a una persona, puede declarrsele inocente o culpable. Independientemente del resultado del juicio, la persona ser inocente o culpable de verdad. De esta forma, tenemos las cuatro posibilidades que recoge el cuadro 1. Cuadro 1. Tipos de error en la inferencia estadstica Realidad Resultado del juicio Inocente Culpable Acierto Error tipo II Inocente Error tipo I Acierto Culpable Si hemos inferido que el individuo era inocente y en la realidad lo es, o lo hemos declarado culpable sindolo, estamos ante situaciones de acierto. Sin embargo las otras dos situaciones son errores. Nos planteamos entonces qu es ms grave, si declarar culpable a un inocente (error tipo I) o declarar inocente a un culpable (error tipo II). En las sociedades democrticas, se toma como menos grave la ltima situacin, por lo que se parte del supuesto de inocencia.

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

En la inferencia estadstica el razonamiento es anlogo. Imaginemos que estamos estudiando si existe relacin entre el sexo y el absentismo laboral. Si partiramos de que hay que evitar a toda costa el error tipo II, daramos por supuesto que s que existe relacin y veramos si hay evidencia de lo contrario. Pueden no encontrarse observaciones contundentes que rechacen de manera clara el supuesto de relacin. De esta forma se concluira que s existe relacin y, a partir de ese momento se llevaran a cabo un abanico de decisiones basadas en ese conocimiento cientfico. Una posible consecuencia podra ser la segregacin en los puestos de trabajo con motivo del sexo del aspirante. Por ese motivo, en ciencia, partimos de que no existe relacin y la labor del cientfico consiste en encontrar las evidencias de que s existe esa relacin. Si hemos partido de que no existe relacin, podemos llamar a ese enunciado hiptesis nula . El anlisis estadstico va a consistir bsicamente en buscar un criterio que me lleve a rechazar la hiptesis nula slo cuando la probabilidad de que me equivoque sea muy pequea. El trmino pequeo, sin embargo es algo relativo. En Ciencias Sociales se suele considerar que esa probabilidad es pequea cuando sea inferior al 1% en unos casos o al 5% en otros. A estos valores se los conoce como niveles de significacin y se les denota con la letra griega . Cuando a esos niveles de significacin podamos rechazar la hiptesis nula, diremos que la relacin entre las variables analizadas es estadsticamente significativas. Hoy en da, con los programas informticos, el contraste de hiptesis puede contemplarse desde otra perspectiva mucho ms racional. As, los programas estadsticos suelen ofrecer el llamado nivel de significacin crtico que suele aparecer bajo la etiqueta de p-value o significatividad. Determinado , se rechaza toda hiptesis nula a un nivel de significacin siempre que < . El nivel de significacin crtico es, pues, un indicador del nivel de admisibilidad de la hiptesis nula: cuanto mayor sea el nivel de significacin crtico, mayor confianza podemos depositar en la hiptesis nula. La utilizacin del nivel de significacin crtico, implica dar la vuelta al problema del contraste de hiptesis. As, en lugar de fijar a priori un nivel de significacin, se calcula un valor de que permite determinar a posteriori para qu niveles de significacin se puede rechazar la hiptesis nula.

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

3 Tipos de tcnicas multivariables

(Hair, Anderson, Tatham y Black, 1995) Una de las decisiones ms importantes, sino la ms relevante, a la hora de llevar a cabo un anlisis multivariado de los datos, pasa por determinar cul es la tcnica ms adecuada entre las muchas posibles. Para llevar a cabo esta seleccin, cabe responder a tres preguntas bsicas: 1. Estamos tratando de establecer una relacin de dependencia independencia entre unas variables y otras. 2. Si lo estamos haciendo, cuntas variables independientes se estn considerando en el anlisis? 3. Qu tipo de escala se est utilizando para medir a las variables? De la respuesta que se de a estas tres preguntas, depender que una u otra tcnica multivariable sea la ms adecuada para nuestra investigacin. Vemoslas, por tanto, con ms detalle. Siguiendo la figura 2 se observa que e primer criterio para seleccionar un tipo u otro de tcnica, pasa por determinar si nuestro propsito es establecer o no relaciones de dependencia e independencia entre las distintas variables. De ser s, un grupo de ellas, las dependientes sern explicadas por otras, las independientes, como ocurre por ejemplo con la regresin lineal. La alternativa a esta decisin est en las tcnicas de interdependencia, donde no existe un grupo de variables que sean definidas como dependientes o independientes, sino que la tcnica que se aplique analizar todas las variables simultneamente. Un ejemplo de este tipo de tcnicas es el anlisis factorial.

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Figura 2a. Clasificacin de las tcnicas multivariables


Tipo de relacin que se analiza

A
DEPENDENCIA: Prediccin de variables dependientes por otras independientes

Cuntas relaciones se miden

Mltiples relaciones entre varias dependientes y las independientes

Una relacin entre varias dependientes y las independientes

Una relacin entre una dependiente y las independientes

Sistemas de Ecuaciones Estructurales

Escala de medida de las dependientes

Escala de medida de las dependientes

B
Mtrica No Mtrica Mtrica

Escala de medida de las independientes

Correlacin cannica con v. ficticias

Regresin Mltiple

Anlisis Conjunto

Mtrica

No Mtrica

C
Correlacin cannica Anlisis multivariable de varianza

Fuente: Hair, Anderson, Tatham y Black (1995)

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Figura 2b. Clasificacin de las tcnicas multivariables

A
INTERDEPENDENCIA: Identificar la estructura de interrelaciones

La estructura de relaciones en entre:

Variables

Casos/ Respuestas

Objetos

Anlisis factorial

Anlisis cluster

Cmo se miden los atributos

Mtrica

No Mtrica

No Mtrica
Escalamiento multidimensional Anlisis de correspondencias

Anlisis discriminante

Regresin mltiple de variable dependiente limitada

LEYENDA
Punto de decisin

Decisin tomada

Tcnica seleccionada

Fuente: Hair, Anderson, Tatham y Black (1995)

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Los distintos mtodos que conforman el anlisis de dependencia, pueden distinguirse atendiendo a dos variables (1) el nmero de variables dependientes y (2) el tipo de escalas de medida utilizada con las variables. El cuadro 2 facilita al lector la eleccin de la tcnica de dependencia ms adecuada. Cuadro 2 Los mtodos multivariables de dependencia Correlacin cannica Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(mtricas, no mtricas) (mtricas, no mtricas)

Anlisis multivariable de la varianza Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm


(mtricas) (no mtricas)

Anlisis de varianza Y1 =X1 +X2 +X3 +...+Xm


(mtrica) (no mtricas)

Anlisis de regresin mltiple Y1 =X1 +X2 +X3 +...+Xm


(mtrica) (mtricas, no mtricas)

(mtrica, no mtrica) (no mtricas)

Anlisis conjunto Y1 =X1 +X2 +X3 +...+Xm

Sistemas de ecuaciones estructurales Y1 =X11 +X12 +X13 +...+X1m Y2 =X21 +X22 +X23 +...+X2m Yn =Xn1 +Xn2 +Xn3 +...+Xnm
(mtrica, no mtrica) (no mtricas)

Fuente: Hair, Anderson, Tatham y Black (1995) En las tcnicas de interdependencia que aparecen en la figura 2b, se observa que las variables no se clasifican en dependientes o independientes, dado que todas ellas son analizadas simultneamente para encontrar si existe una estructura subyacente bajo el conjunto de las mismas. Cuando la relacin que se busca es entre las variables, el anlisis factorial es la tcnica ms adecuada, si

10

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

son los casos los que se agrupan para encontrar la relacin subyacente se recurre al anlisis conjunto. Finalmente si el inters est en la estructura de los objetos, debera aplicarse el escalamiento multidimensional. En general, el anlisis factorial y el cluster se consideran que son tcnicas de interdependencia mtrica, aunque los datos no mtricos pueden ser transformados en variables ficticias y ser utilizados. Tambin existen las aproximaciones mtricas y no mtricas al anlisis de escalamiento multidimensional. En el caso de que se recurra a variables no mtricas, el anlisis de correspondencias puede ser una alternativa al escalamiento multidimensional.

4 La construccin de un modelo multivariable


(Hair, Anderson, Tatham y Black, 1995) Las tcnicas multivariables son, en general, herramientas muy poderosas que permiten al investigador extraer muchsima informacin de los datos disponibles. Estas tcnicas son, en s mismas, relativamente complejas y requieren para su utilizacin un conocimiento profundo de sus fundamentos y condiciones de aplicabilidad. El desarrollo de programas informticos de manejo sencillo, como el SPSS, estn provocando su uso indiscriminado y, muchas veces, no se utilizan adecuadamente. El objeto de este epgrafe es proporcional al lector una gua que le permita la aplicacin correcta de las tcnicas multivariables y le facilite el llegar a conclusiones razonables. Paso 1. Defina el problema que est investigado, sus objetivos y decida la tcnica multivariable que piensa utilizar. No se puede pretender utilizar una tcnica multivariable sin una adecuada aproximacin terica al problema que se est abordando. El investigador debe analizar conceptualmente su objeto de investigacin, definir los conceptos e identificar las relaciones fundamentales que se pretenden investigar. Primero hay que centrarse en el tema que se investiga, y no en las tcnicas que se van a emplear, lo que evitar que dejemos fuera del anlisis conceptos importantes. Una vez, y slo una vez realizado esto, el lector puede seguir los esquemas del epgrafe anterior para seleccionar la tcnica ms adecuada.

11

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Paso 2. Desarrollo del plan de anlisis. Una vez establecido el modelo conceptual, el nfasis se centra en aplicar adecuadamente la tcnica elegida, lo que hace referencia fundamentalmente a los tamaos muestrales mnimos que permiten su aplicacin, y a asegurarse de que el procedimiento de recogida de datos (v.g. los cuestionarios) miden las variables con las escalas oportunas (mtricas vs. no mtricas).

Paso 3. Tenga cuidado con las condiciones de aplicabilidad de la tcnica elegida. Una vez recogidos los datos, es necesario conocer cules son las hiptesis en que se basan las tcnicas multivariables y, que si no se cumplen, hace que carezca de sentido aplicarlas. En las tcnicas de dependencia, por ejemplo, suele ser necesario que los tados cumplan las hiptesis de normalidad, linealidad, independencia del trmino de error y homoscedasticidad.

Paso 4. Estime el modelo multivariable y establezca el ajuste global del mismo. Aplique la tcnica multivariable elegida. Pero fjese si el nivel de bondad del ajuste es adecuado. Si no es as, deber reespecificarse el modelo, incorporando o eliminando variables. Paso 5. Interprete los resultados. Una vez logre un nivel de ajuste aceptable, interprete el modelo. Fjese en los efectos de las variables individuales examinando sus coeficientes, cargas factoriales, utilidades... La interpretacin puede conducirle a nuevas reespecificaciones del modelo.

Paso 6. Valide el modelo. Antes de aceptar los resultados a los que haya llegado, debe aplicar una serie de tcnicas de diagnstico que asegure que estos resultados son generalizables al conjunto de la poblacin.

En la explicacin de las tcnicas multivariables que haremos en temas posteriores, seguiremos cada uno de estos pasos, lo que permitir al lector comprender mejor la utilidad de aplicar este procedimiento.

12

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

1.5 Comprobacin de las condiciones de aplicabilidad del anlisis multivariable.


(Hair, Anderson, Tatham y Black, 1995) Como se ha indicado en el paso 3 del procedimiento antes expuesto, no basta con que las variables estn medidas en la escala adecuada para que podamos utilizar o no una tcnica multivariable determinada. Es necesario asegurarse de que los datos cumplen las hiptesis que se les exige a las tcnicas multivariables para poder ser aplicadas. Si no es as, las distorsiones y sesgos introducidos no nos permitirn llegar a conclusiones adecuadas. Este epgrafe lo estructuraremos en dos fases. En la primera de ellas, describiremos las tcnicas de que disponemos para comprobar las principales hiptesis que deben verificar los datos. A continuacin las aplicaremos a la base de datos que nos va a servir de referencia para explicar todas las tcnicas multivariables de este curso, lo que facilitar su comprensin. Para ello se hace necesario detallar el contenido de la mencionada base de datos. Descripcin de la base de datos. HATCO es una empresa fabricante de maquinaria industrial que ha pasado una encuesta a los jefes de compras de las empresas que adquieren sus productos, los cuales han valorado su satisfaccin con HATCO respecto a siete atributos determinantes de su servicio y, adems, han ofrecido informacin acerca de sus empresas, como su tamao, tipo de empresa, porcentaje de sus compras de maquinaria que efectan a HATCO y una valoracin global de sus satisfaccin con esta empresa. De forma ms detallada, las siete variables que miden la percepcin que tienen de HATCO sus clientes, son las siguientes: 1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una vez que ste ha sido confirmado. 2. X2: Nivel de precios. Valoracin sobre el precio que se carga respecto a otros suministradores. 3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO de negociar el precio en todo tipo de compras. 4. X4: Imagen del fabricante. Imagen global de HATCO. 5. X5: Servicio. Valoracin respecto a si la calidad actual del servicio es suficiente para mantener la relacin entre el comprador y HATCO.

13

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventas de HATCO. 7. X7: Calidad del producto. Nivel de calidad percibida de los productos de HATCO. Todas estas variables se han medido mediante una escala grfica constituida por una lnea de diez centmetros donde en los extremos aparecen las palabras muy mala y excelente:
Muy mala Excelente

Los entrevistados indican su percepcin marcando con una raya en cualquier lugar de la lnea, que luego es medida y codificada entre cero y diez. Por su parte, las caractersticas de las empresas que compran a HATCO, se han medido mediante escalas mtricas y no mtricas y son las siguientes: 1. X8: Tamao de la empresa . Tamao relativo de la empresa respecto a otras del mercado. Se han creado dos categoras que son 1 = grande y 0 = pequea. 2. X9: Nivel de utilizacin de los servicios de HATCO. Es el porcentaje del total de las compras de la empresa que se realizan a HATCO. Se mide en una escala de cien puntos, segn sea el porcentaje. 3. X10: Nivel de satisfaccin con HATCO. Mide cun satisfecha est la empresa con HATCO en la misma escala que las variables X1 a X7. 4. X11: Procedimiento de compra. Establece si la empresa evala cada compra por separado (codificado como 1) o, por el contrario, tiene establecidas unas especificaciones de producto que se aplican a todas las compras (codificado como 0). 5. X12: Estructura de decisin. Determina si dentro de la empresa el proceso de toma de decisiones de compra est centralizado (codificado como 1) o descentralizado (codificado como 0). 6. X13: Tipo de industria . Responde a una tipologa interna de HATCO que las clasifica como industria tipo A (codificado como 1) u otros tipos (codificado como 0). 7. X14: Tipo de situacin de compra. Hace referencia a si es la primera compra a HATCO (codificado como 1), si es una recompra pero de

14

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

otros productos (cdigo 2) o es una recompra de los mismos productos que en la ltima ocasin (cdigo 3). Cuadro 3 Variables que contiene la base de datos. Dependiente vs. Descripcin Escala Independiente Rapidez de servicio Nivel de precios Flexibilidad precios Imagen fabricante Calidad servicio Imagen vendedores Calidad producto Tamao empresa Nivel uso servicio Nivel satisfaccin Procedimiento compra Estructura decisin Tipo industria Situacin compra Independiente Independiente Independiente Independiente Independiente Independiente Independiente Depend o Independ Dependiente Dependiente Depend o Independ Depend o Independ Depend o Independ Depend o Independ Mtrica Mtrica Mtrica Mtrica Mtrica Mtrica Mtrica No mtrica Mtrica Mtrica No mtrica No mtrica No mtrica No mtrica

Variable X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14

Establecidas las caractersticas de la base de datos, pasaremos a detallar los mecanismos de comprobacin de las hiptesis que garantizan la aplicabilidad del anlisis multivariante. Normalidad Es una de las hiptesis ms importantes. Hace referencia al perfil que debe mostrar la distribucin de frecuencias de cada variable mtrica individualmente. Si este perfil se desva de la distribucin normal, cualquier prueba estadstica que llevemos a cabo no sera vlida. La mayora de las tcnicas multivariables exigen, adems, que las variables sean multivariablemente normales , esto es, no slo que individualmente tengan una distribucin normal, sino que las combinaciones de las mismas tambin posean esta forma. Si las variables son multivariablemente normales, lo sern individualmente, pero lo contrario no es cierto. Comprobar la normalidad individual es relativamente sencillo, y a ello nos dedicaremos en este tema. Las pruebas de normali-

15

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

dad multivariables son ms complejas y suelen ser especficas de las tcnicas donde esta hiptesis es ms necesaria. Sern analizadas al desarrollar esas tcnicas en concreto. Los procedimientos para detectar la violacin de las hiptesis de normalidad pueden agruparse en dos tipos: grficos y estadsticos. Entre los primeros el ms til es el llamado grfico q-q o grfico de probabilidad normal, donde se representan los valores observados de los residuos y los esperados en el caso de que siguieran una distribucin normal. La distribucin normal aparece representada por una lnea recta. Si las variables no estn normalmente distribuidas, se alejarn de la recta como se ejemplifica en el grfico 3.

16

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Grfico 3 Grficos q-q y sus correspondientes distribuciones univariadas

Variable 1

Variable 2

Variable 3

Variable 4

Grficos q-q

Distribuciones univariadas

En este grfico, la variable 1 sigue una distribucin normal, de manera que su grfico q-q es una recta. La variable 2 muestra un elevado apuntamiento en su distribucin, que se traduce en un grfico q-q en forma de s. Las variables 3 y 4 estn sesgadas respectivamente a la derecha e izquierda, lo que provoca que sus grficos q-q queden por debajo de la recta en el primer caso y por encima en el segundo.

17

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

El segundo tipo de pruebas para determinar si las variables siguen o no distribuciones normales, son las llamadas pruebas estadsticas. Cada paquete informtico proporciona las suyas, en el caso de SPSS que es el que vamos a utilizar, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL). Veamos la aplicacin de ambas pruebas a nuestra base de datos. Como hemos indicado, slo procede evaluar la normalidad de las variables mtricas, por ello, lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es la siguiente:
EXAMINE VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10 /PLOT BOXPLOT NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

que nos proporciona la siguiente informacin ms relevante. Como grficos q-q mostramos dos ejemplos correspondientes a las variables X1 (rapidez del servicio) y X6 (imagen de la fuerza de ventas) Grfico 4. Los grficos q-q en SPSS
Grfico Q-Q normal de Rapidez de servicio
3

Normal esperado

-1

-2

-3 -1 0 1 2 3 4 5 6 7

Valor observado

18

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Grfico Q-Q normal de Imagen de los vendedores


3

Normal esperado

-1

-2

-3 0 1 2 3 4 5

Valor observado

Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente: Cuadro 4 El test KSL en SPSS
Pruebas de normalidad Kolmogorov-Smirnova Estadstico Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto Nivel de uso nivel de satisfaccin ,063 ,095 ,095 ,107 ,085 ,122 ,091 ,079 ,078 gl 100 100 100 100 100 100 100 100 100 Sig. ,200* ,028 ,027 ,007 ,069 ,001 ,041 ,131 ,142

*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significacin de Lilliefors

El test KSL plantea la hiptesis nula de que la variable se distribuye segn una normal, por lo que hay que comprobar si para alguna variable existe un valor p inferior al nivel de significacin que, como dijimos, poda ser 0,01 o 0,05. Si es as, podremos rechazar para esa variable la hiptesis nula y, consecuentemente, afirmar que esa variable no se distribuye segn una normal. Puede observarse en el cuadro 4 que las variables X4 imagen del fabricante (p=0,007) y X6 imagen de los vendedores (p=0,001) tienen valores de p inferiores a 0,01, por lo que podremos concluir que no siguen una distribucin normal. A la misma conclusin podramos haber llegado analizando el grfico 1.4. En l se comprueba como en la grfica correspondiente a la variable X1 rapidez del

19

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

servicio los valores se agrupan en torno a la recta, mientras que en la variable X6 imagen de los vendedores, el perfil es ms parecido al que mostrbamos en la variable 2 de grfico 3, que corresponda a una distribucin no normal. Si hubisemos elegido 0.05 como nivel de significacin, las variables X2 nivel de precios y X3 flexibilidad de precios tampoco tendran un comportamiento normal. Qu hacer con variables que no muestran un comportamiento normal? Lo habitual es recurrir a transformaciones del tipo: xp p 0 T (x ) = ln x es decir, a tomar logaritmos neperianos de la variable o tomar diversas races (p = seran cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Para determinar la ms adecuada, basta con transformar y volver a aplicar el test de KSL descrito. Homoscedasticidad La segunda asuncin que se hace sobre los datos, para poder aplicar las tcnicas multivariables, hace referencia a la igualdad de varianza entre las variables independientes, ya sean stas mtricas o no mtricas, respecto a la variable o variables dependientes. SPSS proporciona un test especfico para analizar esta hiptesis, el test de Levene, cuya hiptesis nula es la homoscedasticidad, es decir, que las varianzas son iguales. En nuestro ejemplo, habra que realizar esta prueba de homoscedasticidad para el conjunto de variables independientes (X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variables dependientes que, como se seal en el cuadro 3, pueden ser las variables (X8, X11, X12, X13 y X14). La sintaxis par obtener este test en SPSS, sera la siguiente:

20

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

EXAMINE VARIABLES= x1 x2 x3 x4 x5 x6 x9 x10 x7 BY x8 x11 x12 x13 x14 /PLOT SPREADLEVEL /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

A modo de ejemplo, ofrecemos en el cuadro 5 la salida correspondiente a analizar la homoscedaticidad de las variables independientes respecto a la variable X8 o tamao de la empresa. Puede comprobarse que, tomando como nivel de significacin 0,05, los valores p correspondientes a X4 imagen del fabricante (p=0,012), X5 servicio (p=0,006), X6 imagen de los vendedores (p=0.024) y X7 Calidad del producto (p=0,004) permiten rechazar la hiptesis nula de homoscedasticidad y, por ello, ser necesario realizar transformaciones anlogas a las que llevbamos a cabo para conseguir la normalidad, con el fin de poder aplicar muchas de las tcnicas multivariables que analizaremos.

21

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Cuadro 5. Salida de SPSS para el anlisis de homoscedasticidad


Prueba de homogeneidad de la varianza Estadstico de Levene ,934 ,993 gl1 1 1 gl2 98 98 Rapidez de servicio Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada nivel de precios Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada flexibilidad de precios Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada Imagen del fabricante Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada Servicio Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada Imagen de los vendedores Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada Nivel de uso Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada nivel de satisfaccin Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada Calidad del producto Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada Sig. ,336 ,321

,993

92,885

,322

,934 1,582 1,668

1 1 1

98 98 98

,336 ,211 ,200

1,668

97,938

,200

1,685 1,194 ,749

1 1 1

98 98 98

,197 ,277 ,389

,749

85,351

,389

,817 6,549 3,960

1 1 1

98 98 98

,368 ,012 ,049

3,960

79,356

,050

6,353 7,819 6,741

1 1 1

98 98 98

,013 ,006 ,011

6,741

83,075

,011

7,932 5,241 4,604

1 1 1

98 98 98

,006 ,024 ,034

4,604

93,255

,034

4,977 1,377 1,305

1 1 1

98 98 98

,028 ,243 ,256

1,305

97,893

,256

1,325 ,323 ,194

1 1 1

98 98 98

,252 ,571 ,660

,194

97,681

,660

,303 8,748 9,178

1 1 1

98 98 98

,584 ,004 ,003

9,178

97,298

,003

8,811

98

,004

Linealidad La ltima hiptesis que es necesario analizar es la linealidad, sobre todo en aquellas tcnicas multivariables basadas en medidas de asociacin como las correlaciones, incluyendo la regresin mltiple, la logstica, el anlisis factorial, el anlisis conjunto y los sistemas de ecuaciones estructurales. Dado que la correlacin representa asociaciones lineales entre variables, la ausencia de linealidad provoca que el coeficiente de correlacin no mida adecuadamente la relacin entre los pares de variables.

22

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

Disponemos, de nuevo, de dos procedimientos para analizar este supuesto. El primero consiste en recurrir a representaciones grficas bivariables para visualizar si la relacin que podemos aventurar es o no lineal. Por otro lado, los coeficientes de correlacin suelen ofrecer un indicador del grado de significacin del mismo. La hiptesis nula es que el coeficiente de correlacin no es significativo y el valor de p nos permitir aceptarla o rechazarla. La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos:
GRAPH /SCATTERPLOT(MATRIX)=x1 x4 x6 /MISSING=LISTWISE . CORRELATIONS /VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE.

donde slo se pide, a modo de ejemplo, que se realicen los grficos de dispersin entre las variables X1 rapidez del servicio, X4 imagen del fabricante y X6 imagen de los vendedores. A simple vista se observa que no parece que exista una relacin lineal entre la rapidez del servicio y la imagen de los fabricantes, pero s y bastante marcada, entre la imagen de los fabricantes y la de los vendedores. Grfico 5. Grficos de dispersin entre variables

Rapidez de servicio

Imagen del fabricant

Imagen de los vended

El cuadro 6 nos confirma esta apreciacin visual. As, se comprueba que el coeficiente de correlacin de Pearson entre la variable rapidez del servicio y la imagen de la empresa, que toma un valor de 0,05 no aparece marcado con *, que dira que es significativo para un nivel del 5% ni con ** que indicara que lo es al 1%. Esta misma informacin nos la proporcionan las p, que toma

23

Anlisis multivariable: conceptos bsicos Joaqun Alds Manzano

un valor de 0.618 que al ser claramente superior a 0.01 y 0.05 no permiten rechazar la hiptesis nula de no significatividad del coeficiente de correlacin. Sin embargo, el coeficiente de correlacin de Pearson entre la imagen de la empresa y la imagen de los vendedores, que es de 0,788 aparece marcado como ** y su p es de 0,000 que al ser inferior a 0,01 y 0,05 confirma de nuevo la apreciacin visual que hicimos al analizar el grfico 5. Cuadro 6. Coeficientes de correlacin de Pearson
Correlaciones Imagen de los vendedores Calidad del producto Rapidez de servicio Rapidez de servicio Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N **. La correlacin es significativa al nivel 0,01 (bilateral). *. La correlacin es significante al nivel 0,05 (bilateral). -,349** ,000 100 ,509** ,000 100 ,050 ,618 100 ,612** ,000 100 ,077 ,444 100 -,483** ,000 100 ,676** ,000 100 ,651** ,000 100 nivel de precios flexibilidad de precios Imagen del fabricante Servicio Nivel de uso nivel de satisfaccin

nivel de precios

flexibilidad de precios

-,487 ** ,000 100 ,272 ** ,006 100 ,513 ** ,000 100 ,185 ,065 100 ,470 ** ,000 100 ,082 ,418 100 ,028 ,779 100

Imagen del fabricante

-,116 ,250 100 ,067 ,510 100 -,035 ,731 100 -,448** ,000 100 ,559** ,000 100 ,525** ,000 100 ,299** ,003 100 ,788** ,000 100 ,200* ,046 100 ,224* ,025 100 ,476** ,000 100 ,240* ,016 100 -,055 ,586 100 ,701** ,000 100 ,631** ,000 100 ,177 ,079 100 ,255* ,010 100 ,341** ,001 100 -,192 ,055 100 -,283 ** ,004 100

Servicio

Imagen de los vendedores Calidad del producto

Nivel de uso

nivel de satisfaccin

,711** ,000 100

Referencias bibliogrficas HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data Analysis. 4 edicin. Englewood Cliffs: Prentice Hall. MANZANO ,V. (1995): Inferencia estadstica: aplicaciones con SPSS/PC+. Madrid: RA-MA. URIEL , E. (1995): Anlisis de datos. Series temporales y anlisis multivariante. Madrid: Editorial AC.

Você também pode gostar