Você está na página 1de 21

ANLISIS EXPLORATORIO DE DATOS

Actividad 2 Ejercicio 1. Anlisis exploratorio con SPSS


En el fichero "empleados.sav" se encuentra informacin relativa a 474 individuos. Realizar un anlisis exploratorio de las variables salario actual (salario) y meses desde el contrato (tiempemp), segn categora laboral (catlab) y etiquetando los casos segn nivel educativo (educ). Especificar en cada caso los anlisis realizados e interpretar los resultados obtenidos. Definir y explicar el comportamiento y uso de las rdenes y las reglas de sintaxis empleadas por SPSS en el ejercicio.

METODOLOGA El primer paso en el anlisis multivariante es el anlisis exploratorio de los datos. Estas tcnicas permiten el examen de las caractersticas de la distribucin de las variables implicadas en el anlisis, las relaciones bivariantes (y multivariantes) entre ellas y el anlisis de las diferencias entre grupos. Los siguientes pasos implican el anlisis de datos ausentes (en caso que sea pertinente), la deteccin de valores atpicos y finalmente, la comprobacin de los supuestos subyacentes en los mtodos multivariantes.

1. Anlisis exploratorio y grfico de los datos Se obtuvieron los estadsticos de resumen (utilizando frecuencias) para las variables individuales a fin de obtener una primera observacin de los datos. Este primer paso nos permite determinar los valores tpicos de las variables, comprobar los supuestos de los procedimientos estadsticos y la calidad de los datos. Mediante el procedimiento de Frecuencias adquirimos los resmenes para las variables estudiadas, sean nominales (categoras laborales y nivel educativo) o de escala (meses desde el contrato y salario actual). Por su parte, el anlisis Descriptivo mediante grficos de barras y sectores, nos permiti conseguir las comparaciones entre las variables de escala y la distribucin normal e identificar casos inusuales en dichas variables. Luego, a fin de obtener un resumen numrico y visual de los datos, para todos los casos y separados por grupos, se realiz un anlisis exploratorio seleccionando como variables dependientes al salario actual (salario) y meses desde el contrato (tiempemp), y como variable de factor categora laboral (catlab) (cuyos valores definirn los grupos de casos). Finalmente se seleccion el nivel educativo (educ) como variable de identificacin para etiquetar los casos. Estadsticos Mediante la opcin Estadsticos se obtuvo el resumen del procesamiento de los datos, los estadsticos descriptivos, los estimadores robustos, los valores atpicos y los percentiles (tablas 1-5). Los estadsticos robustos son aquellos que se ven poco afectados por la influencia de los valores extremos de la variable. La mediana es un estadstico de centralizacin robusto, pero la media no lo es (s podramos utilizar la media truncada). Otros estimadores robustos son los estimadores-M que se definen ponderando cada valor en

ANLISIS EXPLORATORIO DE DATOS


funcin de su distancia al centro de la distribucin. Las observaciones centrales se ponderan por el mximo valor (la unidad) disminuyendo los coeficientes de ponderacin a medida que las observaciones se alejan del centro de la distribucin, llegando al extremo de ponderar con un cero aquellos valores muy lejanos al centro de la distribucin (valores atpicos). La forma de ponderar clasifica los estimadores-M. El estimador-M de Hubert pondera con el valor uno todos los valores situados a menos de 1.339 de la mediana. El estimador-M de Tukey pondera con un cero los valores situados a 4.385 de la mediana y el estimador-M de Hampel utiliza tres coeficientes de ponderacin segn que cada valor de la variable se encuentre a una distancia de la mediana de 1.7, 3.4, y 8.5, respectivamente. Finalmente, el estimador-M de Andrews pondera con un cero los valores situados a 4.2066 de la mediana. Se recomienda utilizar el estimador-M de Hubert cuando la distribucin se acerca a la normalidad y no hay muchos valores extremos. Por su parte, cuando existen casos atpicos, es til utilizar los estimadores-M de Tukey y Andrews. Grficos Utilizando la orden Grficos generamos histogramas (figura ), pruebas y grficos de probabilidad normal (figura ), y diagramas de dispersin por nivel con estadsticos de Levene (figura ). En las Opciones de manipulacin de los valores perdidos, se emple la opcin de excluir los casos segn lista. El diagrama de tallo y hojas es un procedimiento semigrfico para presentar la informacin para variables cuantitativas, que es especialmente til cuando el nmero total de datos es pequeo (menor que 50). Los principios para la realizacin de este diagrama se deben a Tukey, e implican: 1) redondear los datos a dos cifras, disponerlos en dos columnas donde la primera columna est compuesta por las decenas (tallo) y la segunda de las unidades (hojas). A la derecha de cada tallo (o clase) se van escribiendo por orden las sucesivas hojas correspondientes a ese tallo. El nmero de hojas para cada tallo, representa la frecuencia de cada clase. Este diagrama es una combinacin entre el histograma de barras y la tabla de frecuencias. Esta herramienta muestra el rango de los datos, dnde estn ms concentrados, su simetra y la presencia de datos atpicos. Sin embargo, no es muy aconsejable para grandes conjuntos de datos. El grfico mltiple de caja y bigotes permite analizar, resumir y comparar simultneamente varios conjuntos de datos univariantes dados, correspondientes a los diferentes grupos en que se subdividieron los valores de la variable salario actual. Esta herramienta permite examinar la posible presencia de normalidad, simetra y valores atpicos (outliers) en el conjunto de datos. Sin embargo, deben analizarse conjuntamente con los grficos de tallos y hojas (o histogramas digitales) ya que los grficos de cajas no detectan la presencia de distribuciones multimodales. Este grfico permite analizar y resumir un conjunto de datos univariante dado. Se divide los datos en cuatro reas de igual frecuencia, una caja central dividida en dos reas por una lnea vertical y otras dos reas representadas por dos segmentos horizontales (bigotes) que parten del centro de cada lado vertical de la caja. La caja central encierra el 50 % de los datos. La lnea vertical dentro de la caja representa la mediana, mediante la cual se puede evaluar la simetra de los datos (si la lnea est en el centro de la caja, indica la inexistencia de asimetra en la variable). La media muestral se indica en el interior de la caja, mediante un signo de ms. Los lados verticales de la caja indican los cuartiles inferior y superior de la variable. El bigote de la izquierda seala en sus extremos el primer cuartil Q1 (a la izquierda) y el primer cuartil menos 0.5 veces el rango intercuartlico (Q1-1.5*(Q3-Q1), a la derecha). El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el valor dado por Q3+1.5*(Q3-Q1). Los

ANLISIS EXPLORATORIO DE DATOS


outliers (valores atpicos) se encuentran ms all de los bigotes sealados, y se representan mediante puntos alineados con la lnea horizontal central. Al ser la representacin simultnea para todos los conjuntos de datos, se podr comparar medias, medianas, rangos, valores extremos, simetras y valores atpicos de todos los grupos. 2. Anlisis y deteccin multivariante de casos atpicos Se analizan a travs de los grficos de cajas y bigotes, aunque tambin podran utilizarse la distancia D2 de Mahalanobis, el estadstico DFITS y/o la influencia (Leverage).

3. Comprobacin de los supuestos del anlisis multivariante La presencia de mltiples variables provoca complejidad de relaciones que llevan a distorsiones y sesgos cuando no se cumplen determinados supuestos (normalidad, homoscedasticidad, linealidad, ausencia de autocorrelacin o correlacin serial y ausencia de multicolinealidad). Normalidad: todas las variables que intervienen en un mtodo de anlisis multivariante deben ser normales, y aunque ello no garantiza la normalidad multivariante, suele bastar con la normalidad de cada variable. La comprobacin de la normalidad de las variables se realiza mediante mtodos grficos y contrastes estadsticos formales: 1) contraste de Kolmogorov-Smirov de la bondad de ajuste y 2) constraste de normalidad de Shapiro y Wilks. Para el contraste de Kolmogorov-Smirov (K-S) consideramos que la masa total de probabilidad discreta est repartida uniformemente entre los N valores muestrales de forma que, ordenados los valores muestrales de menor a mayor, la funcin de distribucin emprica de la muestra es Fn(x)=Ni/N. este contraste trata de medir el ajuste entre la funcin de distribucin emprica de una muestra y la funcin de distribucin terica. Como la distribucin a ajustar es una normal, el estadstico de K-S se dice que est corregido por Lilliefors. Se utiliza el criterio de p-valor, rechazando la hiptesis nula al nivel alfa cuando el p-valor es menor que alfa, y aceptndose en caso contrario. El contraste de normalidad de Shapiro-Wilks (S-W) es un caso particular de contraste de ajuste, donde se trata de comprobar si los datos provienen de una distribucin normal (es un contraste especfico para normalidad). Este test mide el ajuste de la muestra a una recta dibujada en papel probabilstico normal. Se rechaza la normalidad cuando el ajuste es bajo, que corresponde a valores pequeos del estadstico del test. Puede tambin utilizarse el criterio del p-valor, rechazando la hiptesis nula de normalidad de los datos al nivel alfa cuando el p-valor es menor que alfa, y aceptndola en caso contrario. Heteroscedasticidad: en cualquier modelo multivariante suele suponerse que la variable u (trmino de error) es una variable aleatoria con esperanza nula y matriz de covarianzas constante (hiptesis de homoscedasticidad) y diagonal. Su anlisis comienza por el examen grfico de los residuos (estudentizados) respecto a las variables endgenas y exgenas. Este ltimo grfico permite determinar cul es la variable que implica mayor heteroscedasticidad, aquella variable exgena cuyo grfico se separa ms de la aleatoriedad. Tambin se utiliza la grfica de valores observados respecto a los valores predichos. Aparte de los anlisis grficos en ciertas situaciones es necesario realizar contrastes formales como los de White, Ramsey o Levene . Este ltimo se utiliza para comprobar que la dispersin de la varianza entre grupos formados por variables mtricas, se mantiene igual.

ANLISIS EXPLORATORIO DE DATOS


Multicolinealidad: el supuesto de que las variables sean linealmente independientes (hiptesis de independencia) se analiza mediante la matriz de correlaciones. Valores altos en esta matriz son sntoma de una posible dependencia entre las variables implicadas. Sus soluciones son: ampliar la muestra, realizar transformaciones adecuadas en las variables, sustituir o suprimir alguna de las variables, etc. Autocorrelacin: el supuesto de que el trmino de error es una variable aleatoria con esperanza nula y matriz de covarianza constante y diagonal (hiptesis de no autocorrelacin), se evala mediante el anlisis grfico de los residuos (residuos estudentizados) respecto del ndice temporal (o nmero de fila), que debe presentan una estructura aleatoria libre de tendencia. Tambin se realizan contrastes formales como los de Durbin-Watson, Wallis, etc. Linealidad: los grficos de dispersin de las variables con secuencias no lineales y los grficos residuales con secuencias no aleatorias, permiten detectar la falta de linealidad.

RESULTADOS 1. Anlisis de frecuencia y descriptivo El procedimiento Frecuencias proporcion estadsticos y representaciones grficas que resultan tiles para la descripcin de las variables, antes de realizar un anlisis descriptivo separado por grupos. El grfico de sectores es una herramienta visual para la evaluacin de las frecuencias relativas de cada categora. Las tablas de frecuencia indican las frecuencias precisas para cada categora (tabla 1). Observamos que la mayora de los individuos muestreados presentan un nivel educativo valorado en 12, seguidos por el nivel educativo 15, lo que significa que la mayora de los encuestados presentan un alto nivel educativo (figura 1.A). En particular, 190 y 116 individuos corresponden a los niveles educativos valorados en 12 y 15 conformando respectivamente, el 40.1 y 24.5% del total de individuos encuestados. A su vez, la amplia mayora de los encuestados pertenecen al sector administrativo (figura 1.B). La columna de frecuencias reporta que 363 individuos provienen del sector administrativo, lo que es equivalente al 76.6% del nmero total de encuestados.

ANLISIS EXPLORATORIO DE DATOS

Figura 1. Evaluacin de las frecuencias relativas de cada categora mediante grfico de sectores, para las variables nivel educativo (A) y categora laboral (B).

Tabla 1. Casos analizados que han resultado vlidos y casos totales, presentes en las categoras laborales (A) y los distintos niveles educativos (B).

A
Vlidos Administrativo Directivo Seguridad Total

Frecuencia 363 84 27 474

Porcentaje 76,6 17,7 5,7 100,0

Porcentaje vlido 76,6 17,7 5,7 100,0

Porcentaje acumulado 76,6 94,3 100,0

B
Vlidos 12 15 16 8 19 17 18 14 20 21 Total

Frecuencia 190 116 59 53 27 11 9 6 2 1 474

Porcentaje 40,1 24,5 12,4 11,2 5,7 2,3 1,9 1,3 ,4 ,2 100,0

Porcentaje vlido 40,1 24,5 12,4 11,2 5,7 2,3 1,9 1,3 ,4 ,2 100,0

Porcentaje acumulado 40,1 64,6 77,0 88,2 93,9 96,2 98,1 99,4 99,8 100,0

ANLISIS EXPLORATORIO DE DATOS


Los estadsticos descriptivos de la variable nivel educativo, as como sus grficos de sectores respecto a las categoras laborales, se sealan a continuacin (tabla y figura 4). En ellos podemos notar que el sector administrativo se encuentra representado por niveles educativos altos, principalmente los 12 y 15 (figura 2.A), que representan el 48.5 y 30.6% del total. Tambin es importante sealar que este sector laboral presenta casi la totalidad de los niveles educativos observados en los encuestadores. Sin embargo, ocurre una gran diferencia en el personal de seguridad, donde los niveles educativos se encuentran mal representados y apenas dos de ellos (8 y 12) completan el 96.3% de los casos (tabla 2). Finalmente, los directivos son el sector laboral que presenta mayor nmero de casos en niveles educativos altos, donde el nivel correspondiente al valor 16 y 19, llegan a pesar un 41 y 31%, respectivamente (tabla 2).

Figura 2. Evaluacin de las frecuencias relativas de cada categora mediante grfico de sectores, para las variables nivel educativo (A) y categora laboral (B).

ANLISIS EXPLORATORIO DE DATOS


Tabla 2. Casos analizados que han resultado vlidos y casos totales, presentes en las categoras laborales (A) y los distintos niveles educativos (B).
Frecuencia 40 176 6 111 24 3 2 1 363 Porcentaje 11,0 48,5 1,7 30,6 6,6 ,8 ,6 ,3 100,0 Porcentaje vlido 11,0 48,5 1,7 30,6 6,6 ,8 ,6 ,3 100,0 Porcentaje acumulado 11,0 59,5 61,2 91,7 98,3 99,2 99,7 100,0

Vlidos

8 12 14 15 16 17 18 19 Total

a. Categora laboral = Administrativo


Porcentaje vlido 48,1 48,1 3,7 100,0 Porcentaje acumulado 48,1 96,3 100,0

Vlidos

8 12 15 Total

Frecuencia 13 13 1 27

Porcentaje 48,1 48,1 3,7 100,0

a. Categora laboral = Seguridad

Vlidos

12 15 16 17 18 19 20 21 Total

Frecuencia 1 4 35 8 7 26 2 1 84

Porcentaje 1,2 4,8 41,7 9,5 8,3 31,0 2,4 1,2 100,0

Porcentaje vlido 1,2 4,8 41,7 9,5 8,3 31,0 2,4 1,2 100,0

Porcentaje acumulado 1,2 6,0 47,6 57,1 65,5 96,4 98,8 100,0

a. Categora laboral = Directivo

Por su parte, la tabla estadstica 3, nos revel aspectos interesantes sobre la distribucin de las variables salario actual y meses desde el contrato, comenzando por el resumen de los cinco-nmeros principales (mnimo, cuartiles -25 y 75-, mediana y mximo).

ANLISIS EXPLORATORIO DE DATOS


Tabla 3. Estadsticos descriptivos para las variables meses desde el contrato y salario actual percibido por los encuestados Meses desde el contrato Salario actual Meses desde el contrato N Vlidos 474 474 0 Perdidos 0 $34,419.57 Media 81,11 $28,875.00 Mediana 81,00 $17,075.661 Desv. tp. 10,061 2,125 Asimetra -,053 ,112 Error tp. de asimetra ,112 Curtosis 5,378 -1,153 Error tp. de curtosis ,224 ,224 Mnimo 63 $15,750 Mximo 98 $135,000 Percentiles 25 72,00 $24,000.00 50 81,00 $28,875.00 75 90,00 $37,162.50

El centro de la distribucin de los meses de contrato puede aproximarse mediante al mediana (o segundo cuartil, que corresponde a 81 meses), y el 50% central donde caen los valores para dicha variable van entre 72 y 90 meses de contrato (el primer y tercer cuartil). Tambin cabe destacar que sus valores extremos son 63 y 98, el mnimo y mximo, respectivamente. La media es muy similar a la mediana, sugiriendo que la distribucin es bastante simtrica. Esta sospecha se confirma mediante la observacin del valor de asimetra, que es cercano a cero. Respecto al salario actual, el 50% central de los datos se encuentran entre los valores $24000 y $37162 dlares. Los valores extremos de esta variable son $15750 y $135000, y a diferencia de la anterior variable de estudio, en este caso la media dista bastante del valor adoptado por la mediana ($34419 y $28875 dlares, respectivamente). Esta observacin, conjuntamente con el elevado valor positivo de la asimetra, indica que la variable presenta una larga cola hacia la derecha, y que por tanto la distribucin es asimtrica hacia la derecha (existen algunos valores distantes en la direccin positiva, respecto al centro de la distribucin). La asimetra positiva, conjunto a la gran distancia entre la media y la mediana, inflan la desviacin tpica, de tal manera que no es un estimativo til de la dispersin de los datos. Un valor alto y positivo de la curtosis nos indica que la distribucin de los salarios actuales es ms empinada y presenta fuertes colas, respecto a lo esperado para una distribucin normal. Las afirmaciones anteriores se corroboran en los histogramas correspondientes a cada variable de estudio, que representan un resumen visual de las distribuciones de los valores (figura 3). La curva normal superpuesta ayuda una vez ms a evaluar la asimetra y curtosis de las variables.

ANLISIS EXPLORATORIO DE DATOS

Figura 3. Histogramas de frecuencia relativa donde se sealan las curvas normales y sus estadsticos descriptivos (media, desviacin tpica y N total), para las variables de estudio (medes desde el contrato y salario actual).

Muchos de los procedimientos estadsticos para datos cuantitativos, son menos seguros cuando la distribucin de los valores es marcadamente diferente de la distribucin normal, como ocurre en el caso de la variable salario actual. Por ello, si quisiramos seguir analizando esta variable, su transformacin logartmica nos permitira colocar la distribucin de los valores cercana a la normal. La transformacin logartmica es una eleccin sensible dado que el salario actual toma solo valores positivos y es asimtrica positiva. Esta afirmacin se corrobora mediante los estadsticos descriptivos analizados luego de la transformacin de la variable salario actual (tabla 4).

Tabla 4. Estadsticos descriptivos de la variable salario actual luego de someterse a una transformacin logartmica de los datos.
logsalario N Media Mediana Desv. tp. Asimetra Error tp. de asimetra Curtosis Error tp. de curtosis Mnimo Mximo Percentiles Vlidos Perdidos 474 0 10,3568 10,2707 ,39733 1,001 ,112 ,682 ,224 9,66 11,81 10,0858 10,2707 10,5230

25 50 75

ANLISIS EXPLORATORIO DE DATOS


El nuevo histograma de la variable salario actual transformada (figura 4), permite apreciar que la transformacin ha permitido que la distribucin de los datos sea cercana a la normal. La curtosis y asimetra se ven notoriamente reducidas, y la media y la media presentan valores prximos entre s. Asimismo el histograma producido es mucho ms cercano a la curva normal (tabla y figura 4).

Figura 4. Histograma de frecuencia relativa donde se sealan las curvas normales y sus estadsticos descriptivos (media, desviacin tpica y N total), para la variable salario actual con transformacin logartmica.

Conclusin 1 Hemos evaluado la composicin de las variables categoras laborales y niveles educativos, y hemos descripto las distribuciones de los meses desde el contrato y el salario actual que perciben los encuestados. A grandes rasgos, identificamos una pobre representacin de los distintos niveles educativos en el sector de empleados de seguridad (figura 2), si bien, ste sector fue el menos encuestado de las categoras laborales (figura 1). Tambin observamos cierta correspondencia entre los altos escalafones laborales y los mayores niveles educativos (figura 1). La variable meses desde el contrato, present una distribucin aproximadamente normal, con curtosis negativa (figura 3). Identificamos una asimetra positiva en la distribucin de los salarios actuales, donde aplicamos la transformacin logartmica, recomendada para futuros anlisis de dicha variable (tabla y figura 4).

ANLISIS EXPLORATORIO DE DATOS


2. Anlisis exploratorio de las variables agrupadas segn las categoras laborales e identificando el nivel educativo de los valores extremos. En primer lugar obtenemos el resumen de los casos, donde observamos la inexistencia de valores perdidos (tabla 5). Sealamos nuevamente que el personal administrativo est notoriamente mejor representando en la muestra (presenta un nmero de casos N, ms de diez veces mayor al correspondiente a los empleados en seguridad).

Tabla 5. Resumen del procesamiento de los casos segn las variables: salario actual y meses desde el contrato, y agrupados en categoras laborales.
Vlidos N Porcentaje 363 100,0% 27 100,0% 84 100,0% 363 100,0% 27 100,0% 84 100,0% Casos Perdidos N Porcentaje 0 ,0% 0 ,0% 0 ,0% 0 ,0% 0 ,0% 0 ,0% Total Porcentaje 363 100,0% 27 100,0% 84 100,0% 363 100,0% 27 100,0% 84 100,0%

Salario actual

Meses desde el contrato

Categora laboral Administrativo Seguridad Directivo Administrativo Seguridad Directivo

Los estadsticos descriptivos habituales se muestran en la tabla 6, para las variables consideradas y segn las categoras laborales analizadas (administrativos, seguridad y directivos; tabla 6). Para el personal de seguridad, la media ($30938) y la media truncada ($31007) son muy similares a la mediana ($30750), sugiriendo que la distribucin no presenta una elevada asimtrica. Dicha afirmacin se confirma mediante la observacin del valor de asimetra, que es cercano a cero y mediante el histograma de los datos (figura 5). A su vez, el 50% central de los datos para los empleados en seguridad, se encuentran entre $30000 y $31200 dlares (primer y tercer cuartil), siendo que el extremo superior de este rango intercuartlico coincide con el de los administrativos. La distribucin del salario actual para los administrativos presenta valores de media y mediana alejados entre s, una gran asimetra (1.905) y una elevada curtosis (7.977). Por consiguiente, la distribucin de los salarios actuales, para el grupo de administrativos, es asimtrica positiva y empinada, presentando una larga cola de datos hacia la derecha (figura 1). El 50% de los datos adoptan valores entre los $22800 y $31200 dlares, pero los valores mnimo y mximo alcanzan los $15750 y $80000 dlares, respectivamente. Finalmente el rango del salario actual perteneciente al grupo de los directivos, es diez veces mayor al correspondiente al personal de seguridad y tres quintos ms que el de los administrativos. El valor mnimo y mximo para este grupo de trabajadores alcanza los $34410 y $135000 dlares, respectivamente. Presenta una asimetra positiva (1.181) y curtosis (2.107) moderada, con valores de media y mediana no muy prximos entre s. Estas observaciones implican que la variable salario actual se distribuye con asimetra positiva en el grupo de los directivos, segn como indica el histograma correspondiente (figura 5).

ANLISIS EXPLORATORIO DE DATOS


Tabla 6. Estadsticos descriptivos para las variables salario actual y meses desde el contrato, agrupadas segn la categora laboral del encuestado. Debajo se observan los percentiles segn la definicin de promedio ponderado.
Categora laboral Administrativo Seguridad Directivo Administrativo Seguridad Directivo Media recortada al 5% $27,290.50 $31,007.72 $62,728.31 81,07 81,62 81,21 Amplitud intercuartil $8,400 $1,200 $20,475 18 14 18

Estadstico

Salario actual

Meses desde el contrato

Media $27,838.54 $30,938.89 $63,977.80 81,07 81,56 81,15

Mediana $26,550.00 $30,750.00 $60,500.00 81,00 80,00 81,00

Varianza 6E+007 4471603 3E+008 102,222 72,026 108,373

Desv. tp. $7,567.995 $2,114.616 $18,244.776 10,110 8,487 10,410

Mnimo $15,750 $24,300 $34,410 63 67 64

Mximo $80,000 $35,250 $135,000 98 95 98

Rango $64,250 $10,950 $100,590 35 28 34

Asimetra 1,905 -,368 1,181 -,021 -,087 -,164

Curtosis 7,977 3,652 2,107 -1,149 -1,077 -1,230

Promedio ponderado (definicin 1)

Salario actual

Meses desde el contrato Bisagras de Salario actual

Categora laboral Administrativo Seguridad Directivo Administrativo Seguridad Directivo Administrativo

Percentiles 25 $22,800.0 $30,000.0 $51,618.8 72,00 76,00 73,00 50 $26,550.0 $30,750.0 $60,500.0 81,00 80,00 81,00 75 $31,200.0 $31,200.0 $72,093.8 90,00 90,00 91,00

Figura 5. Histogramas del salario actual para las categoras laborales de: administrativos, seguridad y directivos.

ANLISIS EXPLORATORIO DE DATOS


El rango del salario actual para los empleados administrativos, de seguridad y directivos, fue dividido en 16, 7 y 9 clases o intervalos llamados tallos, respectivamente (figura 6). Cada uno de estos intervalos se representan mediante una fila del diagrama (la columna frequency indica la frecuencia absoluta de cada clase). Los diagramas de tallo y hojas indican la existencia de valores extremos, con una frecuencia del: 12% para los administrativos, 2 y 4% para el grupo de personal de seguridad, y 4% para los directivos. Los histogramas de frecuencia (figura 5) y los diagramas de tallo y hojas (figura 6) confirman una asimetra positiva del salario actual para las categoras de administrativos y directivos. En particular, dicha variable presenta un mayor empinamiento y asimetra en el grupo de administrativos, lo que permite pensar en la inexistencia de normalidad. Por su parte, la distribucin de sta variable respecto al personal de seguridad parece indicar un ajuste no muy distante de la distribucin normal.

ADMINISTRATIVOS Frequency Stem & Leaf 2,00 1 . 5 16,00 1 . 66666777 15,00 1 . 8899999 35,00 2 . 00000011111111111 44,00 2 . 2222222222222233333333 53,00 2 . 44444444444444455555555555 55,00 2 . 666666666666677777777777777 35,00 2 . 88888888999999999 30,00 3 . 00000001111111 19,00 3 . 222333333 17,00 3 . 44445555 11,00 3 . 66677 8,00 3 . 8899 8,00 4 . 000& 3,00 4 . 2& 12,00 Extremes (>=43950)

SEGURIDAD Frequency Stem & Leaf 2,00 Extremes (=<28500) 1,00 29 . 5 5,00 30 . 00003 12,00 30 . 677777777777 1,00 31 . 2 2,00 31 . 99 4,00 Extremes (>=33750) DIRECTIVOS Frequency Stem & Leaf 3,00 3 . 478 15,00 4 . 001233355667788 21,00 5 . 011234445555566678899 21,00 6 . 000011125556666788889 11,00 7 . 00023355888 4,00 8 . 1236 4,00 9 . 0127 1,00 10 . 0 4,00 Extremes (>=103500)

Figura 6. Grficos de tallo y hojas de la variable salario actual, correspondientes a las tres categoras laborales consideradas en el presente estudio.

En la variable meses desde el contrato se observa que las medias, medias truncadas y medianas, son bastante similares entre s, para las diferentes categoras de empleo. A su vez, sus estadsticos de asimetra son cercanos a cero y levemente negativos, por lo cual en una primera instancia se podra afirmar que dicha variable presenta distribuciones no muy distantes de la esperada para una distribucin normal, para las tres categoras de empleo. Sin embargo, una dbil asimetra negativa es observada en el valor de asimetra y tambin en la proximidad que adoptan el 50% de los valores centrales de los datos (~70-90) respecto a los valores mximos de la variable (~95-98). Los valores de curtosis tambin son levemente negativos, indicando distribuciones poco empinadas para las tres categoras laborales. Los histogramas y diagramas de tallo y hojas (figuras 7-8), donde no se seala la existencia de valores extremos, indican rasgos no muy distantes respecto a la distribucin normal, pero la inexistencia de una correspondencia clara con la misma.

ANLISIS EXPLORATORIO DE DATOS

Figura 7. Histogramas de los meses de contrato para las categoras laborales de: administrativos, seguridad y directivos.
ADMINISTRATIVOS Frequency Stem & Leaf 3,00 6 . 333 14,00 6 . 44444455555555 28,00 6 . 6666666666666666777777777777 23,00 6 . 88888899999999999999999 14,00 7 . 00000000000011 23,00 7 . 22222222222222333333333 10,00 7 . 4444455555 19,00 7 . 6666666677777777777 22,00 7 . 8888888888888999999999 30,00 8 . 000000000001111111111111111111 27,00 8 . 222222222222222333333333333 20,00 8 . 44444444444455555555 19,00 8 . 6666666666777777777 16,00 8 . 8888888888889999 19,00 9 . 0000000000001111111 26,00 9 . 22222222222333333333333333 16,00 9 . 4444444444455555 21,00 9 . 666666666667777777777 13,00 9 . 8888888888888 SEGURIDAD Frequency Stem & Leaf 4,00 6 . 7899 2,00 7 . 34 7,00 7 . 6788899 4,00 8 . 0334 2,00 8 . 57 7,00 9 . 0011224 1,00 9 . 5 DIRECTIVOS Frequency Stem & Leaf 2,00 6 . 44 16,00 6 . 5555555667788899 6,00 7 . 013344 13,00 7 . 5567888888999 13,00 8 . 0001111333334 9,00 8 . 566678999 18,00 9 . 001111223333333344 7,00 9 . 6666678

Figura 8. Grficos de tallo y hojas de la variable meses de contrato, correspondientes a las tres categoras laborales consideradas en el presente estudio.

ANLISIS EXPLORATORIO DE DATOS


Los estimadores robustos de la variable salario actual, para los administrativos y directivos, se encuentran relativamente cercanos al valor de la mediana, pero ninguno es prximo a la media (tabla 7). En cuanto a los meses desde el contrato, podemos afirmar que para los tres grupos de trabajadores (tabla 7), los estimadores robustos presentan valores cercanos a las medias de cada grupo (an ms similares que su comparacin con la mediana).

Tabla 7. Estimadores robustos: estimadores-M. En a,b,c,d se indican las constantes de ponderacin para los estimadores, que toman los siguientes valores: 1.339, 4.685, 1.700-3.400-8.500 y 1.340*pi, respectivamente.
Categora laboral Administrativo Seguridad Directivo Administrativo Seguridad Directivo Estimador-M a de Huber $26,748.31 $30,711.82 $61,388.90 81,07 81,85 81,35 Biponderado b de Tukey $26,356.33 $30,646.42 $59,820.52 81,08 81,55 81,29 Estimador-M c de Hampel $26,767.08 $30,621.07 $61,059.63 81,05 81,66 81,15 Onda de d Andrews $26,350.15 $30,646.78 $59,780.37 81,08 81,55 81,29

Salario actual

Meses desde el contrato

a.

Los contrastes de normalidad implican evaluar el ajuste de la curva normal a los datos, donde un contraste significativo representa el pobre ajuste de los datos a dicha distribucin normal. En la tabla 8 podemos observar que para ambas variables (salarios actuales y meses de contrato) y en casi todas las categoras laborales consideradas en el estudio (excepto el personal de seguridad para la variable meses desde el contrato), los contrastes de normalidad dan significativos, por lo que se ajustan pobremente a una distribucin normal. Sin embargo, en el grupo de empleados de seguridad, la variable meses de contrato s se ajusta bien a una normal (los test no son significativos).

Tabla 8. Pruebas de normalidad utilizando los contrastes de KolmogorovSmirov (con la correccin de la significacin de Lillieforsa) y Shapiro-Wilks.
Categora laboral Administrativo Seguridad Directivo Administrativo Seguridad Directivo Kolmogorov-Smirnov Estadstico gl Sig. ,107 363 ,000 ,276 27 ,000 ,109 84 ,016 ,084 363 ,000 ,136 27 ,200* ,108 84 ,017
a

Salario actual

Meses desde el contrato

Estadstico ,882 ,818 ,929 ,955 ,948 ,934

Shapiro-Wilk gl 363 27 84 363 27 84

Sig. ,000 ,000 ,000 ,000 ,191 ,000

*. Este es un lmite inferior de la significacin verdadera.

La tabla de valores extremos indica los cinco mayores y menores valores para las variables salario actual y meses de contrato, en cada categora laboral (tabla 9). Observamos que el salario de los directivos es casi siempre mayor que el del personal de seguridad (a excepcin del caso 462, cuyo salario es del $34410). Tambin se indica que los mayores salarios actuales para los administrativos y directivos, son percibidos por aquellos individuos con niveles educativos altos, que corresponden en mayor medida a los directivos y administrativos: 19 y 16 en el grupo de directivos y 15, 18 y 16, para los administrativos. Sin embargo, los mximos salarios

ANLISIS EXPLORATORIO DE DATOS


percibidos por individuos de nivel educativo valorado en 16, los administrativos reciben aproximadamente la mitad del salario mximo recibido por los directivos de igual nivel educativo. Respecto a los menores salarios actuales, los directivos continan presentando, para estos casos, altos niveles educativos (16 y 15), mientras que los administrativos presentaron niveles educativos notoriamente inferiores (8 y 12) para los menores salarios percibidos. Por su parte, los menores valores extremos para los empelados en seguridad (8, 12 y 15) presentan niveles educativos muy similares a los correspondientes a los individuos que presentan los mayores valores extremos del salario (8 y 12), por lo que esta variable no parece incidir en el comportamiento extremo de los salarios actuales. Esto puede explicarse mediante el grfico de sectores analizado en el apartado anterior (figura 2).

Tabla 9. Valores extremos (mayores y menores) de las variables salario actual y meses desde el contrato, segn la categora laboral de los encuestados. En a, b,c,d,e,f,g se indica que en la tabla de valores extremo mayores/menores solo se muestra una lista parcial de los casos con el valor correspondiente al sealado.
Mayores Categora laboral Administrativo Salario actual Meses desde el contrato Salario actual Meses desde el contrato Salario actual Meses desde el contrato Salario actual Meses desde el contrato Salario actual Meses desde el contrato Salario actual Meses desde el contrato 1 218 2 291 45 29 1 378 474 126 429 462 468 Nmero del caso 2 3 4 272 72 161 3 303 48 32 18 338 473 386 414 120 464 4 281 96 18 27 411 472 326 386 288 462 5 206 98 343 29 224 471 429 385 286 458 5 80 6 174 111 446 32 90 470 385 353 231 456 1 15 16 12 12 19 15 8 12 15 8 16 16 Nivel educativo 2 3 4 18 16 16 12 12 12 19 16 8 12 8 8 16 19 8 8 8 16 19 12 15 8 8 15 16 15 12 8 16 19 12 15 8 12 15 19 5 16 15 8 12 16 19 8 12 12 12 16 19
1 $80,000 98 $35,250 95 $135,000 98 $15,750 63 $24,300 67 $34,410 64 2 $66,875 98 $35,250 94 $110,625 97 $15,900 63 $28,500 68 $37,800 64 Valor 3 $54,000 98 $34,500 92 $103,750 96 $16,200 63 $29,550 69 $38,700 65 4 $52,650 98 $33,750 92 5 $51,000 98
c

Seguridad

$31,950a 91
e

Directivo

$103,500 $100,000 96 $16,200 64 $30,000 69 $40,050 65 96 $16,200 64


d f

Menores

Administrativo

Seguridad

$30,000b 73 $40,200 65
g

Directivo

En los diagramas de cajas podemos observar una vez ms las diferencias en las distribuciones de las variables dependientes, respecto a los grupos laborales (figura 9 y 10). Para el salario actual, los grficos de cajas sealan los outliers mediante crculo, y los valores extremos con un asterisco. Asimismo, se indica en el grfico el nivel educativo correspondiente a cada outlier o valor extremo (figura 9, ver conjuntamente la tabla 9). Referente a los meses desde el contrato, no se observan valores extremos de importancia ni outliers (figura 10).

ANLISIS EXPLORATORIO DE DATOS

Figura 9. Grfico de cajas y bigotes para la variable salario actual y sus tres categoras laborales: administrativos, seguridad y directivos. Se sealan mediante crculos los outliers y con asterisco los valores extremos.

Figura 10. Grfico de cajas y bigotes para la variable meses desde el contrato y sus tres categoras laborales: administrativos, seguridad y directivos.

ANLISIS EXPLORATORIO DE DATOS

Figura 11. Grficos Q-Q normal sin tendencia de la variable salario actual, para las categoras laborales consideradas.

Los grficos Q-Q normales sealan los nmeros de los casos correspondientes a estos extremos (figura 11-12). En los grficos Q-Q normal, la lnea roja recta representa los valores esperados cuando los datos siguen una distribucin normal. Observamos nuevamente, en las tres categoras laborales, desvos respecto a la normalidad, a excepcin del grupo de seguridad cuya distribucin no es muy clara. A excepcin del grupo de seguridad, en los grficos de evaluacin de la normalidad (figuras 11 y 12), observamos dos comportamientos diferenciables segn la variable dependiente: 1) un comportamiento curvo o en forma de C, correspondiente al salario actual y 2) una curva en S para la variable meses desde el contrato. En particular, el patrn en forma de C es caracterstico de las distribuciones con asimetra izquierda (negativa). Asimismo, la forma en S del grfico para los meses desde el contrato, suele encontrarse en distribuciones con largas colas (o colas importantes). Destacamos aqu, el comportamiento aproximadamente normal de la variable meses desde el contrato, para los empleados en seguridad.

ANLISIS EXPLORATORIO DE DATOS

Figura 12. Grficos Q-Q normal de los meses de contrato, para las categoras laborales consideradas.

Conclusin 2 En resumen, podemos destacar que la variable meses desde el contrato no presenta valores atpicos, cuenta con valores de asimetra y curtosis levemente negativos (tabla 6), que a partir de los grficos de barras y los Q-Q normales (figuras 7 y 12), nos permiten afirmar que dicha distribucin se aparta del comportamiento normal aunque no de manera pronunciada. A su vez, se observaron distribuciones semejantes para los tres sectores laborales (figura 10). Por su parte, para el personal se seguridad, dichos grficos no son muy claros y los test de normalidad no rechazan la hiptesis de normalidad de los datos (tabla 8). En el salario actual, las discrepancias con la distribucin normal son ms acentuadas, presentando asimetras y altos valores de curtosis positivos, con mayores diferencias entre los valores de media y mediana (tabla 6). Las distribuciones no son similares para los tres grupos laborales, presentando una mayor asimetra y curtosis en el caso de los empleados administrativos y rangos superiores para los directivos (figura 5). Dicha afirmacin, unida al diagrama de cajas, los grficos Q-Q normal y los test de normalidad, nos permiten afirmar que, para los administrativos y directivos, las distribuciones del salario actual son asimtricas positivas y algo leptocrticas (figuras 9 y 11). Aqu encontramos varios casos de valores atpicos y outliers, vinculados al nivel educativo de los individuos encuestados.

ANLISIS EXPLORATORIO DE DATOS


En conjunto, recordando la similitud en las distribuciones de los meses desde que los encuestados han sido contratados, cabe discutir si los valores extremos del salario se vinculan ms directamente con el nivel educativo o con el escalafn laboral. Analizando la tabla 9, los directivos llegan a presentar valores extremos superiores del salario que cuatriplican a los mximos salarios alcanzados por el personal de seguridad (tabla 6). Asimismo, los niveles educativos alcanzados por los directivos son notoriamente superiores a los dems grupos laborales, presentando incluso, altos valores para los menores salarios percibidos por el sector (tabla 9). Sin embargo, la correspondencia entre mayores salarios a mayores niveles educativos, no se ve muy bien explicada por el escalafn laboral, por ejemplo, dada la existencia de casos extremos donde a igual nivel educativo (16) los directivos presentan salarios que duplican los de los administrativos (tabla 9). Por ello, haba que realizar otro tipo de anlisis ms especfico para contestar este problema. Finalmente cabe recordar que la encuesta presenta una representacin muy desigual de las categoras laborales de lso encuestados, vindose subestimado el personal de seguridad (figura 1).

APNDICE SINTAXIS DE LAS FUNCIONES REALIZADAS EN SPSS

1. Anlisis de frecuencia y descriptivo Se indican a continuacin las rdenes que fueron ejecutadas en SPSS para el anlisis de frecuencias correspondiente a los niveles educativos (primer bloque) y las categoras laborales (segundo bloque). Se ordena el anlisis de cada variable (/ORDER) y la construccin de los correspondientes grficos por sectores (/PIECHART). FREQUENCIES VARIABLES=educ /FORMAT=NOTABLE /PIECHART FREQ /ORDER= ANALYSIS . FREQUENCIES VARIABLES=catlab /FORMAT=NOTABLE /PIECHART FREQ /ORDER= ANALYSIS . Las rdenes computadas para la construccin del grfico por sectores educativos, correspondiente a cada categoras laborales analizada, se detallan en este apartado. Observamos que los datos fueron segmentados segn la categora laboral de los mismos (SEPARATE BY catlab) y luego se aplic las mismas rdenes que en prrafo anterior. SORT CASES BY catlab . SPLIT FILE SEPARATE BY catlab . FREQUENCIES VARIABLES=educ /PIECHART FREQ /ORDER= ANALYSIS .

ANLISIS EXPLORATORIO DE DATOS


2. Anlisis exploratorio El fichero de rdenes aplicado para al aobtencin del anlisis exploratorio, consta de la seleccin de las variables dependientes (VARIABLES) segn la categora laboral (BY) e identificando el nivel educativo de cada individuo (ID). Se solicit graficar diagramas de cajas, tallo y hojas, histogramas y grficos Q-Q normal (/PLOT), estableciendo comparaciones segn los grupos formados (COMPARE). Tambin se calcularon una serie de estimadores robustos (/MESTIMATORS), percentiles (/PERCENTILES) y la descripcin de los valores extremos (/STATISTICS DESCRIPTIVES EXTREME). EXAMINE VARIABLES=salario tiempemp BY catlab /ID= educ /PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT /COMPARE GROUP /MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1.7,3.4,8.5) TUKEY(4.685) /PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

Você também pode gostar