Você está na página 1de 17

Análisis

descriptivos

Métodos y
Técnicas de
Investigación
Social
Análisis descriptivos

Análisis descriptivos: distribución de frecuencias y


medidas de tendencia central
Al cargar los datos en el respectivo programa de análisis estadístico queda
determinada una matriz donde cada caso es una fila y cada columna una
variable o un aspecto considerado. En el caso de una encuesta, una variable
puede corresponder a una pregunta de un cuestionario (preguntas que
admiten una sola respuesta) o puede ser necesaria más de una variable para
capturar la información proveniente de una pregunta (aquellas que admiten
respuestas múltiples).

Para decidir qué tipo de análisis descriptivo se puede aplicar, hay que
considerar el nivel de medición de cada variable (nominal, ordinal, de intervalo
o de razón), al tiempo que las hipótesis a las que responde y cómo está
formulada.

Se denomina análisis univariado al que considera una por una cada variable del
estudio.
Figura 2: Análisis de datos

Fuente: [Imagen intitulada sobre análisis de datos] (s. f.). Recuperada de http://goo.gl/LVVo9q

Distribución de frecuencias y su representación gráfica

La frecuencia de una variable es la representación de la cantidad de veces que


aparece en cierto conjunto cada uno de los valores de esa variable. Esta
representación sintética puede aplicarse a variables de todos los niveles de
medición.

Los indicadores de frecuencias son:

 Frecuencia absoluta o simplemente frecuencia: cantidad de veces que


aparece cada valor.

 Frecuencia relativa: proporción de las veces que aparece cada valor en


el total. Se la suele expresar en porcentajes a fin de facilitar su
interpretación.

 Frecuencia acumulada: apariciones totales acumuladas hasta cierto


valor de la variable.

Tomemos como ejemplo la encuesta sobre uso del tiempo (Indec, 2013) para
mostrar los conceptos involucrados en este módulo.

La siguiente tabla presenta una salida de SPSS a partir de la base de datos


correspondientes. Veamos qué información contiene. Cada columna posee
información relevante. La primera indica los valores posibles de la variable (Sí,
No, Ns/Nr). La segunda muestra la frecuencia absoluta, es decir, cuántos casos
en la encuesta respondieron cada valor. En este caso, 46.372 dijeron “Sí”, en
tanto 18.916 dijeron “No”. La tercera columna presenta la frecuencia relativa
expresada en términos porcentuales. El 71 % respondió “Sí”, mientras que el
28,9 % respondió “No”, y el 0,1 % “Ns/Nr”. La cuarta columna indica los
porcentajes válidos. Como a esta pregunta la responden todos los encuestados,
coincide con la columna anterior. Pero si la pregunta se realizara a solo una
parte de los encuestados, el porcentaje de una y otra columna diferiría.
Finalmente, la quinta columna indica el porcentaje acumulado. Si bien puede
analizarse, en el caso de las variables cualitativas este análisis es menos
interesante que en el caso de las variables cuantitativas.

Tabla 1: Salida de SPSS

Participó en quehaceres domésticos

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado

Válido Sí 46372 71,0 71,0 71,0

No 18916 28,9 28,9 99,9

Ns/Nr 64 ,1 ,1 100,0

Total 65352 100,0 100,0

Fuente: elaboración propia.

Las frecuencias también pueden representarse a través de gráficos.

Figura 3: Gráfico de barras

Fuente: elaboración propia.


Figura 4: Gráfico circular. Diagrama de sectores

Fuente: elaboración propia.

Figura 5: Polígono de frecuencias

Fuente: elaboración propia.


Medidas de posición o tendencia central

Las medidas de tendencia central son medidas sintéticas que permiten indicar,
con un único número, un valor de referencia del conjunto de datos. Las
principales son: la media, la mediana y la moda.

La media es el promedio de todos los valores de un conjunto de datos


cuantitativos (escalas de intervalo o razón). Se calcula sumando todos los
valores y dividiendo esa suma por la cantidad de casos totales que el conjunto
incluya. Por ejemplo, si tenemos los datos de la cantidad de miembros de 5
familias en una zona: 2, 3, 5, 5 y 7 miembros respectivamente, la media de
miembros por familia es:

Media = (2 + 3 + 5 + 5 + 7) / 5 = 22/5 = 4,4 miembros por familia.

La mediana corresponde al valor del conjunto de datos (ordenados de menor a


mayor) que se encuentra exactamente en medio de la distribución, o más
formalmente, el valor tal que no más de la mitad de los datos de la distribución
es mayor que tal valor, y no más de la mitad de los datos es menor a ese valor.
La mediana se calcula para variables de escalas de razón, intervalo u ordinal.

En el ejemplo anterior, la mediana (Me) será el valor que ocupe la tercera


posición de la serie ordenada:

Mediana = 5

La mediana puede o no pertenecer al conjunto. En el caso de los conjuntos con


un número par de casos, la mediana se calcula como el promedio de los dos
valores centrales. Por ejemplo, si tenemos las edades de los gerentes de 8
empresas de la ciudad: 40, 45, 45, 48, 52, 60, 65, 68, la mediana es Indec:

Me = (48 + 52) /2= 50 años

La moda señala el valor que tiene más repeticiones de un conjunto de datos.


Una distribución puede tener más de una moda o valor modal. Del ejemplo
anterior (edades de los gerentes), la moda es:

Mo = 45 años

Veamos cómo es la salida de datos de SPSS al analizar las medidas de tendencia


central de un conjunto de datos. La variable que consideramos de la encuesta
de uso del tiempo (Indec, 2013) es el tiempo dedicado la semana anterior a
actividades de voluntariado.
Tabla 2: Salida de SPSS. Estadísticas descriptivas

Estadísticos
Tiempo dedicado a trabajo voluntario

N Válido 65352

Perdidos 0
Media ,5487
Mediana ,0000
Moda ,00

¿Cómo interpretar estos resultados?

La tabla nos muestra que, en promedio, de los 65,352 encuestados, el tiempo


dedicado a actividades de voluntariado la semana anterior es 0,5487 horas. Si
consideramos el valor central de la distribución (Mediana), vemos que el 50%
(mitad de la distribución) dedica, a lo sumo, 0 horas a voluntariado, y que el 50
% dedica 0 horas o más. Finalmente, también podemos afirmar que lo más
frecuente es que se dediquen 0 horas a actividades de voluntariado.

Medidas de dispersión o variabilidad

Como complemento necesario de las medidas de tendencia central,


necesitamos otras medidas que hagan referencia a cuán concentrados están los
datos del conjunto respecto de tales medidas de tendencia central. Estas
medidas se denominan de dispersión. Las medidas de dispersión más utilizadas
son: rango, varianza, desviación estándar y coeficiente de variación.

 El rango o recorrido se define como la diferencia entre el mayor valor y


el menor valor de un conjunto de datos cuantitativos.

Tomemos el conjunto de edades de los gerentes de 8 empresas: 40, 45, 45, 48,
52, 60, 65, 68. El rango es:

Rango = 68 – 40 = 28 años

La varianza surge de calcular el promedio de los desvíos al cuadrado de cada


valor del conjunto respecto de la media. Veamos cómo se calcula para el
ejemplo anterior:

Media: 52,875

Como puede observarse, por la propia naturaleza de la definición de la media,


la suma de los desvíos de cada valor respecto de la media, es cero. Por eso,
para poder contar con una medida de dispersión, se eleva cada diferencia al
cuadrado. La varianza se calcula dividiendo la suma de desvíos al cuadrado en la
cantidad de casos:

Var = 740,875/8 = 92,609 años2

Tabla 3: Cálculo de varianza

Valor (xi) xi - Media (xi – Media)2

40 -12,875 165,765625

45 -7,875 62,015625

45 -7,875 62,015625

48 -4,875 23,765625

52 -0,875 0,765625

60 7,125 50,765625

65 12,125 147,015625

68 15,125 228,765625

Suma: 0 740,875

Fuente: elaboración propia.

Hay que tener en cuenta que la unidad de medida de la varianza está expresada
en la misma unidad de medida que la variable original, pero elevada al
cuadrado, como lo expresa el resultado anterior (en años2).

La desviación estándar (la medida de dispersión más utilizada) surge de tomar


la raíz cuadrada positiva de la varianza. Por lo tanto, la desviación estándar sí
está expresada en la misma unidad de medida que la variable original y que la
media.

Utilizando los datos del ejemplo anterior:


DS = 92,609 años2 = 9,623 años

Figura 6: Varianza

Fuente: [Imagen intitulada sobre varianza] (s. f.). Recuperada de http://goo.gl/xMeuV6

El coeficiente de variación vincula la desviación estándar con la media y permite


comparar la variabilidad de varias distribuciones entre sí:

CV = (DS /Media).100

Con los datos del ejercicio anterior:

CV = (9,623/52,875).100 = 18,2 %
La siguiente tabla muestra la salida de SPSS respecto de medidas de dispersión, en este
caso de la variable “tiempo dedicado a trabajo voluntario”, con datos de la encuesta
de uso del tiempo (Indec, 2013).

Tabla 4: Salida de SPSS. Estadísticos descriptivos

Estadísticos
Tiempo dedicado a trabajo voluntario

N Válido 65352

Perdidos 0
Desviación estándar 3,16122
Varianza 9,993
Rango 105,00
Fuente: elaboración propia.
Medidas de asimetría y curtosis

Las medidas de asimetría y curtosis hacen referencia a la forma de la gráfica de


la distribución de datos.

La asimetría mide cuán diferente es una distribución específica respecto de una


distribución teórica denominada normal, que es simétrica. Si el indicador es 0
significa que la distribución es simétrica (no difiere en simetría de la
distribución normal). Si la medida de asimetría es positiva, quiere decir que hay
más valores agrupados a la izquierda de la curva; y, por el contrario, si el
indicador es negativo, quiere decir que la mayor proporción de datos se agrupa
del lado derecho del eje de simetría.

Figura 7: Asimetría

Fuente: [Imagen intitulada sobre asimetría] (s. f.). Recuperada de http://goo.gl/R1w7IX

La curtosis indica qué tan plana o empinada es la distribución. Nuevamente, el


patrón de comparación es la distribución normal. Si la curtosis es 0 significa que
la distribución que consideramos es igual de empinada que la normal; si es
positiva quiere decir que es más empinada que la normal; y, por el contrario, si
es negativa, quiere decir que es más aplanada que la distribución normal.
Figura 8: Curtosis

Fuente: [Imagen intitulada sobre curtosis] (s. f.). Recuperada de http://goo.gl/1ooLfX

La siguiente tabla muestra la salida de SPSS respecto de medidas de curtosis y


asimetría, en este caso de la variable “tiempo dedicado a trabajo voluntario”,
con datos de la Encuesta de uso del tiempo (Indec, 2013). Vemos que la
distribución del tiempo es asimétrica positiva (los valores están concentrados
en el lado izquierdo respecto del eje de simetría) y la curtosis es positiva. Por lo
tanto, la distribución es bastante más empinada que la normal. El gráfico
siguiente permite observar la distribución de datos de la variable “tiempo
dedicado a trabajo voluntario”, junto con la distribución normal (línea azul) de
referencia.

Tabla 5: Salida de SPSS

Tiempo dedicado a trabajo voluntario


N Válido 65352

Perdidos 0
Asimetría 11,570
Error estándar de asimetría ,010
Curtosis 188,328
Error estándar de curtosis ,019

Fuente: elaboración propia.


Figura 9: Otras estadísticas descriptivas

Fuente: elaboración propia a partir de Hernández Sampieri et al., 2010.

Figura 10: Ejemplo

Fuente: elaboración propia a partir de Hernández Sampieri et al., 2010.

Razones y tasas
Una tasa es la relación entre una categoría y un total. Por ejemplo, la tasa de
desocupación, que mide la proporción de la población activa que está sin
empleo en cierto período y busca uno de manera activa.

Una razón es un cociente entre dos categorías de una variable. Por ejemplo, la
razón de masculinidad en una población mide la cantidad de hombres respecto
de mujeres en un conjunto.

Figura 11: Tasa de desempleo en el mundo

Referencias: Verde: es menor, mientras más intenso más reducida la tasa; Rojo: mayor,
mientras más intenso más elevada la tasa. Fuente: [Imagen intitulada sobre tasa de desempleo
en el mundo] (s. f.). Recuperada de https://goo.gl/ag8dGH

Figura 12: Razón de masculinidad en el mundo

Referencias: Rosa: países con un índice de masculinidad menor que 1 (más mujeres que
hombres). Azul: países con un índice de masculinidad mayor que 1 (más hombres que mujeres).
Verde: países con un índice de 1. Gris: sin datos. Fuente: [Imagen intitulada sobre razón de
masculinidad en el mundo] (s. f.). Recuperada de http://goo.gl/0fKKHL
Análisis de la no respuesta

Una de las consideraciones relativas a la no respuesta se vincula con el


porcentaje de casos válidos. Si el porcentaje es demasiado alto, por ejemplo, 20
%, no corresponde analizar esos datos.

Validez y confiabilidad

Confiabilidad

1) Medida de estabilidad: se mide dos veces un mismo instrumento con el


mismo grupo de personas, en dos oportunidades distintas, separadas
por un período de tiempo. Si tal período no es tan extenso, se espera
una alta correlación en las respuestas si el instrumento es confiable.
2) Método de formas paralelas o alternativas: dos versiones de un mismo
instrumento se miden con el mismo grupo de personas, en dos
oportunidades distintas o de manera simultánea. Se espera una alta
correlación en las respuestas si el instrumento es confiable.
3) Método de mitades partidas: se divide el conjunto de reactivos y se
separa la muestra en dos partes (asignación aleatoria), y a cada una se
la mide con una parte de los reactivos. Se espera correlación entre las
mediciones de ambas partes.
4) Método de coherencia o consistencia interna:
o Alpha de Cronbach.
o KR 20 y KR21.

Validez

1) De contenido: opiniones de expertos que ayudan a asegurarse de que


aquellas dimensiones que se consideraron en el instrumento sean
representativas.
2) De criterio: correlación entre los puntajes obtenidos con el instrumento
y las puntuaciones correspondientes en el criterio.
3) De constructo: cuántas dimensiones integran a una variable y, a su vez,
los ítems que integran cada dimensión, identificando aspectos
redundantes.

El análisis descriptivo presentado se complementa con una serie de


herramientas de índole inferencial, a través de las cuales se trata de sacar
conclusiones referidas a la población de estudio a partir de los datos
muestrales. En dos grandes grupos, estas herramientas se refieren a técnicas de
estimación (es decir, indicar cuál es el valor aproximado de un cierto indicador
poblacional) y a pruebas de hipótesis (decisiones basadas en una
fundamentación estadística).

Figura 13: Análisis de datos

Fuente: [Imagen intitulada sobre análisis de datos] (s. f.). Recuperada de http://goo.gl/1hA9S3
Bibliografías de referencia
Básica:

Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2010).
Metodología de la investigación. México: Mc Graw Hill.

Ampliatoria:

Bisquerra Alzina, R. (2009). Metodología de la investigación educativa. La Muralla:


Madrid.

Di Pietro, S.; Tófalo, A.; Medela, P. y Pitton, E. (2013). La situación educativa a través
de los censos nacionales de población. Dirección General de Evaluación de la Calidad
Educativa: Buenos Aires.

Domenech, R. (2013). La evolución del nivel educativo en la OCDE, 1960-2010.


Observatorio Económico Global. BBVA: Madrid.

Naciones Unidas. Comisión Económica para Europa. (2009). ¿Cómo hacer


comprensibles los datos? Una guía para presentar estadísticas. Naciones Unidas:
Ginebra.

Río Sadornil, D. (2013). Diccionario-glosario de Metodología de Investigación Social.


Universidad Nacional de Educación a Distancia: Madrid.

Rivas, A., Vera, A. & Bezem, P. (2010). Radiografía de la educación argentina. CIPPEC:
Buenos Aires.

Rojas Soriano, R. (2006). Guía para la realización de investigaciones sociales. Plaza y


Valdez: México.

Imágenes

Imagen intitulada sobre análisis de datos] (s. f.). Recuperada de http://goo.gl/LVVo9q

Imagen intitulada sobre varianza] (s. f.). Recuperada de http://goo.gl/xMeuV6

Imagen intitulada sobre asimetría] (s. f.). Recuperada de http://goo.gl/R1w7IX

Imagen intitulada sobre curtosis] (s. f.). Recuperada de http://goo.gl/1ooLfX

Imagen intitulada sobre tasa de desempleo en el mundo] (s. f.). Recuperada de


https://goo.gl/ag8dGH
Imagen intitulada sobre razón de masculinidad en el mundo] (s. f.). Recuperada de
http://goo.gl/0fKKHL

Imagen intitulada sobre análisis de datos] (s. f.). Recuperada de http://goo.gl/1hA9S3

Imagen intitulada sobre coeficiente de correlación] (s. f.). Recuperada de


http://goo.gl/HLj77l

Imagen intitulada sobre diagrama de dispersión] (s. f.). Recuperada de


http://goo.gl/GgaTFE

Imagen intitulada sobre otras estadísticas descriptivas] (s. f.). Recuperada de


http://goo.gl/WlktRs

Imagen intitulada sobre reporte de investigación] (s. f.). Recuperada de


https://goo.gl/s6nUuh

Imagen intitulada sobre nube de palabras] (s. f.). Recuperada de http://goo.gl/lllPx4

Você também pode gostar