Você está na página 1de 4

Sistematizacin de la Clase: TABLAS BIVARIADAS O TABLAS DE

CONTINGENCIAS
Hempler Orlando Barragn Vsquez
Departamento de Estadstica - Facultad de Ciencias - Universidad Nacional de Colombia
Ensennza de la Estadstica
Bogot, Colombia
15 de Abril de 2014

Resumen

1. Introduccin

Se realiza un anlisis de los gustos musicales segn el


sexo de los estudiantes de la clase de Enseanza de la Estadstica de la universidad Nacional de Colombia. En este
punto se pretende establecer si existe una relacin entre
el sexo de los estudiantes y su gusto musical. La variable
sexo es nominal y tiene dos categoras de observacin
(Masculino y Femenino). La variable gusto musical est
observada en categoras (Romntica, Tecno, Tropical) por
romntica se entiende baladas, boleros, bambucos, pasillos; en tecno se considera el rock, reguetn; en tropical se
tiene cumbia, vallenato y salsa. El anlisis incluye utilizar
tablas bivariadas o de contingencia que resumen los datos
correspondientes a dos variables medidas en el mismo
elemento de una muestra.

Las aplicaciones del anlisis de tablas de contingencia


no son nuevas. En la prctica es comn examinar dos o
ms variables conjuntamente para establecer relaciones entre ellas. En este artculo nos centraremos a describir y explorar las relaciones mediante las tablas de contingencia,
adems de establecer la correlacin entre dos variables, deducinendo el estadstico de prueba de la distribucin Chicuadrado. Las tablas bivariadas, tambin denominadas tablas cruzadas o tablas de contingencia, son herramientas
para explorar ms detalladamente cmo se relacionan las
distintas variables y de este modo, tratar de identificar patrones en dichas relaciones. El procedimiento se basa en
el cruce de los datos de dos variables a estudiar y define
el nivel de interrelacin entre las diferentes categoras de
cada una de las dos variables. Este tipo de anlisis permite
ser ms fino y especfico a la hora de detectar exactamente
en qu categora de esas dos variables se sita el problema,
por lo que la intervencin podr ser mucho ms precisa.
Actualmente, las tablas de contingencia y el anlisis de los
residuales constituyen una de las herramientas ms utilizadas en variables de tipo categrico.

Palabras Claves: Relacin, categoras, variable, tablas


bivariadas, tablas de contingencia

Abstract
An analysis of musical tastes were performed according
to the sex of the students in the class of Teaching Statistics
from the National University of Colombia. At this point
is to establish whether there is a relationship between
the sex of the students and their musical taste. The sex
variable is nominal and has two categories of observation
(Male and Female). The variable musical taste is observed
in categories (Romantic, Techno, Tropical) by romantic
ballads, boleros, bambucos, pasillos means; considered
techno rock, reggaeton; have tropical cumbia, vallenato
and salsa. The analysis includes using bivariate contingency or summarizing the measures corresponding to two
variables in the same element of a sample data tables.
Keywords: Relationship categories, variable, bivariate
tables, crosstabs

2. Procedimiento
Para la toma de datos se suministraron dos tablas de
contingencia y se asumi una muestra de 50 personas entre
hombres y mujeres mayores de 18 aos. Para la primera
tabla se diligenci asumiendo una relacin entre las variables sexo y gusto musical (ver cuadro 1). La segunda tabla
se registr el clculo de las frecuencias esperadas, bajo el
supuesto de que no hay relacin entre las variables sexo y
gusto musical (ver cuadro 2). Se procedi a calcular las
diferencias entre las frecuencias observadas (amarillo) y
las frecuencias esperadas (azul)(ver cuadro 3). Finalmente,
se calcul le estadstico para la distribucin Chi-cuadrado
(ver cuadro 4).

3. Aspectos tericos para el anlisis de datos


La utilidad de estas tablas bivariadas o de contingencia
es fundamentalmente exploratoria, sirve para detectar combinaciones de condiciones que se alejan del patrn general
de influencia de las dos variables que se cruzan. Valores residuales altos significan que en tales casos, existe un incremento del grupo con respecto al patrn general; y valores
bajos, un decremento. La informacin que proporciona es
la relativa al peso de la interaccin, no a la influencia por
separado de las variables que se cruzan.
Los contrastes o pruebas de bondad del
ajuste tienen como objeto decidir si puede aceptarse la hiptesis de que una muestra dada procede de una poblacin con una distribucin de
probabilidad totalmente especificada en la hiptesis nula. Estos contrastes se basan en la comparacin de las frecuencias observadas en la muestra con aquellas que cabra esperar si la hiptesis
nula fuera cierta. La hiptesis nula se rechaza si
existe una diferencia significativa entre las frecuencias observadas y las esperadas.
En este tipo de contrastes la distribucin de
probabilidad del estadstico de prueba es independiente de la postulada en la hiptesis nula y
depende slo del tamao de la muestra o del nmero de clases en que se agrupa la variable.
Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hiptesis nula de la prueba Chi-cuadrado postula una
distribucin de probabilidad totalmente especificada como el modelo matemtico de la poblacin que ha generado la muestra. Para realizar
este contraste se disponen los datos en una tabla
de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada
o emprica (Oi ). A continuacin, y suponiendo
que la hiptesis nula es cierta, se calculan para
cada valor o intervalo de valores la frecuencia
absoluta que cabra esperar o frecuencia esperada (Ei = n pi , donde n es el tamao de la
muestra y pi la probabilidad del i simo valor o
intervalo de valores segn la hiptesis nula). El
estadstico de prueba se basa en las diferencias
entre la Oi y Ei y se define como:
2 =

prctica se tolera un mximo del 20 % de frecuencias inferiores a 5. Si existe concordancia


perfecta entre las frecuencias observadas y las
esperadas el estadstico tomar un valor igual a
0; por el contrario, si existe una gran discrepancias entre estas frecuencias el estadstico tomar
un valor grande y, en consecuencia, se rechazar
la hiptesis nula. As pues, la regin crtica estar
situada en el extremo superior de la distribucin
Chi-cuadrado con k-1 grados de libertad. "1
Una vez se han detectado las celdas o categoras donde
hay una desviacin importante de lo esperado, hay que analizar estos residuales estandarizados dentro del contexto de
los porcentajes de fila y de columna, comparndolos con el
porcentaje total de fila y con el porcentaje total de columna
para poder establecer cul es la magnitud del peso de cada
una de las categoras en la relacin de interdependencia.

4. Resultados
Cuadro 1: Tabla de frecuencias observadas

Sexo
Femenino
Masculino
Total

Romntica

14
3
17

Msica
Tecno

6
11
17

Tropical

Total

10
6
16

30
20
50

Figura 1: Porcentaje Nmero de estudiantes por gusto musical

(Oi Ei )2
i=1

Ei

Este estadstico tiene una distribucin Chicuadrado con k-1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la

1 Universitat de Barcelona (2013). Recuperada 18 de


abril de 2014 de http://www.ub.edu/aplica_infor/
spss/cap5-1.htm

Cuadro 2: Tabla de frecuencias esperadas

Romntica

Sexo
Femenino
Masculino
Total

Msica
Tecno

10,2
6,8
17

observadas con las frecuencias esperadas.

Tropical

Total

9,6
6,4
16

30
20
50

10,2
6,8
17

Cuadro 3: Tabla de residuos

Sexo
Femenino
Masculino

Romntica

3,8
-3,8

Msica
Tecno

4,2
-4,2

gl= (Nmero de filas - 1)(Nmero de columnas-1)

Tropical

0,4
-0,4

En este caso los grados de libertad (gl = 2) y asumiendo un nivel de significacin ( = 0, 05), cuyo valor
asociado en la tabla de probabilidades para Chi-cuadrado
es de 5, 99.

Cuadro 4: Tabla de los cuadrados de los residuos

Sexo
Femenino
Masculino
Total

Romntica

Msica
Tecno

1,4157
2,1235
3,5392

1,7294
2,5941
4,3235

Ahora, el valor del estadstico de prueba debe ser


comparado con un valor de la tabla de probabilidades
para Chi-cuadrado. Esta tabla tiene en la primera columna
los grados de libertad y en la primera fila la probabilidad
asociada a valores mayores a un determinado valor del
estadtico. Los grados de libertad dependen del nmero de
celdas que tiene la tabla de contingencia. As, los grados
de libertad (gl):

Tropical

Total

0,0167
0,0250
0,0417

3,1618
4,7426
7,9044

5. Anlisis Estadstico
La indenpendencia de dos variables en que la distribucin de una de las variables es similar sea cual sea el nivel
que examinemos de la otra.
La prueba Chi-cuadrado contrasta la hiptesis nula de
que las variables son independientes, frente a la hiptesis
alternativa de que una variable se distribuye de modo diferente para diversos niveles de la otra.

5.1. Anlisis de Resultados de los Datos


La prueba Chi-cuadrado contrasta si las diferencias
observadas entre los dos grupos son aleatorias. En primer
lugar se debe plantear las hiptesis que someteremos a
prueba.

Por lo tanto tenemos que el valor del estadstico


(7, 9044) es superior al valor crtico (5, 99), concluimos
que se ha encontrado evidencia estastica para rechazar la
hiptesis nula (H0 ). Es decir, se rechaza la hiptesis de independencia del sexo y el gusto musical y por lo tanto asumir que existe dependencia entre el sexo y gusto musical
de los estudiantes.

6. Conclusiones
El procedimiento empleado de las tablas de contingencia de manera descriptiva nos permite realizar tablas en las
que se detallen las categoras de una variable a travs de las
categoras de una segunda variable, sin involucrar las pruebas estadsticas de asociacin e independencia. Adicionalmente este procedimiento nos permite generar grficos de
barras con las variables involucradas en la tabla. Para poder determinar si existe una relacin entre dos variables no
basta con los porcentajes o los recuentos. La relacin debe
ser comprobada mediante pruebas estadsticas de asociacin de independencia como el Chi-cuadrado; esta prueba
nos permiten comprobar si existe alguna relacin entre las
variables, permitiendo determinar si el comportamiento de
las categoras de una variable presentan diferencias Estadsticamente significativas.

H0 : El sexo es independiente del gusto musical


H1 : El sexo depende del gusto musical

Referencias
En esta prueba estadstica siempre la hiptesis nula
platea que las variables analizadas son independientes.
En segundo lugar, se tiene las frecuencias esperadas, es
decir, las frecuencias que debieran darse si las variables
fueran independientes en otras palabras, si fuera cierta la
hiptesis nula. En tercer lugar, es calcular el estadstico de
prueba, en este caso es7, 9044 que compara las frecuencias

[1] Abad Montes, F. y Vargas Jimnez. M., Anlisis de


datos para las ciencias sociales con SPSS. Urbano,
Granada, 2002.
[2] Agresti, A. An Introduction to categorical data analysis. Wiley, New York, 1996.

[3] Aguilera, A. M. Tablas de contigencia bidimensionales. Hesprides, La Murralla, Salamanca, 2001.


[4] Navidi William, Statistics for Engineers and Scientists. McGraw-Hill Companies, Inc., New York,
2011.
[5] Walpole, Ronald E., Probabilidad y estadstica para ingenieros. Prentice-Hall Hispanoamericana, S.A.,
Mxico, 1999.
[6] http://www.uoc.edu/in3/emath/docs/
Chi_cuadrado.pdf
[7] http://www.ub.edu/web/ub/ca/

Você também pode gostar