Escolar Documentos
Profissional Documentos
Cultura Documentos
CURSO
Metodologa de la investigacin
TEMA
Anlisis de datos
DOCENTE
Rodolfo Crdenas Crdova
ALUMNO:
Guillermo Carrasco Daniel Zilahy
AO:
2do ao IV ciclo
TURNO: tarde
IC A PE R
20 12
ANLISIS DE DATOS
Cap: XVII
ndice
1)
2)
3)
4)
5)
Concepto
Objetivos que se proponen los investigadores cuando analizan datos
Clases de anlisis de datos
Uso del anlisis segn el nmero de variables
Importancia de la distincin de variables para usar las tcnicas
estadsticas
6) Tcnicas estadsticas que se puede usar con las clases de variables
7) Tcnicas de estadsticas del anlisis univariado que puede emplear quien
elabora una tesis
8) Propiedad que se describen cuando se estudia una variable
9) Concepto de medidas de tendencia central
10) Concepto y reglas para el uso de cada una de las medidas de la
tendencia central
11) Medidas de tendencia no central
12) Las medidas de desviacin
13) La presentacin de datos
14) Anlisis e interpretacin bivariado
15) Anlisis de varianza
16) Anlisis de regresin
17) Anlisis de regresin mltiple
18) Prueba de hiptesis
19) Uso del computador para utilizar tcnicas estadsticas
ANLISIS DE DATOS
1. Concepto:
Anlisis de datos es la tcnica que consiste ene l estudio de los hechos y el
uso de sus expresiones en cifras para lograr informacin, la cual debe ser
vlida y confiable.
2. Objetivos que se proponen los investigadores cuando analizan
datos
En general, el anlisis pretende hacer explicitas las propiedades, notas y
rasgos de todo tipo que, en relacin a las variables estudiadas, se derivan de
las tablas en las que se condensa la clasificacin, mientras que en la
interpretacin intenta precisar la significacin y alcance de las propiedades y
rasgos.
Greenberg, Goldstucker y Bellenger sealaron con nfasis que pretenden
los investigadores cuando analizan datos:
Hallar lo que hay en los datos.
Conocer que variaciones ocurren en los datos.
Como estn distribuidos los datos.
Que relacin existe entre las variables.
Las estimaciones que resultan de los datos.
Describir las diferencias entre grupos y variables.
Determinar variables que causan variacin en otras variables.
Para cumplir con sus objetivos, los investigadores usan tcnicas.
He aqu el uso especfico de estas tcnicas para cumplir con los objetivos
arriba indicados:
Objetivo del anlisis
a) Hallar que hay en los datos
b) Conocer que tanto varan
los datos.
c) Como estn distribuidos los
datos
d) Qu relacin existe entre
variables
e) Estimaciones y predicciones
Tcnica estadstica
Media, mediana, moda
Desviacin estndar, rango,
varianza y desviacin
promedio.
Frecuencia
Correlacin y medidas de
asociacin
Estimacin de un punto e
intervalor.
Regresin y serie de tiempo
Prueba de T, Z y anlisis de
varianza
Prueba de T, Z y anlisis de
varianza
Criterio
Numero de variables
del anlisis
Anlisis de
datos
El carcter del
anlisis
La naturaleza del
anlisis
Objetivo del anlisis
Nombre del
anlisis
Univariable
Bivariable
Multivariable
Exploratorio
Confirmatorio
Cuantitativo
Cualitativo
Causal
De cambios
De decisiones
De grupos
De sistemas
II.
III.
IV.
Nominal
VARIABLES
Intervalar
Proporciona
Mediana
Media aritmtica
Desviacin estndar
Correlacin mltiple
Coeficiente de correlacin
de Pearson
Grupo de tcnicas estadsticas
N3
N4
Tipo de medida
Medidas de
tendencia central
Posicin
Dispersin
Medida de
tendencia no
central
Medidas de
dispersin o
variabilidad
Simetra
Forma
Modalidad
Curtosis
Expresiones
(estadsticos)
Media aritmtica
Mediana
Moda o modo
Cuantles
Recorrido
Varianza
Desviacin estndar
Coeficiente de variacin
Asimetra o sesgada
Simtrica o con
sesgamiento
Modos en una
distribucin
Razn de momentos de
Pearson
x =
x1
n
Donde:
= Media aritmtica
= Suma
Ejemplo:
A seis estudiantes se les interroga: Cuntas veces a la semana acuden a
la biblioteca de la facultad a la que pertenecen? Y ellos respondieron de
la siguiente manera:
1 - 2 - 2 1 3 3 (seis respuestas, es decir, el primero respondi que
una vez a la semana acude a la biblioteca de su facultad, el segundo
contest que dos, el tercero que dos, le cuarto que una, el quinto que tres
y el sexto que tres), entonces, aplicando la formula anterior, es decir,
reemplazando las expresiones de la frmula pro sus valores respectivos,
tenemos:
x =
1+ 2+ 2+1+3+ 3 12
= =2
6
6
x
f 1 ( 1)
n
x =
Donde:
f1
= suma de productos f1 x1
Ejemplo:
Se realiza una investigacin y uno de sus objetivos es el logro del
promedio de escolaridad de los trabajadores de una empresa. Se tom
una muestra de 110 trabajadores. Se consiguieron por lo tanto 110 datos
de escolaridad. El cuadro siguiente resume el acopio de esos datos:
Intervalo de
escolaridad
1 -3
46
79
10 - 12
x
f 1 ( 1) = 670
n
110
x =
Punto
medio
2
5
8
11
f1
15
60
15
20
M =110
f1 (x1)
30
300
120
220
f1 (x1) = 670
= 6,09
F1
3
2
7
2
1
11 11 11 6 6 16 16 16 16
Al ordenar los valores se obtiene:
6 6 11 11 11 16 16 16 16
Al apreciar el valor central, se tiene 16
16
16
16
18
18
19
16
16
16
18
18
19
53+ 55 108
=
=54
2
2
f1
3
2
7
2
1
15
f1
1
4
4
3
2
14
Tal como se puede observar fcilmente, los valores que hay mas se repiten
son dos: 25 y 26, los que se reconocen como datos bimodales.
Cuando no se repite ningn valor no hay moda.
10.3.2 Cuando usar la moda
Aunque la moda se puede usar con todas las escalas, se usa preferentemente
cuando se trabaja con escalas nominales. En realidad el uso de la moda la
restringe el investigador solo a los casos en los c pretende ofrecer una idea
aproximada acerca de donde esta la mayor concentracin de observaciones.
10.3.3 Aplicacin de la relacin de Pearson
La relacin de Pearson es una estimacin prctica del modo, siempre que la
distribucin no sea bimodal y se acerque bastante a la modal. Pearson
estableci una relacin que lleva su nombre y que se expresa
formalmente as:
11.
3 Mdn 2
Medidas de tendencia Mo
no =
central
11.1. Concepto
Son medidas tiles para una posicin no central, empleadas para resumir y
describir un conjunto de datos. Estas medidas de tendencia no central se
denominan cuantles.
n+1
4
n+1
2
3 (n+1)
4
82 por ciento del total; pero necesitara comparar su clasificacin con las
dems del grupo especifico. En efecto, si el examen fue fcil para la mayor
pare de los estudiantes, su calificacin de 41 puede representar incluso un
rendimiento inferior a la media. Pero si el examen fue difcil para la mayora
de los estudiantes, su calificacin puede aparecer como de las ms altas. Los
percentiles como valores transformados resultan ser un valor que permite
pasar de la puntuacin original, llamada puntuacin directa, a otra a fin de
mostrar la situacin del individuo en comparacin con otros del mismo
conjunto. El papel del percentil es, pues, mostrar como un valor concreto se
compara con otros de un grupo determinado.
11.7. Concepto de rango del percentil
Se denomina el rango del percentil de un valor dado al numero que expresa
el tanto por ciento de casos en el grupo es pacifico de referencia y cuyo valor
es igual o inferior al dado. As, si al puntaje de 41 le corresponde un rango de
85, entonces esto significa que el 85% del grupo que dio examen obtuvo una
puntuacin igual o menor que 41 mientras que solo el15% obtuvo
calificaciones mas altas. Pero, si a 41 le corresponde un rango de 55, esto
significa que el 55% de los que dieron examen obtuvo puntuaciones iguales o
ms bajas, pero tambin significa que el 45% logro calificaciones ms altas, y
por tanto su calificacin de 85 no es alta como pareca al comienzo.
11.8. Calculo del grupo percentil cuando se conoce el valor bruto
Esta operacin estadstica consiste en determinar el rango del percentil
cuando se conoce el valor bruto, es decir, la puntuacin origina o puntuacin
directa.
Tomemos como referencia el ejemplo de Welkowitz. Para efecto de una
captacin ms inmediata hemos hecho modificaciones en la presentacin del
caso pero no en la naturaleza del conocimiento.
Las calificaciones de los estudiantes que conforman el grupo al que
pertenece nuestro personaje que obtuvo 41 puntos fueron las siguientes.
Intervalo de clase
Frecuencia (f)
48 50
45 47
42 44
1
3
4
LIR
(Lnea
del
interval
o
critico)
39 41
36
33
30
27
24
21
18
15
12
9
38
35
32
29
26
23
20
17
14
11
Intervalo
superior
6
7
9
14
8
10
8
4
3
3
5
71
Intervalo
.
inferior
Frecuencia
acumulada (fa)
85
84
81
6 intervalo
71
64
55
41
33
23
15
11
8
5
(0,83)
(7,1%)
5,98%
Calificacin obtenidaLIR
. C)
h
Donde:
I % = porcentaje de la suma de las frecuencias inferiores. Calificacin
obtenida = en
el ejemplo, 41.
LIR = limite de intervalo crtico. En este ejemplo (vase la tabla de
intervalos de
frecuencias) = 38,5
C%
= porcentaje de calificaciones que se ubican en el intervalo
crtico.
h
= tamao del intervalo.
Reemplazando las expresiones de la formula por cifras correspondientes
en el ejemplo, se tiene:
.7,1 )
( 4138,5
3
( 2,53 .7,1 )
83,5+
83,5+5,89
el anlisis de unos datos puede encontrarse que tiene una misma medida de
tendencia central pero distintas medidas de dispersin.
12.2. Medidas que se usan para medir la dispersin de datos
Las medidas que ms usan los investigadores para expresarla dispersin de
los datos son: el rango (denominado tambin recorrido), la varianza (o
variancia), la desviacin estndar y el coeficiente de variacin.
12.2.1. El rango o recorrido
Se denomina rango o recorrido a la diferencia entre el valor mximo y el
valor mnimo en un conjunto de datos ordenados.
Por ejemplo, si hay un grupo de alumnos que ingreso a la Facultad de
Estomatologa en 1995, y dentro de el hay seis que tienen la menor edad
(15 aos); hay uno que tiene la mayor edad (62 aos) y los otros tienen
diversas edades, pero mayores que 15 y menores que 62. En este caso el
valor mximo es 62 y el mnimo es 15.
El recorrido se obtendr por la diferencia: se resta el valor mnimo al valor
mximo.
Recorrido = 62 15 = 47
El recorrido o rango es fcil de obtener, pero la desventaja de esta
medida radica en el hecho de que no informa absolutamente nada acerca
de la distribucin de los datos entre los valores extremos.
12.2.2. La varianza o medida de lo cuadrados
La varianza o medida de cuadrados es la medida de la variabilidad mas
usada para apreciar las diferencias entre los hechos: expresa el grado de
dispersin o diseminacin de los valores respecto a los valores de una
serie con relacin a su media aritmtica.
La gran importancia de calcular la media y la varianza de grupos
experimentales esta en el hecho de que cumple con una tarea
fundamental en la investigacin: estudiar relaciones entre hechos.
Kerlinger afirma que la varianza es una medida de dispersin del
conjunto de puntuaciones.
Un caso de uso de varianza en la investigacin en el rea de educacin es
el siguiente:
Se estudia un grupo de alumnos por ejemplo el de un colegia X que
tiene rendimiento heterogneo en la asignaturas del rea de matemtica.
En este estudio nos servir la varianza para expresar las diferencias entre
puntajes con relacin a otro grupo que se considera homogneo en el
rendimiento en la misma rea.
12.2.2.1 Las clases de varianza
Segn el uso del investigador le da a la varianza en tanto medida de
variabilidad, suelen distinguirse diversos tipos de varianza. De acuerdo a
la extensin de la poblacin que estudia puede ser de poblacin y
varianza de muestra. Segn el conocimiento de las influencias: varianza
sistemtica (debidas a influencias conocidas) y de error (debida a la
casualidad). Entre las varianzas sistemticas se destaca la varianza entre
grupos o varianza experimental.
S=
f 1 (x i x )2
n
= media aritmtica
S=
Xi
x ix
x
i
3
10
8
6
16
4
2
7
7
7
7
7
7
7
-4
3
1
-1
9
-3
-5
16
9
1
1
81
9
25
142
142
7
S= 20,3
S=4,5
12.2.4. El coeficiente de variacin
Es la medida de dispersin de datos que mide el grado de desviacin con
relacin a la media, de all que se le conciba como una medida de
dispersin relativa. Se expresa en trminos de porcentajes.
El coeficiente de variacin se usa en casos de que exista una diferencia
grande entre las medias de las diferentes muestras.
Para hallar el coeficiente de variacin se aplica la siguiente formula:
V=
S
x
Donde:
V = coeficiente de variacin
S = desviacin estndar
= Media Aritmtica
6,7
Desviac
in
estnda
r
1,0
Industria
automotriz
Media
6,7
Desviac
in
estnda
r
1,2
Industria del
calzado
Media
6,6
Desviac
in
estnda
r
3,2
Industria de
maq.
electrnicas
Media Desviac
in
estnda
r
6,5
1,3
100,0
19,2
13,2
112,6
29,2
38,7
46,2
33,7
45,1
116,4
119,1
99,8
100,0
58,1
72,9
81,3
59,5
45,3
121,6
108,1
39,7
Rango: 10,4
Raz cuadrada del muestreo= 5,3 y se consideran 6 clases
Amplitud de clase: 108/6 = 18
Lmite inferior de la clase = 13
Lmite superior: 13 + 18 = 31
Frecuencia
5
6
4
3
4
6
Categora
Casados
Cadodos con
hijos
Divorciados sin
hijos
Solteros
Totales
14.
Frecuen
cia
Porcentaje
Frecuencia
acumulada
Porcentaje
acumulado
260
160
205
130
495
21%
13%
16%
10%
40%
260
420
625
755
125
21%
34%
50%
60%
100%
1250
100%
Lizette
Fernando
Elena
Ral
Felipe
Eduardo
Mary
Luisa
Gaby
Carlos
x
Horas de
estudio fuera
del aula
7
6
6
5
5
4
3
3
2
2
y
Rendimiento
promedio
16
14
15
18
17
15
14
12
13
12
Variable X
68
70
73
75
77
80
85
Variable Y
76
78
81
84
86
89
94
N de
sujetos
Variable X
Puntos de test
de distraccin
Variable
Y
Rendimien
to
1
2
3
4
5
6
7
8
20
25
30
35
38
48
52
53
82
80
75
69
65
60
53
50
N de
sujetos
1
1
2
3
4
5
6
7
8
9
10
Variable X
Variable Y
Cantidad de
llamadas diarias
por telfono
3
4
5
6
7
8
10
10
11
11
Nmeros de
libros que
posee
30
4
99
4
15
2
5
50
8
40
El grado de correlacin entre dos variables oscila entre dos cifras numricas:
de 0 a 1 -1 a 1
14.11.1 Importancia de que el investigador use el coeficiente de
correlacin
La importancia de que un investigador haga uso del coeficiente de
correlacin est en el hecho de que as puede determinar el grado de
asociacin entre variables y establecer de esta manera en qu medida
corrobora la hiptesis
que en un determinado momento formul.
Criterio
14.11.2. Clasificacin de los tipos de coeficiente de correlacin
Restituto Sierra Bravo presenta las clasificaciones de los coeficientes de
correlacin que con ligeras modificaciones reproducimos a continuacin.
El nmero
de COEFICIENTES
CLASIFICACION DE LOS
variables
Coeficiente
La
direccin
El tipo de
variable
.
Segn
requisitos
Simetra:
cuando
Dicotmicas
las el valor de la variable
eeeeee
dependiente
no cambia por el
dos
.
cambio
,
de la variable
Nominales las
independiente
dos
.
Q de Yule
Asimtrica:
Cambian
de valor por el
Ordinales
las
dos
cambio de jjjjjjjjjjjjjjjjjjjPhi
la ()
variable
Lambda ()
Tau y
Una dicotmica
d, (de, Sommers)
y la otra de
Gamma
intervalo o de
Rho (de
razn
Spearman)
O de intervalo o
de razn
.
Una nominal y la
otra ordinal
Biserial (br)
Biserial puntual
Tetracrica
Una nominal y la
otra de intervalo
R (de Pearson)
Rho, (cuando las
cosas son
menores de 30)
Una nominal y
otra de intervalo
Z (de Wilconson)
.
Una dicotmica
y la otra ordinal
Etha
.
Paramtricas
No Paramtricas
Multiserial (de
Jaspers)
.
V=
n ( xy )( x )( y )
n ( x )( x ) n ( y )( y )
2
z calculada=
1.15131 log10
1+ r
0
1r
1
n3
Ho valor poblacional de r = 0
Hi valor poblacional de r 0
Se compara el valor de Z calculada con el valor de Z de la tabla.
En el caso de que: -Z critica Z calculada +Z crtica, no se rechaza H o
Preferencia de mtodos
Pedaggicos
Dinmica de
Mtodo lectivo
grupos
20
980
320
280
340
1260
Total
1000
600
1600
Varones
Mujeres
Preferencia de mtodos
Pedaggicos
Mtodo lectivo
Dinmica de
grupos
2%
98%
53%
47%
Total
100%
100%
Total
%
Casos
estudiados
100%
100%
Casos
estudiados
100%
100%
Cuando las variables tienen slo dos categoras, es posible expresar tal
relacin con la correlacin (phi). Y cuando las variables nominales
tienen varias categoras se aplica la correlacin (lambda).
se halla con la siguiente frmula:
abbc
[ (a+bxc +d ) ] [ (a+ cxb+d )1/ 2 ]
Los (+) y (-) sirven para ayudar al investigados en la interpretacin, as, si las
variables que se estudian son: sexo, cuya subvariables son varn y mujer, y
la otra variable es nivel de estudios, con dos subvariables: primaria y
secundaria, a representar (vase el cuadro) aquellos que son varones y a la
vez tiene nivel primario de estudios, mientras que b sern los varones que
tienen nivel secundario, y as sucesivamente.
14.11.8. Tabla de interpretacin de
Algunos autores consideran que como el rango de correlacin es de -1 a 1,
los extremos expresan una relacin perfecta mientras que el valor 0 indica
inexistencia de relacin. Es posible usar la tabla que sigue para efectos de
interpretacin:
Tabla de interpretacin de
Valor absoluto de la
correlacin
Ms de 0,80
De 0,61 a 0,80
De 0,41 a 0,60
De 0,21 a 0,40
De 0,00 a 0,20
Interpretacin de la
relacin
Muy fuerte
Mas o menos fuerte
Dbil
Muy dbil
Imperfecta o baja
x 2=
(Oij Eij )2
Eij
Donde:
6 d 2i
=1
i 1
2
n 1
Rendimiento
Inasistencias
Carlos
Rolando
Pedro
Percy
Ral
100
60
120
40
160
9
1
5
6
4
Una vez
que el
2
4
1
1
9
9
24
investigador determina los rangos, el cuadrado de las diferencias de los
rangos nos ofrece la medida de las divergencias entre los rangos.
Al aplicar la formula de de Spearman se tiene:
( 6 ) ( 24 )
144
=1
=11,20=0,20
2
120
( 5 ) ( 5 1 )
Z=
R H 0 0
1/ n1
F=
varianzaintergrupos
varianza intragrupos
Tabla de Anova
Fuente
de
Variacin
Grado
de
liberta
d
Suma de
cuadrado
s
Tratamie
nto
K-1
SCTR
Error
n-k
SCE
total
n-k
SCT
Dnde:
SCTR = nj
SCE = -
SCT =
Cuadrados
medios
CMTR
CME
Fe
SCTR
K 1
SCE
nK
Ft
FnK1
K
CMTR
CME
Con
=,
05
( y j y )2
(xi j y , j )2
( yi j y )2
F=
SCT /k 1
SCE/n1
n
Total
Media
N de
observ.
Y11
Y21
Y31
Yn1
Y12
Y22
Y32
Yn2
Y13
Y23
Y33
Yn3
Y1K
Y2K
Y3K
YnK
Y.1
Y.1
n1
Y.2
Y.2
n2
Y.3
Y.3
n3
Y.K
Y.K
nk
total
Y
Y
Cantidad de
Horas trabajadas
Sillas fabricadas
328
208
315
240
242
320
300
80
162
86
51
79
61
63
81
80
40
42
viernes
175
45
y donde:
y1 = variable dependiente i
bo = intercepcin
b1 = pendiente de la lnea
x1 = variable independiente
17.Anlisis de regresin mltiple
Se denomina regresin mltiple a las correlaciones de la variable
dependiente y de variable independiente tomadas por separado y adems, a
la interpretacin de las variables independientes entre s y a su correlacin
con la variable dependiente.
17.1. Cmo se observa la correlacin (r) entre variables dadas?
Tenemos un ejemplo que trata de estudiar una correlacin, la ms simple: la
correlacin entre una variable dependiente y dos variables independientes.
Veamos:
Variable independiente
Variable dependiente
1. Cantidad de graduados
( y y )
( y y )
( y y )
R2 =
x 21 (grado de libertar 1)
x 21 (grado de libertad 2)
F=
F=
R /k
2
( 1R ) /( nk1)
Donde:
K = nmero de variables independientes
N = tamao de la muestra
k1
n1
2=1 ( 1R2 ) n1
R
(nk )
Donde:
R2 Es el coeficiente de determinacin ajustada, a fin de minimizar el efecto
de exageracin de R2.
Para este caso, debe tenerse cuatro veces ms casos que variables. En otros
trminos, el investigador debe disponer de un muestreo cuatro veces mayor
que el nmero de variables.
18.Prueba de hiptesis
18.1 Superacin de la estadstica clsica en el tratamiento de las
investigaciones de la conducta
La obra de Sidney Siegel Estadstica no paramtrica para la ciencia de la
conducta, publicada en 1956, produjo una renovacin en las investigaciones
de la conducta. En efecto, la estadstica clsica, desarrollada por la escuela
inglesa, en la cual destacaron Galton, Pearson, Gosset, Yule, Kendall, Fisher,
se sustent en gran medida en los supuestos de la escala intervalar y
universos uniformemente distribuidos y desarrollo una abundante e
impresionante estadstica disponiendo de la matemtica clsica, aplicndose
con xito en ciencias como la biologa. No exista motivacin en las
disciplinas cuantitativas probabilsticas, porque era necesario concebir
parmetros que no exigieran los requisitos de la escala intervalar (pues no
paramtrico designa paramtrico de escala intervalar) y universos no
distribuidos normalmente. La estadstica no paramtrica y de la distribucin
libre se ha desarrollado rpidamente, superando los supuestos de la
estadstica clsica.
x 1 y x2 ), y luego hace
Planteamientos hipotticos
La hiptesis es
La hiptesis es falsa
correcta
Error de tipo I ()
Decisin correcta
Decisin correcta
Error tipo II ()
( X ) , es decir la
x=
10
=
=2 das
n 25