Escolar Documentos
Profissional Documentos
Cultura Documentos
Métodos Estadísticos
Introducción
¿Qué es la estadística?
El método que permite organizar, sintetizar, presentar, analizar, cuantificar e interpretar una gran cantidad d
e datos, de tal forma que se puedan tomar decisiones, realizar generalizaciones y obtener conclusiones vál
idas (dar información) sobre los fenómenos o líneas de investigación en estudio.
2
Estadística
Estadística descriptiva
Es aquella rama de la Estadística que se encarga mediante la aplicación de métodos y técnicas de
obtener, organizar, presentar y describir los datos.
Ejemplo: El jefe de personal de una empresa quiere conocer las aptitudes promedio de diez
empleados. Para ello debe aplicar una prueba de aptitudes. El estadístico a utilizar es: la media
aritmética, y el resultado obtenido es de 92 puntos, el cual sólo será válido para los diez
cuestionarios aplicados. El jefe de personal no puede utilizar estos datos para una inferencia o
generalización acerca de otros empleados de la empresa porque la muestra no es representativa,
ello debido a que los empleados fueron elegidos a conveniencia del jefe de personal.
Estadística inferencial
Es otra rama de la Estadística cuyos objetivos son generalizar o deducir a partir de estudios de
muestras, el comportamiento de una población; con ello se pueden tomar decisiones útiles.
Ejemplo: Un investigador quiere conocer en promedio cuántos refrescos consumen los alumnos
de las secundarias de un Distrito. Éste debe entrevistar a todos los alumnos de las 16 secundarias
del distrito del turno matutino como el vespertino; pero realizar un censo sería imposible, por el
tiempo y por los recursos humanos y económicos. Por tanto, decide tomar una muestra
representativa de la población en forma aleatoria y utilizar la estadística inferencial para determinar
el consumo promedio de refrescos de los alumnos de las secundarias de la delegación. Los datos
de la muestra se utilizan para inferir (deducir) o llegar a conclusiones acerca de la población de la
cual se toma la muestra.
3
Estadística
Introducción
Ejemplos de su aplicación son:
2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los
hábitos de los consumidores a través de encuestas de presupuestos familiares.
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación
mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento
humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).
6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la
población.
En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables
y hacer predicciones sobre ellas.
4
N
Población
μ
n
Muestra
x
5
Estadística
Población: Muestra
6
ESCALA NOMINAL:
Es el tipo más limitado (más débil) de medición que puede tener una variable. Se utiliza para hacer
referencia a los datos (representados por numerales) que sólo pueden clasificarse en categorías, es
decir, se aplica a aquellas variables que no pueden medirse mediante escalas numéricas (sano o
enfermo), sino únicamente por medio de contar cada una de las características (se realiza un
conteo de datos).
ESCALA ORDINAL:
La escala ordinal se caracteriza por presentar diferentes niveles de medida entre sus categorías,
una mayor que otra; de tal manera que todas ellas tienen diferente valor subjetivo. Esta medida
diferente tiene dos características importantes: Consiste en que el valor que toma la variable es un
valor subjetivo. Es que obliga a clasificarla en las categorías establecidas, en un orden específico (o
en orden jerárquico).
ESCALA INTERVALO:
En esta escala de medición, es posible establecer valores numéricos constantes en las diversas
categorías, y por ello establecer medidas o cuantificaciones entre unas y otras. También puede
conocerse la magnitud que hay entre dos medidas cualesquiera y es posible ordenar las
mediciones. Para construir una escala de intervalos se debe conocer: la distancia unitaria y el punto
de origen o de partida, el cual recibe el nombre de cero móvil o arbitrario.
ESCALA RAZON:
En esta escala de medición, es posible establecer valores numéricos constantes en las diversas
categorías, y por ello establecer medidas o cuantificaciones entre unas y otras. También puede
conocerse la magnitud que hay entre dos medidas cualesquiera y es posible ordenar las
mediciones. Para construir una escala de intervalos se debe conocer: la distancia unitaria y el punto
de origen o de partida, el cual recibe el nombre de cero móvil o arbitrario.
En esta escala de medición, es posible establecer valores numéricos constantes en las diversas
categorías, y por ello establecer medidas o cuantificaciones entre unas y otras. También puede
conocerse la magnitud que hay entre dos medidas cualesquiera y es posible ordenar las
mediciones. Para construir una escala de intervalos se debe conocer: la distancia unitaria y el7punto
de origen o de partida, el cual recibe el nombre de cero móvil o arbitrario.
Estadística
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura 8
CATEGORIZACION U
VARIABLE ESCALA VARIABLE
OPERATIVIZACION
Escuela profesional que Derecho, Administración. Nominal Variable Cualitativa
estudia. Turismo, Ingeniería de sistemas,
Ingeniería Industrial, ..
Grado de acuerdo de un Pésimo, Regular, Bueno, Ordinal Variable Cualitativa
Jurado Excelente
Pulsaciones por minuto 60/60, 75/60, 85/60, 95/60,……. Razón Variable Cuantitativa
Tipo Continua
10
Estadística
Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares
(Muy Buena, Buena, Regular, Mala). (cualitativa ordinal)
Datos
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
11
Estadística
Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (Fj) Relativa (fj) (%) Calificación Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100) (2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
12
Estadística
Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1
13
Estadística
14
Dato que tenemos que la información presentarla en una distribución de
frecuencias se determina con los pasos siguientes:
Encontrar el Rango de la información
Rango = Valor máximo – valor mínimo
R = 115 – 68 = 47 R = 47
Determinar la Amplitud
A = Rango / intervalo = Rango /k
A = 47.7 / 7 = 6.7 A ≈ 6.8
Li: Límite inferior. Limite superior = Límite inferior mas ancho Variable: Gasto
Ls: Límite superior [Li , Mensual
Ls )
Li1, Ls1 =Li1 + A Li1=Valor mínimo =68; Ls1=68+6.8 =74.84 [68.0 – 74.8)
Li2, Ls2 =Li2 + A Li2 = 74.8; Ls2= 74.8+6.8= 81.6 [74.8 – 81.6)
Li5, Ls5 =Li5 + A Li5= 95.2; Ls5= 95.2+6.8= 102.0 [95.2– 102.0)
NOTACION
Variables Cuantitativas
x variable xi valorOBSERVACIONES
de la variable en el individuo i
y variable y valor de la variable en el individuo i i 1,..., n
* El Tipo de Gráfico iseleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un aTítulo
, b, c :General
constantes
y la identificación de cada eje
(variable en estudio y frecuencia).
n n n n
c *cEn
cx
c ncresulta más
ocasiones i cx1 un
ilustrativo gráfico c
cx n que unaxitabla defrecuencia.
xi2 x12 x n2
i 1 i 1 i 1 i 1
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
n n n
(axi b) (ax1 b) (axn b) a xi b ( xi ) 2 ( x1 x n ) 2
i 1 i 1 i 1
n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
18
Estadística
Datos Moda
Cualitativos y Cuantitativos M o " el dato que más se repite"
19
Medida de tendencia central: La Moda
Datos No Datos
Agrupados Agrupados
24, 30, 28, 23, 25, 22, 22, 26, 27, 28, 25, 26, 33, 29, 28
El valor modal es el dato que más se repite, Mo = 28; Es la edad de los
pacientes con intento de suicidio.
22 22 23 24 25 25 26 26 27 28 28 28 29 30 33
MODA (VARIABLE CUANTITATIVA DISCRETA)
La moda es el valor de la variable de mayor frecuencia absoluta.
Hermano Frecuencia
Xi Absoluta
fi
El tamaño de hermanos que 0 5 7 es la
es más frecuente, es de 1 1 7 frecuencia
(un) hermano. que más se
2 3 repite.
La moda es 1 3 3
hermano. 4 2
Total 20
CASO DE MODA CUANDO VARIABLE EN DISTRIBUCIONES
AGRUPADAS EN INTERVALOS
Supongamos que todos los valores del intervalo se encuentran distribuidos
uniformemente y que la moda está más cerca de aquel intervalo contiguo
cuya frecuencia es mayor.
Si todos los intervalos son de igual amplitud, los pasos a seguir son :
*El intervalo modal, [Li , Ls ), es aquel que tiene la mayor frecuencia
absoluta, fi.
* El valor modal será:
d1
Mo Li A
d1 d 2
Li : Limite inferior intervalo modal
d1: fi - fi-1 diferencia de la frecuencia del intervalo modal menos la frecuencia
del intervalo inmediatamente anterior
d2: fi - fi+1 diferencia de la frecuencia del intervalo modal menos la frecuencia
del intervalo inmediatamente posterior
Ai : Amplitud intervalo modal.
CÁLCULO DE LA MODA, DATOS AGRUPADOS:
Dado los gastos en alimentación y transportes de estudiantes universtiarios, se pide el valor modal
Datos No Datos
Agrupados Agrupados
1º. Ordenamos los datos: 56, 59, 63, 65, 71, 72, 72
2º. El dato que queda en el centro es 65. La mediana vale 65.
Para el conjunto 56, 57, 59, 63, 65, 71, 72, 72, la mediana es: 63 65
64
2
MEDIANA (VARIABLE CUANTITATIVA DISCRETA)
La mediana de un conjunto de datos para la variable cuantitativa discreta se
encuentra en la mitad de la información n/2 Me = xi, se determina con la
ubicación de la frecuencia acumulada absoluta Fi.
Ejemplo. Si se estudia el número de hermanos, en 20 estudiantes de
la Universidad Señor de Sipán, del primer año en
psicología, cual es el valor típico:
Hermano Frecuencia Frecuencia Acumulada
Xi Absoluta fi Absoluta Fi
La media de los datos
0 5 5 está en el valor n/2 =
20/2=10; el cual se
Xi = 1 7 12 encuentra en la
2 3 15 segunda frecuencia
3 3 18 acumulada.
4 2 20
Total 20 ----
La mediana es el valor 1
CÁLCULO DE LA MEDIANA, DATOS AGRUPADOS:
Intervalos de los gastos Frecuencia Frecuencia absoluta
de alimentación y absoluta acumulada
transporte fi Ni = Fi
68 - 74.8 1 1
74.8 - 81.6 2 3
n
81.6 - 88.4 4 7 Fi 1
88.4 - 95.2 8 Fi-1 = 15 Md Li 2 A
fi
Li : 95.2 - 102.0 fi = 26 41
102.0 - 108.8 4 45
108.8 - 115.6 5 50
Total 50 ………
Datos No Datos
Agrupados Agrupados
n k
x i x i fi
x i 1
x i 1
n n
Cuando la variable esta
agrupada en intervalos, la media
aritmética se calcula utilizando
las marcas de clase.
MEDIA ARITMÉTICA (DATOS SIN AGRUPAR)
15 16 14 17 18 14 16 110
15,7
7 7
PROMEDIO (VARIABLE CUANTITATIVA DISCRETA)
La media de un conjunto de datos para la variable cuantitativa discreta se
encuentra con el cociente entre la suma de los valores de la variable con la
frecuencia absoluta dividida entre el tamaño de la muestra.
Ejemplo. Si se estudia el número de hermanos, en 20 estudiantes de
la Universidad Señor de Sipán, del primer año en
psicología, cual es el valor típico:
Hermano Frecuencia Xi*fi
Xi Absoluta fi
k
0 5 0
x i fi
1 7 7 x i 1
= 30/ 20 =1.5
2 3 6 n
3 3 9
La media aritmética es 1.5
4 2 8
hermanos.
Total 20 30
CÁLCULO DEL PROMEDIO O MEDIA DATOS AGRUPADOS:
Intervalos de los Marca de clase: Xi
gastos de
alimentación y Frecuencia Xi*fi
transporte absoluta: fi
68 - 74.8 (68+74.8)/2 = 71.4 1 71.4
74.8 - 81.6 78.2 2 156.4
81.6 - 88.4 85.0 4 340
88.4 - 95.2 91.8 8 734.4
95.2 - 102 98.6 26 2563.6
102 - 108.8 105.4 4 421.6
108.8 - 115.6 112.2 5 561
Total ------ 50 4848.4
Media
k
x i fi
x i 1
= 4848.4 / 50 = 96.97
n
Interpretación: El gasto promedio de los estudiantes es de S/, 96.97
Estadística
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos
están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
33
Estadística
-Rango
MEDIDAS DE DISPERSIÓN
-Varianza
Las medidas de tendencia central, se emplean para localizar el centro de un conjunto de
observaciones. Con mucha frecuencia, es igualmente importante describir la forma en que -Desviación Estándar
las observaciones están dispersas o diseminadas, a cada lado del centro. A esto por lo
general se le conoce como dispersión, variación o variabilidad.
x1 ( xi x ) x ( xi ) 2
2 2
R max( xi ) min( xi ) s 2 i 1
i
1 n 2
xi x 2
n i 1
i 1
x2 n n n i 1
Desviación Típica o Estándar
xn
s s2
i
( x x ) 2
s
2
x
i 1
n
Varianza datos sin agrupar Varianza datos agrupados
n 2 n
xi f i xi
2
S 2 i 1 x
2
S
2 i 1
x
2
n n
Desviación típica o estándar (s) : Se define la desviación típica como
la raiz cuadrada positiva de la varianza: S S2
VARIANZA Y DESVIACION ESTÁNDAR DE DATOS SIN AGRUPAR
s x2 i 1 =22.2224/9
4 -3.44 11.8336 n
8 0.56 0.3136 S2 = 2.469 cm2
8 0.56 0.3136
10 2.56 6.5536 Es el valor de la varianza en unidades al
8 0.56 0.3136 cuadrado
7 -0.44 0.1936 La desviación estándar:
6 -1.44 2.0736 S =RAIZ(2.469)
8 0.56 0.3136 S = 1.57 cm.
total 22.2224
Encuentre la varianza y desviación estándar de los siguientes datos en
centímetros: 8, 4, 8, 8, 10, 8, 7, 6, 8
n
xi
2
n
f i xi
2
S 2 i 1 x 96.97 72.78
2 473798.16 2
n 50
Interpretación: la varianza de los coeficientes intelectuales es de 72.78 puntos
cuadrados
Cálculo de la desviación estándar:
S S 72.78 8.53
2
Mide la dispersión en los datos con relación a la media .Es más útil cuando se
trata de hacer comparaciones entre muestras.
Desviación Estándar
Coeficiente de Variación 100
Media
S
CV
X
El coeficiente de variación nos refleja mejor la variabilidad que la desviación
estándar sola.
Si el CV es máximo o mayor del 33% los datos son heterogéneos.
Si el CV es menor del 33% los datos son homogéneos.
Cálculo del coeficiente de variación del ejemplo de Gastos.
X 96.97 S 8.53
• El valor de la media aritmética es 96.97
• El valor de la desviación estándar es 8.53
S 8.53
CV (100)
X 96.97
CV 8.80% El coeficiente de variación es 8.80%
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
14 30 6
12 5
10
20 4
8
3
10 2
4
V2 V4 V5
42
Estadística
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Ejemplos
1 4 4 Media 3,9
14
1 4 4 Mediana 4
12 Moda 4
1 4 5
2 4 5 10
Desviación estándar 1,67
3 4 6 4 Rango 6
V1
43
Estadística
Bicicleta 8 13,3
Estudia 21 35,0
Caminar 9 15,0
Pensionado 26 43,3
Coche 14 23,3
Trabaja 13 21,7
Metro 17 28,3
TOTAL 60 100
TOTAL 60 100
44
Estadística
Distribución conjunta
Nº de personas
Tabla 2 Actividad
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
45
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
46
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
47
EJEMPLO MODELO DE BASE DATOS CON VARIABLES APLICADA DERECHO PARA TRABAJO
INDIVIDUAL
Id Código de identificaciónsentenciado.
Tipo de delito del condenado, 1= Contra la
vida, el cuerpo y la salud. 2= Contra la
libertad. 3= Contra la seguridad pública. 4=
Delito Contra la fé pública.
Edad Edad en años del interno.
Consumo Consumió y/o consume droga. 1=Si. 2=No.
Estrés Medición de estrés del convicto.
Agresivo Total de síntomas agresivos informados.
Id Delito Edad Consumo Estrés Agresivo
PR001 3 32 2 33 4
PR002 1 63 1 14 4
PR003 1 33 2 10 4
PR004 2 57 2 99 1
PR005 1 35 2 95 0
PR006 2 54 1 10 2
PR007 4 38 2 42 3
PR008 2 53 2 8 1
PR009 1 42 2 62 1
PR010 2 51 1 35 1
…. …. …. …. …. ….
EJEMPLO MODELO DE BASE DATOS CON VARIABLES APLICADA FAC. CIENC.
EMPRESARIALES TRABAJO INDIVIDUAL
ID Para identificar el número de datos que se tiene
Ingreso mensual en soles que perciben ejecutivos
INGRESO de ventas
Puntuación de prueba de habilidad de los
PUNTHABILID ejecutivos de ventas
Sexo del ejecutivo de ventas: 1 = Masculino; 2 =
SEXO Femenino
EDAD edad de los ejecutivos de ventas
Asistiría a curos de capacitación para ventas a
ASISTE realizar en Lima. 1 = Si; 2= No
ID INGRESO PUNTHABILID SEXO EDAD ASISTIRIA
AD001 1000 28 1 33 SI
AD002 1050 29 2 34 SI
AD003 1150 33 1 33 SI
AD004 1030 24 1 34 NO
AD005 1000 28 1 46 SI
AD006 990 35 1 29 SI
AD007 1100 22 2 33 NO
AD008 1050 19 1 34 NO
AD009 1030 20 2 46 SI
AD010 1150 29 2 42 SI
…. …. …. …. …. ….