Você está na página 1de 55

ESTADSTICA

Profesor: Lorenzo Prez Vargas


lopervar@hotmail.com
ESTADISTICA

Trata con la informacin cuantitativa o numrica.


A la informacin cuantitativa se le llaman datos
estadsticos.

La estadstica se ocupa de la recopilacin,


organizacin presentacin, anlisis e
interpretacin de la informacin con el fin de
tomar decisiones.

La estadstica se divide en:


Estadstica descriptiva
Estadstica inductiva e inferencial
DEFINICIONES
Poblacin o universo: Es un conjunto de individuos o de
elementos que guardan similitud entre s en los aspectos que
son relevantes para los objetivos de la investigacin.

Poblacin de estudio: Se caracteriza por ser finita, poseer


atributos o caractersticas particulares, temporal y
geogrficamente disponible para ser estudiada.

Muestra: Es un subconjunto de la poblacin y se define


como un conjunto de elementos representativos extrados de
una poblacin.

Variables: En estadstica se consideran 2 clases de


variables.

a) Variable cuantitativa Son medibles

b) Variable cualitativa No son medibles


RECOPILACIN DE DATOS
Existen 3 clases de datos:
ORGANIZACIN DE DATOS

Es el segundo paso en un estudio estadstico e incluye 3


pasos que son:
Revisin y correccin de los datos recopilados
Tiempo (cronolgico)
Clasificacin de los datos Lugar (geogrfico)
Cantidad (cuantitativas)
Cualidad (cualitativas)

La tabulacin de los datos

PRESENTACIN DE DATOS

En general hay 3 formas para presentar datos organizados:


Mediante palabras
Mediante tablas o cuadros estadsticos
Mediante grficas
PARTES PRINCIPALES DE UNA TABLA ESTADISTICA

Numeracin
Ttulo
Encabezado
Concepto o columna matriz
Cuerpo
Fuente
Nota de encabezado
GRFICAS

Es la representacin de una informacin dada

PARTES PRINCIPALES DE UNA GRFICA

Numeracin
Ttulo
Escala
Diagrama
Fuente
Nota de encabezado
TIPOS COMUNES DE GRFICAS
DISTRIBUCIN DE FRECUENCIA
Es una tabla en la cual se agrupan los valores de la variable:
En una forma individual, si se trata de una variable discreta o cualitativa.
En intervalos de clases, si se trata de una variable continua o
cuantitativa.
En ella se registra el nmero de valores observados que corresponde a cada
valor de la variable o cada intervalo de clase y recibe el nombre de
frecuencia absoluta.

Los datos organizados en una distribucin de frecuencia se denominan


datos agrupados.

Ej:
Se seleccion una muestra de 10 trabajadores para conocer su estado
civil. Los resultados fueron los siguientes: casado soltero unin libre,
casado soltero soltero, viudo unin libre casado casado.

Se ha seleccionado una muestra de 15 familias en l ciudad para conocer


el nmero de hijos que tiene, obtenindose los siguientes resultados: 2
101-2013320232-3
REGLA PARA CONSTRUIR UNA DISTRIBUCIN DE FRECUENCIA

1. Se determina el rango. El rango es la diferencia existente entre el dato


mayor y el dato menos de un conjunto de datos.

2. Se divide el rango en un nmero conveniente de intervalos de clase de


igual tamao. Si esto no es posible se debe utilizar intervalos de desigual
tamao o intervalos de clases abiertas. El nmero de intervalos por lo
general se toma entre 5 y 15.
Matemticamente se calcula as:

No. de clases = 1 + 3.3 Log n

3. Se calcula el nmero de observaciones que caen dentro de cada intervalo


de clase, es decir, se calculan las frecuencias de clase.
Punto medio o marca de clase: Al valor promedio de un intervalo de clase
se le llama punto medio y se calcula:

Frecuencia relativa: A la relacin existente entre la frecuencia absoluta de


una determinada clase y el tamao de la muestra se le llama frecuencia
relativa.
COEFICIENTES NUMRICOS
Las medidas numricas en estadstica son:
MEDIA ARITMETICA
Es el principal promedio, el ms conocido, el ms utilizado y se define como
la relacin existente entre la suma de los valores de la variable y el tamao
de la muestra.
Es el valor ms representativo dentro de una serie de datos.

Datos no agrupados

Datos agrupados

LA MODA
Se define como el valor que ms se repite, dentro de una serie de datos. En
una serie de datos. En una serie de datos puede existir ms de una moda
como no puede existir ninguna.

Clculo de la moda para datos no agrupados:


Se calcula por simple inspeccin.
Clculo de la moda para datos agrupados:

C = Amplitud de clase: Diferencia entre el lmite superior y el lmite inferior


de una determinada clase.

LA MEDIANA
Se define como el valor que esta situado en todo el centro de un conjunto
de datos. En otras palabras la mediana es aquel valor que supera al 50% de
la distribucin, pero que a su vez es superado por el 50%.

Clculo de la mediana para datos no agrupados:

Se ordenan los datos en orden de magnitud, es decir, de menor a mayor.

Si el nmero de datos es impar, la mediana ser aquel nmero que est


situado en todo el centro.

Si el nmero de datos es par, la mediana ser igual al valor promedio de


los 2 valores que est ubicados en el centro.
Clculo de la moda para datos agrupados:

CUARTILES
Son los que dividen a la distribucin en 4 partes iguales.

El cuartil uno Q1: Es el valor que supera al 25% de la distribucin, pero que
a su vez es superado por el 75%.

El cuartil dos Q2: Es el valor que supera al 50% de la distribucin, pero que
a su vez es superado por el 50%.
El cuartil dos es igual a la mediana.

El cuartil tres Q3: Es el valor que supera al 75% de la distribucin, pero que
a su vez es superado por el 25%.
DECILES DK

Son los que dividen a la distribucin en 10 partes iguales.

PERCENTILES PK

Son los que dividen a la distribucin en 100 partes iguales.

MEDIDAS DE DISPERSIN
La idea de dispersin se relaciona con la mayor o menor concentracin de
los datos en torno a un valor central, generalmente la media aritmtica.

Las medidas de dispersin ms importante para la inferencia estadstica es:


La varianza
La desviacin estndar o tpica
LA VARIANZA
La varianza de una distribucin se define como la media aritmtica de los
cuadrados de las diferencias entre los valores de la variable y su media
aritmtica.

Datos no agrupados
de una muestra

Datos agrupados de
una muestra

Datos no agrupados
de una poblacin

Datos agrupados de
una poblacin
DESVIACIN TPICA O ESTANDAR
La varianza se expresa en unidades distintas de la variable original, por
ejemplo, si estudiamos la variable peso en kilogramos, la varianza se
expresar en kgs2, lo cual no tiene sentido o significado, por esto se prefiere
utilizar la desviacin tpica, la cual se define como la raz cuadrada de la
varianza.
Datos no agrupados
de una muestra

Datos agrupados de
una muestra

Datos no agrupados
de una poblacin

Datos agrupados de
una poblacin
PROBABILIDAD

La probabilidad trata con los problemas de azar o aleatorios,


y se define como la relacin existente entre el nmero de
xitos y el nmero de casos posibles.

Nmero de xito
Probabilidad xito =
Nmero de casosposibles

Ejemplo:
Hallar la probabilidad de obtener un seis al lanzar un dado.
Una bolsa contiene 6 bolas blancas y 4 negras. Cul es la
probabilidad que al sacar una bola de la bolsa sea de color
blanca?
PROPIEDADES DE LA PROBABILIDAD

1) La probabilidad es un nmero mayor e igual a cero, pero


menor e igual a 1.
2) La suma de las probabilidades ser siempre igual a 1.
3) La Probabilidad de xito ms la probabilidad de fracaso es
igual a 1.

P ( xito ) + P ( No xito) = 1

P ( xito ) = 1 P( Fracaso )
DISTRIBUCIN BINOMIAL

Es una distribucin discreta de probabilidad que tiene las


siguientes caractersticas:

1) Concurren 2 eventos o sucesos, uno ser xito y otro


fracaso.

2) Los eventos son independientes.

3) La probabilidad de xito mas la probabilidad de fracaso es


igual a 1.

La funcin:

es la funcin de probabilidad binomial, que calcula la


probabilidad de x xito en n pruebas independientes.
Ejemplo: Se ha establecido que 2 de cada 5 trabajadores
sufren accidentes de trabajo. cul es la probabilidad que al
seleccionar 8 trabajadores:

a) Exactamente 3 sufran accidentes de trabajo


b) A lo sumo 2 sufran accidentes de trabajo
c) Por lo menos 7 no sufran accidentes de trabajo.
DISTRIBUCIN DE POISSON
Es una distribucin de probabilidad discreta y se utiliza:

1) Cuando el tamao de la muestra es grande, por lo general


mayor e igual a 30.

2) La media aritmtica = n*p

3) La media aritmtica debe ser menor e igual a 10.

La funcin de:
x e-u
PX=
x!
Es la funcin de probabilidad de Poisson que se utiliza para
calcular probabilidad de sucesos u ocurrencias en determinado
intervalo de tiempo o espacio.
Ejemplo: Si el nmero promedio de accidentes graves por
ao en una fbrica es de 5. Encontrar la probabilidad que en
el ao en curso

Se tenga :
a) Exactamente 7 accidentes
b) Ningn Accidente
c) Mximo 4 accidentes
d) Por lo menos 4 accidentes.
DISTRIBUCIN NORMAL

Es una distribucin continua de probabilidad y es considerada


la mas importante. La representacin grfica de la curva
normal es en forma de campana y se llama la curva de
GAUSS.

Propiedades de la curva normal

1) El rea bajo la curva normal es igual a 1 o al 100%.

2) La distribucin normal est definida por 2 cantidades, la


media aritmtica y la desviacin estndar.

3) La distribucin normal es simtrica, las colas, es decir, los


extremos o los lados de la curva se prolongan al infinito en
ambas direcciones y nunca tocan al eje de las X.
4) En el punto mas alto de la curva se traza una imaginaria
al eje delas X y en el punto donde toca a este eje, se
obtiene el valor de la media aritmtica, que divide el rea
en dos partes iguales; 50% a la izquierda de la media y
50% a la derecha.

5) La desviacin estndar determinar el ancho de la curva,


es decir, a mayor valor de la S se tienen curvas mas
anchas y viceversa.
Ejemplo:
La presin sangunea sistlica de 400 trabajadores es de
120 mm Hg, con una varianza de 81.
a) Cuntos trabajadores tienen una presin sangunea
sistlica entre 110 y 115 mm Hg?
b) Cul es la presin sangunea sistlica que por debajo de
ella se encuentra el 35% de los trabajadores?

)Los niveles de colesterol en un grupo de obreros de la


construccin tienen un promedio de 240 mg/100 ml y una
desviacin estndar de 20mg/100ml. Calcular la
probabilidad, que un individuo elegido al azar, tenga un
nivel de colesterol:
a) Entre 180 y 200 mg/100 ml
b) Entre 220 y 265 mg/100 ml
c) Por lo menos 190 mg/100 ml
d) Cul es el nivel de colesterol, tal que el 20% de todos los
obreros tengan un nivel superior a dicho valor?
MTODO DE SELECCIN DE MUESTRA

De acuerdo con la forma de seleccin de los elementos de


una muestra:

Muestreo de juicio (no probabilstico): Presenta las


siguientes caractersticas:

1. Sus elementos son seleccionados mediante los puntos de


vista de un experto.
2. No se puede medir el error de muestreo.
MTODO DE SELECCIN DE MUESTRA

Muestreo aleatorio simple: Presenta las siguientes


caractersticas:

1. Cada elemento en la poblacin tiene una probabilidad


conocida de ser seleccionado en la muestra.
2. Los elementos son seleccionados utilizando una tabla de
nmeros aleatorios.
3. Cuando la poblacin es infinita es obvio que la tarea de
numerar cada elemento de la poblacin es imposible.
MTODO DE SELECCIN DE MUESTRA

Muestreo sistemtico: Presenta las siguientes


caractersticas:

1. Los elementos son seleccionados en una forma ordenada.


La manera de seleccin depende del tamao de la
poblacin y del tamao de la muestra.
2. El nmero de elementos de la poblacin (n) es dividido
por el numero de elementos de la muestra, obtenindose
as una constante k.
3. El primer elemento de la muestra se selecciona al azar
entre 1 y k.
4. El segundo elemento es igual al valor del primer elemento
mas la constante k y as sucesivamente.
MTODO DE SELECCIN DE MUESTRA

Muestreo estratificado: presenta las siguientes


caractersticas:

1. La poblacin se divide en grupos llamados estratos.


2. Los elementos que pertenecen a cada estrato son
homogneos.
3. El nmero de elementos seleccionado de cada estrato
como muestra, debe ser proporcional al tamao del
estrato en relacin con la poblacin.
4. Los elementos de la muestra en cada estrato, son
seleccionados por el mtodo aleatorio simple o por el
sistemtico.
MTODO DE SELECCIN DE MUESTRA

Muestreo por conglomerado: Presenta las siguientes


caractersticas:

1. Se divide la poblacin en grupos llamados conglomerados.


2. Los conglomerados entre si tienden a ser homogneos, en
cuanto a las caractersticas de los elementos que la
conforman.
3. De los diferentes conglomerados apenas uno de ellos es
muestreado.
4. Cada conglomerado tiene igual probabilidad de ser
seleccionado aleatoriamente.
ESTIMACIN DE PARMETROS
Parmetro: Es una medida usada, para describir una caracterstica de una
poblacin.

Estadstico: Es una medida usada, para describir una caracterstica de una


muestra.

Estimacin: Es el proceso de usar un estadstico (muestral), para estimar el


correspondiente parmetro poblacional desconocido.

La estimacin de un parmetro puede ser expresada de dos maneras:

a. Una estimacin de punto


Es un nmero nico, que es usado para representar la estimacin del
parmetro.

b. Una estimacin de intervalo


Es un recorrido establecido dentro del cual podemos esperar que est el
parmetro.
En la estimacin de intervalo hay que tener en cuenta 3 conceptos
importantes, que son:
a. Coeficiente o nivel de confianza
El rea bajo la curva normal, la cual representa la probabilidad de tener el
verdadero parmetro poblacional dentro de las estimaciones de intervalo es
llamado el coeficiente o nivel de confianza.

b. Lmites de confianza
Los 2 valores, los cuales especifican el intervalo de confianza, son llamados
lmites de confianza.

c. Intervalo de confianza
Al recorrido se le llama intervalo de confianza.
ESTIMACIN DE LA MEDIA POBLACIONAL() A PARTIR DE UNA
MUESTRAL ( X )
El siguiente procedimiento deber ser seguido para estimar la media
poblacional ().

1. Se calcula la media aritmtica de la muestra

2. Se calcula el error estndar de la media X

3. Se calcula los lmites de confianza, de la siguiente manera:


Lmite superior

Lmite inferior
RAZN DE DISPARIDAD (ODDS RATIO - OR)

El odds ratio se define como el cociente entre dos ratio


posible. Un odds ratio en sentido general, es la relacin
entre la cantidad de enfermos y los no enfermos de una
poblacin dada. Como hay dos poblaciones, la expuesta y la
no expuesta al factor de riesgo, hay 2 tipos de odds ratio
posibles y la tasa entre ambos es el valor del OR.

+ - TOTAL

Factor de riesgo (FR) a b a+b


+
Factor de riesgo (FR) c d c+d
-
TOTAL a+c b+d n
Si OR = 1 indica que no hay relacin alguna entre
enfermedad y la exposicin al factor de riesgo (FR).

Si OR es mayor a 1 indica que la enfermedad est asociada


a la Exposicin.

Si OR es menor a 1 indica proteccin, es decir, el factor de


riesgo es un protector a la enfermedad. (Prevencin).

El OR no se asocia a pruebas de inferencia que terminan en


un nivel de significacin. Para determinar si existe asociacin
o no entre el factor de riesgo y la enfermedad, se calcula el
intervalo de confianza al 95% o al 99%, luego se trata de ver
si el valor de OR = 1 cae dentro de dicho intervalo, en cuyo
caso se piensa que hay independencia entre los factores.

El intervalo de confianza tendr un lmite inferior y otro


superior.
El lmite inferior debe ser superior a 1 para insinuar relacin
entre el factor de estudio y la enfermedad, hiptesis de
Para una hiptesis de prevencin, el lmite superior del OR es
menor de 1.

El OR indica cuantas veces es mas probable que ocurra el


suceso de inters, a que no ocurra, es decir, el OR indica
cuantas veces es mayor el odds del numerador que el del
denominador.
Ejemplo: Se tiene el resultado de un estudio de casos y
controles para evaluar el efecto del consumo de cigarrillos
(exposicin) sobre el cncer bucofarngeo (casos ).

CASOS CONTROLES TOTAL

EXPUESTOS 352 238 390


NO EXPUESTOS 48 122 170
TOTAL 400 360 560

Se pide:

a) Calcular el OR e interpretar el resultado.


b) Probar si existe una relacin o asociacin entre el factor
de riesgo (expuesto) y la enfermedad (casos ).
DETERMINACIN DEL TAMAO ADECUADO DE LA MUESTRA
Toda investigacin lleva implcito en la etapa de diseo, la determinacin
del tamao adecuado de la muestra.

Estudios para determinar parmetros: , P

Estos estudios se aplican cuando se pretende realizar estimaciones de una


media o de una proporcin.

1. Cuando se desea estimar una media poblacional

Si la poblacin es infinita:

Si la poblacin es finita:
2. Cuando se desea estimar una proporcin: P

Si la poblacin es infinita:

Si la poblacin es finita:

ERROR DE MUESTREO: A la diferencia entre el resultado obtenido de una


muestra (estadstico) y el resultado, que deberamos haber obtenido de la
poblacin (parmetro), se llama error de muestreo. Mientras ms pequeo
sea el error de muestreo, mayor es la precisin de la estimacin.

ERROR ESTNDAR: A la desviacin estndar de una distribucin en el


momento de un estadstico, se le llama error estndar del estadstico. A la
desviacin estndar de las medias de todas las muestras posibles del
mismo tamao, extrada de una poblacin, se denomina el error estndar
de la media. De igual manera, la desviacin estndar de las proporciones
de todas las muestras posibles, de igual tamao, extradas de una
poblacin, se denomina error estndar de la proporcin.
DETERMINACIN DE LA MUESTRA PARA EVALUACIN DE
DIFERENCIAS

Variable cuantitativa

Variable cualitativa

Cuando nicamente se conoce el tamao de la poblacin

N
n=
1+NE2
PRUEBA DE HIPTESIS
Hiptesis estadstica: Es una suposicin o una conjetura concerniente a la
poblacin. Antes de aceptar o rechazar una hiptesis, todo investigador
deber probar la validez de la misma, puesto que puede o no ser
verdadera. Un medio seguro de probar la hiptesis, sera un examen de la
poblacin, sin embargo, el examen puede llegar a ser imposible. Un modo
prctico es probar la hiptesis usando una muestra de acuerdo con la teora
de la probabilidad. El resultado de la prueba conducir a un estadstico, ya
sea a aceptar la hiptesis o a rechazarla. La aceptacin o rechazo conducir
al investigador a tomar una decisin.

Divisin de la hiptesis estadstica: La hiptesis estadstica se divide en


hiptesis nula y en hiptesis alternativa.

Hiptesis nula (H0): La hiptesis que es establecida para el propsito de


posible rechazo o aceptacin se le llama hiptesis nula.

Hiptesis alternativa (H1): Cualquier hiptesis que difiere de la hiptesis


nula, es llamada una hiptesis alternativa. En una prueba dada, hay
usualmente slo una hiptesis nula, pero puede haber varias hiptesis
alternativas.
Error tipo I (): Consiste en rechazar una hiptesis nula, cuando realmente
es verdadera.

Error tipo II (): Consiste en aceptar una hiptesis nula, cuando realmente
no es verdadera.

Nivel de significacin: A la mxima probabilidad de cometer un error tipo I,


especificada en una prueba de hiptesis, es llamado nivel de significacin.
El nivel de significacin es usualmente especificado antes de que una
prueba sea hecha. En la prctica, el valor de 5% y 1% son frecuentemente
usados para establecer el nivel de significacin.

Prueba de un extremo y dos extremos


El nivel de significacin puede ser representado por una porcin del rea
bajo la curva normal de 2 maneras:

a. Prueba de 2 colas o de 2 extremos: Cuando el nivel de significacin est


representado por ambos extremos de la curva normal.

b. Prueba de una cola o un extremo: Cuando el nivel de significacin es


representado por solamente un extremo de la curva normal, las pruebas
son llamadas prueba de una cola o de un extremo.
Mtodos para prueba de hiptesis
Las pruebas de hiptesis son comnmente hechas de acuerdo con las
distribuciones z, t de Student y chi-cuadrado (x2).

Procedimiento para una prueba de hiptesis


1. Se establece la hiptesis nula de la siguiente forma: no hay diferencia
entre los 2 valores dados, o la diferencia es cero. En otras palabras, se
hace el supuesto que la diferencia entre los 2 valores dados es
considerada como no significativa o no diferencia.
2. Expresar la diferencia en unidades del error estndar del estadstico
como sigue:
2.1Cuando n 30, se utiliza la prueba z

Si no conocemos P y Q,
se trabaja con el pi de la
muestra

2.2 Para n < 30, se utiliza la prueba t de Student


3. Tomar decisin: La regla de decisin est basada en el nivel de
significacin ya sea para prueba de un extremo o para prueba de 2
extremos como sigue:
3.1 Si el valor de z o de t calculado, cae en la regin de aceptacin, se
acepta la Ho.
3.2 Si el valor de z o de t calculado, cae en la regin de rechazo, se
rechaza la Ho.
DIFERENCIA ENTRE LAS MEDIAS DE DOS
POBLACIONES
1. Caso de muestras grandes:

2. Caso de muestras pequeas:

n -1 S2+ n -1 S2
1 1 2 2
S2=
n1+n2-2

X1 - X2 - 1- 2
t=
21 1
S +
n1 n2
3. Caso diferencias entre las medias de dos poblaciones:

Muestras apareadas
INFERENCIA ACERCA DE LA DIFERENCIA ENTRE LAS
PROPORCIONES DE DOS POBLACIONES
Para n 30

p1 - p2 - P1 - P2 p1n1 +p2n2
z= p=
1 1 n1 +n2
pq +
n1 n2
PRUEBA CHI-CUADRADO X2
La prueba chi-cuadrado es frecuentemente usada para probar hiptesis
concernientes a la diferencia entre un conjunto de frecuencias observadas
de una muestra y un conjunto correspondiente de frecuencias tericas o
esperadas.

O = Frecuencia observada E=np


E = Frecuencia esperada

PRUEBAS PARA TABLAS DE CONTINGENCIA: Una tabla de contingencia es


una tabla cruzada o de doble entrada que muestra las frecuencias
observadas de una muestra. El nmero de grados de libertad en una tabla
de contingencia es igual a:

r = N de filas
k = N de columnas
Las tablas de contingencia son frecuentemente usadas en pruebas de
independencia. Este tipo de pruebas nos dir si son o no independientes las
dos bases de clasificacin, usadas respectivamente en hileras y columnas
de una tabla de contingencia.

La tabla se emplea de la manera usual, siempre que cada frecuencia


esperada no sea demasiado pequea, preferiblemente cinco o mas.

A la suma de las frecuencias en cada fila o en cada columna se le llama


frecuencia marginal.
ANLISIS DE VARIANZA
Las pruebas de hiptesis z y t de student se utilizan para efectuar test de
significacin referentes a las medias de dos muestras independientes. Si
hay ms de 2 muestras, dichos test no son aplicables. Para estos casos, el
mtodo adecuado es el anlisis de varianza, que permite efectuar test de
significacin para ms de 2 muestras independientes.

El anlisis de varianza implica el clculo de la distribucin F, que se define


como el cociente o la relacin existente entre la varianza entre las medias
de las muestras y la varianza dentro de las medias.

N = Total de variantes de todas las muestras


K = Es el nmero de muestras a las que se aplica el test
Ejemplo: Para evaluar los conocimientos de sus empleados acerca de la
administracin de la calidad total, la compaa ABC, tom una muestra
aleatoria de 6 empleados en cada planta y se les someti a un examen
sobre la calidad. Las calificaciones se presentan a continuacin.
Probar la hiptesis que la calificacin promedio para las 3 plantas son
iguales?

= 5%

Planta 1 Planta 2 Planta 3


Empleado B/quilla Cali Medelln

1 85 71 59
2 75 75 64
3 82 73 62
4 76 74 69
5 71 69 75
6 85 82 67

Você também pode gostar