Escolar Documentos
Profissional Documentos
Cultura Documentos
2016
Bibliografa
Devore, Jay L. - Probabilidad y Estadstica para
Ingeniera y Ciencias - International Thomson
Editores - Mxico 5a edicin - 2002
Mendenhall, W., Sheaffer, R.L. y Wackerly, D. D. Estadstica Matemtica con Aplicaciones - Grupo
Editorial Iberoamrica, Mxico - 1996
Canavos, G. C. - Probabilidad y Estadstica.
Aplicaciones y Mtodos - Mc. Graww Hill - 1988
Bibliografa (cont.)
Ross, S. -. A First Course in Probability (3th edition) Prentice Hall, New Jersey, EE.UU. 1988
Rice, J. - A. Mathematical Statistics and Data
Analysis - Duxbury Press, 1995.
Notas de Clase de la Dra. Liliana Orellana y la Dra.
Diana Kelmansky
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/
modulo%20descriptiva.pdf
Bibliografa (cont.)
Notas de Clase de la Dra. Diana Kelmansky
http://www.dm.uba.ar/materias/estadistica_Q/2010/2/
Apuntes de la Dra. Ana Bianco y la Dra. Elena
Martnez
http://cms.dm.uba.ar/academico/materias/2docuat20
14/probabilidades_y_estadistica_C/PyEC.pdf
Apuntes del Dr. Ricardo Maronna
http://www.mate.unlp.edu.ar/~maron/MaronnaHomearc
hivos/Probabilidad%20y%20Estadistica%20Elementale
s.pdf
Bibliografa (cont.)
Introduccin a R
http://cran.r-project.org/doc/contrib/R-intro-1.1.0espanol.1.pdf
R para principiantes
http://cran.r-project.org/doc/contrib/rdebuts_es.pdf
An Introduction to R. Notes on R: A Programming
Environment for Data Analysis and Graphics. Versin
3.0.- 2013
http://cran.r-project.org/doc/manuals/R-intro.pdf
Software
R - project
SAS - SPSS - STATA, etc.
Statistix - Infostat
Mathematica
Geogebra - Excel
Pero Qu es la Estadstica?
Segn la Real Academia Espaola
Qu es la Estadstica? (cont.)
Segn diferentes autores:
Qu es la Estadstica? (cont.)
ALGUNOS CONCEPTOS
Tipo de datos
Categricos o Cualitativos: registran la presencia
de un atributo
Con dos categoras
Si, No
F, M
Nominales
Discretos:
cantidad de miembros de un hogar
cantidad de mujeres fumadoras en este curso
Continuos:
Edad
Peso
Salario
Tipo de variables
Altura
Fumador
Nivel de ingresos
Importante
Identificar el tipo de variable porque
Algunas definiciones
Unidad de anlisis u observacin: es el objeto bajo
estudio
persona
institucin
pas
Variable: es una caracterstica que toma un valor
para cada unidad de una poblacin.
Valor de una variable: es el valor numrico que toma
dicha variable.
Algunas definiciones
Poblacin objetivo: es el conjunto completo de
unidades que se desean estudiar.
Muestra: Es un subconjunto de la poblacin que
permite brindar informacin sobre la misma
Muestra representativa: es aquella que permite
obtener conclusiones semejantes a las que
lograramos si estudiramos el universo total.
Poblacin del
marco
muestral
1
No elegibles para
la encuesta
1: unidades no
localizables
2: unidades que no
responden
3: incapaces de
responder
Observaciones
Hay que tener presente que una muestra NO es la
poblacin completa.
Ms definiciones
Parmetro: Es una cantidad que mide alguna
caracterstica de la poblacin bajo estudio. En
general son desconocidos.
Ejemplos:
Total poblacional de alguna variable en estudio
Media poblacional de la variable en estudio
Los valores exactos en general son desconocidos.
Se puede obtener esta informacin si se conoce la
poblacin completa
Ms definiciones (cont.)
Estimador o estadstico: es una funcin de los
datos muestrales. Depende del diseo muestral
elegido.
Estimacin: es el resultado de aplicar el estimador a
los datos muestrales.
Ms definiciones (cont.)
Error muestral: es el error que surge de estudiar
una parte de la poblacin a partir de una muestra.
Estadstica
Descriptiva
Estadstica descriptiva
La estadstica descriptiva es una parte de la
estadstica que se dedica a recolectar, ordenar,
analizar y representar un conjunto de datos, con el
fin de describir apropiadamente las caractersticas de
ese conjunto.
Usa
herramientas
grficas
genera
medidas
Experimentos y Ensayos
Experimento: es un conjunto de procedimientos que
permite la observacin de un fenmeno.
Ensayo: es cada una de las realizaciones del mismo
bajo condiciones similares.
Suceso (o evento): es un conjunto de resultados
posibles de un experimento.
Sucesos
Ejemplos de Suceso:
Sale cara
Es un hogar unipersonal
Frecuencia
Frecuencia: nmero de veces que se observa la
ocurrencia de un suceso en varios ensayos
Frecuencia Relativa: proporcin de veces que se
observa la ocurrencia de un suceso en varios
ensayos
TABLAS
y
GRFICOS
Grficos
Objetivo: mostrar las caractersticas sobresalientes
del conjunto de datos bajo estudio
Cules pueden ser estas caractersticas?
Grficos (cont.)
Datos categricos
Diagramas de barras
verticales
Horizontales
Diagramas de torta
Ejemplo de formulario
FORMULARIO
1- Escuela:
2- Edad:
3- Sexo (marc lo que corresponda)
Varn
Mujer
4- Con quin/es vivs?: (seleccion todas las opciones que describan tu situacin)
Madre
Padre
Hermanos/as
Otro familiar
Con tu pareja
Solo
Con Amigos
5- Marc slo una opcin que describa cmo te llevs con tu familia:
Muy Bien
Medianamente Bien
Regular
No tengo relacin
6- Eleg una sola de las opciones que siguen de acuerdo a cmo te sents con la comunicacin que
tens con tus padres o adultos con los que vivs?
Grficos (cont.)
Grfico 3: Gnero
Grficos (cont.)
Grficos (cont.)
Grficos (cont.)
Datos Numricos
Histogramas
QQplots
Tasa
3.88
4.27
6.36
4.18
2.08
3.81
13.93
6.12
9.42
2.92
5.08
5.20
Provincia
MENDOZA
MISIONES
NEUQUEN
RIO NEGRO
SALTA
SAN JUAN
SAN LUIS
SANTA CRUZ
SANTA FE
SANTIAGO DEL ESTERO
TIERRA DEL FUEGO
TUCUMAN
Tasa
6.51
7.40
6.15
4.40
6.79
6.59
8.34
8.94
4.62
8.97
3.61
4.51
donde
,
100
+1
,
,
+1
,
Tallo
1
2
10
11
12
13
Hoja
La simetra/asimetra de la distribucin
Valores ms frecuentes
Ao 2007
294
147
473
312
292
81
209
30
Pas
Ecuador
Egipto
Estados Unidos
India
Japn
Paraguay
Per
Venezuela
Ao 2007
252
88
552
5
107
46
270
284
Tabla de frecuencias
Es una tabla donde se agrupan los datos en
intervalos o clases definidos previamente. Estos
intervalos no tienen que tener la misma longitud.
Se cuenta la cantidad de observaciones que caen
dentro del intervalo correspondiente (frecuencia
absoluta)
Calculo las frecuencias relativas, la frecuencia
acumulada y la frecuencia acumulada relativa.
Tasa
3.88
4.27
6.36
4.18
2.08
3.81
13.93
6.12
9.42
2.92
5.08
5.20
Provincia
MENDOZA
MISIONES
NEUQUEN
RIO NEGRO
SALTA
SAN JUAN
SAN LUIS
SANTA CRUZ
SANTA FE
SANTIAGO DEL ESTERO
TIERRA DEL FUEGO
TUCUMAN
Tasa
6.51
7.40
6.15
4.40
6.79
6.59
8.34
8.94
4.62
8.97
3.61
4.51
Frecuencia
Frecuencia Frecuencia
Acumulada
Acumulada Relativa
Relativa
Clase Frecuencia
Frecuencia
Frecuencia Frecuencia
Acumulada
Acumulada Relativa
Relativa
Clase
Frecuencia
[2,4)
0.21
0.21
[2,4)
21%
21%
[4,6)
12
0.29
0.50
[4,6)
12
29%
50%
[6,8)
19
0.29
0.79
[6,8)
19
29%
79%
[8,10)
23
0.17
0.96
[8,10)
23
17%
96%
[10,12)
23
0.00
0.96
[10,12)
23
0%
96%
[12,14)
24
0.04
1.00
[12,14)
24
4%
100%
Histogramas
Es un tipo de grfico que permite representar la
forma de la distribucin de frecuencias
Se puede representar la distribucin de frecuencias
absolutas como las relativas
En el eje x se representan los lmites de los
intervalos.
Estos intervalos de clase son adyacentes, es decir,
no se deja espacio entre ellos salvo que una clase
sea vaca. Deben se excluyentes y exhaustivas.
Histogramas (cont.)
Histograma de frecuencias absolutas
Tasa de Repitencia
Histogramas (cont.)
Histograma de frecuencias relativas
Tasa de Repitencia
Histogramas (cont.)
Ejemplo: Variable de inters es el peso de un nio al
nacer (continua). Se tom una muestra de 77 nios.
Se consideraron intervalos de longitud 0.3
Peso al nacer
frecuencia
frecuencia relativa
[2.3,2.6)
0.05
[2.6,2.9)
0.102
[2.9,3.2)
12
0.156
[3.2,3.5)
12
0.156
[3.5,3,8)
14
0.182
[3.8,4.1)
13
0.169
[4.1,4.4)
10
0.130
[4.4,4.7)
0.039
[4.7,5)
0.026
Frecuencias absolutas
Histogramas (cont.)
Cmo se construye?
Histogramas (cont.)
Cuntas clases usar?
Histogramas (cont.)
Qu se puede ver? Simetra
Histogramas (cont.)
Qu pasa cuando los intervalos de clase no tienen
todos la misma longitud?
La barra debe tener una altura tal que el rea sea
igual a la frecuencia relativa.
frec. rel.
Altura de la barra
long. intervalo
En este caso la altura de la barra se da en escala de
densidad.
Histogramas (cont.)
Histograma de frecuencias relativas
Tasa de Repitencia
Histogramas (cont.)
Histograma Escala densidad
Tasa de Repitencia
Histogramas (cont.)
Este grfico es un histograma en escala densidad?
Histogramas (cont.)
Esto SI es un histograma La altura est en escala densidad
Histogramas (cont.)
Clase
[2,4)
[4,6)
[6,8)
[8,14)
Longitud de
Frecuencia
Frecuencia
la clase
relativa
2
2
2
6
5
7
7
5
20,83%
29,17%
29,17%
20,83%
Altura de la
barra, en
escala
densidad
10,42%
14,58%
14,58%
3,47%
[4,6)
[6,8)
Tasa de repitencia
[8,14)
Histogramas (cont.)
Comparacin entre grfico de barras e histograma
Grfico de barras
Histograma
Barras adyacentes:
Indica variable numrica
La frecuencia (relativa o
abosulta) se representa
en el rea de la barra
Si tiene en cuenta el
hecho de que los
intervalos de clase tienen
distinta longitud
MEDIDAS
DE
RESUMEN
Medidas Resumen
Como su nombre lo indica, estas medidas sirven
para describir, en forma resumida, un conjunto de
datos.
Medidas de posicin o centralidad: pretenden
indicar dnde est ubicado el centro de la
distribucin
Medidas de variabilidad: dan una idea de cun
dispersos estn los datos o cun cerca se
encuentran los datos de alguna medida de posicin
Medidas Resumen
Cul es el centro de la distribucin?
Medidas Resumen
Qu distribucin tiene mayor dispersin?
10
10
10
10
Media
Supongamos que tenemos una poblacin de tamao
N de la que extraemos una muestra de tamao n
Es decir, x1, x2, , xn son los valores muestrales
Tasa de repitencia
Media (cont.)
Media muestral
Media poblacional:
Media (cont.)
Comentario:
Media (cont.)
Propiedades
Mediana
Es la observacin que ocupa la posicin central en la
muestra ordenada de menor a mayor.
Si el nmero de datos es impar, la mediana es el
dato que ocupa la posicin central.
Si el nmero de datos es par, la mediana es el
promedio de los dos datos centrales.
Notacin para la mediana:
Mediana (cont.)
Cmo se calcula?
Mediana (cont.)
Si n es impar
es el
Mediana (cont.)
Si n es par
Ejemplo: (Devore)
El riesgo de tener deficiencia de hierro durante el
embarazo es alto. Los siguientes datos dan la
concentracin de la globulina receptora en una
muestra de mujeres con deficiencia de hierro
Mediana (cont.)
Los datos son;
x1 = 15.2 ; x2 = 9.3 ; x3 = 7.6 ; x4 = 11.9 ; x5 = 10.4 ; x6 = 9.7
x7 = 20.4 ; x8 = 9.4 ; x9 = 12 ; x10 = 16.2 ; x11 = 9.4 ; x12 = 8.3
n=12
La muestra ordenada es
7.6; 8.3; 9.3; 9.4; 9.4; 9.7; 10.4; 11.5; 11.9; 15.2 ; 16.2; 20.4
La mediana muestral es
Mediana (cont.)
La mediana es bastante insensible a datos atpicos
Divide al conjunto de datos en dos partes de igual
tamao
Si en los datos anteriores cambiamos el valor de x7
por 200.4
Cambia el valor de la mediana muestral?
Y el de la media muestral?
Mediana (cont.)
Con el smbolo
poblacional
denotaremos a la mediana
10
10
>
<
Mediana (cont.)
La mediana es una medida de posicin que no se
afecta por la presencia de datos atpicos
(outliers), salvo que modifiquemos casi el ____ de
los datos menores o mayores de la muestra.
La mediana solo depende del orden de los datos.
Media -podada
Es un medida intermedia entre la media y la mediana
Se calcula ordenando el conjunto de datos, omitiendo
los n. ([0,1]) datos de cada extremo y se
promedian las observaciones centrales del conjunto
ordenado de datos ([0,1]) .
Notacin:
Media
Mediana
Media -podada
Moda
Es la/s observaciones ms frecuentes. Es una
medida poco frecuente.
En general se utiliza para datos categricos para
indicar la categora ms frecuente.
Si tenemos la distribucin poblacional de una
variable continua, decimos que esta es UNIMODAL
si presenta un pico y BIMODAL si aparecen dos
picos claros.
Moda (cont.)
Distribucin de frecuencia
unimodal
Distribucin de
frecuencia bimodal
Percentil
Deciles
Cuartiles
p50
p75
p10
p50
10%
p70
Percentil (cont.)
Cmo se calcula para el caso muestral? Existen
diferentes mtodos
Un mtodo
Se ordena la muestra
Percentil (cont.)
Otro mtodo
Se calcula el valor
Si no es entero se redondea
Cmo lo calcula R?
Medidas de dispersin
Las medidas de dispersin o variabilidad nos dicen
cun cerca se encuentran los datos respecto de
alguna medida de posicin, o cun cerca estn entre
ellos.
Rango muestral
Desvo standard y la varianza muestral
MAD (median absolute deviation)
Distancia intercuartil
Rango muestral
Rango Muestral:
x1, x2, , xn una muestra de tamao n
Rango=20-20=0
Rango=70-5=65
Rango=700-5=695
Varianza y Desvo
La varianza muestral mide cunto se desvan, en
promedio y en forma cuadrtica, los datos respecto
de su media.
Definicin: x1, x2, , xn una muestra de tamao n
n
s2
2
(
x
x
)
i
i 1
n 1
menos disperso
= 2.53
ms disperso
2
(
x
x
)
i
i 1
n 1
Desvo
N
2
(
x
x
)
i
i 1
2
(
x
x
)
i
i 1
Ejemplo
Tasa de Repitencia Ao 2008 Regin NEA
Regin
NEA
NEA
NEA
NEA
Provincia
CHACO
CORRIENTES
FORMOSA
MISIONES
Media
Desvo
Tasa
Tasa
Secundaria
Primaria
CB
6.36
13.93
9.42
7.40
14.28
15.46
13.80
7.41
9.27
3.35
12.74
3.62
Tasa
Secundaria
CO
7.61
8.23
6.95
5.43
7.06
1.21
Ejemplo (cont.)
Tasa de Repitencia Ao 2008 Regin NOA
Regin
NOA
NOA
NOA
NOA
NOA
NOA
Provincia
CATAMARCA
JUJUY
LA RIOJA
SALTA
SANTIAGO DEL ESTERO
TUCUMAN
Media
Desvo
Tasa
Tasa
Tasa
Secundaria Secundaria
Primaria
CB
CO
4.27
2.92
5.20
6.79
8.97
4.51
7.66
10.47
9.54
12.55
10.07
12.48
4.17
8.85
4.88
7.69
6.41
4.95
5.45
2.14
10.46
1.86
6.16
1.83
Ejemplo (cont.)
Comparacin
Tasa
Medida
Primaria
Tasa
Secundaria
CB
Tasa
Secundaria
CO
NEA
Media
Desvo
9.27
3.35
12.74
3.62
7.06
1.21
NOA
Media
Desvo
5.45
2.14
10.46
1.86
6.16
1.83
Coeficiente de Variacin
Es el cociente entre la desvo estandar y la
media, expresada en porcentaje. Para el caso
muestral
s
CVm
x
MAD
Mediana de las desviaciones absolutas
MAD (cont.)
Definicin: sea x1, x2, , xn una muestra de tamao
n.
=
con 1 i n
(|
|)
MAD (cont.)
Cmo se calcula la MAD?
MAD (cont.)
datos
valor
absoluto de
las distancias
a la mediana
Distancias
ordenadas
6.36
6.79
7.40
5.20
4.51
4.27
8.97
9.42
2.92
13.93
0.22
0.22
0.82
1.37
2.06
2.30
2.40
2.84
3.65
7.36
0.22
0.22
0.82
1.37
2.06
2.30
2.40
2.84
3.65
7.36
Datos: tasa de
repitencia de las
regiones NEA y NOA
en nivel primario
Desvo
MAD
3.19
2.18
frecuencias
MAD (cont.)
2
4
6
8
10
12
14
MAD (cont.)
Propiedades
Robusta
MAD (cont.)
Datos
4
12
34
46
55
68
70
95
146
202
238
312
578
Desvo
MAD
MAD (cont.)
Por qu son diferentes?
Por la posible presencia de una dato atpico
Esta gran diferencia nos dice que la distribucin es
asimtrica.
El histograma de estos datos, que se presenta en la
figura siguiente confirma este hecho.
4
2
0
frecuencias
MAD (cont.)
100
200
300
400
500
600
Datos
1
2
3
4
5
6
4
12
34
46
55
68
Posicin Datos
7
8
9
10
11
12
13
70
95
146
202
238
312
578
Box-Plot
Este tipo de grfico fue propuesto por por Tukey para
presentar datos numricos.
Es especialmente til para comparar distribuciones
de varios conjuntos de observaciones.
Est basado en medidas robustas de posicin y
dispersin.
Box-Plot (cont.)
Cmo se construye un box-plot?
Box-Plot (cont.)
2 cota inferior
2 cota superior
QI 3 RIC
QS + 3 RIC
Box-Plot (cont.)
Box-Plot (cont.)
100
100
300
300
500
500
Box-Plot (cont.)
Box-Plot (cont.)
Vimos que hay diferentes mtodos para calcular
percentiles
Estos mtodos influyen en el grfico de box-plots
Por eso los diferentes paquetes estadsticos pueden
diferir en este tipo de grfico de acuerdo al mtodo
que utilicen para calcular percentiles
Algunos paquetes estadsticos ofrecen opciones para
graficar la media en vez de la mediana.
Box-Plot (cont.)
Estos grficos son muy tiles para comparar
varias distribuciones.
Ejemplo: Doce pacientes de un hospital recibieron
una dieta especial. Se les midi el cido ascrbico
(vitamina C) en sangre antes de la dieta (semanas 12), durante (6-10-14) y despus (15-16). Hay algn
efecto demostrable de la dieta? cmo se lo puede
describir?.
1.0
0.5
0.0
resp
1.5
Box-Plot (cont.)
10
semana
14
15
16
Box-Plot (cont.)
Qu se puede concluir?
Que la dieta eleva el nivel del cido ascrbico en
sangre
Que no hay fuerte evidencia de que la dieta haya
tenido algn efecto demostrable
La distribucin del cido ascrbido muestra asimetra
en la semana, por ejemplo 2, mientras que en la
semana 10 muestra simetra.
Box-Plot (cont.)
Otro ejemplo
Se investiga el efecto de abono (nitrgeno) en el
rendimiento de centeno. Se usaron seis niveles del
fertilizante .Qu nivel de fertilizante se recomienda?
Box-Plot (cont.)
Rendimiento vs. Nivel de fertilizante