Você está na página 1de 151

ESTADISTICA

2016

Lic. Julia Cassetti

Bibliografa
Devore, Jay L. - Probabilidad y Estadstica para
Ingeniera y Ciencias - International Thomson
Editores - Mxico 5a edicin - 2002
Mendenhall, W., Sheaffer, R.L. y Wackerly, D. D. Estadstica Matemtica con Aplicaciones - Grupo
Editorial Iberoamrica, Mxico - 1996
Canavos, G. C. - Probabilidad y Estadstica.
Aplicaciones y Mtodos - Mc. Graww Hill - 1988

Bibliografa (cont.)
Ross, S. -. A First Course in Probability (3th edition) Prentice Hall, New Jersey, EE.UU. 1988
Rice, J. - A. Mathematical Statistics and Data
Analysis - Duxbury Press, 1995.
Notas de Clase de la Dra. Liliana Orellana y la Dra.
Diana Kelmansky
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/
modulo%20descriptiva.pdf

Bibliografa (cont.)
Notas de Clase de la Dra. Diana Kelmansky
http://www.dm.uba.ar/materias/estadistica_Q/2010/2/
Apuntes de la Dra. Ana Bianco y la Dra. Elena
Martnez
http://cms.dm.uba.ar/academico/materias/2docuat20
14/probabilidades_y_estadistica_C/PyEC.pdf
Apuntes del Dr. Ricardo Maronna
http://www.mate.unlp.edu.ar/~maron/MaronnaHomearc
hivos/Probabilidad%20y%20Estadistica%20Elementale
s.pdf

Bibliografa (cont.)
Introduccin a R
http://cran.r-project.org/doc/contrib/R-intro-1.1.0espanol.1.pdf
R para principiantes
http://cran.r-project.org/doc/contrib/rdebuts_es.pdf
An Introduction to R. Notes on R: A Programming
Environment for Data Analysis and Graphics. Versin
3.0.- 2013
http://cran.r-project.org/doc/manuals/R-intro.pdf

Software
R - project
SAS - SPSS - STATA, etc.
Statistix - Infostat
Mathematica
Geogebra - Excel

Por qu estudiar Estadstica?


Porque la Estadstica atraviesa a una amplia variedad de
disciplinas:
desde la fsica hasta las ciencias sociales
desde las ciencias de la salud hasta el control de calidad de
procesos industriales
Se utiliza tambin en la toma de decisiones en reas de
negocios, como as tambin en instituciones gubernamentales.
Es fundamental en el manejo de grandes volmenes de datos, en
la realizacin de proyecciones, estimaciones, modelizaciones.

Por qu estudiar Estadstica? (cont.)


Por ejemplo:

Se disean encuestas para conocer la intensin de voto


para las prximas elecciones.

Se disean encuestas (a boca de urna) para tener


estimaciones de los resultados electorales.

En investigaciones mdicas se realizan experimentos para


testear hiptesis sobre el efecto de ciertos medicamentos en
diversas enfermedades.

Por qu estudiar Estadstica? (cont.)

En ingeniera se toman muestras para realizar control de


calidad de lotes de produccin de determinados productos.

Los economistas utilizan indicadores para tener una


estimacin sobre cmo evoluciona la economa. Estos
indicadores se calculan en base a datos muestrales.

Muchas disciplinas estudian un subconjunto de una


poblacin para realizar inferencia (sacar conclusiones) sobre
alguna variable de inters.

Pero Qu es la Estadstica?
Segn la Real Academia Espaola

Estudio de los datos cuantitativos de la poblacin, de los


recursos naturales e industriales, del trfico o de cualquier
otra manifestacin de las sociedades humanas.

Rama de la matemtica que utiliza grandes conjuntos de


datos numricos para obtener inferencias basadas en el
clculo de probabilidades.

Qu es la Estadstica? (cont.)
Segn diferentes autores:

Rice, John (1995), en el libro Mathematical Statistics and


Data Analysis afirma que la estadstica se relaciona
fundamentalmente con los procedimientos para el anlisis
de datos, en particular aquellos que en cierto sentido
poseen carcter aleatorio

Qu es la Estadstica? (cont.)

Freund y Walpole (1987) en el libro Mathematical statistics


consideran que la estadstica es La ciencia que basa sus
inferencias en los datos observados y el problema de la
toma de decisiones en medio de incertidumbre

Hildebrand,David y Lymann, Ott (1997) en el libro


Estadstica Aplicada enuncian que la estadstica es el arte y
la ciencia de dar sentido a los datos a la administracin y a
la economa

Pero Qu es la Estadstica? (cont.)


Vemos que, an cuando existen elementos en
comn entre las definiciones dadas, no hay una
definicin consensuada sobre qu es la Estadstica.
En lo que si hay consenso es en que la estadstica
es una disciplina que trabaja con informacin, cuyo
objetivo consiste en hacer inferencias.

Hacia dnde vamos?

Descripcin o Anlisis exploratorio de datos: tcnicas


que permitan hacer una exploracin y generar variables
resumen para tener una primer aproximacin a los datos

Inferencia: tcnicas que permiten, a partir de datos


muestrales, obtener informacin sobre alguna caracterstica
de la poblacin.

Modelos: regresin lineal simple

Para esto necesitaremos Teora de probabilidades.

ALGUNOS CONCEPTOS

Tipo de datos
Categricos o Cualitativos: registran la presencia
de un atributo
Con dos categoras
Si, No
F, M

Con ms de dos categoras


Ordinales

Nominales

Tipo de datos (cont.)

Ordinales: hay un orden


alto, medio, bajo
mucho, poco, nada

Nominales: no hay un orden


Nacionalidad
Estado Civil
Profesin

Tipo de datos (cont.)


Numricos o Cuantitativos: resultan de contar o
registrar una magnitud

Discretos:
cantidad de miembros de un hogar
cantidad de mujeres fumadoras en este curso

Continuos:
Edad
Peso
Salario

Tipo de variables

Tipo de variables (cont.)


Cualitativa o categrica: cuando registra la
presencia de un atributo, es decir, registra datos
categricos.

Nominal: clasifica las observaciones. Ejemplos: gnero de


un entrevistado (hombre o mujer), Nacionalidad.

Ordinal: los distintos valores de la variable pueden ser


ordenados. Ejemplos: Precio alto, medio y bajo, grado de
acuerdo con un atributo (completamente de acuerdo, algo
de acuerdo, ., completamente en desacuerdo)

Tipo de variables (cont.)


Variables Cuantitativas: El resultado de la medicin u
observacin es un nmero

Discretas: slo pueden tomar un conjunto finito o infinito


numerable de valores. Ejemplos: nmero de miembros de un
hogar, cantidad de alumnos con ojos azules en UNGS.

Continuas: pueden tomar cualquier valor dentro de un


intervalo de nmeros reales. Ejemplos: altura (1,64 m), peso
(2,4kgr), salario de un individuo ($5.400,48).

Tipo de variables: Ejemplos


Cmo clasificaras estas variables?

Perceptor de ingresos de un hogar

Altura

Fumador

Nivel de ingresos

Importante
Identificar el tipo de variable porque

el tipo de variable DETERMINA el modelo o


mtodo de anlisis a utilizar.

cada mtodo de anlisis estadstico es especfico


para un cierto tipo de datos.

Algunas definiciones
Unidad de anlisis u observacin: es el objeto bajo
estudio
persona
institucin
pas
Variable: es una caracterstica que toma un valor
para cada unidad de una poblacin.
Valor de una variable: es el valor numrico que toma
dicha variable.

Algunas definiciones
Poblacin objetivo: es el conjunto completo de
unidades que se desean estudiar.
Muestra: Es un subconjunto de la poblacin que
permite brindar informacin sobre la misma
Muestra representativa: es aquella que permite
obtener conclusiones semejantes a las que
lograramos si estudiramos el universo total.

Algunas definiciones (cont.)


Poblacin muestreada: es el conjunto de todos los
elementos posibles de ser elegidos. Es la poblacin
desde la cual se selecciona la muestra

Marco muestral: es el listado de unidades


muestrales. Por ejemplo, en una encuesta telefnica
el marco muestral puede ser la lista de nmeros
telfonicos residenciales de una ciudad. Para una
encuesta a hogares el marco es un listado de
direcciones, etc.

Poblacin objetivo y poblacin


muestreada
Poblacin
objetivo
No
includos
en el
marco

Poblacin del
marco
muestral

1
No elegibles para
la encuesta

1: unidades no
localizables
2: unidades que no
responden
3: incapaces de
responder

Observaciones
Hay que tener presente que una muestra NO es la
poblacin completa.

Luego las magnitudes objeto de estudio estn


sujetas a error.

Ms definiciones
Parmetro: Es una cantidad que mide alguna
caracterstica de la poblacin bajo estudio. En
general son desconocidos.
Ejemplos:
Total poblacional de alguna variable en estudio
Media poblacional de la variable en estudio
Los valores exactos en general son desconocidos.
Se puede obtener esta informacin si se conoce la
poblacin completa

Ms definiciones (cont.)
Estimador o estadstico: es una funcin de los
datos muestrales. Depende del diseo muestral
elegido.
Estimacin: es el resultado de aplicar el estimador a
los datos muestrales.

Ms definiciones (cont.)
Error muestral: es el error que surge de estudiar
una parte de la poblacin a partir de una muestra.

Es una medida de la diferencia entre el valor


verdadero del parmetro y el valor estimado.

Si la muestra es probabilstica se puede dar una


estimacin del mismo y controlar su valor.

Disminuye con el tamao de la muestra.

Estadstica
Descriptiva

Estadstica descriptiva
La estadstica descriptiva es una parte de la
estadstica que se dedica a recolectar, ordenar,
analizar y representar un conjunto de datos, con el
fin de describir apropiadamente las caractersticas de
ese conjunto.
Usa

herramientas

grficas

genera

medidas

numricas que permiten resumir informacin.

Experimentos y Ensayos
Experimento: es un conjunto de procedimientos que
permite la observacin de un fenmeno.
Ensayo: es cada una de las realizaciones del mismo
bajo condiciones similares.
Suceso (o evento): es un conjunto de resultados
posibles de un experimento.

Experimentos y Ensayos (cont.)


Ejemplos de Experimento:

Tirar una moneda n veces

Tirar dos dados n veces

En encuestas a hogares, seleccionar hogares

Estos experimentos son aleatorios porque, bajo el


mismo conjunto de condiciones iniciales, puede
presentar resultados diferentes.

Sucesos
Ejemplos de Suceso:

Sale cara

La suma de los nmeros da 7

Es un hogar unipersonal

Frecuencia
Frecuencia: nmero de veces que se observa la
ocurrencia de un suceso en varios ensayos
Frecuencia Relativa: proporcin de veces que se
observa la ocurrencia de un suceso en varios
ensayos

TABLAS
y
GRFICOS

Grficos
Objetivo: mostrar las caractersticas sobresalientes
del conjunto de datos bajo estudio
Cules pueden ser estas caractersticas?

Grficos (cont.)
Datos categricos

Diagramas de barras
verticales
Horizontales

Diagramas de torta

Ejemplo de formulario
FORMULARIO
1- Escuela:
2- Edad:
3- Sexo (marc lo que corresponda)

Varn

Mujer

4- Con quin/es vivs?: (seleccion todas las opciones que describan tu situacin)

Madre

Padre

Hermanos/as

Otro familiar

Con tu pareja

Solo

Con Amigos

5- Marc slo una opcin que describa cmo te llevs con tu familia:

Muy Bien

Medianamente Bien

Regular

No tengo relacin

6- Eleg una sola de las opciones que siguen de acuerdo a cmo te sents con la comunicacin que
tens con tus padres o adultos con los que vivs?

Muy satisfecho, tengo la comunicacin que me gustara tener

Satisfecho, pero podra mejorar un poco

Poco satisfecho, tendra que mejorar en muchos aspectos

Nada satisfecho, siento que tenemos una mala comunicaci

Grficos (cont.)
Grfico 3: Gnero

Grficos (cont.)

Grfico 8.a: Comunicacin con los padres

Grficos (cont.)

Grficos (cont.)
Datos Numricos

Grficos de tallo hoja (steam and leaf)

Histogramas

Grficos de caja (boxplots)

QQplots

Grfico Tallo Hoja (Tuckey 1977)


La tabla siguiente muestra la tasa de repitencia por provincia,
durante el ao 2008, en el nivel primario de enseanza.
Provincia
BUENOS AIRES
CATAMARCA
CHACO
CHUBUT
CIUDAD DE BUENOS AIRES
CORDOBA
CORRIENTES
ENTRE RIOS
FORMOSA
JUJUY
LA PAMPA
LA RIOJA

Tasa
3.88
4.27
6.36
4.18
2.08
3.81
13.93
6.12
9.42
2.92
5.08
5.20

Provincia
MENDOZA
MISIONES
NEUQUEN
RIO NEGRO
SALTA
SAN JUAN
SAN LUIS
SANTA CRUZ
SANTA FE
SANTIAGO DEL ESTERO
TIERRA DEL FUEGO
TUCUMAN

Fuente: Direccin Nacional de Informacin y Evaluacin Educativa


http://diniece.me.gov.ar/ - Informacin Estadstica

Tasa
6.51
7.40
6.15
4.40
6.79
6.59
8.34
8.94
4.62
8.97
3.61
4.51

Grfico Tallo Hoja (cont.)


Nota: la tasa de repitencia es el porcentaje de alumnos que se
matriculan como alumnos repitientes en el ao lectivo
siguiente.
Es decir,
es el cociente entre el nmero de alumnos
matriculados en un grado/ao de un nivel de educacin, que se
matriculan en el mismo grado/ao de estudio de ese nivel, en el
ao de estudio siguiente, y el total de matriculados del mismo
grado/ao/nivel en el ao anterior multiplicado por 100 (porque
es una tasa).

Grfico Tallo Hoja (cont.)

donde
,

100

es la tasa de repitencia del grado/ao de estudio i del nivel n en el ao t.

+1
,
,

+1
,

cantidad de repitientes del grado/ao de estudio i en el nivel n en el ao t+1.

cantidad alumnos del grado/ao de estudio i en el nivel n en el ao t.

Grficos Tallo Hoja (cont.)


Hoja

Tallo
1
2

10
11
12
13

Grficos Tallo Hoja (cont.)


Cmo se construye este diagrama?

Ordenar las observaciones en forma ascendente

Separar cada observacin en dos partes, una ser el TALLO


y la otra la HOJA. El tallo tendr tantos dgitos como sea
necesario, pero las hojas contendrn un nico dgito. En
nuestro ejemplo:
13 Tallo
13.93
9

Hoja

Grficos Tallo Hoja (cont.)

Trazar una lnea vertical y ubicar a la izquierda los valores


del Tallo

A la derecha de la lnea vertical poner el valor de la hoja


correspondiente al tallo que se ubica en la misma lnea

Qu se hace si existiera un dgito posterior a la hoja?

Grficos Tallo Hoja (cont.)


Ejemplos: usando software R

Ejemplo 1: data set faithful:

contiene los datos del tiempo de espera entre erupciones y la


duracin de la erupcin del geiser Old Faithful, probablemente
el ms famoso giser del Parque Nacional de Yellowstone en
EEUU

Grficos Tallo Hoja (cont.)

duration <- faithful$eruptions


duration.sort<-sort(duration)
stem(duration)
duration2<-duration.sort[1:134]
duration2
stem(duration2)

Grficos Tallo Hoja (cont.)


Qu podemos observar en este grfico?

La forma en que se distribuyen los datos

La simetra/asimetra de la distribucin

El rango de las observaciones

Valores mximos y mnimos

Valores ms frecuentes

Si existen valores que se apartan del resto (los llamaremos


valores atpicos o outliers)

Grficos Tallo Hoja (cont.)


Ejemplo 2:
Consumo per cpita de carne de pollo (kg/habitante/ao)
Pas
Argentina
Bolivia
Brasil
Canad
Chile
China
Colombia
Cuba

Ao 2007
294
147
473
312
292
81
209
30

Pas
Ecuador
Egipto
Estados Unidos
India
Japn
Paraguay
Per
Venezuela

Ao 2007
252
88
552
5
107
46
270
284

Fuente: FAO - Organizacin de las Naciones Unidas para la alimentacin


y la agricultura

Grficos Tallo Hoja (cont.)


Cuntos tallos es conveniente elegir?
Algunos recomiendan considerar entre 8 y 20 tallos
Esta recomendacin da un rango amplio de
posibilidades
Depende de la distribucin de datos.

Grficos Tallo Hoja (cont.)


Es til cuando tengo un conjunto de datos no muy
grande
Se puede hacer a mano
Tengo los datos originales

Tabla de frecuencias
Es una tabla donde se agrupan los datos en
intervalos o clases definidos previamente. Estos
intervalos no tienen que tener la misma longitud.
Se cuenta la cantidad de observaciones que caen
dentro del intervalo correspondiente (frecuencia
absoluta)
Calculo las frecuencias relativas, la frecuencia
acumulada y la frecuencia acumulada relativa.

Tabla de frecuencias (cont.)


La tabla siguiente muestra la tasa de repitencia por provincia, durante
el ao 2013, en el nivel primario de enseanza con los datos
ordenados.
Provincia
BUENOS AIRES
CATAMARCA
CHACO
CHUBUT
CIUDAD DE BUENOS AIRES
CORDOBA
CORRIENTES
ENTRE RIOS
FORMOSA
JUJUY
LA PAMPA
LA RIOJA

Tasa
3.88
4.27
6.36
4.18
2.08
3.81
13.93
6.12
9.42
2.92
5.08
5.20

Provincia
MENDOZA
MISIONES
NEUQUEN
RIO NEGRO
SALTA
SAN JUAN
SAN LUIS
SANTA CRUZ
SANTA FE
SANTIAGO DEL ESTERO
TIERRA DEL FUEGO
TUCUMAN

Fuente: Direccin Nacional de Informacin y Evaluacin Educativa


http://diniece.me.gov.ar/ - Informacin Estadstica

Tasa
6.51
7.40
6.15
4.40
6.79
6.59
8.34
8.94
4.62
8.97
3.61
4.51

Tabla de frecuencias (cont.)


Ejemplo: Tasa de Repitencia

Frecuencia
Frecuencia Frecuencia
Acumulada
Acumulada Relativa
Relativa

Clase Frecuencia

Frecuencia
Frecuencia Frecuencia
Acumulada
Acumulada Relativa
Relativa

Clase

Frecuencia

[2,4)

0.21

0.21

[2,4)

21%

21%

[4,6)

12

0.29

0.50

[4,6)

12

29%

50%

[6,8)

19

0.29

0.79

[6,8)

19

29%

79%

[8,10)

23

0.17

0.96

[8,10)

23

17%

96%

[10,12)

23

0.00

0.96

[10,12)

23

0%

96%

[12,14)

24

0.04

1.00

[12,14)

24

4%

100%

Histogramas
Es un tipo de grfico que permite representar la
forma de la distribucin de frecuencias
Se puede representar la distribucin de frecuencias
absolutas como las relativas
En el eje x se representan los lmites de los
intervalos.
Estos intervalos de clase son adyacentes, es decir,
no se deja espacio entre ellos salvo que una clase
sea vaca. Deben se excluyentes y exhaustivas.

Histogramas (cont.)
Histograma de frecuencias absolutas
Tasa de Repitencia

Histogramas (cont.)
Histograma de frecuencias relativas
Tasa de Repitencia

Histogramas (cont.)
Ejemplo: Variable de inters es el peso de un nio al
nacer (continua). Se tom una muestra de 77 nios.
Se consideraron intervalos de longitud 0.3
Peso al nacer

frecuencia

frecuencia relativa

[2.3,2.6)

0.05

[2.6,2.9)

0.102

[2.9,3.2)

12

0.156

[3.2,3.5)

12

0.156

[3.5,3,8)

14

0.182

[3.8,4.1)

13

0.169

[4.1,4.4)

10

0.130

[4.4,4.7)

0.039

[4.7,5)

0.026

Histogramas de frecuencias absolutas

Frecuencias absolutas

Peso de un nio al nacer

Histogramas de frecuencias relativas


Histograma de frecuencias relativas

Histogramas (cont.)
Cmo se construye?

Arriba de cada intervalo se traza un rectngulo


cuya base es la longitud del intervalo y la altura es
la frecuencia de observaciones (o frecuencia
relativa) que caen dentro de ese intervalo
(considerando que los intervalos tienen la misma
longitud).

Histogramas (cont.)
Cuntas clases usar?

Hay diferentes mtodos para hallar la cantidad de


clases.

En los software estadsticos, se puede elegir el


mtodo

Investigar los diferentes mtodos: Scott, Sturges,


Freedman Diaconis.

Histogramas (cont.)
Qu se puede ver? Simetra

Histogramas (cont.)
Qu pasa cuando los intervalos de clase no tienen
todos la misma longitud?
La barra debe tener una altura tal que el rea sea
igual a la frecuencia relativa.

frec. rel.
Altura de la barra
long. intervalo
En este caso la altura de la barra se da en escala de
densidad.

Histogramas (cont.)
Histograma de frecuencias relativas
Tasa de Repitencia

Histogramas (cont.)
Histograma Escala densidad
Tasa de Repitencia

Histogramas (cont.)
Este grfico es un histograma en escala densidad?

Histogramas (cont.)
Esto SI es un histograma La altura est en escala densidad

Histogramas (cont.)

Clase
[2,4)
[4,6)
[6,8)
[8,14)

Longitud de
Frecuencia
Frecuencia
la clase
relativa
2
2
2
6

5
7
7
5

20,83%
29,17%
29,17%
20,83%

Altura de la
barra, en
escala
densidad
10,42%
14,58%
14,58%
3,47%

Qu tipo de grfico es?. Barras o


histograma?
Repitencia
35%
30%
25%
20%
15%
10%
5%
0%
[2,4)

[4,6)

[6,8)

Tasa de repitencia

[8,14)

Histogramas (cont.)
Comparacin entre grfico de barras e histograma
Grfico de barras

Barras separadas: Indica


variable categrica
La frecuencia (relativa o
abosulta) se representa
en la altura de la barra
No tiene en cuenta el
hecho de que los
intervalos de clase tienen
distinta longitud

Histograma

Barras adyacentes:
Indica variable numrica
La frecuencia (relativa o
abosulta) se representa
en el rea de la barra
Si tiene en cuenta el
hecho de que los
intervalos de clase tienen
distinta longitud

Distribucin muestral y poblacional


Los grficos que hemos visto se pueden aplicar tanto a
los datos provenientes de una muestra como a los de la
poblacin.
En particular los grficos correspondientes a distribucin
de frecuencias e histogramas
Si la variable bajo estudio es continua y el tamao de la
poblacin es grande, a medida que el tamao de la
muestra aumenta la forma del histograma (de densidad)
se aproximar a una curva suave denomina distribucin
de la variable en la poblacin.

Distribucin muestral y poblacional


(cont.)

Distribucin muestral y poblacional


(cont.)

MEDIDAS
DE
RESUMEN

Medidas Resumen
Como su nombre lo indica, estas medidas sirven
para describir, en forma resumida, un conjunto de
datos.
Medidas de posicin o centralidad: pretenden
indicar dnde est ubicado el centro de la
distribucin
Medidas de variabilidad: dan una idea de cun
dispersos estn los datos o cun cerca se
encuentran los datos de alguna medida de posicin

Medidas Resumen
Cul es el centro de la distribucin?

Medidas Resumen
Qu distribucin tiene mayor dispersin?

10

10

10

10

Media
Supongamos que tenemos una poblacin de tamao
N de la que extraemos una muestra de tamao n
Es decir, x1, x2, , xn son los valores muestrales

Pesos de los nios al nacer

Tasa de repitencia

Media (cont.)
Media muestral

Media poblacional:

Si tenemos inforamcin sobre los N valores


poblacionales, la media poblacional se puede
calcular

Media (cont.)
Comentario:

En inferencia estadstica daremos mtodos


basados en la media muestral que nos permitirn
sacar conclusiones para la media poblacional

Media (cont.)
Propiedades

La suma de las diferencias de cada observacin a


la media es cero. Cmo se prueba?

Sensible a datos atpicos (outliers)

Mediana
Es la observacin que ocupa la posicin central en la
muestra ordenada de menor a mayor.
Si el nmero de datos es impar, la mediana es el
dato que ocupa la posicin central.
Si el nmero de datos es par, la mediana es el
promedio de los dos datos centrales.
Notacin para la mediana:

Mediana (cont.)
Cmo se calcula?

Se ordena la muestra de menor a mayor


incluyendo los valores repetidos

Cada observacin muestral debe aparecer en


esta lista ordenada

Mediana (cont.)
Si n es impar
es el

simo valor ordenado

Es decir, es el valor que ocupa la posicin


en la muestra ordenada

Mediana (cont.)
Si n es par

es el promedio entre los valores que ocupan las


n
posiciones
y n 1 en la muestra ordenada
2
2

Ejemplo: (Devore)
El riesgo de tener deficiencia de hierro durante el
embarazo es alto. Los siguientes datos dan la
concentracin de la globulina receptora en una
muestra de mujeres con deficiencia de hierro

Mediana (cont.)
Los datos son;
x1 = 15.2 ; x2 = 9.3 ; x3 = 7.6 ; x4 = 11.9 ; x5 = 10.4 ; x6 = 9.7
x7 = 20.4 ; x8 = 9.4 ; x9 = 12 ; x10 = 16.2 ; x11 = 9.4 ; x12 = 8.3
n=12
La muestra ordenada es
7.6; 8.3; 9.3; 9.4; 9.4; 9.7; 10.4; 11.5; 11.9; 15.2 ; 16.2; 20.4
La mediana muestral es

Mediana (cont.)
La mediana es bastante insensible a datos atpicos
Divide al conjunto de datos en dos partes de igual
tamao
Si en los datos anteriores cambiamos el valor de x7
por 200.4
Cambia el valor de la mediana muestral?
Y el de la media muestral?

Mediana (cont.)
Con el smbolo
poblacional

denotaremos a la mediana

La mediana es una medida que se emplea, por


ejemplo, para dar estimaciones del ingreso medio de
una poblacin. Esta variable est afectada por
perceptores de ingresos altos.

Comparacin entre media y mediana


Observaciones:

Distribucin simtrica ->

Distribucin asimtrica derecha ->

Distribucin asimtrica izquierda ->

Comparacin entre media y mediana


(cont.)
Distribucin simtrica

10

10

Comparacin entre media y mediana


(cont.)
Distribucin asimtrica a derecha

>

Comparacin entre media y mediana


(cont.)
Distribucin asimtrica a derecha

<

Mediana (cont.)
La mediana es una medida de posicin que no se
afecta por la presencia de datos atpicos
(outliers), salvo que modifiquemos casi el ____ de
los datos menores o mayores de la muestra.
La mediana solo depende del orden de los datos.

Media -podada
Es un medida intermedia entre la media y la mediana
Se calcula ordenando el conjunto de datos, omitiendo
los n. ([0,1]) datos de cada extremo y se
promedian las observaciones centrales del conjunto
ordenado de datos ([0,1]) .
Notacin:

Media -podada (cont.)


Ejemplo: las notas obtenidas en una evaluacin de la materia
Estadstica son:
99; 75; 34; 84; 67; 95; 66; 88; 69; 87

Si podo el 20% de los datos, significa que tengo que podar el


nx0.20=10x0.20=2
observaciones de cada extremo

Es decir, la muestra ordenada es:


34; 66; 67; 69; 75; 84; 87; 88; 95; 99

Media -podada (cont.)


Hay que quitar las observaciones 34 y 66 del extremo derecho y
las observaciones 95 y 99 del izquierdo.
Calcular la media de las observaciones restantes. En el
ejemplo:

Media
Mediana
Media -podada

Media -podada (cont.)


Qu sucede si el porcentaje de poda no da un
nmero entero?. Por ejemplo, n=12 y quiero una
poda el 10%. Habra que podar 1,2 nmeros
Dos alternativas:
Podar una observacin de cada lado e informar
que se hizo una poda del 8.3%
Calcular la media podada, sacando primero una
observacin de cada lado, luego 2 y finalmente
promediar estos dos valores.

Cul de las tres medidas de posicin


elegir?
Depende el conjunto de datos

Si la distribucin de la variable es simtrica las


tres medidas deberan dar valores similares. Se
prefiere la media porque es la que ms
informacin utiliza.

Si no hay muchos datos extremos se puede


utilizar la media podada porque utiliza ms
informacin que la mediana.

Moda
Es la/s observaciones ms frecuentes. Es una
medida poco frecuente.
En general se utiliza para datos categricos para
indicar la categora ms frecuente.
Si tenemos la distribucin poblacional de una
variable continua, decimos que esta es UNIMODAL
si presenta un pico y BIMODAL si aparecen dos
picos claros.

Moda (cont.)
Distribucin de frecuencia
unimodal

Distribucin de
frecuencia bimodal

Medidas de posicin no central


Las medidas de posicin no central permiten conocer
otras puntos de la distribucin que no son los valores
centrales.
El percentil del 100*%, p, de un conjunto de datos
ordenados, es el valor que deja un 100*% de los
datos por debajo y un 100*(1-)% por encima.
Cuando este valor no es entero se interpola. Por eso
existen varios mtodos para calcularlo.

Percentil
Deciles

Cuartiles

25% 25% 25% 25%


p25

p50

p75

p10

p50

10%

p70

Percentil (cont.)
Cmo se calcula para el caso muestral? Existen
diferentes mtodos
Un mtodo
Se ordena la muestra

Se busca la observacin que ocupa la posicin

Si este nmero no es entero, se promedian (o se


interpola segn el mtodo) las observaciones que
estn a la derecha y a la izquierda de l.

Percentil (cont.)
Otro mtodo

Se calcula el valor

Si no es entero se redondea

El percentil correspondiente es el corresponde a


la posicin redondeo(
)

Cmo lo calcula R?

Medidas de dispersin
Las medidas de dispersin o variabilidad nos dicen
cun cerca se encuentran los datos respecto de
alguna medida de posicin, o cun cerca estn entre
ellos.
Rango muestral
Desvo standard y la varianza muestral
MAD (median absolute deviation)
Distancia intercuartil

Rango muestral
Rango Muestral:
x1, x2, , xn una muestra de tamao n

Rango = max(xi)- min(xi)

Es decir, es la diferencia entre la observacin ms


grande y la ms chica

Rango muestral (ejemplo)

20, 20, 20, 20, 20, 20, 20

Rango=20-20=0

5,10, 20, 35, 35, 35, 70

Rango=70-5=65

5,10, 20, 35, 35, 35, 700

Rango=700-5=695

Rango muestral (cont.)


Es muy sensible a la presencia de datos atpicos.
Si existieran outliers, estos se ubicarn en los
extremos de la distribucin con lo que afectara al
rango.
Utiliza poca informacin, solo dos datos.
En general aumenta cuando aumenta el tamao
de la muestra (las observaciones atpicas tienen
ms chance de aparecer en una muestra con
muchas observaciones).

Varianza y Desvo
La varianza muestral mide cunto se desvan, en
promedio y en forma cuadrtica, los datos respecto
de su media.
Definicin: x1, x2, , xn una muestra de tamao n
n

s2

2
(
x

x
)
i
i 1

n 1

Por qu cuadrtica? es un promedio realmente?

Varianza y Desvo (cont.)


= 2.41

menos disperso

= 2.53

ms disperso

Varianza y Desvo (cont.)


Observacin: la varianza no tiene las mismas
unidades que los datos.
Desvo standard muestral: definimos el desvo
estndar muestral como la raz cuadrada positiva de
la varianza. Es decir: si x1, x2, , xn una muestra de
tamao n
n

2
(
x

x
)
i
i 1

n 1

Varianza y Desvo (cont.)


Si conocemos los valores de una variable de inters
X para todas las unidades de la poblacin, podemos
conocer la varianza y el desvo poblacional.
Varianza

Desvo
N

2
(
x

x
)
i
i 1

2
(
x

x
)
i
i 1

Ejemplo
Tasa de Repitencia Ao 2008 Regin NEA

Regin
NEA
NEA
NEA
NEA

Provincia
CHACO
CORRIENTES
FORMOSA
MISIONES
Media
Desvo

Tasa
Tasa
Secundaria
Primaria
CB
6.36
13.93
9.42
7.40

14.28
15.46
13.80
7.41

9.27
3.35

12.74
3.62

Tasa
Secundaria
CO
7.61
8.23
6.95
5.43
7.06
1.21

Ejemplo (cont.)
Tasa de Repitencia Ao 2008 Regin NOA

Regin
NOA
NOA
NOA
NOA
NOA
NOA

Provincia
CATAMARCA
JUJUY
LA RIOJA
SALTA
SANTIAGO DEL ESTERO
TUCUMAN
Media
Desvo

Tasa
Tasa
Tasa
Secundaria Secundaria
Primaria
CB
CO
4.27
2.92
5.20
6.79
8.97
4.51

7.66
10.47
9.54
12.55
10.07
12.48

4.17
8.85
4.88
7.69
6.41
4.95

5.45
2.14

10.46
1.86

6.16
1.83

Ejemplo (cont.)
Comparacin
Tasa
Medida
Primaria

Tasa
Secundaria
CB

Tasa
Secundaria
CO

NEA
Media
Desvo

9.27
3.35

12.74
3.62

7.06
1.21

NOA
Media
Desvo

5.45
2.14

10.46
1.86

6.16
1.83

Varianza y Desvo (cont.)


Si el histograma de los datos es aproximadamente
simtrico y acampanado entonces,

Aproximadamente el 68% de las observaciones


caen en el intervalo

Aproximadamente el 95% de las observaciones


caen en el intervalo

Casi todas las observaciones caen dentro del


intervalo

Varianza y Desvo (cont.)

Varianza y Desvo (cont.)


Propiedades de la desviacin estndar

s = 0 solamente cuando todos los datos son


iguales, de otro modo s > 0.

s es una medida de dispersin muy sensible a la


presencia de datos outliers. Es ms sensible que
la media ya que las distancias estn elevadas al
cuadrado.

Coeficiente de Variacin
Es el cociente entre la desvo estandar y la
media, expresada en porcentaje. Para el caso
muestral

s
CVm
x

Cmo es el CV para el caso poblacional?


Es el desvo relativo a la media
Es adecuada para comparar los desvos de variables
que se miden en diferente magnitud

MAD
Mediana de las desviaciones absolutas

Es una medida de dispersin ms robusta que las anteriores

Da una idea resumen de distancias a un punto central tal


como ocurre con el desvo estndar

Considera la mediana como punto central de la


distribucin para calcular las desviaciones.

Toma el valor absoluto de las desviaciones para eliminar el


signo (en vez de elevar al cuadrado como se calcula el
desvo estndar).

MAD (cont.)
Definicin: sea x1, x2, , xn una muestra de tamao
n.

=
con 1 i n

(|

|)

MAD (cont.)
Cmo se calcula la MAD?

Se ordenan los datos de menor a mayor.


Se calcula la mediana.
Se calcula el valor absoluto de la distancia de
cada dato a la mediana.
Se ordenan estos valores absoluto de menor a
mayor.
Se busca la mediana de las distancias de estos
valores absolutos.

MAD (cont.)

datos

valor
absoluto de
las distancias
a la mediana

Distancias
ordenadas

6.36
6.79
7.40
5.20
4.51
4.27
8.97
9.42
2.92
13.93

0.22
0.22
0.82
1.37
2.06
2.30
2.40
2.84
3.65
7.36

0.22
0.22
0.82
1.37
2.06
2.30
2.40
2.84
3.65
7.36

Datos: tasa de
repitencia de las
regiones NEA y NOA
en nivel primario

Desvo
MAD

3.19
2.18

0.0 0.5 1.0 1.5 2.0 2.5 3.0

frecuencias

MAD (cont.)

2
4
6
8
10
12
14

MAD (cont.)
Propiedades

Robusta

Si la distribucin es acampanada y simtrica la


MAD y el desvo estndar s se relacionan del
siguiente modo:
s 1.48 MAD

Si la distribucin es muy asimtrica s >> MAD

MAD (cont.)
Datos
4
12
34
46
55
68
70
95
146
202
238
312
578
Desvo
MAD

Valor absoluto de las


diferencias a la
mediana
66
58
36
24
15
2
0
25
76
132
168
242
508
140.80
58

MAD (cont.)
Por qu son diferentes?
Por la posible presencia de una dato atpico
Esta gran diferencia nos dice que la distribucin es
asimtrica.
El histograma de estos datos, que se presenta en la
figura siguiente confirma este hecho.

4
2
0

frecuencias

MAD (cont.)

100

200

300

400

500

600

Distancia o Rango Intercuartil


Es la distancia entre el tercer y segundo cuartil de
la distribucin de los datos.
Indica el rango donde se encuentran,
aproximadamente, el 50% de las observaciones.

Distancia o Rango Intercuartil (cont.)


Consideremos el siguiente conjunto de datos, Si
calculamos los cuartiles con la primer forma,
Q1= 40, Q3= 202 RIC= 202-40=162
Posicin

Datos

1
2
3
4
5
6

4
12
34
46
55
68

Posicin Datos
7
8
9
10
11
12
13

70
95
146
202
238
312
578

Distancia o Rango Intercuartil (cont.)


Es una medida robusta de dispersin.
Cuando la distribucin es simtrica y
acampanada la relacin entre la distancia
intercuartil y el desvo estndar es la siguiente

Si todos los datos son iguales RIC = 0. Pero RIC


puedes ser igual a cero an cuando no todos los
datos sean iguales.

Box-Plot
Este tipo de grfico fue propuesto por por Tukey para
presentar datos numricos.
Es especialmente til para comparar distribuciones
de varios conjuntos de observaciones.
Est basado en medidas robustas de posicin y
dispersin.

Box-Plot (cont.)
Cmo se construye un box-plot?

Ordenar los datos de menor a mayor

Calcular la mediana, el primer cuartil (Q1), el tercer cuartil y


la distancia o rango intercuartil (RIC).

Calcular cotas que nos permitirn decidir si un dato es


outlier:
1 cota inferior
LI = Q1 1.5 RIC
1 cota superior
LS= Q3 + 1.5 RIC

Box-Plot (cont.)

2 cota inferior
2 cota superior

QI 3 RIC
QS + 3 RIC

Cualquier dato que caiga entre la 1 y 2 cota inferior o entre


la 1 y 2 cota superior ser declarado outlier.

Cualquier dato que caiga por fuera de la 2 cota inferior o


la 2 cota superior ser declarado outlier severo.

Dibujar una escala que cubra el rango de variacin de los


datos y marcar la mediana y los cuartiles. Dibujar una caja
que se extienda entre los cuartiles y marcar en ella la
posicin de la mediana.

Box-Plot (cont.)

Partiendo del cuartil inferior trazar una lnea (bigote) que


llegue hasta el ltimo dato contenido dentro de la 1 cota
inferior.

Partiendo del cuartil superior trazar una lnea (bigote) que


llegue hasta el ltimo dato contenido dentro de la 1 cota
superior.

Marcar la posicin de los outliers con un smbolo (por


ejemplo *) y de los outliers severos con otro smbolo (por
ejemplo o).

Box-Plot (cont.)

100

100

300

300

500

500

Box-Plot (cont.)

Box-Plot (cont.)
Vimos que hay diferentes mtodos para calcular
percentiles
Estos mtodos influyen en el grfico de box-plots
Por eso los diferentes paquetes estadsticos pueden
diferir en este tipo de grfico de acuerdo al mtodo
que utilicen para calcular percentiles
Algunos paquetes estadsticos ofrecen opciones para
graficar la media en vez de la mediana.

Box-Plot (cont.)
Estos grficos son muy tiles para comparar
varias distribuciones.
Ejemplo: Doce pacientes de un hospital recibieron
una dieta especial. Se les midi el cido ascrbico
(vitamina C) en sangre antes de la dieta (semanas 12), durante (6-10-14) y despus (15-16). Hay algn
efecto demostrable de la dieta? cmo se lo puede
describir?.

1.0
0.5
0.0

resp

1.5

Box-Plot (cont.)

10
semana

14

15

16

Box-Plot (cont.)
Qu se puede concluir?
Que la dieta eleva el nivel del cido ascrbico en
sangre
Que no hay fuerte evidencia de que la dieta haya
tenido algn efecto demostrable
La distribucin del cido ascrbido muestra asimetra
en la semana, por ejemplo 2, mientras que en la
semana 10 muestra simetra.

Box-Plot (cont.)
Otro ejemplo
Se investiga el efecto de abono (nitrgeno) en el
rendimiento de centeno. Se usaron seis niveles del
fertilizante .Qu nivel de fertilizante se recomienda?

Box-Plot (cont.)
Rendimiento vs. Nivel de fertilizante

Você também pode gostar