Você está na página 1de 84

Unidad I.

Conceptos Bsicos y Estadstica


Descriptiva
Prof. Rodrigo Espinoza P.
Ing. En Prevencin De Riesgos

Concepto de Estadstica

Se refiere a un conjunto de
mtodos
para
manejar
la
obtencin,
presentacin
y
anlisis
de
observaciones
numricas.

Concepto de Estadstica

Sus fines son describir al conjunto de


datos obtenidos y tomar decisiones o
realizar generalizaciones acerca de
las caractersticas de todas las
observaciones bajo consideracin.

reas que conforman a la Estadstica

Estadstica Descriptiva (Deductiva): es


la encargada de la organizacin,
condensacin, presentacin de los
datos en tablas y grficos y del clculo
de medidas numricas que permitan
estudiar los aspectos ms importantes
de los datos.
DESCRIBIR

reas que conforman a la Estadstica

Estadstica Inferencial o Inferencia


Estadstica: est definida por un
conjunto de tcnicas, mediante las
cuales se hacen generalizaciones o
se toman decisiones en base a
informacin
parcial
obtenida
mediante tcnicas descriptivas.
INFERIR

reas de Aplicacin de la Estadstica

El uso de la Estadstica es muy amplio. Resulta


difcil nombrar un rea en la cual no se emplee.
Los mtodos estadsticos han encontrado aplicacin
en:

Gobierno
Negocios
Ciencias Sociales
Ingeniera
Ciencias Fsica y Naturales
Control de Calidad
Procesos de Manufactura
Muchos otros campos de la actividad intelectual.

reas de Aplicacin de la Estadstica

Esto se debe a la creciente facilidad con la


cual se pueden manejar grandes
cantidades de datos numricos, debido al
uso de

Conceptos de Poblacin y Muestra

Poblacin: es la coleccin de todas las


posibles mediciones u observaciones que
pueden hacerse de una variable bajo
estudio.

Conceptos de Poblacin y Muestra


Se clasifica en dos categoras:
Finita: es aquella que incluye una cantidad
limitada
contable
de
observaciones,
individuos o medidas. Siempre que sea
posible alcanzar (contar) el nmero total de
todas las posibles mediciones, se considera
como finita la poblacin.

Conceptos de Poblacin y Muestra


Infinita: es aquella que incluye un gran
conjunto
de
observaciones
o
mediciones que no pueden alcanzarse
por conteo. Al menos, hipotticamente,
no existe lmite en cuanto al nmero de
observaciones que el experimento
puede generar.

Conceptos de Poblacin y Muestra


Muestra:
es un conjunto de mediciones u
observaciones tomadas a partir de
una poblacin.
es un subconjunto de la poblacin.

Conceptos de Poblacin y Muestra


Muestra aleatoria: se considera aleatoria
siempre y cuando cada observacin,
medicin o individuo de la poblacin tenga
la misma probabilidad de ser
seleccionado.

Tipos de datos y escalas de medida


Variables:
son las caractersticas o lo que se estudia de
cada individuo de la muestra. Ej: sexo, edad,
peso, estatura, color de ojos, estado civil,
temperatura, cantidad de nacimientos,
presin, grosor, dimetro, ...
Datos:
son los valores que toma la variable en cada
caso.

Tipos de datos
Cualitativos: son datos que solo toman valores
asociados a las cualidades o atributos,
clasificndolos en una de varias categoras, es
decir, no son valores numricos. Ej:
Sexo: f/m.
Hbito de fumar: Fumador/No fumador
Color de ojos: negro, azul, marrn,
Religin: catlica, evanglica,
Estado civil: soltero, casado, divorciado,

Tipos de datos
Cuantitativos: provienen de variables que pueden
medirse, cuantificarse o expresarse numricamente.
Ejemplos:

Peso
Edad
Estatura
Presin
Humedad
Intensidad de un sismo
Cantidad de hermanos

Escalas de medida
Tipos de variables cuantitativas:
Discretas: es aquella que solo puede
tomar un nmero finito o infinito
numerable de valores. Ejemplo:
cantidad de hermanos.
Continuas: es la variable que puede
tomar cualquier valor en una escala
continua. Ejemplo: cantidad de lquido
contenido en un recipiente.

Escalas de medida

Escala Nominal. Variables Cualitativas


Escala Ordinal.
Escala de Intervalos.
Variables
Escala de Razn o Proporcin. Cuantitativas
Escala Absoluta.

Escalas de medida

Escala nominal: los datos se pueden


agrupar en categoras que no mantienen
una relacin de orden entre si, por lo
tanto no estn definidas las operaciones
lgicas (>, <, , ) sino solo las de
igualdad o diferencia.
Ejemplos: color de ojos, sexo, profesin,
estado civil, religin.

Escalas de medida
Escala ordinal: existe un cierto orden o
jerarqua entre las categoras (>, <, , ).
Ejemplos: grados militares, organigrama
de una empresa, escalafn de los
profesores universitarios, grados de
disnea, estadiaje de un tumor.

Escalas de medida
Escala de Intervalos: valores numricos de las
variables y adems de las relaciones de orden
(>, <, , ), se pueden establecer distancias, es
decir, tienen sentido las operaciones de suma y
resta. Tiene dos propiedades:
Existe una unidad de medida que se mantiene
constante para todos los valores que toma la
variable.
Existe un valor patrn u origen relativo que no
significa la ausencia de valor en la variable.
Ejemplo: temperatura, nivel de ruido, movimientos
ssmicos.

Escalas de medida

Escala de razn o proporcin: es la ms


completa y general de todas las escalas.
Se caracteriza porque los valores de la
variable son nmeros entre los cuales,
adems de las relaciones de orden (>,
<, , ) y distancia (+,-), se pueden
establecer mltiplos y proporciones.
Ejemplos: peso, altura, volumen

Escalas de medida
Escala Absoluta: se caracteriza porque los
valores que toma la variable son el
resultado de contar y por lo tanto, est
constituida por los enteros positivos y el
cero.
Ejemplos: nmero de hermanos, cantidad
de
autos
vendidos,
cantidad
de
accidentes en una interseccin, cantidad
de hijos,

Datos Univariantes y Multivariantes


Univariantes o unidimensionales: slo
recogen
informacin
sobre
una
caracterstica (Ej: edad de los alumnos de
una clase).
Bivariantes o bidimensionales: recogen
informacin sobre dos caractersticas de
la poblacin. (Ej: edad y estatura de los
alumnos de una clase).

Datos Univariantes y Multivariantes

Multivariantes o pluridimensionales:
recogen informacin sobre tres ms
caractersticas. (Ej: edad, estatura y
peso de los alumnos de una clase).

Abusos que se pueden cometer con la Estadstica

Conclusiones errneas debido a que los datos


son numricamente insuficientes.
Representaciones grficas engaosas (escalas).
Datos muestrales no representativos:
Muestra que no incluye a elementos de toda la
poblacin.
Ciertas categoras de personas no responden
correctamente.
Respuestas voluntarias (sesgadas).

TEMA 2. ESTADSTICA DESCRIPTIVA

Organizacin de los datos

Una vez que se ha


realizado la
recoleccin de los
datos, se obtienen
datos en bruto, los
cuales rara vez son
significativos sin una
organizacin y
tabulacin.

Organizacin de los datos

Formas de organizar los datos:


Un arreglo: es la forma ms sencilla de organizar los
datos en bruto, consiste en colocar las observaciones
en orden segn su magnitud: ascendente o
descendente.
Poco prctica cuando se tiene una gran cantidad de
datos.

Representacin grfica de los datos


Los grficos permiten visualizar en forma global
y rpida el comportamiento de los datos.
Para datos cuantitativos agrupados en clases,
comnmente se utilizan tres grficos:
Histogramas.
Polgono de frecuencias.
Ojiva o Polgono de frecuencias acumuladas.

Representacin grfica de los datos

Histograma

Representacin grfica de los datos

Histograma y Polgono de Frecuencias

Representacin grfica de los datos

Ojiva

Representacin grfica de los datos


Para datos cualitativos se usan:
Curvas
Barras
Sectores

Representacin grfica de los datos

Barras

Barras

Representacin grfica de los datos

Curvas

Representacin grfica de los datos


Sectores, torta o circular

Ejemplos de construccin de
grficos

Medidas de tendencia central o posicin


Corresponden a valores que generalmente se
ubican en la parte central de un conjunto de
datos.
Forma como los datos pueden condensarse en
un solo valor central alrededor del cual todos los
datos muestrales se distribuyen.

Medidas de tendencia central o posicin


Las medidas de tendencia central ms
importantes son:
Media: Aritmtica y Aritmtica ponderada.
Mediana.
Moda.

Media Aritmtica
Es la suma de todas las observaciones dividida entre el
nmero total de observaciones.
Expresada de forma ms intuitiva, podemos decir que la
media aritmtica es la cantidad total de la variable
distribuida a partes iguales entre cada observacin.
(wikipedia)
Por ejemplo, si en una habitacin hay tres personas, la
media de dinero que tienen en sus bolsillos sera el
resultado de tomar todo el dinero de los tres y dividirlo a
partes iguales entre cada uno de ellos. Es decir, la media es
una forma de resumir la informacin de una distribucin
(dinero en el bolsillo) suponiendo que cada observacin
(persona) tendra la misma cantidad de la variable.
(wikipedia)

Clculo de la media aritmtica

Para datos no agrupados:


n

x
i 1

Para datos agrupados:


k

m f

i i

i 1

Donde: mi: punto medio de la clase i


fi: frecuencia absoluta de la clase i
k: cantidad de clases

Mediana
Es el valor que ocupa la posicin central de un
conjunto de observaciones, una vez que han
sido ordenados en forma ascendente o
descendente.
Divide al conjunto de datos en dos partes
iguales.

Clculo de la mediana
Para datos no agrupados:
Si n es impar: posicin donde se ubica la
mediana es igual a (n+1)/2.
Si n es par: (n+1)/2 no es entero, por lo tanto
la mediana ser igual al promedio de las dos
posiciones centrales.

Clculo de la mediana

Datos agrupados: clase mediana es la que


contiene a la observacin que ocupa la
posicin n/2.
n 1
F ( xm 1 )
Md Lm 2
Cm
f ( xm )
Donde:

Lm: lmite inferior de la clase mediana.


F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
Cm: amplitud de la clase mediana.

Moda
Observacin o clase que tiene la mayor
frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal,
bimodal o multimodal.
Es la nica medida de tendencia central que se
puede determinar para datos de tipo cualitativo.

Clculo de la moda

Para datos no agrupados: es simplemente la


observacin que ms se repite.
Para datos agrupados:

1
Mo Lim
Cm
1 2
Donde:

Lim: lmite inferior de la clase modal.


1: diferencia entre fi de la clase modal y la
anterior.
2: diferencia entre fi de la clase modal y la
posterior.
Cm: amplitud de la clase modal (clase de mayor
frecuencia).

Relacin entre la media, la mediana y la moda

Cuando los datos son sesgados es mejor emplear la Md

Propiedades, ventajas y desventajas de la media


Propiedades:
La suma de las diferencias entre las media muestral y
el valor de cada observacin es cero.
La media de una constante es la constante.
Si todas las observaciones xi se multiplican por una
constante a, la X tambin se debe multiplicar por ese
mismo valor constante.

Propiedades, ventajas y desventajas de la media


Si se somete a una variable estadstica X a un
cambio de origen y escala, Y = a + bX, la media
aritmtica de dicha variable X vara en la misma
proporcin.
La media de la suma de dos variables es igual a
la suma de sus medias.

Propiedades, ventajas y desventajas de la media


Ventajas:
Emplea en su clculo toda la informacin
disponible.
Se expresa en las mismas unidades que la
variable en estudio.
Es el centro de gravedad de toda la distribucin,
representando a todos los valores observados.
Es una valor nico.

Propiedades, ventajas y desventajas de la media


Se trata de un concepto familiar para la mayora
de las personas.
Es til para llevar a cabo procedimientos
estadsticos como la comparacin de medias de
varios conjuntos de datos.

Propiedades, ventajas y desventajas de la media


Desventajas:
Se ve adversamente afectada por valores extremos,
perdiendo representatividad.
Si el conjunto de datos es muy grande puede ser
tedioso su clculo manual.
No se puede calcular para datos cualitativos.
No se puede calcular para datos que tengan clases de
extremo abierto, tanto superior como inferior.

Ventajas y desventajas de la mediana

Ventajas:
Fcil de calcular si el nmero de observaciones no
es muy grande.
No se ve influenciada por valores extremos, ya que
solo influyen los valores centrales.
Fcil de entender.

Ventajas y desventajas de la mediana


Se puede calcular para cualquier tipos de datos
cuantitativos, incluso los datos con clase de
extremo abierto.
Es la medida de tendencia central ms
representativa en el caso de variables que solo
admiten la escala ordinal.

Ventajas y desventajas de la mediana


Desventajas:
No utiliza en su clculo toda la informacin
disponible.
No pondera cada valor por el nmero de veces
que se ha repetido.
Hay que ordenar los datos antes de
determinarla.

Ventajas y desventajas de la moda


Ventajas:
No requiere clculos.
Puede usarse para datos tanto cuantitativos
como cualitativos.
Fcil de interpretar.
No se ve influenciada por valores extremos.
Se puede calcular en clases de extremo abierto.

Ventajas y desventajas de la moda

Desventajas:
Para conjuntos pequeos de datos su valor
no tiene casi utilidad, si es que de hecho
existe. Solo tiene significado en el caso de
una gran cantidad de datos.
No utiliza toda la informacin disponible.
No siempre existe, si los datos no se repiten.

Ventajas y desventajas de la moda


En ocasiones, el azar hace que una sola
observacin se no representativa se el valor
ms frecuente del conjunto de datos.
Difcil de interpretar si los datos tiene 3 o ms
modas.

Medidas de dispersin, variacin o variabilidad.


Son valores numricos que indican o describen
la forma en que las observaciones estn
dispersas o diseminadas, con respecto al valor
central.

Medidas de dispersin, variacin o variabilidad.


Son importantes debido a que dos muestras de
observaciones con el mismo valor central pueden tener
una variabilidad muy distinta.

Medidas de dispersin, variacin o variabilidad.

Rango.
Varianza.
Desviacin Tpica.
Coeficiente de variacin.

Medidas de dispersin: Rango

Rango (amplitud o recorrido):


Est determinado por los dos valores
extremos de los datos muestrales, es
simplemente la diferencia entre la mayor y
menor observacin.
Es una medida de dispersin absoluta, ya
que depende solamente de los datos y
permite conocer la mxima dispersin.

Medidas de dispersin: Rango


Casi no se emplea debido a que depende
nicamente de dos valores.
No proporciona una medida de variabilidad de
las observaciones con respecto al centro de la
distribucin.
Notacin: R

Medidas de dispersin: Varianza


Es un valor numrico que mide el grado de
dispersin relativa porque depende de la
posicin de los datos x1,x2,,xn con respecto a
la media.
Es el promedio al cuadrado de las desviaciones
de cada observacin con respecto a la media.
Notacin: s2, 2, var(X)

Medidas de dispersin: Varianza

Si la varianza de un conjunto de observaciones


es grande se dice que los datos tiene una
mayor variabilidad que un conjunto de datos
que tenga un varianza menor.

x x
n

Para datos NO
agrupados:

s2

i 1

n
n

s
2

2
x
i
i 1

Medidas de dispersin: Varianza

Para datos agrupados en una distribucin de


frecuencias:
k

s2

x
fi
i
i 1

n
k

s2

2
m
i fi
i 1

Medidas de dispersin: Desviacin Tpica

Es la raz cuadrada de la varianza.


Notacin: s, .

s s

Medidas de dispersin: Coeficiente de Variacin

Es una medida de dispersin relativa que


permite comparar el nivel de dispersin de dos
muestras de variables estadsticas diferentes.
No tiene dimensiones.
Notacin: CV

s
CV 100%
x

Ventajas y Desventajas del Rango


Ventajas:
til cuando se quiere conocer la extensin
de las variaciones extremas (valor
mximo de la dispersin).
Fcil de calcular.

Ventajas y Desventajas del Rango


Desventajas:
No es una MD con respecto al centro de la
distribucin.
Solo emplea dos valores en su clculo.
No se puede calcular en distribuciones de lmite
de clase abierto.

Propiedades, Ventajas y Desventajas de la Varianza


Propiedades:
1. Siempre es mayor o igual a cero y menor que infinito.
2. La varianza de una constante es cero.
3. Si a una variable X la sometemos a Y=a+bX, la
varianza de Y ser Var(Y) = b2Var(X)

Propiedades, Ventajas y Desventajas de la Varianza


Ventajas:
Es til cuando se compara la variabilidad de dos o
ms conjuntos de datos.
Utiliza toda la informacin disponible.
Desventajas:
No proporciona ayuda inmediata cuando se estudia la
dispersin de un solo conjunto de datos.
Difcil de interpretar por tener sus unidades elevadas
al cuadrado.

Ventajas y Desventajas de la Desviacin Tpica


Ventajas:
Esta expresada en las mismas unidades que la
variable en estudio.
Utiliza todas las observaciones en su clculo.
Fcil de interpretar.
Desventajas:
No tiene.

Ventajas y Desventajas del Coeficiente de Variacin


Ventajas:
Es la nica MD que permite comparar el
nivel de dispersin de dos muestras de
variables diferentes.
Emplea toda la informacin disponible en
su clculo.
Fcil de calcular.

Ventajas y Desventajas del Coeficiente de Variacin


Desventaja:
No es una MD con respecto al centro de la
distribucin de los datos.

Medidas de Forma
Son medidas numricas que permiten
determinar la forma que tiene la curva de los
datos, por lo tanto, sirven para corroborar lo que
los grficos muestran.

Medidas
de forma

- Asimetra

Coeficiente de Pearson
Coeficiente de Fisher

- Kurtosis o apuntamiento

Medidas de Forma: Asimetra


Permiten estudiar la forma de la curva,
dependiendo de cmo se agrupan los datos.

Medidas de Forma: Asimetra

Coeficiente de Asimetra de Pearson:


Fcil de calcular e interpretar.
Clculo:

3 X Md
ASP
s

o Interpretacin:
= 0, X=Md Simtrica
ASP

> 0, X>Md Asimtrica Positiva


< 0, X<Md Asimtrica Negativa

Medidas de Forma: Asimetra

Coeficiente de Asimetra de Fisher:


No es de fcil clculo, pero si su interpretacin.

x X
n

ASF

i 1

ns

M
k

ASF

i 1

Datos NO agrupados

x fi

ns 3

Datos Agrupados

Medidas de Forma: Asimetra

o Interpretacin:
= 0, Simtrica
ASF

> 0, Asimtrica Positiva


< 0, Asimtrica Negativa

Medidas de Forma: Kurtosis


Miden si los valores de la distribucin estn ms
o menos concentrados alrededor de los valores
medios de la muestra (zona central de la
distribucin).
Se definen tres tipos de distribucin segn su
grado de Kurtosis:

Medidas de Forma: Kurtosis

Mesocrtica: grado de concentracin medio


alrededor de los valores centrales de la variable.
Leptocrtica: grado de concentracin elevado.
Platicrtica: grado de concentracin reducido.

Medidas de Forma: Kurtosis

x X
n

CK

i 1

ns

M
k

CK

i 1

X fi
ns

Datos No Agrupados

Datos Agrupados

Interpretacin:
=0 Mesocrtica
CK

>0 Leptocrtica
<0 Platicrtica

Referencias:
Wikipedia(http://es.wikipedia.org/wiki/Wikipedia:Portada)
Walpole y Myers. Probabilidad y Estadstica. Mc GrawHill.
Triola, Mario F. Estadstica. Pearson.

Você também pode gostar