Você está na página 1de 13

ESTADSTICA DESCRIPTIVA

1. DEFINICIONES.

1.1 Estadstica.

Es una disciplina que provee los mtodos y procedimientos para colectar, clasificar,
resumir y analizar datos.

1.2 Bioestadstica.

Es la aplicacin de la estadstica a informacin o datos provenientes de las reas


biolgicas.

1.3 Variable.

Es una caracterstica que interesa evaluar ya sea en un individuo o en un objeto, y que


como su nombre lo dice: vara o cambia de un individuo a otro; si todos los individuos
observados son homogneos para la caracterstica en cuestin, ya no se habla de una
variable, sino de una constante. Otra definicin ms corta: variable es lo que est siendo
observado o medido.

Las variables pueden ser clasificadas de diferentes maneras:

1.3.1 Variables cualitativas y Variables Cuantitativas: Hay diferentes maneras de clasificar


las variables y sta es slo una de ellas, se dice que una variable es cuantitativa cuando
es posible hacer una medicin numrica de la misma, mientras que una variable
cualitativa, simplemente indica mediante palabras, algoritmos o convenciones la
caracterstica de la variable.

Ejemplos:

Cuantitativas Cualitativas
Peso Variedad o especie
Dimetro Raza
Altura Color
Nmero de plantas Tipo de suelo

1.3.2 Variables discretas y variables continuas: Esta es otra forma de clasificar las
variables, una variable es discreta si entre dos o ms valores posibles de ser observados
o registrados, no existe otro valor posible de observar, es decir, hay saltos entre los
valores que toma la variable, mientras que en una variable continua, entre dos valores
observables siempre hay infinitos valores posibles de ser observados. A veces se toma
como regla de clasificacin que las variables discretas no pueden tomar valores que
involucren cifras decimales, pero esto no siempre se cumple, veamos un ejemplo:

Si en un examen definimos una variable como la relacin de respuestas correctas


respecto al total de preguntas formuladas, los valores posibles siempre sern
fraccionarios: 1/5, 2/5, ...etctera y a pesar de esto, la variable sera discreta.
Pgina 2 de 13

Otras definiciones: Una variable es discreta si slo puede tomar valores en un conjunto
finito; es continua, si puede tomar cualquier valor de un intervalo determinado. Algunas
variables conceptualmente son continuas aunque el manejo que se hace de ellas,
aparentemente indica que son discretas, ejemplos: el tiempo expresado en horas, el peso
expresado en kg; en realidad las limitaciones estn dadas por el instrumento de medida.

Discretas Continuas
Nmero de huevos Peso
Sexo Altura
Nmero de plantas Tiempo

1.3.3 Escalas de medicin: Esta forma de clasificar las variables hace relacin a la
cantidad de informacin que contenga la medicin.

1.3.3.1 Nominal: Es la escala de medicin ms dbil, los valores de la variable


simplemente indican diferentes categoras y no existe un orden entre ellas. Ejemplo:
Color, sexo, especie, raza, nombre, materia. Una forma de evaluar si una variable es
nominal, es pensar si en su representacin grfica se pierde informacin al colocar en
diferentes posiciones cada una de las categoras.

1.3.3.2 Ordinal: Aqu tambin se agrupa en categoras, stas s estn ordenadas, pero la
diferencia o distancia entre las categoras no es la misma. Ejemplo: Nivel de produccin
(Alto, medio o bajo), estrato social (1, 2, 3, 4 ,5 ,6), orden de llegada en una carrera
(primero, segundo, tercero), evaluacin nutricional, calificacin (excelente, regular,
etctera).

1.3.3.3 Intervlica: Existen categoras ordenadas y las distancias o diferencias entre las
categoras son iguales, por eso se puede afirmar que la diferencia entre 5 y 6 es la misma
que entre 10 y 11, es una unidad. Una caracterstica de esta escala es que el cero no es
verdadero, es arbitrario, pues no indica ausencia, por lo tanto las razones (divisiones) no
son posibles aunque las diferencias s lo sean. Ejemplos: Cociente intelectual y la ms
famosa de todas, la temperatura, donde el valor de 0 C no indica ausencia de
temperatura; una ilustracin de porque las razones no son posibles se tiene al comparar
las temperaturas 20 C y 40 C , numricamente 40 es el doble de 20, pero en el caso de
la temperatura no se puede afirmar que a 40 C hace el doble de calor que a 20 C.

1.3.3.4 Razn o Proporcin: Es la escala que tiene ms informacin, aqu existen


categoras ordenadas y con igual distancia entre si, adems, el cero s es real (indica
ausencia), por lo tanto las divisiones s son posibles. Ejemplos: Peso, altura, etctera.
1.4 Poblacin.

Es cualquier conjunto de individuos o elementos que tienen una o ms caractersticas


comunes. Las caractersticas comunes no son slo fsicas, pueden ser espaciales o
temporales. Ejemplos: estudiantes matriculados en el primer semestre del 2004
(caracterstica temporal) ; estudiantes del ncleo de minas (caracterstica espacial).

La estadstica matemtica define una poblacin como el conjunto de todos los valores que
puede tomar una variable, en este caso se hablara de poblacin de pesos, etctera, lo
que pasa es que desde el punto de vista del investigador, se define como el conjunto de
individuos poseedores de la caracterstica.

1.5 Muestra.

Es cualquier subconjunto de elementos seleccionado de una poblacin, lo ideal es que


sea un subconjunto representativo de toda la poblacin, o sea que permita hacer
generalizaciones de la misma.

Las razones para trabajar con muestras son: Ahorro de tiempo, Ahorro de dinero, es ms
prctico (facilidades operativas) y si la variable que se quiere medir implica destruccin de
la unidad experimental (anlisis bromatolgicos, de composicin, etctera) el trabajar con
muestras evita destruir toda la poblacin.

1.6 Parmetro.

Es cualquier medida de resumen que se calcule a partir de los datos de toda la poblacin.
Se representan por medio de letras griegas.

1.7 Estadstico o estadgrafo.

Es cualquier medida de resumen que se calcule a partir de los datos de la muestra, se


considera una estimacin del parmetro poblacional, aunque dicha estimacin puede ser
buena o mala. Se representan por medio de letras latinas.

1.8 Estadstica descriptiva.

Es la rama de la estadstica que se dedica a la presentacin, organizacin y resumen de


los datos, usando tablas, grficos y medidas de resumen que son aquellas que
representan las caractersticas esenciales de los datos en trminos fciles de interpretar.

1.9 Estadstica inferencial.

Esta es la parte de la estadstica que permite generalizar los resultados obtenidos a partir
de los datos de una muestra, a un nmero ms grande de individuos. En otras palabras,
hacer inferencia estadstica es sacar conclusiones vlidas acerca de una poblacin de
elementos o medidas, basados en informacin contenida en una muestra de dicha
poblacin y se hace a travs de dos actividades relacionadas: estimacin y prueba de
hiptesis.
Tarea: Plantear 10 variables que tengan que ver con su carrera y clasificarlas con las tres
formas vistas.

2. ESTADSTICA DESCRIPTIVA.

Como se mencion antes, la estadstica descriptiva se basa en el uso de tres


herramientas bsicas: medidas de resumen, tablas y grficos.

2.1 MEDIDAS DE RESUMEN

Las medidas de resumen, como su nombre lo dice, sirven para resumir la informacin
contenida en un grupo de datos y se dividen en: medidas de tendencia central, medidas
de dispersin, medidas de forma y medidas de posicin.

2.1.1 MEDIDAS DE TENDENCIA CENTRAL.

Una medida de tendencia central es aquel valor hacia el cual converge la mayora de los
datos, viene a ser una especie de representante del conjunto de datos, existen varias
medidas de tendencia central.

2.1.1.1 Media: Es la ms famosa de las medidas de tendencia central y se define como el


promedio aritmtico de todos los datos. Podemos definir la media muestral (estadstico) y
la media poblacional (parmetro).

___ x
i 1
i
; As, es un estadstico.
X
n
N

x i
; As, es el parmetro.
i 1

Tarea: Calcule la media para el siguiente conjunto de datos: 3, 5, 6, 8, 9


Repita con el siguiente conjunto de datos: 3, 5, 6, 8, 20
Compare los dos valores obtenidos y concluya.

2.1.1.2 Mediana: Es el valor central de un conjunto de datos ordenados, se dice tambin


que es aquel valor que divide el conjunto de datos exactamente a la mitad, para el
siguiente conjunto de datos:

2, 4, 5, 6, 8 la mediana es 5

Y para el siguiente conjunto de datos?

2, 4, 5, 6, 20 la mediana es 5

A partir de estos resultados que se puede concluir?


Si se tiene un conjunto de datos par : 2, 4, 5, 6,...qu hacemos? La solucin es calcular
la media de los dos valores centrales. Existen dos frmulas que facilitan el clculo de la
mediana cuando se tienen muchos datos, pero para ver las frmulas, primero debemos
definir que es un Estadstico de Orden.

Se define el estadstico de orden i-simo como el valor que toma la observacin i-sima,
despus de ordenar todos los datos, as:

X(1) es el estadstico de orden 1 y correspondera al menor valor de todos.


X(2) es el estadstico de orden 2 y correspondera al segundo menor valor.
.
.
.
X(n) es el estadstico de orden n y correspondera al mayor valor.

Al calcular la mediana de un conjunto de datos siempre se estar en una de dos


situaciones: el conjunto de datos es impar o el conjunto de datos es par.

Si el conjunto es impar, Me = X
n 1 ; es decir, el estadstico de orden (n+1) / 2
2

Si el conjunto es par, Me =
X n
2
X n 2 1 ; es decir, la media aritmtica de los
2
dos estadsticos de orden que aparecen en el numerador.

Nota: n es el nmero de datos evaluados.

2.1.1.3 Moda: El significado estadstico de la palabra moda es similar al que le damos en


nuestra sociedad, qu es moda? Lo que ms se usa, entonces la moda es simplemente
el valor que ms se repite, ejemplo: en el siguiente conjunto de datos la moda sera 5:

2, 5, 5, 5, 6, 7, 8

En el conjunto de datos: 3, 5, 6, 3, 4, 3, 5, 8, 5, cul es la moda?

Se puede apreciar que hay dos modas: 3 y 5.

Un ltimo conjunto de datos: 2, 4, 6, 8, 9 ,3, 5, cul es la moda?

Aqu vemos que no hay moda, a partir de estos tres ejemplos se puede observar que la
moda puede o no existir, puede no ser nica y si existe, siempre es un valor observado en
el conjunto de datos.

2.1.1.4 Media ponderada: Es una media donde todas las observaciones no tienen el
mismo peso o importancia, un ejemplo clsico es la nota definitiva de una asignatura,
supongamos el caso de un estudiante en un curso cualquiera con las siguientes notas:
Porcentaje (Pi) Nota (Xi)
Parcial 1 20% 4.5
Parcial 2 40% 2.1
Parcial 3 30% 3.2
Trabajos 10% 4.6

Para calcular la nota definitiva no podramos simplemente calcular la media aritmtica


de las cuatro notas, pues le estaramos dando el mismo peso a cada una de las
notas, por lo tanto calculamos la media ponderada, que permite darle pesos
diferentes a los valores observados.

__ P *X
i 1
i i
X p n
= 3.16
P
i 1
i

2.1.1.5 Recorrido Medio: Esta medida de tendencia central se utiliza muy poco, una
aplicacin prctica se da cuando se quiere calcular la temperatura media de un da
cualquiera, simplemente consiste en calcular la media aritmtica de los valores mayor
y menor.

TAREA: Analizar para cada una de las escalas de medicin que medidas de tendencia
central son posibles de aplicar y cules no.

Antes de continuar con la siguiente medida de resumen, veamos lo siguiente, se tienen


dos explotaciones A y B de cualquier producto agrcola:

Explotacin Produccin Promedio


A 4 Ton/ha
B 4 Ton/ha

A simple vista podramos decir que los conjuntos de datos que dieron origen a estas dos
medias son iguales, pero si ahora vemos los conjuntos originales, la situacin es muy
diferente:

Explotacin Produccin Promedio Datos


A 4 Ton/ha 4, 4, 4
B 4 Ton/ha 0, 4, 8

Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central por
s sola no es suficiente para describir un conjunto de datos, de ah la importancia de
utilizar otra medida de resumen que refleje la situacin del ejercicio anterior.
2.1.2. MEDIDAS DE DISPERSIN.

Las medidas de dispersin indican que tan cerca o que tan lejos estn los datos de la
medida de tendencia central, en otras palabras, indican que tan homogneos o
heterogneos son los datos.

2.1.2.1 Varianza: Es la ms conocida de las medidas de dispersin y su anlisis es la base


de todos los mtodos de estadstica inferencial. Podemos definir la varianza muestral
(estadstico) y la varianza poblacional (parmetro).

2
n
___


i 1
xi X ; As, es un estadstico.
S2
n 1
2
N

2 = x

i 1
i ; As, es el parmetro.
N

La diferencia en los dos divisores radica en que el estadstico debe ser un buen estimador
del parmetro y dividiendo por (n 1) se obtiene el mejor estimador de la varianza.

Existe una frmula operacional que hace mucho ms fcil el clculo de la varianza, que
surge de desarrollar y luego simplificar el numerador de la frmula anterior:

2
n

n 2


xi
xi i 1

i 1 n
S2
n 1

Supongamos valores de produccin de mango en ton/ha: 3, 5, 6, 8, 9

Donde la varianza es: 5.7 Ton2/ha, (verificar el clculo) ahora..... qu es una Ton 2 ? pues
este es el problema de la varianza, est dada en unidades al cuadrado, lo cual hace que
no tenga una interpretacin fcil, entonces.... qu hacemos? Pues saquemos raz
cuadrada!

2.1.2.2 Desviacin estndar: simplemente es la raz cuadrada de la varianza y por lo


tanto est dada en las unidades de medida originales y por eso es ms utilizada.
Podemos definir la desviacin estndar muestral (estadstico) y la desviacin estndar
poblacional (parmetro).

S = Raz cuadrada de: S2; As, es un estadstico.


= Raz cuadrada de: 2; As, es el parmetro.

En el ejemplo anterior la desviacin estndar sera: S = 2.387 ton / ha, valor que est
dado en las unidades de medida originales y por lo tanto es ms fcil de entender.
Ejercicio: Se tienen los siguientes conjuntos de datos, en cul de ellos hay mayor
dispersin?
A B
Media 10 ton/ha 4 ton/ha
D. E. 2.5 ton/ha 2 ton/ha

Se podra pensar que el conjunto A tiene una mayor dispersin que el B, pero debe
recordarse la definicin de medida de dispersin: es un valor que me indica que tan lejos
o cerca se encuentran los datos respecto a la medida de tendencia central, de tal manera
que si se desea saber cual de los dos conjuntos tiene una mayor dispersin, el anlisis no
puede basarse exclusivamente en la D. E., debe tener en cuenta tambin la media, para
hacer esta comparacin se podra hacer uso de la siguiente medida de dispersin.

2.1.2.3 Coeficiente de Variacin (C. V.): Esta es una medida de dispersin muy utilizada
porque es adimensional, no tiene unidades de medida y por lo tanto es muy til para
comparar la dispersin de dos conjuntos de datos, ya sea que stos tengan o no, la
misma unidad de medida; expresa la desviacin estndar como un porcentaje de la
media.

S
C.V. = _____
*100
X
2.1.2.4 Desviacin Mediana: Es una medida de dispersin donde la medida de tendencia
central de referencia es la Mediana y se calcula as:

Me
n

D. Mediana = x
i 1
i

Bsicamente es para variables ordinales; en general, cuando se calcule la mediana como


medida de tendencia central, lo correcto entonces ser calcular la desviacin mediana.

2.1.2.5 Recorrido o Rango: Es una medida poco utilizada porque provee de muy poca
informacin, se calcula como la diferencia entre los dos valores extremos del conjunto de
datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor
mayor.

R: Valor mayor Valor menor.

Tarea: Analizar para cada una de las escalas de medicin que medidas de dispersin son
posibles de aplicar y cules no
Ejercicio: Qu se puede decir de la produccin de mango en estas dos fincas?

A B
Media: 9.475 9.475
D. E. 4.26807 4.26807

Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales
vamos a encontrar lo siguiente:

A: 5, 6.3, 6.9, 7.4, 9.2, 10, 12.9, 18.1

B:0.85, 6.05, 8.95, 9.75, 11.55, 12.05, 12.65, 13.95

Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con
una medida de dispersin, tampoco son suficientes para describir de manera completa un
conjunto de datos, hace falta algo ms, veamos la siguiente medida de resumen.

2.1.3 MEDIDAS DE FORMA.

Una medida de forma simplemente refleja cual es la forma de los datos al hacer un grfico
de dispersin con ellos.

2.1.3.1 Coeficiente de Asimetra (a): Indica si un conjunto de datos es simtrico o no


respecto a la media, se calcula de la siguiente manera:

n
__

3

n
x x
i

i 1
a =
n 1 n 2
3
S

Donde S es la desviacin estndar, bsicamente se puede hablar de tres situaciones (no


son las nicas):

Distribucin Simtrica: a = 0:

Cuando hay simetra perfecta, la media, la mediana y la moda toman el mismo


valor.
Sesgo a la derecha: a > 0:

Cuando hay sesgo a la derecha, la moda < la mediana < la media.

Sesgo a la izquierda: a < 0:

Cuando hay sesgo a la izquierda, la media < la mediana < la moda.

Evaluemos los dos conjuntos de datos anteriores:

aA = [ 8 / 7*6 ]*[ (5-9.475)3 + (6.3-9.475)3 +...... +(18.1-9.475)3 / 4.2683]


aA = 1.3089 = Asimetra positiva o sesgo a la derecha.

aB = [8 / 7*6 ]*[(0.85-9.475)3+ (6.05-9.475)3 +....+(13.95-9.475)3 /4.2683]


aB = - 1.3089 = Asimetra negativa o sesgo a la izquierda.

Tarea: Verificar los anteriores resultados.

Ejercicio: Qu se puede decir de la produccin de mango en estas dos fincas?

A B
Media: 7 7
D. E. 3.6228 3.6228
a 0 0

Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales
vamos a encontrar lo siguiente:

A: 0.5, 4, 6, 6.5, 7, 7.5, 8, 10, 13.5

B: 1.5, 3.5, 4, 6, 7, 8, 10, 10.5, 12.5


Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con
una medida de dispersin y la medida de asimetra, tampoco son suficientes para
describir de manera completa un conjunto de datos, hace falta algo ms.

2.1.3.2 Coeficiente de Kurtosis o Kurtosis (K): Evala como es la concentracin de los


datos alrededor de la media y de las colas.

n
__

4

n n 1
xi x
3 n 1
2

i 1
K=
n 1 n 2 n 3 n 2 n 3
4
S

Situaciones posibles:

Distribucin Mesocurtica: K = 0

Distribucin Leptocurtica: K > 0

Distribucin Platicurtica: K < 0


Evaluemos los dos conjuntos de datos anteriores:

KA: 1.235 : Leptocrtica


KB: -1.004: Platicrtica

Tarea : Verificar los dos valores de kurtosis anteriores.

2.1.4 MEDIDAS DE POSICIN.

Son medidas que permiten estimar en que punto de la distribucin de los datos, se
encuentra un determinado valor.

2.1.4.1 Cuantiles: Es la expresin ms general de medidas de posicin y comprende a


todas las otras; el valor que tome el cuantil X es el valor que deja por debajo de s al
X % de los datos. Para el clculo de los cuantiles vamos a recurrir nuevamente a los
estadsticos de orden.

Primero se debe calcular el valor n*X (Siendo n el nmero de datos y X el cuantil


deseado), a partir del valor hallado se hace lo siguiente:

si (nx/100) no es entero, entonces el Cuantil X = X ( [| nx/100 |] + 1 ) ;.

Recordar, [| |] quiere decir menor entero contenido en, lo que traduce: redondee por
debajo.

Si (nx/100) es entero, entonces el Cuantil X = {X (nx/100) + X[(nx/100) + 1] }/ 2;.

Importante:

Cuantil 0 = X (1) = El valor Mnimo


Cuantil 100 = X (n) = El valor Mximo

2.1.4.2 Cuartiles: Son valores que dividen el conjunto de datos en cuatro partes.

Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de
los datos.

Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de
los datos.

Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de
los datos.
2.1.4.3 Deciles: Son valores que dividen el conjunto de datos en diez partes.

D1: Decil uno: Es el valor por debajo del cual est el 10% de los datos.
D2: Decil dos: Es el valor por debajo del cual est el 20% de los datos.

2.1.4.4 Percentiles: Son los valores que dividen la informacin en centsimas, o sea
en 100 partes. Son los mismos cuantiles.

P1: Percentil uno: Es el valor por debajo del cual est el 1% de los datos.
P2: Percentil dos: Es el valor por debajo del cual est el 2% de los datos.

Tarea: Hallar equivalencias entre las diferentes medidas de posicin, ejemplo:

Mediana = Q2 = D5 = P50

Tarea: Calcular todas las anteriores medidas de resumen para describir dos conjuntos de
datos que ustedes mismos pueden inventar.

Você também pode gostar