Escolar Documentos
Profissional Documentos
Cultura Documentos
1. DEFINICIONES.
1.1 Estadstica.
Es una disciplina que provee los mtodos y procedimientos para colectar, clasificar,
resumir y analizar datos.
1.2 Bioestadstica.
1.3 Variable.
Ejemplos:
Cuantitativas Cualitativas
Peso Variedad o especie
Dimetro Raza
Altura Color
Nmero de plantas Tipo de suelo
1.3.2 Variables discretas y variables continuas: Esta es otra forma de clasificar las
variables, una variable es discreta si entre dos o ms valores posibles de ser observados
o registrados, no existe otro valor posible de observar, es decir, hay saltos entre los
valores que toma la variable, mientras que en una variable continua, entre dos valores
observables siempre hay infinitos valores posibles de ser observados. A veces se toma
como regla de clasificacin que las variables discretas no pueden tomar valores que
involucren cifras decimales, pero esto no siempre se cumple, veamos un ejemplo:
Otras definiciones: Una variable es discreta si slo puede tomar valores en un conjunto
finito; es continua, si puede tomar cualquier valor de un intervalo determinado. Algunas
variables conceptualmente son continuas aunque el manejo que se hace de ellas,
aparentemente indica que son discretas, ejemplos: el tiempo expresado en horas, el peso
expresado en kg; en realidad las limitaciones estn dadas por el instrumento de medida.
Discretas Continuas
Nmero de huevos Peso
Sexo Altura
Nmero de plantas Tiempo
1.3.3 Escalas de medicin: Esta forma de clasificar las variables hace relacin a la
cantidad de informacin que contenga la medicin.
1.3.3.2 Ordinal: Aqu tambin se agrupa en categoras, stas s estn ordenadas, pero la
diferencia o distancia entre las categoras no es la misma. Ejemplo: Nivel de produccin
(Alto, medio o bajo), estrato social (1, 2, 3, 4 ,5 ,6), orden de llegada en una carrera
(primero, segundo, tercero), evaluacin nutricional, calificacin (excelente, regular,
etctera).
1.3.3.3 Intervlica: Existen categoras ordenadas y las distancias o diferencias entre las
categoras son iguales, por eso se puede afirmar que la diferencia entre 5 y 6 es la misma
que entre 10 y 11, es una unidad. Una caracterstica de esta escala es que el cero no es
verdadero, es arbitrario, pues no indica ausencia, por lo tanto las razones (divisiones) no
son posibles aunque las diferencias s lo sean. Ejemplos: Cociente intelectual y la ms
famosa de todas, la temperatura, donde el valor de 0 C no indica ausencia de
temperatura; una ilustracin de porque las razones no son posibles se tiene al comparar
las temperaturas 20 C y 40 C , numricamente 40 es el doble de 20, pero en el caso de
la temperatura no se puede afirmar que a 40 C hace el doble de calor que a 20 C.
La estadstica matemtica define una poblacin como el conjunto de todos los valores que
puede tomar una variable, en este caso se hablara de poblacin de pesos, etctera, lo
que pasa es que desde el punto de vista del investigador, se define como el conjunto de
individuos poseedores de la caracterstica.
1.5 Muestra.
Las razones para trabajar con muestras son: Ahorro de tiempo, Ahorro de dinero, es ms
prctico (facilidades operativas) y si la variable que se quiere medir implica destruccin de
la unidad experimental (anlisis bromatolgicos, de composicin, etctera) el trabajar con
muestras evita destruir toda la poblacin.
1.6 Parmetro.
Es cualquier medida de resumen que se calcule a partir de los datos de toda la poblacin.
Se representan por medio de letras griegas.
Esta es la parte de la estadstica que permite generalizar los resultados obtenidos a partir
de los datos de una muestra, a un nmero ms grande de individuos. En otras palabras,
hacer inferencia estadstica es sacar conclusiones vlidas acerca de una poblacin de
elementos o medidas, basados en informacin contenida en una muestra de dicha
poblacin y se hace a travs de dos actividades relacionadas: estimacin y prueba de
hiptesis.
Tarea: Plantear 10 variables que tengan que ver con su carrera y clasificarlas con las tres
formas vistas.
2. ESTADSTICA DESCRIPTIVA.
Las medidas de resumen, como su nombre lo dice, sirven para resumir la informacin
contenida en un grupo de datos y se dividen en: medidas de tendencia central, medidas
de dispersin, medidas de forma y medidas de posicin.
Una medida de tendencia central es aquel valor hacia el cual converge la mayora de los
datos, viene a ser una especie de representante del conjunto de datos, existen varias
medidas de tendencia central.
___ x
i 1
i
; As, es un estadstico.
X
n
N
x i
; As, es el parmetro.
i 1
2, 4, 5, 6, 8 la mediana es 5
2, 4, 5, 6, 20 la mediana es 5
Se define el estadstico de orden i-simo como el valor que toma la observacin i-sima,
despus de ordenar todos los datos, as:
Si el conjunto es impar, Me = X
n 1 ; es decir, el estadstico de orden (n+1) / 2
2
Si el conjunto es par, Me =
X n
2
X n 2 1 ; es decir, la media aritmtica de los
2
dos estadsticos de orden que aparecen en el numerador.
2, 5, 5, 5, 6, 7, 8
Aqu vemos que no hay moda, a partir de estos tres ejemplos se puede observar que la
moda puede o no existir, puede no ser nica y si existe, siempre es un valor observado en
el conjunto de datos.
2.1.1.4 Media ponderada: Es una media donde todas las observaciones no tienen el
mismo peso o importancia, un ejemplo clsico es la nota definitiva de una asignatura,
supongamos el caso de un estudiante en un curso cualquiera con las siguientes notas:
Porcentaje (Pi) Nota (Xi)
Parcial 1 20% 4.5
Parcial 2 40% 2.1
Parcial 3 30% 3.2
Trabajos 10% 4.6
__ P *X
i 1
i i
X p n
= 3.16
P
i 1
i
2.1.1.5 Recorrido Medio: Esta medida de tendencia central se utiliza muy poco, una
aplicacin prctica se da cuando se quiere calcular la temperatura media de un da
cualquiera, simplemente consiste en calcular la media aritmtica de los valores mayor
y menor.
TAREA: Analizar para cada una de las escalas de medicin que medidas de tendencia
central son posibles de aplicar y cules no.
A simple vista podramos decir que los conjuntos de datos que dieron origen a estas dos
medias son iguales, pero si ahora vemos los conjuntos originales, la situacin es muy
diferente:
Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central por
s sola no es suficiente para describir un conjunto de datos, de ah la importancia de
utilizar otra medida de resumen que refleje la situacin del ejercicio anterior.
2.1.2. MEDIDAS DE DISPERSIN.
Las medidas de dispersin indican que tan cerca o que tan lejos estn los datos de la
medida de tendencia central, en otras palabras, indican que tan homogneos o
heterogneos son los datos.
2
n
___
i 1
xi X ; As, es un estadstico.
S2
n 1
2
N
2 = x
i 1
i ; As, es el parmetro.
N
La diferencia en los dos divisores radica en que el estadstico debe ser un buen estimador
del parmetro y dividiendo por (n 1) se obtiene el mejor estimador de la varianza.
Existe una frmula operacional que hace mucho ms fcil el clculo de la varianza, que
surge de desarrollar y luego simplificar el numerador de la frmula anterior:
2
n
n 2
xi
xi i 1
i 1 n
S2
n 1
Donde la varianza es: 5.7 Ton2/ha, (verificar el clculo) ahora..... qu es una Ton 2 ? pues
este es el problema de la varianza, est dada en unidades al cuadrado, lo cual hace que
no tenga una interpretacin fcil, entonces.... qu hacemos? Pues saquemos raz
cuadrada!
En el ejemplo anterior la desviacin estndar sera: S = 2.387 ton / ha, valor que est
dado en las unidades de medida originales y por lo tanto es ms fcil de entender.
Ejercicio: Se tienen los siguientes conjuntos de datos, en cul de ellos hay mayor
dispersin?
A B
Media 10 ton/ha 4 ton/ha
D. E. 2.5 ton/ha 2 ton/ha
Se podra pensar que el conjunto A tiene una mayor dispersin que el B, pero debe
recordarse la definicin de medida de dispersin: es un valor que me indica que tan lejos
o cerca se encuentran los datos respecto a la medida de tendencia central, de tal manera
que si se desea saber cual de los dos conjuntos tiene una mayor dispersin, el anlisis no
puede basarse exclusivamente en la D. E., debe tener en cuenta tambin la media, para
hacer esta comparacin se podra hacer uso de la siguiente medida de dispersin.
2.1.2.3 Coeficiente de Variacin (C. V.): Esta es una medida de dispersin muy utilizada
porque es adimensional, no tiene unidades de medida y por lo tanto es muy til para
comparar la dispersin de dos conjuntos de datos, ya sea que stos tengan o no, la
misma unidad de medida; expresa la desviacin estndar como un porcentaje de la
media.
S
C.V. = _____
*100
X
2.1.2.4 Desviacin Mediana: Es una medida de dispersin donde la medida de tendencia
central de referencia es la Mediana y se calcula as:
Me
n
D. Mediana = x
i 1
i
2.1.2.5 Recorrido o Rango: Es una medida poco utilizada porque provee de muy poca
informacin, se calcula como la diferencia entre los dos valores extremos del conjunto de
datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor
mayor.
Tarea: Analizar para cada una de las escalas de medicin que medidas de dispersin son
posibles de aplicar y cules no
Ejercicio: Qu se puede decir de la produccin de mango en estas dos fincas?
A B
Media: 9.475 9.475
D. E. 4.26807 4.26807
Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales
vamos a encontrar lo siguiente:
Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con
una medida de dispersin, tampoco son suficientes para describir de manera completa un
conjunto de datos, hace falta algo ms, veamos la siguiente medida de resumen.
Una medida de forma simplemente refleja cual es la forma de los datos al hacer un grfico
de dispersin con ellos.
n
__
3
n
x x
i
i 1
a =
n 1 n 2
3
S
Distribucin Simtrica: a = 0:
A B
Media: 7 7
D. E. 3.6228 3.6228
a 0 0
Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales
vamos a encontrar lo siguiente:
n
__
4
n n 1
xi x
3 n 1
2
i 1
K=
n 1 n 2 n 3 n 2 n 3
4
S
Situaciones posibles:
Distribucin Mesocurtica: K = 0
Son medidas que permiten estimar en que punto de la distribucin de los datos, se
encuentra un determinado valor.
Recordar, [| |] quiere decir menor entero contenido en, lo que traduce: redondee por
debajo.
Importante:
2.1.4.2 Cuartiles: Son valores que dividen el conjunto de datos en cuatro partes.
Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de
los datos.
Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de
los datos.
Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de
los datos.
2.1.4.3 Deciles: Son valores que dividen el conjunto de datos en diez partes.
D1: Decil uno: Es el valor por debajo del cual est el 10% de los datos.
D2: Decil dos: Es el valor por debajo del cual est el 20% de los datos.
2.1.4.4 Percentiles: Son los valores que dividen la informacin en centsimas, o sea
en 100 partes. Son los mismos cuantiles.
P1: Percentil uno: Es el valor por debajo del cual est el 1% de los datos.
P2: Percentil dos: Es el valor por debajo del cual est el 2% de los datos.
Mediana = Q2 = D5 = P50
Tarea: Calcular todas las anteriores medidas de resumen para describir dos conjuntos de
datos que ustedes mismos pueden inventar.