Estadística Inferencial

Andrea Leis
13/02/2018
TEMA 1. FUNCIÓN DE LA INFERENCIA ESTADÍSTICA.
No es habitual poder recoger toda la información sobre una población, ya que no hay recursos para ello -normalmente-.
Hacemos, por ende, inferencias, porque partimos de una muestra que tenemos que elaborar.
Estamos interesados en conocer resúmenes de la información sobre una población, pero recurrimos a una muestra
diseñada. Esta tiene que ser representativa de la población de la que se extrae, y calculamos a través de ella los
estadísticos de datos muestrales.
El proceso de inferencia (hablar de lo general a partir de lo particular) se realiza o basa en la probabilidad. Conlleva
calcular un estadístico y después estimar la precisión de este. El razonamiento inductivo es el que rige la práctica
inferencial, y el estimador será tan bueno como la muestra diseñada.
TEMA 2. TEORÍA Y TÉCNICAS DE MUESTREO.
La población es un agregado formado por elementos muestrales. Esta puede ser finita, si integra a menos de 100.000
elementos; o infinita, si integra a 100.000 o más. El que sea finita o infinita condiciona el tamaño de la muestra.
Los elementos son unidades de las que se busca información (por ejemplo, estudiantes).
Las unidades pueden ser de observación o muestrales. Las de observación se definen como unidades o elementos de los
que realmente se obtiene la información (alumnos universitarios que sean entrevistados), mientras que las muestrales
contienen las unidades de observación agrupadas (UAM, UCM, URJC).
El concepto de muestra hace referencia a la fracción o subconjunto de los elementos de una población sobre la que se
quiere saber algo. Tiene que ser representativa, lo que significa que en ella tiene que contener la misma variabilidad y
diversidad que en la población de la que se extrae.
La muestra se selecciona mediante un procedimiento de muestreo. Este es una descripción diacrónica de cada una de las
etapas seguidas en la investigación para conseguir la información de las unidades muestrales. Existen varios modelos de
selección o diseño muestral -que necesitan un marco muestral previamente configurado-.
- Selección probabilística o aleatoria: se conoce a priori la probabilidad del pertenecer a la muestra. Cada
elemento de la población tiene una probabilidad de ser elegido, distinta de 0 y 1.
o Aleatorio simple: una sola fase en donde cada elemento tiene la misma probabilidad de ser elegido (es
abreviado como m.a.s.).
o Sistemático: selección aleatoria en la primera fase (arranque aleatorio), el resto se elige en función a la
𝑁
fracción de muestreo ( ).
𝑛
o Estratificado: se forman estratos (por ejemplo, las universidades de Madrid) de los que se seleccionan
elementos de cada uno de manera independiente. Un estrato es definido como unidades muestrales
que dividen a la población de manera que lo que los divide los hace homogéneos de cara al interior,
pero distintos al exterior.
o Conglomerados: se forman conglomerados, que son opuestos a los estratos. Estos son divisiones de la
población de manera que en cada conglomerado está toda la heterogeneidad, por lo que todos son
homogéneos entre sí (por ejemplo, las distintas clases de una misma carrera). Dentro de los
conglomerados se puede estratificar.
 Conglomerado simple: se eligen algunos conglomerados para representar a todos.
 Conglomerado multietápico: la selección se realiza en varias etapas, eligiendo unos
conglomerados en la primera fase, luego otros en la segunda fase y, por último, los casos.
1
Andrea Leis
- Selección intencional o no probabilística: selección arbitraria o a juicio del investigador.

o De conveniencia: selección en función de los casos disponibles y fáciles de acceder.
o Casos extremos: selección de los casos que más se parecen y más se diferencian a ciertas condiciones.
o Casos típicos: selección de lo que se considera general, sin tener en cuenta los casos marginales.
o Casos críticos: selección de los casos esenciales para la investigación.
o Casos bola de nieve: formando una red que se une desde el primer elemento escogido hasta alcanzar
el número deseado.
o Por cuotas: más relacionado con la representatividad. Se seleccionan casos en la misma proporción que
en la población, y es necesariamente polietápico (la última etapa es la no probabilística).
o Por saturación: selección de casos de acuerdo con tipologías teóricas en tal número que la información
sea redundante.
o Azaroso o al tun-tun: selección de casos sin ninguna regla, parece que es aleatorio, pero no (≠aleatorio).
TAMAÑO DE LA MUESTRA .
Existen varios factores que influyen en el tamaño de la muestra que realicemos. El primero sería la variabilidad de la
población.
La variabilidad de la población consiste en que cuanta más diversidad haya en un universo, mayor tendrá que ser el
tamaño de la muestra. Normalmente sabemos que hay variabilidad, pero no su magnitud. Para calcular el tamaño de la
muestra, nos ponemos en el caso de máxima variabilidad o heterogeneidad posible, es decir, que la proporción (P = Q =
0.5) es igual a 0.5 (50% de probabilidad): una situación dicotómica.
Pregunta autoevaluación: ¿Influye la variabilidad en el tamaño de la muestra?
El tipo de muestreo también es relevante, así como el nivel de confianza. El primero importa porque, por ejemplo, el
error es mayor al seleccionar la muestra mediante conglomerados que con m.a.s., y menor en el estratificado, que es
más preciso que los dos anteriores. El nivel de confianza, por su lado, hace referencia a la probabilidad en relación con la
dispersión y curva normal de las variables, y está estrechamente ligado al nivel de significación (α).
α – nivel de significación, se ofrece en probabilidad (es decir, entre 0 y 1).
1 – α – nivel de confianza, se ofrece en proporción (es decir, porcentaje).
Cuanta más confianza, más fidedignamente representa el estimador calculado al parámetro. El nivel de confianza está
asociado a la curva normal y a los puntos Z, por ejemplo, si es de un 95%, esto quiere decir que entre dos puntuaciones
Z están comprendidos el 95% de los casos. Cuanto más error muestral, menor será el tamaño de la muestra. Siempre
queremos que el error sea pequeño.
2
Andrea Leis
La afijación a la muestra -reparto o distribución del tamaño muestral entre los diferentes estratos- también es
importante, aunque solo en los procedimientos de muestreo por estratificación. Este puede ser simple, es decir, igual al
número de entrevistas; proporcional, para lo que hay que saber el tamaño de los estratos para hacer así el número
proporcional de entrevistas; u óptima, que toma en cuenta la variabilidad. Para que sea óptima, necesitamos un estudio
previo que fije la variabilidad.
El nivel de desagregación de la muestra también es importante para determinar el tamaño de la muestra. Si se hace una
muestra representativa de una población no se puede pretender hablar de otra población sola, sino que tendremos que
compensar la muestra para la nuestra. Por último, la ponderación, la cual no influye, pero hay que equilibrar la
proporcionalidad para con el conjunto.
FÓRMULAS DE MUESTREO.
En función al tamaño de la población de la que queramos obtener una muestra, existen esencialmente dos fórmulas
estadísticas.
𝑁⋅𝑧 2 ⋅𝑃(1−𝑃)
Para universos pequeños, es decir, de menos de 100.000 habitantes: 𝑛 = (𝑁−1)ⅇ 2
+𝑧 2 ⋅𝑃(1−𝑃)
𝑧 2 ⋅𝑃(1−𝑃)
Para universos grandes, es decir, de 100.000 habitantes o más: 𝑛 =
ⅇ2
Toda fórmula se expresa en probabilidad o porcentaje, no mezclar ambas bajo ningún concepto.
19/02/2018
LA CURVA NORMAL.
El tamaño del área de la curva normal es de 1, por lo que la probabilidad de encontrar un valor de Z entre -∞ y ∞ es de
1 𝑃(−∞ < 𝑧 < ∞) = 1. La curva normal representa la probabilidad de que Z tome tales valores. El área bajo la
curva normal podemos interpretarla como 1) probabilidad o 2) proporción de casos en la población que cumplan ese
criterio. Para calcular esta área es necesario estandarizar los valores que tengamos.
VALOR DE Z PARA UN NIVEL DE CONFIANZA PREFIJADO.

𝑥𝑖 −𝜇
La fórmula para el cálculo de las puntuaciones tipificadas o puntos Z es la siguiente: 𝑧𝑖 =
𝜎
Representamos el nivel de confianza (ver imagen página 2). El área siempre es positiva, por lo que el área entre 0 y Z será,
por ejemplo, 0.75; y entre 0 y -Z será también de 0.75 (NO DE -0.75). Siempre es entre 0 y 1, por ello, el % también se
divide (para un nivel de confianza del 95%, sería 47.5% a la izquierda del 0 y 47.5% a la derecha del 0.
ESTIMADORES: CARACTERÍSTICAS.
Se espera de un estimador que sea insesgado. Esto quiere decir que su valor coincide con el parámetro, como es el caso
de la media muestral. La media de las medias muestrales coincide con el valor del parámetro, lo cual es bueno que ocurra
porque es el propósito: saber µ. Si no se cumple, el estimador no es tan bueno, como ocurre con la desviación típica, que
tiene sesgo.
La estimación también puede ser puntual o de intervalo. Cuando es de intervalo tiene en cuenta el grado de precisión,
aunque siempre partimos de una estimación puntual: el centro del intervalo es la estimación puntual.
3
Andrea Leis
Un estimador también debe ser consistente, lo que indica que a mayor tamaño de la muestra, menor diferencia entre
estimador y parámetro.
NIVEL DE CONFIANZA Y ERROR TÍPICO.
¿Cómo calculamos los límites en los que se moverá el parámetro? Hay que tener una población objeto de estudio
delimitada, sacar una muestra y obtener el parámetro. De cada 100 veces que lo hagamos, 95 veces estará dentro de ese
intervalo, asumiendo un nivel de confianza del 95% -es lo más frecuente-.
¿Podemos identificar en cuales no se va a dar el parámetro? No sabemos cuanto vale el parámetro, si no, no tendría
sentido todo lo anterior. Hay un 0.05% de probabilidad de que en la muestra se cuele un caso atípico que desvirtúe los
resultados -si lo hacemos de forma aleatoria-. Cuanta mayor es la confianza, mayor es la amplitud de los límites.
Para la construcción de intervalos de confianza y contrastación de hipótesis necesitamos saber la distribución muestral.
Hay tres tipos de distribución muestral, todas basadas en observaciones: de población, de una muestra aleatoria y
muestral. En las observaciones de la muestral encontramos estadísticos (resúmenes de la información). La distribución
muestral de un estadístico es la distribución de todos los estadísticos calculados con todas las muestras posibles del
mismo tamaño seleccionado aleatoriamente en una población.
Podemos sacar todo tipo de estimadores con respecto a la muestra, interesando también la variabilidad. Cuanto más
homogénea sea la media, más representativa, la dispersión puede trastornar su veracidad.
Para distinguir la desviación típica de las observaciones de la de la distribución muestral de la media empleamos S𝑥̅ 2,
también llamado error típico, indicando el subíndice lo que analizamos (una distribución muestral cuyas observaciones
son las indicadas en el subíndice). Para cada estadístico se construye así (diferencia de medias en la distribución muestral
Sx1-x2; coeficiente de Pearson en la distribución muestral o Sr, etc.).
La media es un estimador insesgado y consistente. Cuanto mayor sea el tamaño de la muestra, la inferencia a la población
será más acertada (por la consistencia).
Si las observaciones siguen una distribución normal, esto se cumple: la distribución muestral de la media es (…) y donde
𝜎
definimos el error típico como: 𝜎𝑥̅ = .Esto permite que a partir de una sola media podamos inferir resultados a
√𝑛
toda la población.
Si la desviación típica es más alta que la media, esto implica que 𝑥̅ no es representativa. Se usa la desviación típica en vez
de la varianza porque así los valores no están al cuadrado.
EL TEOREMA CENTRAL DEL LÍMITE.
Si no se cumple la distribución normal en las observaciones poblaciones, podemos tener en cuenta y aplicar el teorema
central del límite: si el tamaño de la población (N) es lo suficientemente grande, la distribución muestral de la media se
puede aproximar por medio de la distribución normal. Esto es cierto, independientemente de la forma de distribución de
la población.
Puede aplicarse a muestras de 30 o más elementos, y si la distribución de la población es normal, lo será para cualquier
tamaño. Utilizamos este teorema cuando sea posible, pero si tenemos muestras pequeñas (<30) hay que comprobar, y
en función a ello realizar o no otro análisis.
26/02/2018
4
Andrea Leis
TEMA 3. CONTRASTE DE HIPÓTESIS CON RESPECTO A µ.
Las hipótesis hay que traducirlas en hipótesis estadísticas, que contienen los constructos ya operacionalizados en
variables. Hay dos tipos de hipótesis: nula y alternativa.
Si la hipótesis es verdadera y la aceptamos, estamos acertando; si la rechazamos, cometemos un error de tipo 1 (α, un
falso positivo, en Ciencias Sociales). Este es el error que se comete al rechazar la hipótesis nula siendo cierta. La otra
situación posible es que sea falsa y la rechazamos, lo que está bien; pero si es falsa y no la rechazamos, cometemos el
error de tipo 2, o falso negativo (β). El error de tipo 1 es α o de nivel de significación1, el error de tipo 2 es beta. El nivel
de confianza es 1-α, y lo que llamamos potencia2 del test es 1-β.
27/02/2018
Hay relación entre α y β, ambas son probabilidades y si la situación real de que la hipótesis es verdadera su probabilidad
es 1. Esa probabilidad es la que fijamos entre ese error de tipo 1 (nosotros fijamos el error máximo que queremos cometer
de este tipo, no podemos decidir “no equivocarnos” porque no conocemos la realidad, si lo hiciésemos todo este proceso
no tendría sentido).
Todo esto es hecho porque no conocemos el parámetro, entonces, el error no es nunca voluntario. Lo máximo que se
puede saber es la probabilidad de equivocarse, pero no se puede saber en qué nos equivocamos porque no conocemos
el valor del parámetro, la situación real.
Nos vamos a centrar en fijar el nivel de significación, es decir, el error de tipo 1. El parámetro que utilizamos en Ciencias
Sociales es de 0.1 como máximo para el error de tipo 1, aunque el más típico es el de 0.05, y el ideal sería 0.01. No
sabemos la realidad, por lo que de estas veces que nos equivocamos no sabemos en cuáles exactamente. Si no se nos
dice el nivel de significación de las pruebas, nosotros lo fijamos (en los ejercicios), y hay que saber que lo más normal es
de 0.05 -es decir, a un nivel de confianza del 95%-.
Siempre estaremos en la tesitura de rechazar o no rechazar una hipótesis. En estadística hay que traducir una hipótesis
teórica a una realidad, y para hacer esta traducción usamos la hipótesis nula (H0) y la hipótesis alternativa (H1). La
formulación habitual se hace desde una óptica de rechazar la H 0, y antes de terminar hay que formular que si se niega
algo, qué es lo que ocurre. Esto que ocurre sería la H1.
La H0 y la H1 es un parámetro, y hay que decir algo con respecto a él. La H0 siempre se va a plantear como una igualdad.
Puede haber un contraste no direccional o de dos colas, es decir, no tiene que ser siempre = o ≠. A partir de la hipótesis
teórica, debemos decir si cambia o no y cómo.
Para ello, es decir, para contrastar la hipótesis, la estrategia es recoger información de una muestra sacada de la población
(tamaño n), recoger los datos X1, X2, etc.; calcular su media (~x) y comparar el dato muestral con el dato de la hipótesis.
~X - µ: definir el nivel de significación, es decir, cuan lejos tiene que estar el estadístico del parámetro para que lo
aceptemos como bueno para confirmar la elaboración teórica, es establecido por la investigadora. Cuando la probabilidad
de error es menor que el que hemos fijado nosotros (0.05, por ejemplo), es cuando rechazamos la hipótesis nula, esta
variación se atribuirá al azar.
Cualquier parámetro es válido para seguir esta estrategia.
PASOS EN CONTRASTE DE HIPÓTESIS SOBRE PARÁMETROS.
1
Probabilidad de rechazar la hipótesis nula cuando es cierta.
2
En el sentido en que ayudan a tomar la decisión correcta.
5
Andrea Leis
(Solo cambia la distribución muestral con respecto a µ).
1. Establecer la hipótesis estadística, H0, la cual será contrastada.

2. Fijamos el grado de riesgo de incurrir en un error de tipo 1, es decir, el grado de riesgo. Esto se hace en forma
de probabilidad, y se llama nivel de significación (α). Este es el que nos marcará los niveles de confianza y la
construcción de los intervalos de confianza.
3. Suponer que H0 es cierta, por ello, que la distribución muestral de la media es normal, cuya media es igual a 100
y su error típico será sigma partido por raíz de n (n= tamaño de la muestra con la que calculamos ~X). Calcular
la probabilidad de que ~X difiera del valor del parámetro una cantidad igual o mayor de la que ha sido obtenido.
Calculamos la probabilidad y esto será la diferencia entre ~X y µ.
4. Tomamos una decisión con respecto a H0, rechazarla o no. Comparamos la probabilidad obtenida con el nivel
de significación para ello. Si p ≤ α rechazamos H0. Rechazamos H0 si se pasa hacia arriba o hacia abajo, y la
diferencia entre estadístico y parámetro es estadísticamente significativa si rechazamos la H 0.
En la distribución normal, la probabilidad de α divide la distribución normal en 2 áreas diferenciadas. Las dos colas de
tamaño α/2 y los puntos Z críticos son los que definen cuando hay que rechazar H 0. Es decir, definen el área de rechazo
y al área de no rechazo. A esto se le llama test de dos colas, puesto que define dos colas a partir de los puntos Z críticos.
CONTRASTES PARAMÉTRI COS DE HIPÓTESIS.
Puede hacerse en función del parámetro en el que se base la distribución muestral.
Con respecto a la media, vemos dos casos: aquel en el que conocemos la varianza de la población y el caso en el que la
desconocemos (este ultimo es más usual).
CON LA VARIANZA POBLACIONAL.

Cuando la conocemos es más sencillo, interviene el cálculo de los valores Z y de la distribución normal. Planteamos al H 0
y H1, y para poder aplicar la teoría anterior se tiene que seguir una distribución normal (previamente a los cálculos hay
que comprobar que la distribución de las observaciones en la población objeto de estudio sigue una distribución normal,
si la población es grande a través del teorema central del límite).
Para tomar la decisión hay que analizar la diferencia entre el valor de la hipótesis obtenida y el de los datos obtenidos, lo
cual se hace con N(µ1, σ12); N(µ2, σ22).
Suponemos que H0 es cierta, por lo que pasamos a calcular la estandarización de la distribución muestral. Para ello
𝑥̅ −𝜇
necesitaremos calcular previamente el error típico, ya que interviene en la fórmula: 𝑧 = . El error típico se calcula
𝜎𝑥̅
𝜎
con 𝜎𝑥̅ = . Cuando ya comprobamos que tenemos una distribución normal y también estandarizamos, pasamos a
√𝑛
contrastar: si el valor absoluto de z es mayor o igual que el punto z crítico, rechazamos H0.
SIN LA VARIANZA POBLACIONAL.

No podemos calcular el error típico, dado que desconocemos σ2, por lo tanto, lo que hacemos es sustituir el parámetro
por un estimador: S. Cuando sustituimos, ya no tenemos una distribución normal -de N(0, 1)-, pasa a seguir una
𝑥̅ −𝜇
distribución t de Student. La fórmula sería la siguiente: 𝑡 = 𝑠 . También entra en juego el grado de libertad,
√𝑛
habiendo toda una familia de distribuciones t para cada media y varianza en función a los g.l.
6
Andrea Leis
Entonces, ¿de qué depende la t de Student? Depende de la media, la varianza y el grado de libertad (n – 1). Por ello,
requeriría una tabla para cada valor de 𝑥̅ , de S o de los grados de libertad. Lo que contiene nuestra tabla son los t críticos
correspondientes a un determinado α, n o g.l. Los grados de libertad varían en las distribuciones distintas.
7
Andrea Leis
TEMA 4. EL T-TEST PARA DIFERENCIAS DE MEDIAS CON OBSERVACIONES INDEPENDIENTES.
El planteamiento para el contraste de dos hipótesis estadísticas con dos medias sería el siguiente:
~ 𝐻0: 𝜇1 − 𝜇2 ≠ 0
~ 𝐻1: 𝜇1 − 𝜇2 ≠ 0
Si conocemos las varianzas de la población, tenemos que comprobar que las observaciones siguen distribuciones
normales 𝑁(𝜇1 , 𝜎1 ) 𝑦 𝑁(𝜇2 𝜎,2 ). A partir de esto construimos la distribución muestral de la diferencia de medias, no
trabajamos ya con una media sino con una resta. La media de la diferencia de medias de la muestra coincide con la de la
población, es decir, estimador y parámetro tienen el mismo valor 𝐸(𝑥̅1 − 𝑥̅2 ) = 𝜇1 − 𝜇2 .
El error típico de la diferencia de medias muestrales es 𝜎𝑥̅1−𝑥̅2 = √𝜎𝑥̅12 + 𝜎𝑥̅22 . El estadístico de contraste sería el
(𝑥̃1 −𝑥̅2 )−(𝜇1 −𝜇2 )
siguiente: 𝑧 = . Sigue una distribución normal, y fijamos un error de significación determinado. Si el valor
σ𝑥
̅ 1 −𝑥
̅2
absoluto de Z es mayor o igual que Zc, rechazamos H0. Los parámetros ( µ1 - µ2) del numerador puede aparecer numerosas
veces como 0, puesto que la H0 (que es lo que aparece en él) establece que este es su valor.
El mismo planteamiento: una vez fijado el nivel de significación obtenemos el área bajo la curva normal que queda
dividida en área de rechazo y de no rechazo. Entonces, situamos el estadístico Z en esta área, y si está en el área de
rechazo se rechaza H0, si no, no podemos rechazar la hipótesis nula, es decir, concluimos que H 0 es cierta. Sirve para
analizar la relación entre variables, es decir, es un paso más en lo que aprendimos en descriptiva: ahora podemos analizar
la relación entre cuantitativas y cualitativas, es una prueba de asociación entre variables.
Si no conocemos la varianza en la población se pueden dar dos casos:
1. Que podamos asumir que las varianzas en la población son iguales entre sí (es lo que tenemos que hacer en los
ejercicios a mano). Ya no nos encontramos con una distribución normal, sino una t de Student, es decir, que hay
(𝑥̃1 −𝑥̅2 )−(𝜇1 −𝜇2 )
que calcular el estadístico t (𝑡 = ) y el tc, además de un nivel de significación α . El estimador del
S𝑥
̅ 1 −𝑥
̅2
∑𝑥12 +∑𝑥22
error típico se calcula de la siguiente manera: 𝑠 = √ . Calculamos un estimador del error típico utilizando
𝑛1+𝑛2−2
información de las dos muestras de los grupos. Hay una fórmula alternativa para calcular S en una misma
situación: (6)
2. Que podamos asumir que las varianzas en la población son distintas entre sí. En este caso es el mismo contraste
y supuestos estadísticos, y aplicamos la siguiente fórmula: (7). Para saber los grados de libertad la fórmula es
2
2
(𝑠𝑛 2
1−1 ⁄𝑛1 +𝑠𝑛2−1 ∕𝑛2 )
esta 𝑔𝑙 = (𝑠2 .Esta fórmula solo se aplica en los casos en los que las varianzas
𝑛1−1 ⁄𝑛1 )2 2
+(𝑠𝑛 2−1
⁄𝑛2) ⁄𝑛2−1
𝑛1−1
poblacionales sean desconocidas y no podemos asumir que son iguales entre sí. El planteamiento es el mismo
de nuevo (organigrama 2, aunque no viene específicamente sino solo para cuando asumimos que son iguales).
SUPUESTOS ESTADÍSTICOS.
Antes de aplicar cualquiera de los contrastes, hay que comprobar previamente una serie de supuestos que ya hemos ido
viendo. Estos son el de normalidad (las distribuciones de las observaciones son normales, o el tamaño de la muestra es
lo suficientemente grande como para aplicar el teorema central del límite), homocedasticidad/homogeneidad (las
varianzas de las observaciones en ambas poblaciones son iguales, 𝜎12 = 𝜎22 ) e independencia (las observaciones entre la
población 1 y 2 son independientes entre sí, no hay relación entre las respuestas dadas por los grupos). Si alguno no se
cumple sí podemos hacer un contraste, pero con otras fórmulas.
8
Andrea Leis
El t-test es robusto, lo cual quiere decir que, aunque no se cumplan esos supuestos se puede seguir aplicando la técnica
(siempre y cuando esa robustez esté avalada por las distribuciones normales o porque hay un teorema relativo al tamaño
de la muestra que nos diga que podamos aplicar el test). En el caso de la homocedasticidad también es robusto, ya que
n1=n2 -solo para los ejercicios a mano-. Podemos evitar comprobar si las varianzas son iguales entre si siempre y cuando
el tamaño de las muestras sea similar entre sí (s1=s2). También tenemos que analizar la procedencia de las observaciones
para determinar la robustez de la independencia.
20/03/2018
El ejemplo para la determinación de esta robustez es la siguiente:
Grupo experimental Grupo de control

𝑥̅1 = 108.1 𝑥̅2 98.4
n1= 18 18
S12 = 289 196
4.913 3.332
La composición de ambos grupos es igual, pero a uno se le aplica el experimento. El objetivo es saber si el experimento
ha tenido resultado, si mejora o no mejora las condiciones de ese grupo. Tenemos las medias, el número de sujetos y la
estimación de la varianza. Aplicamos el organigrama 2, y para calcular el estimador necesario tenemos que calcular el
error típico de la diferencia de medias (que tiene en cuenta las desviaciones de la media de ambas poblaciones):
∑𝑥12 + ∑𝑥22 1 1
S𝑥̅1−𝑥̅2 = √ ⋅( + )
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2
Habiendo obtenido S𝑥̅1−𝑥̅2 , ya podemos pasar a calcular el estadístico de contraste:
(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )

𝑡=
∑𝑥12 + ∑𝑥22 1 1
√ ⋅( + )
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2
Esta resuelve que esta diferencia de 10 puntos se debe a las diferencias en los sujetos, es decir, que el efecto del
experimento no es lo suficientemente grande como para decir que se debe al mismo.
Ejercicio 9 en la libreta. Asumimos que las varianzas poblacionales son iguales.
TEMA 5. EL T-TEST CON OBSERVACIONES DEPENDIENTES.
La prueba de contraste para la diferencia de medias con observaciones dependientes la aplicaremos cuando no podemos
asumir el supuesto de independencia, sino que hemos obtenido con el coeficiente de Pearson que hay una correlación
entre variables. Nos encontramos con las mismas H0 y H1, y los supuestos estadísticos son que hay una distribución normal
con una varianza poblacional desconocida. En el estadístico de contraste aparece ahora el estadístico de correlación de
Pearson
𝑥̅1 − 𝑥̅2 − (𝜇1 − 𝜇2 )

𝑡=
√𝑠𝑥̅12 + 𝑆𝑥̅22 − 2𝑟 ⋅ 𝑆𝑥̅1 𝑆𝑥̅2
Y sus fórmulas asociadas:
𝑠𝑥𝑦
𝑟=
𝑠𝑥𝑠𝑦
9
Andrea Leis
𝑠
𝑠𝑥̅ =
√𝑛
La toma de decisiones es igual, n es ahora el número de pares3 que podemos formar entre los dos grupos. El nivel de
significación divide el área en rechazo y no rechazo, establecemos t y lo comparamos con su tc. Si las observaciones son
dependientes, tenemos que tener en cuenta el coeficiente de relación de Pearson, por lo que la última parte del
denominador entra en juego (en rojo). Si las observaciones son dependientes, el resultado de t será mayor -por el
denominador menor al estar esa resta del coeficiente de Pearson-, y a un nivel de significación igual, sería más fácil
rechazar la H0 en este caso.
CONTRASTE NO DIRECCIONAL.
El nivel de significación (α) determina cual es el tamaño de la zona de rechazo y la de no rechazo. Cuando la H 0 nos habla
de una diferencia, hablamos de un contraste bilateral o de dos colas, también llamado no direccional porque el área de
rechazo se encentra en ambas zonas de la distribución. Cuando tomamos la decisión de rechazar en una de las zonas,
también sería válido rechazarlo en la zona inversa. Se llama no direccional porque no podemos decir si el valor que
rechazamos es positivo o negativo, es indistinto.
El test bilateral establece una desigualdad en su H 1, mientras que en el unilateral establecemos una dirección (mayor o
menor que). Indicamos una dirección para nuestra área de rechazo, necesitando así una diferencia mayor en el test
bilateral, porque la distancia entre el valor del parámetro de H 0 y el valor rechazado es mayor porque el área de la cola
del unilateral es también mayor.
A la hora de plantear el contraste, debemos tener en cuenta cual será el tipo de contraste. Este tiene que ver con la
pregunta de investigación, y solo plantearemos contrastes de una cola cuando es absurdo plantear que µ < k. Si medimos
el CI a una persona cuando tiene 8 años y lo volvemos a medir cuando tiene 17, es absurdo plantear que haya disminuido,
en todo caso se estancaría. Este sería uno de los casos que sería absurdo realizar un contraste direccional. Esto no implica
que no se haga para µ < k, también es posible plantear eso.
10/04/2018
TEMA 6. CONTRASTE DE HIPÓTESIS PARA PROPORCIONES.
En las proporciones, el criterio de utilización de estimación de los errores típicos no se distingue entre estimador y
parámetro, siempre utilizamos sigma porque siempre tenemos una distribución normal (distribución binomial que tiende
a normal). En el caso del intervalo de confianza, utilizamos sigma por convención:
(𝑥̅1 − 𝑥̅2 ) ± 𝑡𝑐 ⋅ σ𝑥̅1−𝑥̅2
CONTRASTE PARA DOS P OBLACIONES.
Hay dos posibilidades: para observaciones independientes y dependientes. En el caso de las independientes es igual que
en la diferencia de medias, pero en el caso de dependientes debemos tener en cuenta el nivel de asociación entre las
variables, cambiando por ello las fórmulas para calcular el estimador del error típico.
OBSERVACIONES INDEPENDIENTES.
~ 𝐻0: 𝜋1 − 𝜋2 = 0
~ 𝐻1: 𝜋1 − 𝜋2 ≠ 0
3
No es la suma de todos los sujetos, sino la de uno porque hacemos parejas al estar correlacionados. En el ejercicio 9
hubiesen sido 70 parejas, no 138 sujetos.
10
Andrea Leis
Se supone (estadísticamente) que ambas distribuciones son de Bernoulli, siempre que N sea suficientemente grande. El
estadístico de contraste sería el siguiente:
𝑃1 − 𝑃2−(𝜋1−𝜋2)
𝑧=
1 1
𝑃(1 − 𝑃) ( + )
𝑛1 𝑛2
Para calcularlo utilizamos:
𝑛1 ⋅ 𝑝1+ 𝑛2 ⋅ 𝑝2
𝑝=
𝑛1 + 𝑛2
Estos valores Z siguen una distribución normal, por tanto, a la hora de analizar la distribución, el nivel de significación
divide el área bajo la curva normal en área de rechazo y de no rechazo -sea direccional o no direccional-, en función al
valor de los Z críticos.
No hemos hecho distinción en caso de si conocemos o no la desviación, ya que siempre utilizamos Z. En contrastes
direccionales, tenemos que ver en qué lugar se sitúa nuestro valor de Z, y compararlo con el Z crítico correspondiente,
sin utilizar el valor absoluto porque esto sirve para determinar la dirección. Siempre tenemos que hacer el dibujo para
tomar la decisión, porque los signos nos pueden confundir.
OBSERVACIONES DEPEND IENTES.

El planteamiento de las hipótesis estadísticas sería el siguiente:
~ 𝐻0: 𝜋1 = 𝜋2 = π
~ 𝐻1: 𝜋1 ≠ 𝜋2 ≠ π
Se utiliza como supuesto estadístico ambas distribuciones de Bernoulli, pero ¿cuándo van a ser dependientes las
observaciones?
Los estadísticos que hemos utilizado en estadística descriptiva para determinar la asociación entre variables (chi
cuadrado, r de Pearson) no son el último paso: falta hacer la inferencia, es decir, decidir si el análisis del valor obtenido
es lo suficientemente distinto de 0 como para rechazar la hipótesis nula de la tabla de contingencia planteada que dice
que las variables son independientes entre sí. La hipótesis de independencia de las tablas de contingencia no es más que
una generalización de la H0 de la comparación de dos proporciones.
Para decidir si hay asociación, debemos decidir si los valores obtenidos de esos estadísticos son distintos de cero o no.
Estos tienen una distribución de las probabilidades, y tienen asociado un contraste de hipótesis donde la H 0 que se
contrasta es la de independencia de las variables. Que sean independientes entre sí conlleva unas categorías, hay que
compararlas con α (nivel de significación).
Una vez que se ha determinado que entre dos variables hay asociación, es cuando empezamos el análisis del tc. Tenemos
que identificar entre qué categorías de la variable independiente (x) hay relación para cada una de las categorías de la
variable dependiente (y).
El contenido de cada una de las celdas de una tabla de contingencia se puede expresar como una proporción. A partir de
ahora los estadísticos de asociación tendrán una probabilidad (p) asociada que se compararán a α para rechazar o aceptar
la hipótesis de independencia. Conocida en qué categoría está un sujeto, se puede calcular la probabilidad de que esté
en otra variable (en eso consiste la asociación).
En el caso de tener una tabla que no sea de 2x2, podría darse el caso de que las dos primeras proporciones fuesen iguales,
pero distintas de la tercera. El paso último en las tablas de contingencia es identificar entre qué categorías hay asociación,
puesto que hay categorías entre las que sí la hay y otras en las que no (en una misma tabla, de más de 2x2). Lo que nos
11
Andrea Leis
ayuda a distinguir cuales proporciones son distintas entre sí es la comparación de las mismas, aplicando un contraste
basado en un estadístico Z e implementado en el SPSS (se referencia utilizando subíndices alfabéticos).
El contenido de las celdas no va a cambiar si ponemos una variable en columnas o en filas, pero sí es cierto que SPSS
requiere que la dependiente esté en las filas y la independiente en las columnas, porque la prueba Z de las diferencias de
proporciones establece que esos son los valores adecuados.
“Observaciones dependientes” hace referencia a la información sobre un mismo grupo en momentos diferentes. Para
contrastar esta hipótesis de igualdad entre ellos, calculamos el estadístico de contraste:
𝐵−𝐷
𝑧=
√𝐵 − 𝐷
Este solo tiene en cuenta los casos que han cambiado de postura, se distribuye como una distribución normal y la
estrategia es la misma.
Ejemplo: se quiere confirmar si el porcentaje de cumplimiento de asistencia a las clases en un determinado grado supera
el 80%. Para ello se realiza un estudio sobre 120 estudiantes a los que se les controla la asistencia. Al término del curso,
se observa que 100 estudiantes han asistido con regularidad y 20 no. Se trata, por tanto, de realizar el siguiente contraste:
~ H0: π= 0.80
~ H1: π > 0.80
Para decidir si la verdadera proporción poblacional es superior al 80% en base a los datos muestrales obtenidos.
Es un contraste unidireccional para una proporción, donde calculamos la proporción dividiendo los casos de asistentes
entre el total de alumnos. Da 0.83, pero ¿es este 0.03 lo suficientemente gran como para rechazar H0? Utilizamos z,
concluyendo que no podemos rechazar H0. Esto supondría un informe al decano de que la asistencia es del 80% entre el
alumnado.
Z CRÍTICO: CONTRASTES DIRECCIONALES Y NO DIRECCION ALES.
Para calcular el zc de uno no direccional, buscamos en el área de la tabla de valores z 1- 0.025 (porque es α 0.05 entre 2),
aunque no podemos buscarlo directamente porque nos da áreas que están entre 0 y z. Será 0.5 (la mitad) menos el área
que nos da la tabla.
En el contraste no direccional sería 0.5 – α2 (1, 96).
En el contraste direccional sería 0.5 – α (1, 65).
Ejemplo dos proporciones:
Se pretende estimar con una confianza del 90 la magnitud de la diferencia de efecto entre dos programas de busca de
empleo A y B en términos de su diferencial de eficacia. Para ello, se realiza un estudio donde 50 individuos participan en
el programa A y 50 en el B. De los 50 individuos del programa A encuentran trabajo el 85%, mientras que el del B es el
75%.
17/04/2018
En una tabla de contingencia tenemos tres porcentajes distintos: vertical, horizontal y total. Para cada una de las celdas
tenemos tres porcentajes, a su vez, en función a su distribución en la tabla. El supuesto de independencia referido a lo
que hay dentro de las celdas se escribe en términos de H 0; es decir, significa que no hay relación entre la variable que
define las filas y la que define las columnas.
12
Andrea Leis
Chi cuadrado toma el valor 0 cuando no hay relación. Las frecuencias observadas son iguales a las esperadas, y es positivo,
pero no está acotado superiormente. No es el mejor para hablar de asociación, y por ello también existe F, C y la V de
Cramer. Estos sí están acotados a 1, pero algunos pueden dar 0 aunque sí haya algo de relación: por ello es mejor la V de
Cramer, que tiene su máximo en 1 (aunque no lo alcanza nunca).
Una vez que establecemos relación entre variables, cada uno de estos estadísticos sigue una distribución de probabilidad
asociada, y lo más habitual es compararlo con un dato crítico para establecer si hay o no asociación. En las tablas 2x2,
una vez que se establece que hay relación entre variables el análisis se acaba.
La regla de Zeisel dice que los porcentajes han de calcularse en la dirección de la variable independiente, e interpretarse
en la de la dependiente. La columna de total es la distribución marginal de la variable dependiente, y para analizar hay
que hacer el contraste de cada una de las filas en términos de diferencias de probabilidades. Para mostrar cuales son
diferentes, SPSS muestra un subíndice: cuando son iguales quiere decir que no hay diferencia significativa entre
porcentajes, pero cuando varían sí que lo son (la variable independiente sí influye).
24/04/2018
TEMA 7. ANOVA.
ANOVA es el acrónimo de ANalysis Of VAriance, Análisis de la Varianza. Rechazamos una hipótesis nula que establece
una igualdad entre tres medias cuando al menos una de ellas es diferente.
Suponiendo que tenemos J grupos, queremos ver si las J medias son iguales entre sí (queremos saber si la ideología es
igual entre todas las CCAA, y con que una no lo sea la afirmación de H0 ya no es cierta). La H1 se escribiría diciendo que
existe (∃) un subíndice (i) distinto de j, de modo que la media de i es distinta de la media del grupo j.
~ 𝐻0: 𝜇1 = 𝜇2 = 𝜇3
~ 𝐻1: ∃ⅈ ≠ 𝑗 ∕ 𝜇𝑖 ≠ 𝜇𝑗
¿Cuántas pruebas t tendíamos que hacer si queremos comparar tres grupos entre sí? Tres, cada una con su nivel de
significación asignado. El nivel de significación correspondiente a la H 0 sería obtenido gracias a ANOVA, ya que hay que
hacer varias pruebas T y estas implican niveles de significación distintos, que acabarían dando un nivel de significación
demasiado grande como para tomar ese riesgo.
Para analizar si las medias en un conjunto de grupos son iguales ente sí, se percata que analizando las varianzas o la
variabilidad entre las medias y comparándola con la variabilidad entre las observaciones en cada grupo podía llegar a
concluir si las medias eran iguales o no. A pesar de que la prueba que nosotros estamos haciendo es de comparación de
medias, el análisis se llama de la varianza (ANOVA).
Si la afirmación de H0 es cierta, el cálculo de la variabilidad se puede hace entre todas las medias -tomando como
referencia la media entre todas las observaciones- o bien la que hay entre las observaciones en cada grupo. Podemos
obtener un estimador de la variabilidad de dos maneras distintas. Si todas las medias son iguales entre sí ¿cómo serán
esos dos estimadores? Deberían ser iguales en sus resultados, pues la variabilidad será la misma estimada de una u otra
manera. Si calculamos el cociente de esos estimadores, esperamos que resulte en 1.
Este cociente es lo que conocemos como F de Fisher-Snedecor:
𝑉1
𝐹= =1
𝑉2
Nunca puede ser negativo porque se calcula con varianzas. Si la H0 es cierta, obtendremos valores iguales o próximos a
1, cuanto más nos alejemos de 1, con mayor confianza diremos que H0 no es cierta y por lo tanto aceptamos H1. La F
tiene grados de libertad en el numerador y en denominador, y V1 tiende a ser mayor que V2.
13
Andrea Leis
También podremos detectar qué pares de medias son diferentes entre sí, no solo si hay diferencia a nivel global del
análisis. El análisis de varianzas depende de uno o varios factores, además de ser una prueba que nos permite comparar
diferentes medias entre sí. También hace posible establecer si hay asociación cuando la variable independiente es
categórica y la dependiente es cuantitativa. Se utiliza mucho en la creación de experimentos, para decir si una vacuna ha
funcionado, entre otras cosas. En el análisis de regresión también se utiliza para analizar si el modelo de regresión se
puede generalizar a la población.
Nosotros compararemos los efectos de los grupos en un solo factor, en una sola variable.
Una factoría de motores tiene 2 proveedores de los cigüeñales que mecaniza, Un tercer proveedor ofrece sus cigüeñales
algo más caros, argumentando sus mejores propiedades, concretamente que su equilibrado dinámico es mejor. La
factoría decide hacer una prueba comparando (…)
¿Hay evidencia suficiente respecto a la superioridad del producto del nuevo proveedor para cambiar a éste pese al precio
ligeramente superior? El ejemplo que consideramos es un caso particular de diseño de experimentos: se estudia el efecto
de un único factor con tres variantes (los tres proveedores a comparar) sobre la media de la variable respuesta (el
equilibrado dinámico, que debe ser el menor posible). Para averiguar esto nos remitimos a ANOVA por los problemas
que habría con la significación y con la cantidad de comparaciones que habría que hacer si utilizamos una comparación
de medias normal.
Por ello definimos esta técnica, que es la adecuada. La idea básica de ANOVA es descomponer la variabilidad total
observada en unos datos (equilibrado dinámico) en las partes correspondientes a cada factor (proveedores) estudiado
más una parte residual (los tornillos, la calidad del material, etc.), con la que después se compararán en las dos primeras.
Esto es lo mismo que se hace en el análisis de regresión (y = Mx + n + e).
Lo descompondríamos de la siguiente manera: variabilidad total en los datos = variabilidad debida a diferencias entre
tratamientos (efectos del factor proveedor) + variabilidad residual.
El factor es la variable independiente, en este caso define los grupos (variantes). En la variable respuesta o equidina
situamos la dependencia.
Planteamos las hipótesis:
~ 𝐻0: 𝜇1 = 𝜇2 = 𝜇3
~ 𝐻1: ∃ⅈ ≠ 𝑗 ∕ 𝜇𝑖 ≠ 𝜇𝑗
Aplicamos la tabla ANOVA, en la que se presentan el origen de la variabilidad, la suma de cuadrados (el numerador de la
varianza), los grados de libertad (denominador de la varianza), el cuadrado medio (división cuadrado medio entre grados
de libertad) y el F ratio (cuadrado medio o varianza tratamientos entre cuadrado medio o varianza residual). Esto se aplica
al total, a los tratamientos (grupos) y en lo residual. Se trata de calcular F.
No hay diferencias significativas entre los proveedores.
22/05/2018
Tenemos las medias y las desviaciones típicas, pero la prueba de homogeneidad de varianzas nos ofrece que tenemos
que rechazar H0, porque el nivel de significación de la prueba de Levene es inferior a 0.05. El tamaño de los grupos nos
permite suponer que es robusto, por lo que podemos aceptar H0. La tabla ANOVA nos ofrece un nivel de significación de
0.036, concluyendo que sí hay relación entre las variables analizadas por lo que hay que rechazar H0. El nivel de
dependencia es de 0, 23%, lo cual se obtiene calculando eta.
14
Andrea Leis
15
Andrea Leis
NOTACIÓN:
Estimadores: letras latinas.
- 𝒙̅: media.
- 𝑺𝒙̅2: estimador error típico de la media.
- 𝑺: estimador de la desviación típica.
Parámetros: letras griegas.
- µ: media de la población.
- σ: desviación típica.
- 𝝈𝒙̅ : error típico.
Otros:
- p: probabilidad.
- α: nivel de significación.
- Β: error de tipo II.
16

Estadística Inferencial

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadística Inferencial

Enviado por

Direitos autorais:

Formatos disponíveis

Andrea Leis

TEMA 1. FUNCIÓN DE LA INFERENCIA ESTADÍSTICA.

TEMA 2. TEORÍA Y TÉCNICAS DE MUESTREO.

- Selección intencional o no probabilística: selección arbitraria o a juicio del investigador.

Pregunta autoevaluación: ¿Influye la variabilidad en el tamaño de la muestra?

α – nivel de significación, se ofrece en probabilidad (es decir, entre 0 y 1).

1 – α – nivel de confianza, se ofrece en proporción (es decir, porcentaje).

VALOR DE Z PARA UN NIVEL DE CONFIANZA PREFIJADO.

NIVEL DE CONFIANZA Y ERROR TÍPICO.

EL TEOREMA CENTRAL DEL LÍMITE.

TEMA 3. CONTRASTE DE HIPÓTESIS CON RESPECTO A µ.

Cualquier parámetro es válido para seguir esta estrategia.

PASOS EN CONTRASTE DE HIPÓTESIS SOBRE PARÁMETROS.

(Solo cambia la distribución muestral con respecto a µ).

1. Establecer la hipótesis estadística, H0, la cual será contrastada.

CONTRASTES PARAMÉTRI COS DE HIPÓTESIS.

Puede hacerse en función del parámetro en el que se base la distribución muestral.

CON LA VARIANZA POBLACIONAL.

SIN LA VARIANZA POBLACIONAL.

TEMA 4. EL T-TEST PARA DIFERENCIAS DE MEDIAS CON OBSERVACIONES INDEPENDIENTES.

Si no conocemos la varianza en la población se pueden dar dos casos:

El ejemplo para la determinación de esta robustez es la siguiente:

Grupo experimental Grupo de control

Habiendo obtenido S𝑥̅1−𝑥̅2 , ya podemos pasar a calcular el estadístico de contraste:

(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )

Ejercicio 9 en la libreta. Asumimos que las varianzas poblacionales son iguales.

TEMA 5. EL T-TEST CON OBSERVACIONES DEPENDIENTES.

𝑥̅1 − 𝑥̅2 − (𝜇1 − 𝜇2 )

Y sus fórmulas asociadas:

TEMA 6. CONTRASTE DE HIPÓTESIS PARA PROPORCIONES.

(𝑥̅1 − 𝑥̅2 ) ± 𝑡𝑐 ⋅ σ𝑥̅1−𝑥̅2

CONTRASTE PARA DOS P OBLACIONES.

Para calcularlo utilizamos:

OBSERVACIONES DEPEND IENTES.

Z CRÍTICO: CONTRASTES DIRECCIONALES Y NO DIRECCION ALES.

En el contraste no direccional sería 0.5 – α2 (1, 96).

En el contraste direccional sería 0.5 – α (1, 65).

Ejemplo dos proporciones:

Este cociente es lo que conocemos como F de Fisher-Snedecor:

Planteamos las hipótesis:

No hay diferencias significativas entre los proveedores.

Você também pode gostar