Escolar Documentos
Profissional Documentos
Cultura Documentos
- Frecuencia absoluta CONJUNTA del par (xi , yj ): nij , es el número de individuos que
presentan simultáneamente los valores: xi en X e yj en Y .
- Frecuencia Relativa CONJUNTA del par (xi , yj ): fij = nij /n, es la proporción de
individuos que presentan simultáneamente los valores xi en X e yj en Y del total
de individuos n.
1
También se pueden usar las siguientes funciones, previa instalación de algún paquete
como Rcmdr
totPercents(mytable) # porcentajes totales con suma marginal
rowPercents(mytable) # porcentajes respecto a la fila con totales y recuento
colPercents(mytable) # porcentajes respecto a la fila con totales y recuento
Ejercicio 1.
Carga el archivo del paquete car y calcula la tabla de contingencia entre “oil” y “region”
> library(car)
> help(Leinhardt)
> attach(Leinhardt)
> mytable<-table(oil,region)
> mytable
region
oil Africa Americas Asia Europe
no 31 21 26 18
yes 3 2 4 0
> prop.table(mytable)
region
oil Africa Americas Asia Europe
no 0.29523810 0.20000000 0.24761905 0.17142857
yes 0.02857143 0.01904762 0.03809524 0.00000000
> totPercents(mytable)
Africa Americas Asia Europe Total
no 29.5 20.0 24.8 17.1 91.4
yes 2.9 1.9 3.8 0.0 8.6
Total 32.4 21.9 28.6 17.1 100.0
2
Ejercicio 2.
30
no
yes
25
20
frecuency
15
10
5
0
region
Ejercicio 3.
3
Scatterplot Example
600
500
400
infant
300
200
100
0
income
Ejercicio 3.
4
Boxplot Example
5000
4000
3000
income
2000
1000
0
region
Una variable se dice que depende funcionalmente de otra cuando existe una función
que permite obtener los valores de la primera a partir de los de la segunda. La
situación opuesta a la dependencia funcional es la independencia estadística, que se
presentará cuando entre las variables no exista ningún tipo de relación.
Para definir formalmente la condición de independencia se utiliza el razonamiento de
que si X es independiente de Y, su distribución de frecuencias, dado cualquier valor de
Y, no debe variar y debe coincidir con su distribución marginal (la de X). Es decir, que
para todo i se tiene:
ni1 ni 2 nij n n
= = ... = = ... = ih = i•
n•1 n•2 n• j n• h n
Esto equivale a la condición:
nij ni⋅ n. j
= ∀i, j
n n n
o bien a que nij=eij para todo i,j, siendo
ni⋅ n. j
eij =
n
5
Para profundizar en el estudio de las relaciones entre variables que presentan
dependencia estadística existen diversas técnicas y modelos estadísticos. Entre ellos
destacan:
i, j eij
Este coeficiente mide, en términos relativos, cuanto dista la distribución conjunta de
los atributos de la situación de independencia; por tanto, cuanto mayor sea el valor de
χ² mayor será el grado de asociación entre los atributos; en caso de independencia,
χ²=0. Esta medida no está acotada.
Coeficiente de contingencia C
Se define como sigue:
χ2
C=
χ2 +n
El coeficiente C de contingencia está acotado entre 0 y 1, obteniéndose el valor 0 en el
caso de independencia entre los atributos.
El valor 1 nunca se alcanza y en el caso de tablas cuadradas (h=nºfilas= nºcolumnas)
h −1
se puede probar que el máximo valor que puede tomar C es h . Algunos
ejemplos son:
k=h: 2 3 4 5 6
max. C: 0.71 0.82 0.87 0.89 0.91
6
Así que la pregunta en este caso es: ¿A partir de qué valor consideraré que el Chi-
cuadrado resulta demasiado grande para poder asumir que la muestra procede de un
modelo poblacional independiente?
En realidad estoy “contrastando (juzgando) la hipótesis (nula) de que las
variables son independientes en la población” y decido aceptar esa hipótesis
si el valor del Chi-cuadrado que se obtiene en la muestra no difiere
significativamente de valores que considero razonables cuando la hipótesis (nula)
de independencia es cierta. En caso de que existan diferencias significativas
rechazaré la hipótesis y supondré que las variables son dependientes en la población.
Los contrastes o test de hipótesis proporcionan una metodología para decidir si
aceptamos o rechazamos una hipótesis sobre una población. Corresponden a las
técnicas de Inferencia Estadística que revisaremos brevemente en un apartado
posterior.
En el caso del test Chi-cuadrado de independencia, para poder aplicarlo correctamente
se debe cumplir que la muestra sea grande (n>30) y las frecuencias esperadas
mayores o iguales a 5. En ese caso un p-valor inferior a 0.05 nos indicara una
discrepancia alta entre los valores observados y la hipótesis de independencia, que nos
llevará a rechazar la independencia.
> test$observed
> test$expected
> test$residuals
> test$statistic
Ejercicio 4
7
una relación directa entre las variables. En caso contrario, cuando al aumentar los
valores de una variable disminuyen los de la otra, se dice que la correlación es
negativa; en este caso existirá una dependencia inversa entre las variables. Cuando el
aumento o disminución de una de las variables no permita deducir el comportamiento
de la otra variable, se dirá que existe una ausencia de correlación o incorrelación.
Covarianza
La covarianza es una medida de la variación conjunta de dos variables que indica sólo
si existe relación lineal entre ellas y no de otro tipo. Es por ello que Si X e Y son
variables independientes, entonces su covarianza es 0. Sin embargo, existen variables
cuya covarianza vale 0 y no son independientes.
La covarianza entre las variables X e Y viene dada por:
Es lógico pensar que exista una relación entre el coeficiente de correlación lineal de
Pearson y la bondad de ajuste de los datos mediante una recta. Efectivamente, como
se verá en el próximo tema cuando se estudie el modelo de regresión lineal, el
cuadrado del coeficiente de correlación de Pearson coincide con la proporción de la
varianza de la variable Y que logra explicar el modelo lineal de X, esa proporción se
denomina coeficiente de determinación, R2. Así un coeficiente de correlación de 0.7
supone un 49% de variabilidad de Y explicada por el modelo lineal.
Es habitual estudiar las correlaciones entre varias variables cruzándolas dos a dos.
Estas se muestran mediante la llamada matriz de correlaciones.
8
variable, ordenados de menor a mayor. Este coeficiente también varía entre -1 y 1, y a
mayor valor, mayor es el grado de relación entre las variables.
Representa una alternativa no paramétrica y robusta a la correlación de Pearson. Suele
utilizarse en variables ordinales, cuando hay presencia de datos atípicos o ausencia de
normalidad. En general, recoge mejor las relaciones no lineales que puedan existir
entre las variables.
En R estos coeficientes se calculan usando la función cor(x,use=” “,method=” “)
donde: x es una matriz o dataframe: use indica como tratar los datos faltantes, con
opciones all.obs, complete.obs o pairwise.complete.obs y method puede ser pearson,
spearman o kendall.
Ejercicio 5
- Ejecuta:
> cor(infant,income,use="complete.obs")
> cov(infant,income,use=complete.obs)
> corr(infant,income,use="complete.obs")
> cor(log(infant),log(income),use="complete.obs",method="Pearson")
Cuando analizamos la relación entre una variable cualitativa y otra cuantitativa, suele
interesar comparar el comportamiento de la distribución de la variable numérica según
los distintos valores que presenta el atributo.
A nivel de la muestra o datos observados esto se lleva a cabo a nivel gráfico (por
ejemplo con el diagrama de caja por grupos) y comparando las principales medidas
descriptivas: media, desviación, cuartiles,…
Una forma sencilla en R para la comparación de descriptivos entre los distintos grupos
se puede hacer usando: tapply()
Por ejemplo,
> data(Leinhardt)
> tapply(Leinhardt$income,list(region=Leinhardt$region),summary)
da como resultado:
$Africa
Min. 1st Qu. Median Mean 3rd Qu. Max.
50.00 82.75 132.00 273.20 219.20 3010.00
$Americas
Min. 1st Qu. Median Mean 3rd Qu. Max.
100.0 327.0 507.0 939.9 743.0 5523.0
9
$Asia
Min. 1st Qu. Median Mean 3rd Qu. Max.
71.0 100.5 245.5 638.9 539.2 3723.0
$Europe
Min. 1st Qu. Median Mean 3rd Qu. Max.
406 2081 3302 3040 3927 5596
Ejercicio 6
-Ejecuta
> scatterplot(Leinhardt$infant~Leinhardt$income | Leinhardt$region)
Y estudia sus opciones usando help.
- Distribución Normal
Se trata de una v.a. cuya función de densidad es la conocida campana de Gauss. Esto
quiere decir, que los valores más probables se agrupan alrededor de un valor central
(su media) y que a medida que nos alejamos de ese valor medio es menos probable
encontrar valores.
Es una de las distribuciones más utilizadas. Su importancia se debe principalmente a
que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la
normal:
10
• Caracteres morfológicos de individuos (personas, animales, plantas,...) de una
especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...
• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco,
o de una misma cantidad de abono.
• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un
mismo grupo de individuos, puntuaciones de examen.
• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación
a un medio,...
• Errores cometidos al medir ciertas magnitudes.
• Valores estadísticos muestrales, por ejemplo : la media.
• Otras distribuciones como la binomial o la de Poisson pueden aproximarse por
la normal, ... Y en general cualquier característica que se obtenga como suma
de muchos factores.
Formalmente, diremos que una v.a. continua X sigue una distribución normal de media
μ y desviación típica σ y la denotaremos por N(μ,σ), si se cumplen las siguientes
condiciones:
1. La variable X recorre el intervalo (-∞, +∞)
2. Su función de densidad viene dada por la siguiente expresión:
1 ⎛ x−μ ⎞
2
1 − ⎜ ⎟
2⎝ σ ⎠
f ( x) = e
σ 2π
Gráficamente:
Ejercicio 7.
- Prueba a dibujar en R la densidad Normal usando:
> .x <- seq(-3.291, 3.291, length.out=100)
> plot(.x, dnorm(.x, mean=0, sd=1))
- También puedes calcular la probablilidad acumulada hasta un valor (por
ejemplo el 2) usando:
> pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)
1.- La v.a.
χ n2 de Pearson
11
Si tenemos n v.a. con distribución N(0,1), independientes, las elevamos al cuadrado y
las sumamos obtenemos una nueva v.a. que se denomina Chi-cuadrado de Pearson
con n grados de libertad.
La n es el parámetro de la Chi- cuadrado y se puede comprobar que su media es n y
su varianza 2n.
χ2
Cualquier n es una v.a. continua que toma valores en [0,+∞) y su función de
densidad es asimétrica con una moda en n-2, como se muestra en la gráfica de abajo.
2.-La v.a.
t n de STUDENT
12
Densidad de la v.a. t de Student
U /n
La variable aleatoria Fn , m = tiene distribución F de Fisher-Snedecor con n y m
V /m
grados de libertad.
Su función de densidad viene dada por
m
−1
x2
f ( X ) = c3 m+n
, si x > 0
(mx + n) 2
.
Su media es:
E( Fn ,m ) = n/(n-2), si n>2.
13
se exigirá a los procedimientos de Inferencia un alto grado de confianza medido en
términos de probabilidad.
Los principales procedimientos de Inferencia Estadística son la Estimación Puntual, la
Estimación por Intervalo (o Intervalos de Confianza) y el Contraste de Hipótesis.
De modo formal o matemático, en un problema de inferencia consideramos:
Una población, representada por una v.a. X con distribución de probabilidad
desconocida.
Una muestra, representada por n v.a. X1, X2,..., Xn a partir de la cual se realizan
inferencias o extraen conclusiones sobre la distribución de X.
Los procedimientos de Inferencia pueden ser de tipo paramétrico o no
paramétrico. En los primeros se supone que la distribución de la población sigue un
modelo conocido (normal, binomial, …) aunque se desconocen los valores de los
parámetros que la determinan, de modo que se hace inferencia sobre dichos
parámetros (media, varianza, proporción, ...). En el enfoque no paramétrico no se
asume a priori ninguna distribución de probabilidad sobre la población.
Ejemplo:
En la población de los alumnos matriculados en un centro universitario se considera la
variable X=ser fumador. Nos interesa contrastar la hipótesis de que exista un 60% de
fumadores, es decir p=0,60.
DEFINICIONES:
Hipótesis nula: la denotamos por H0, es la hipótesis que se desea contrastar o
evaluar. Se enuncia de acuerdo al principio de simplicidad científica y se asume como
cierta a no ser que los datos proporcionen evidencia suficiente en su contra. Cuenta
con la presunción de inocencia. En el ejemplo la hipótesis nula sería p=0,60.
Hipótesis alternativa: la denotamos por H1, es lo que sucede cuando no es cierta la
hipótesis nula. Por contar la hipótesis nula con la presunción de inocencia, sobre la
hipótesis alternativa recae la carga de la prueba. Por tanto, cuando rechazamos H0 en
favor de H1 es porque hemos encontrado pruebas significativas a partir de la muestra.
En el ejemplo H1 sería p≠0,60.
Hipótesis simple: es la que está constituida por un único punto. Por ejemplo p=0,60.
Hipótesis compuesta: es la que está constituida por más de un punto. Por ejemplo
p≠0,60.
Estadístico del contraste: función de los valores muestrales y del valor propuesto
en la hipótesis nula, cuya distribución en el muestreo es conocida cuando H0 es cierta.
Es una medida de la discrepancia entre lo afirmado en la hipótesis nula y la
información muestral. Según el valor que tome se decide aceptar o rechazar la
hipótesis nula H0.
14
pˆ − 0,60
En el ejemplo, un estadístico de contraste podría ser E= que cuando H0
0,60 x0,40
n
es cierta verifica que E es N(0,1) para n grande.
Región crítica (o de rechazo): conjunto de valores del estadístico de contraste E
que provocan un rechazo de la hipótesis nula.
Región de Aceptación: conjunto de valores del estadístico E que llevan a aceptar H0.
Contraste unilateral: Aquel cuya región crítica está formada por un solo intervalo de
la recta real. Se produce cuando la hipótesis alternativa tiene un único sentido. Por
ejemplo, H1: p<0,60.
Contraste bilateral: Aquel cuya región crítica está formada por dos intervalos de la
recta real. Se produce cuando la hipótesis alternativa tiene dos sentidos. Por ejemplo,
H1: p≠0,60.
La elección de las regiones de aceptación y rechazo en un contraste llevan a una
decisión sobre H0, de acuerdo con el siguiente esquema:
Error de tipo I: el que cometemos cuando rechazamos la hipótesis nula H0, siendo
cierta.
Error de tipo II: el que cometemos cuando aceptamos la hipótesis nula H0, siendo
falsa.
Nivel de significación (α) : probabilidad de cometer el error de tipo I:
α= p (rechazar H0 / H0 cierta)= p (Error de tipo I)
Potencia (β): probabilidad de detectar que una hipótesis es falsa:
β= p (rechazar H0/ H0 falsa) = 1- p (Error de tipo II)
Metodología: Debemos adoptar un criterio que, a partir de la muestra, nos permita
decidir si aceptamos o rechazamos la hipótesis nula. El interés está en minimizar las
probabilidades de los errores de tipo I y II. Como ello no es posible simultáneamente,
una forma habitual de proceder consiste en: fijar el nivel de significación y
escoger el criterio que nos proporcione la mayor potencia posible. Así actúan
los contrastes de significación. Los niveles de significación más usados son α= 0,01
0,05 y 0,10.
15
Distribución de E con Ho cierta
1-α
α/2 α /2
Rechazo Aceptación Rechazo
Observaciones:
⎛⎜ − Z ,+ Z ⎞⎟
−Z < E < +Z
Región de aceptación: ⎝ 2 ⎠
1−α 1−α 1 −α 1− α
2
: H0 se acepta si 2 2
⎛⎜ − ∞,− Z ⎞⎟ ⎛⎜ + Z ,+∞ ⎞⎟
Región crítica o de rechazo: ⎝ ⎠ U⎝ ⎠ . De modo que H0 se
1− α 1 −α
2 2
E < −Z α E>Z α
rechaza si 1−
2 o si
1−
2 .
1-α
α
Rechazo
Aceptación
Observaciones:
Región de aceptación:
(− ∞,+ Z1−α ) . De modo que H0 se acepta si E < + Z 1−α
16
El contraste es unilateral a la derecha.
1-α
α/2 α /2
Rechazo Aceptación Rechazo
17
Gráficamente: p-valor = área rayada.
1-α
α
Aceptación Rechazo
d
Los test paramétricos asumen que se tienen dos variables poblacionales X e Y con
funciones de distribución desconocidas, pero que siguen un modelo de distribución
Normal. Formalmente: X ≈ N ( μ X , σ X ) y Y ≈ N ( μ Y , σ Y ) , donde los parámetros son
desconocidos. Y el interés radica en contrastar si las dos medias y/o las dos varianzas
son iguales. Para cada contraste se necesita un estadístico de contraste con una
distribución conocida bajo la hipótesis nula, la distribución de ese estadístico suele dar
el nombre al contraste o prueba.
18
1. H 0 : μ X − μ Y = 0 ( = d 0 )
X − Y − (d 0 )
2. E = ≈ t v si H 0 cierta.
σˆ ( X − Y )
En el caso de varianzas iguales v=n+m-2.
En el caso de varianzas distintas v, además de depender de n y m, depende de las
varianzas muestrales: S X2 = ∑ ∑
( X i − X ) 2 /(n − 1) y S Y2 = (Yi − Y ) 2 /(m − 1).
3. En función de la hipótesis alternativa H 1 y del nivel de significación α que elija el
investigador, se determina la región crítica o de rechazo. La hipótesis alternativa
puede ser bilateral ( H 1 : μ X − μ Y ≠ 0 ), unilateral a la derecha ( H 1 : μ X − μ Y > 0 )
o unilateral a la izquierda ( H 1 : μ X − μ Y < 0 ) e indica qué cola o colas de la
distribución de E se eligen. La probabilidad de dicha cola o colas debe ser igual a α.
4. Se calcula el valor de E en la muestra y se rechaza H 0 si ese valor pertenece a la
región crítica. Alternativamente, para el valor de E en la muestra, e, se calcula su
p-valor y se rechaza si es menor que α.
Por ejemplo, para el contraste bilateral, se rechaza H 0 al nivel de significación α si
P( t v > e) < α .
Ejercicio 8
- Utiliza el test t para comparar log(income) según oil, asumiendo varianzas iguales y
no asumiendo varianzas iguales.
19
- Contrasta que la media del log(infant) sea igual según oil frente a que sea mayor en
el grupo de países exportadores.
En este caso se considera una muestra X1, X2,..., Xn de tamaño n procedente de una
distribución normal X ≈ N ( μ X , σ X ) y una muestra Y1, Y2,..., Yn de tamaño también
n, de otra población normal Y ≈ N ( μ Y , σ Y ) , no necesariamente independientes. En
este caso se pueden reducir los datos a una sola muestra D1, D2,..., Dn , donde cada
Di =Xi - Yi , que tendrá también distribución normal con media μ D = μ X − μ Y .
Este caso es habitual cuando se toman medidas repetidas en los mismos individuos de
una población, por ejemplo, antes y después de someterlos a un tratamiento.
Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal
X ≈ N ( μ X , σ X ) y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población
normal Y ≈ N ( μ Y , σ Y ) , independiente de la anterior.
Para contrastar H 0 : σ X2 = σ Y2 ( σ X2 / σ Y2 =1) se utiliza el estadístico de contraste
⎛ (n − 1) S X2 ⎞
⎜ ⎟
S2
⎜= σ 2
( n − 1) ⎟ que sigue una distribución F con n-1,m-1 grados de
E= X X
S2
⎜ (m − 1) S Y2 ⎟
⎜ σ Y (m − 1) ⎟⎠
Y
2
⎝
libertad si H 0 es cierta.
De modo que, por ejemplo, para un contraste unilateral a la izquierda, se rechaza H 0
con un nivel de significación α, si P (Fn −1, m −1 < e ) < α , siendo e el valor de E en la
muestra observada.
Ejercicio 9:
20
- Contrasta igualdad de varianzas de income según oil e interpreta los resultados.
> var.test(income~oil)
Se obtiene:
F test to compare two variances
21
En R el test de Wilcoxon se obtien con la función:
> wilcox.test(Y~X) donde Y es numérica y X es un factor binario.
Ejercicio 10:
> wilcox.test(infant~oil)
Wilcoxon rank sum test with continuity correction
Si reducimos los datos a una sola muestra D1, D2,..., Dn , donde cada Di =Xi - Yi ,
pasamos a trabajar con una muestra de tamaño n de la v.a. diferencia D=X-Y.
Bajo la hipótesis nula, esta variable diferencia estará distribuida de forma simétrica
respecto al 0, por lo que las diferencias positivas y negativas de igual magnitud
absoluta serán equiprobables. Los estadísticos de Wilcoxon se basan en esta idea y
calculan la suma de los rangos de las diferencias positivas, T+, y de las diferencias
negativas, T-, habiéndose asignado los rangos a los valores absolutos de las
diferencias observadas.
La distribución de los estadísticos de Wilcoxon (por ejemplo del T+) está tabulada y
permite calcular las regiones de rechazo según el nivel de significación y el tipo de
alternativa, unilateral o bilateral.
Para muestras grandes, los estadísticos de Wilcoxon, tanto para muestras apareadas
como independientes, tienen una distribución aproximadamente Normal, cuya media y
varianza dependen de los tamaños muestrales.
22
3.8.3. Test no paramétricos para más de dos muestras
Ejercicio 11:
> kruskal.test(income~region)
23
Se trata de una generalización del test de Wicoxon para dos muestras apareadas al
caso de k muestras.
En esta prueba se asignan los rangos independientemente para cada uno de los n
individuos, que si no hay empates irán desde 1 hasta k, y después se suman los
rangos correspondientes a cada una de las k muestras: R1 ,..., Rk .
Bajo la hipótesis nula de que las k distribuciones son idénticas, frente a la alternativa
de que difieren en su tendencia central, las sumas de los rangos se dispersarán
aleatoriamente y en caso contrario, las muestras con medianas más altas producirán
sumas de rangos más altas.
Si H 0 es cierta y para tamaños muestrales suficientemente grandes, el estadístico
12 ⎛ k 2⎞
H= ⎜ ∑ R j ⎟ − 3n(k + 1)
nk (k + 1) ⎜⎝ j =1 ⎟⎠
se distribuye aproximadamente como una χ k2−1 , por lo que para un nivel de
significación α, se rechazará H 0 si H> el percentil 1-α de una χ k2−1 .
El estadístico anterior tiene una versión corregida en presencia de empates.
24
Observemos que bajo la hipótesis de independencia el número esperado de
ni. n. j ni. n. j
observaciones de la clase Aix Bj viene dado por eij = npˆ i . pˆ . j = n = y se
n n n
r s (n − eij )
2
> cor.test(X,Y,method="spearman",use="complete.obs")
Ejercicio 12:
25
-0.7171001
3. Contrastes de normalidad
Además de estos contrastes, la normalidad se contrasta con otros test más específicos
como la el test de Kolmogorov-Smirnov-Lilliefors, el test de Agostino o el de
Shapiro-Wilk. Describiremos brevemente éste último, por ser el contraste de
normalidad básico de R.
El contraste de Shapiro-Wilk.
Este contraste se construye a partir de un estadístico basado en las distancias entre los
estadísticos ordenados de lugar simétrico. Así se tienen en cuenta la distancia entre la
mayor y a menor observación muestral, entre la segunda y la penúltima (dispuestos
los datos en orden creciente), etc.
El estadístico de Shapiro-Wilk está tabulado. Dado que puede interpretarse como el
cuadrado del coeficiente de correlación lineal de los puntos muestrales dibujados sobre
papel probabilístico normal, la hipótesis de normalidad se rechazará para valores
pequeños del estadístico, que indicarán independencia o alejamiento de la distribución
normal.
> qqnorm(data$X)
> qqline(data$X)
Ejercicio 13:
- Contrasta la normalidad de income, infant, log(income), log(infant).
> library(car)
> data(Leinhardt)
> attach(Leinhardt)
> shapiro.test(income)
Shapiro-Wilk normality test
26
data: income
W = 0.6796, p-value = 8.129e-14
> shapiro.test(infant)
Shapiro-Wilk normality test
data: infant
W = 0.7344, p-value = 3.157e-12
> shapiro.test(log(income))
data: log(income)
W = 0.932, p-value = 4.288e-05
> shapiro.test(log(infant))
data: log(infant)
W = 0.9687, p-value = 0.01673
> attach(Leinhardt)
> incomesi<-income[oil=="yes"]
> incomeno<-income[oil=="no"]
> shapiro.test(income)
data: income
W = 0.6796, p-value = 8.129e-14
> shapiro.test(incomesi)
data: incomesi
W = 0.8391, p-value = 0.05646
> shapiro.test(incomeno)
27
data: incomeno
W = 0.6676, p-value = 1.995e-13
> qqnorm(incomesi)
> qqnorm(incomeno)
Bibliografía
Recursos
Ejercicios finales
> library(foreign)
> datos<-read.spss(file="c:/pruebadatos/MUNDO.sav", to.data.frame=TRUE)
> attach(datos)
> View(datos)
> summary(datos)
>library(xlsReadWrite)
>datos<-read.xls("c:/pruebadatos/cuestionario_completo09-10.xls ")
Si no puedes cargar esta librería prueba a guardar el archivo Excel como archivo .csv
Fíjate en el separador decimal, para usar bien la función read.csv. (Ve a
help(read.table).
28