Escolar Documentos
Profissional Documentos
Cultura Documentos
bsica con R
Tabla de contenido
Introduccin
Datos cualitativos
1.1
1.2
Diagrama de barras
1.3
Diagrama de sectores
1.4
Datos cuantitativos
2.1
Histograma
2.2
2.3
2.4
2.5
2.6
2.7
2.8
Diagrama de dispersin
2.9
Medidas numericas
Media
3.1
Mediana
3.2
Cuantiles
3.3
Recorrido
3.4
Rango intercuartilico
3.5
Diagrama de cajas
3.6
Varianza
3.7
Desviacin tpica
3.8
Estos apuntes son una introduccin a los principales conceptos de la Estadstica, trmino
genrico que habitualmente se utiliza para englobar tanto a la Estadstica Descriptiva,
como al Clculo de Probabilidades, como a la Inferencia Estadstica.
Para el estudio de estas tres partes utilizaremos el Paquete Estadstico R. Se trata de un
paquete gratuito hoy en dia ampliamente utilizado y que es idneo en la ejecucin de los
Mtodos Estadsticos.
Para descargar el texto en formato pdf, epub y mobi visitar el siguiente enlace.
Introduccin
Datos cualitativos
Una muestra de datos se denomina cualitativa, tambin conocida como categrica,
cuando su observacin en los individuos no suministra un nmero, sino la pertenencia a una
clase determinada, como por ejemplo el "Sexo" o la "Facultad" en la que se est
matriculado.
En el siguiente tutorial se utilizar el paquete MASS y tiene que ser previamente cargado en
el espacio de trabajo R para su uso. En esta seccin utilizaremos los datos del data frame
painters del paquete para ilustrar los ejemplos.
library(MASS) ## carga la libreria
head(painters) ## visualizamos el contenido del data frame painters
## [1] A A A A A A A A A A B B B B B B C C C C C C D D D D D D D D D D E E E
## [36] E E E E F F F F G G G G G G G H H H H
## Levels: A B C D E F G H
Datos cualitativos
de la modalidad
## school
## A B C D E F G H
## 10 6 6 10 7 4 7 4
Una solucin mejorada es aplicar la funcin cbind() para mostrar el resultado en un formato
de columna.
cbind(school.freq)
## school.freq
## A 10
## B 6
## C 6
## D 10
## E 7
## F 4
## G 7
## H 4
de la modalidad
de la variable
al cociente
, verificndose,
Ejemplo
En el conjunto de datos painters, la distribucin de frecuencias relativas de la variable
School es un resumen de la proporcin de pintores en cada escuela.
Problema
Encontrar la distribucin relativa de frecuencias de las escuelas de pintura en el conjunto de
datos painters.
Solucin
Primeros aplicaremos la funcin table() para computar la distribucin de frecuencias
absolutas de la variable School.
library(MASS)
school = painters$School
school.freq = table(school)
El siguiente paso es encontrar el tamao de la muestra $n$ de painters con la funcin nrow
y dividiremos la distribucin de frecuencias absolutas por $n$. Por lo tanto, la distribucin de
frecuencias relativas es:
school.relfreq <- school.freq / nrow(painters)
Respuesta
La distribucin relativa de frecuencias de las escuelas es:
school.relfreq
## school
## A B C D E F
## 0.18518519 0.11111111 0.11111111 0.18518519 0.12962963 0.07407407
## G H
## 0.12962963 0.07407407
## school.relfreq
## A 0.18518519
## B 0.11111111
## C 0.11111111
## D 0.18518519
## E 0.12962963
## F 0.07407407
## G 0.12962963
## H 0.07407407
Diagrama de barras
Esta representacin grfica consiste en construir tantos rectngulos como modalidades
presente el carcter cualitativo en estudio, todos ellos con base de igual amplitud. La altura
se toma igual a la frecuencia absoluta o relativa, consiguiendo de esta manera rectngulos
con reas proporcionales a las frecuencias que se quieren representar.
Ejemplo
En el conjunto de datos painters, el diagrama de barras de la variable School es una
coleccin de rectngulos verticales que muestran el nmero de pintores en cada escuela.
Problema
Encuentra el diagrama de barras de las escuelas de pintura en el data frame painters.
Solucin
Primeros encontraremos la distribucin de frecuencias absolutas de la variable School.
library(MASS)
school = painters$School
school.freq = table(school)
Respuesta
El diagrama de barras de la variable School es:
Diagrama de barras
Diagrama de barras
10
Diagrama de barras
11
que nosotros no tengamos que tabular los valores manualmente a diferncia de como lo
hemos hecho anteriormente con la funcin base barplot().
En este video se explican los conceptos de esta seccin:
Embedded Video: https://www.youtube.com/watch?v=fZdoLDfj6e8
Diagrama de barras
12
Diagrama de sectores
La representacin grfica de un diagrama de sectores consiste en dividir un crculo en
tantos sectores circulares como modalidades presente el carcter cualitativo asignando un
ngulo central a cada sector circular proporcional a la frecuencia absoluta
de esta manera un sector con rea proporcional tambin a
consiguiendo
Ejemplo
En el conjunto de datos painters, el diagrama de sectores de la variable School es una
coleccin de "porciones de pizza"" mostrando los pintores de cada escuela.
Problema
Encontrar el diagrama de sectores de las escuelas de pintura en el data frame painters.
Solucin
En primer lugar encontramos la distribucin de frecuencias de la variable School:
library(MASS) #cargamos la lbreria
school <- painters$School
school.freq = table(school)
school.freq
## school
## A B C D E F G H
## 10 6 6 10 7 4 7 4
Respuesta
El diagrama de sectores de la variable School es:
Diagrama de sectores
13
Diagrama de sectores
14
Diagrama de sectores
15
Datos cuantitativos
Los datos cuantitativos, conocidos tambin como datos continuos, son aquellos
caracteres tales que su observacin en un individuo determinado proporciona un valor
numrico como medida asociada. A diferncia de los datos cualitativos, cuyos valores
pertenecen a clases predefinidas sin que podamos realizar operaciones aritmticas en los
mismos.
Los datos cuantitativos, conocidos tambin como datos continuos, son aquellos
caracteres tales que su observacin en un individuo determinado proporciona un valor
numrico como medida asociada. A diferncia de los datos cualitativos, cuyos valores
pertenecen a clases predefinidas sin que podamos realizar operaciones aritmticas en los
mismos.
En este captulo mostraremos como aplicar algunas de las herramientas R para el anlisis
de datos cuantitativos con una serie de ejemplos.
El tutorial en esta seccin esta basado en data frame denominado faithful. Este data frame
consiste en una coleccin de observaciones del giser Old Faithful en el Parque Nacional
Yellowstone de Estados Unidos. A continuacin mostramos una vista preliminar mediante la
funcin head()
head(faithful)
## eruptions waiting
## 1 3.600 79
## 2 1.800 54
## 3 3.333 74
## 4 2.283 62
## 5 4.533 85
## 6 2.883 55
Datos cuantitativos
16
del valor
(modalidad
(modalidad
o intervalo ) al nmero
o intervalo ). Si existen
que s 1.6.
library(MASS)
duration <- faithful$eruptions
range(duration)
17
## [1] 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
Distribuimos los valores de la variable duration por intervalos con la funcin cut().
Como los intervalos son cerrados por la izquierda y abiertos por la derecha, pasamos
FALSE al argumento right.
duration.cut <- cut(duration, breaks, right = FALSE)
Respuesta
La distribucin absoluta de los datos agrupados en intervalos es la siguiente:
cbind(duration.freq)
## duration.freq
## [1.5,2) 51
## [2,2.5) 41
## [2.5,3) 5
## [3,3.5) 7
## [3.5,4) 30
## [4,4.5) 73
## [4.5,5) 61
## [5,5.5) 4
18
Histograma
La representacin grafica Histograma consiste de rectngulos paralelos con un rea igual a
la frecuencia, absoluta o relativa segn la distribucin que estemos considerando, y una
base igual a la amplitud de los intervalos.
Ejemplo
En el conjunto de datos faithful, el histograma de la varible eruption es una coleccin de
rectngulos paralelos que muestran el nmero de erupciones clasificads de acuerdo a sus
duraciones.
Problema
Encontrar el histograma de la variable eruption en el data frame faithful.
Solucin
Utilizaremos la funcin hist() para producir el histograma de la variable erupciones.
duration <- faithful$eruptions
hist(duration, right = FALSE)
Respuesta
El histograma de las erupciones es:
duration <- faithful$eruptions
hist(duration, right = FALSE)
Histograma
19
Solucin mejorada
colors = c("red", "yellow", "green", "violet", "orange", "blue",
"pink", "cyan")
hist(duration, right = FALSE,
col = colors,
main="Erupciones giser Faithful",
xlab = "Duracin en minutos")
Histograma
20
Histograma
21
al cociente
del dato
(modalidad
o intervalo ) de la
, verificndose,
Ejemplo
En el conjunto de datos faithful, la distribucin de frecuencias relativas de la variable
eruption muestra la proporcin de las erupciones de acuerdo la duracin.
Problema
Encuetra la distribucin de frecuencias relativas de la variable duration en el data frame
faithful.
Solucin
Primero tenemos que encontrar la distribucin de frecuencias absolutas de la variable
eruption.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, by=0.5, right = FALSE)
duration.freq <- table(duration.cut)
Respuesta
La distribucin de frecuencias relativas de la variable eruption es:
duration.relfreq <- duration.freq / nrow(faithful)
cbind(duration.relfreq)
22
## duration.relfreq
## [1.5,2) 0.18750000
## [2,2.5) 0.15073529
## [2.5,3) 0.01838235
## [3,3.5) 0.02573529
## [3.5,4) 0.11029412
## [4,4.5) 0.26838235
## [4.5,5) 0.22426471
## [5,5.5) 0.01470588
## duration.freq duration.relfreq
## [1.5,2) 51 0.18750000
## [2,2.5) 41 0.15073529
## [2.5,3) 5 0.01838235
## [3,3.5) 7 0.02573529
## [3.5,4) 30 0.11029412
## [4,4.5) 73 0.26838235
## [4.5,5) 61 0.22426471
## [5,5.5) 4 0.01470588
23
hasta la modalidad
(valor
intervalo ) a la suma
Claramente es
Ejemplo
En el conjunto de datos faithful, la distribucin de frecuencias absolutas acumuladas de la
variable eruption muestra el nmero total de erupciones cuyas duraciones son menores que
o igual a un conjunto de intervalos escogidos.
Problema
Encuentra la distribucin de frecuencias absolutas acumuladas de la variable eruption en el
data frame faithful.
Solucin
En primer lugar tenemos que encontrar la distribucion de frecuencias absolutas.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, right = FALSE)
duration.freq <- table(duration.cut)
Respuesta
La distribucin de frecuencias absolutas acumuladas es:
cbind(duration.cumfreq)
24
## duration.cumfreq
## [1.5,2) 51
## [2,2.5) 92
## [2.5,3) 97
## [3,3.5) 104
## [3.5,4) 134
## [4,4.5) 207
## [4.5,5) 268
## [5,5.5) 272
25
26
27
hasta la modalidad
(valor
, o lo que es lo mismo, a
siendo
Ejemplo
En el conjunto de datas faithful, la distribucin de frecuentcias relativas acumuladas de la
variable eruption representa la proporcin de frecuencias de las erupciones cuyas
duraciones son menor que o igual a un conjunto de niveles dado.
Problema
Encontrar la distribucin de frecuencias acumuladas de las erupciones en faithful.
Solucin
En primer lugar encontramos la distribucin de frecuencias absolutas.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, by=0.5, right = FALSE)
duration.freq <- table(duration.cut)
28
Respuesta
La distribucin de frecuencias relativas acumuladas de la variable eruption es:
cbind(duration.cumfreq,duration.cumrelfreq)
## duration.cumfreq duration.cumrelfreq
## [1.5,2) 51 0.1875000
## [2,2.5) 92 0.3382353
## [2.5,3) 97 0.3566176
## [3,3.5) 104 0.3823529
## [3.5,4) 134 0.4926471
## [4,4.5) 207 0.7610294
## [4.5,5) 268 0.9852941
## [5,5.5) 272 1.0000000
29
Respuesta
El polgono de distribucin de frecuencias relativas acumuladas es:
30
31
32
33
Ejemplo
En el conjunto de datos faithful, emparejamos el par de valores de eruption y duration en la
misma observacin como coordenadas (x, y). Entonces representaremos los puntos en el
plano Cartesiano.
library(MASS)
duration <- faithful$eruptions
waiting <- faithful$waiting
head(cbind(duration, waiting))
## duration waiting
## [1,] 3.600 79
## [2,] 1.800 54
## [3,] 3.333 74
## [4,] 2.283 62
## [5,] 4.533 85
## [6,] 2.883 55
Problema
Encuentra el diagrama de dispersin de la distribucin bidimensional de frecuencias de las
variables eruption y waiting. Determinar la recta de mnimos cuadrados.
Solucin
Aplicaremos la funcin plot() para computar el diagrama de dispersin de eruption y
waiting.
Diagrama de dispersin
34
Respuesta
Diagrama de dispersin
35
abline(lm(waiting ~ duration))
Diagrama de dispersin
36
Medidas numericas
En esta seccin aprenderemos a assignar, calcular e interpretar diferentes indicadors
numricos que nos ayuden a describir el "centro" de los datos. Evidentemente, existen
varios modos de describir el centro; nosotros nos concentraremos en tres medidas: la
mediana y la media.
Adems, tambin aprenderemos otros indicadores numericos que nos ayudan a describir
como se distribuyen los datos alrededor del "centro". Estudiaremos las cuatro medidas de
dispersin ms utilizadas: Recorrido, Varianza, Desviacin tpica y Coeficiente de
variacin de Pearson.
A continuacin encontrars un video explicatorio de las medidas de centralizacin:
Embedded Video: https://www.youtube.com/watch?v=av8a4pytjug
Por ltimo, en este video se explican las medidas de dispersin:
Embedded Video: https://www.youtube.com/watch?v=NuE2VY0CZ3g
Medidas numericas
37
Media
LLamando
marcas de clase de los intervalos en los que se han agrupado dichos datos, y
a las correspondientes frecuencias absolutas de dichos valores o marcas de clase,
llamaremos mdia aritmtica de la distribucin de frecuencias al valor
[1] 3.487783
Respuesta
La media de la variable erupcin es 3.4878 minutos.
Media
38
Mediana
La mediana es una medida de posicin, la cual se define como aquel valor de la variable tal
que, supuestos ordenados los valores de sta en orden creciente, la mitad son menores o
iguales y la otra mitad mayores o iguales. As, si en la siguiente distribucin de frecuencias,
## [1] 4
Respuesta
La mediana de la duracin en las erupciones es de 4 minutos.
Mediana
39
Cuartiles
La idea de cuartil se debe al inters de dividir los datos ordenados en cuatro grupos con
aproximadamente el mismo nmero de individuos para poder observar el "espacio que
ocupa" cada grupo en relacin con los otros. Por tanto, definimos los elementos siguientes:
1. Primer cuartil (Q1): es aquel valor numrico tal que al menos el 25% de las
observaciones son menores o iguales que aquel, y al menos el 75%, ms grandes o
iguales.
2. Segundo cuartil (Q2): es la mediana.
3. Tercer cuartil (Q3):es aquel valor numrico tal que al menos el 75% de las
observaciones son menores o iguales que aquel, y al menos el 25%, ms grandes o
iguales.
Problema
Encuentra los quartiles de la duracin en las erupciones en el conjunto de datos faithful.
Solucin
Aplicamos la funcin quantile() para computar los quartiles.
> duration <- faithful$eruptions
> quantile(duration)
Respuesta
El primer, segundo y tercer cuartil de la duracin en las erupciones son 2.1627, 4.0000 y
4.4543 minutos respectivamente.
A continuacin encontrars un video en el que se explican los contenidos de esta seccin:
Embedded Video: https://www.youtube.com/watch?v=7Ww0OTZo8Y
Cuantiles
40
Recorrido
Si
Problema
Encuentra el recorrido de la duracin en las erupciones en el conjunto de datos faithful.
Solucin
Aplicaremos las funciones max() y min() para computar el nmero ms grande y ms
pequeo en los valores de la variable eruption, entonces realizaremos la diferencia.
> duration <- faithful$eruptions
> range <- max(duration) - min(duration)
> range
[1] 3.5
Respuesta
El recorrido la variable eruption es de 3.5 minutos.
Recorrido
41
Rango intercuartilico
El rango intercuartilico es la diferencia entre el tercer y el primer cuartil, es decir
## [1] 2.2915
Respuesta
El rango intercuartilico_ de la duracin en las erupciones es de 2.2915__ minutos
Rango intercuartilico
42
Diagrama de cajas
El diagrama de cajas de las observaciones de una variable es una representacin grfica
basada en sus cuartiles, valor mximo y mnimo.
Problema
Encuentra el diagrama de cajas de la variable eruption en el conjunto de datos faithful.
Solucin
Aplicaremos la funcin boxplot() para producir el diagrama de cajas de la variable eruption.
duration <- faithful$eruptions
boxplot(duration, horizontal = TRUE)
Respuesta
El diagrama de cajas de la duracin en las erupciones es:
Diagrama de cajas
43
Varianza
La varianza es una medida de dispersin que tiene como propsito estudiar lo concentrada
que est la distribucin en torno la media. Denotando por
Problema
Encontrar la varianza de la variable eruption en el conjunto de datos faithful.
Solucin
Aplicaremos la funcin var() para computar la varianza en la variable eruption.
> library(MASS)
> duration <- faithful$eruptions
> var(duration)
[1] 1.302728
Respuesta
La varianza de la duracin en las erupciones es 1.3027.
Varianza
44
Desviacin tpica
La desviacin tpica de la observacin de una variable es la raiz cuadrada de su varianza.
Problema
Encuentra la desviacin tpica de la variable eruption en el conjunto de datos faithful.
Solucin
Aplicaremos la funcin sd() para computar la desviacin tpica de la varible eruption.
> library(MASS)
> duration <- faithful$eruptions
> sd(duration)
[1] 1.141371
Respuesta
La desviacin tpica de la duracin en las erupciones es 1.1414.
Desviacin tpica
45