Você está na página 1de 45

Estadstica

bsica con R

Tabla de contenido
Introduccin

Datos cualitativos

Distribucin de frecuencias absolutas

1.1

Distribucin de frecuencias relativas

1.2

Diagrama de barras

1.3

Diagrama de sectores

1.4

Datos cuantitativos

Distribucin de frecuencias absolutas

2.1

Histograma

2.2

Distribucin de frecuencias relativas

2.3

Distribucin de frecuencias absolutas acumuladas

2.4

Polgono de frecuencias acumuladas

2.5

Distribucin de frecuencias relativas acumuladas

2.6

Polgono de frecuencias relativas acumuladas

2.7

Diagrama de tallo y hojas

2.8

Diagrama de dispersin

2.9

Medidas numericas

Media

3.1

Mediana

3.2

Cuantiles

3.3

Recorrido

3.4

Rango intercuartilico

3.5

Diagrama de cajas

3.6

Varianza

3.7

Desviacin tpica

3.8

Estadstica bsica con R

Estadstica bsica con R

Estos apuntes son una introduccin a los principales conceptos de la Estadstica, trmino
genrico que habitualmente se utiliza para englobar tanto a la Estadstica Descriptiva,
como al Clculo de Probabilidades, como a la Inferencia Estadstica.
Para el estudio de estas tres partes utilizaremos el Paquete Estadstico R. Se trata de un
paquete gratuito hoy en dia ampliamente utilizado y que es idneo en la ejecucin de los
Mtodos Estadsticos.
Para descargar el texto en formato pdf, epub y mobi visitar el siguiente enlace.

Rubn Snchez Sancho


rsanchezs@live.com

Introduccin

Estadstica bsica con R

Datos cualitativos
Una muestra de datos se denomina cualitativa, tambin conocida como categrica,
cuando su observacin en los individuos no suministra un nmero, sino la pertenencia a una
clase determinada, como por ejemplo el "Sexo" o la "Facultad" en la que se est
matriculado.
En el siguiente tutorial se utilizar el paquete MASS y tiene que ser previamente cargado en
el espacio de trabajo R para su uso. En esta seccin utilizaremos los datos del data frame
painters del paquete para ilustrar los ejemplos.
library(MASS) ## carga la libreria
head(painters) ## visualizamos el contenido del data frame painters

## Composition Drawing Colour Expression School


## Da Udine 10 8 16 3 A
## Da Vinci 15 16 4 14 A
## Del Piombo 8 13 16 7 A
## Del Sarto 12 16 9 8 A
## Fr. Penni 0 15 8 0 A
## Guilio Romano 15 16 4 14 A

La columna School contiene la informacin de las universidades de los pintores. Las


universidades son denominadas como A, B,.., etc, y la variable School es cualitativa.
painters$School

## [1] A A A A A A A A A A B B B B B B C C C C C C D D D D D D D D D D E E E
## [36] E E E E F F F F G G G G G G G H H H H
## Levels: A B C D E F G H

Para ms informacin en los detalles del conjunto de datos, consultar la documentaci R.


help(painters)

A continuacin encontrars un video introductoria a la estadstica descriptiva:


Embedded Video: https://www.youtube.com/watch?v=VswXsizTuk8

Datos cualitativos

Estadstica bsica con R

Distribucin de frecuencias absolutas


Llamamos frecuencia absoluta
el valor

de la modalidad

al numero de datos que presentan

. Si existen modalidades posibles, se verificar

siendo la frecuencia total al nmero de datos.


Ejemplo
En el conjunto de datos painters, la distribucin de frecuencias absolutas de la variable
School es un resumen del nmero de pintores en cada escuela.
Problema
Encuentra la distribucin de frecuencias absolutas de las escuelas de pintura en el conjunto
de datos painters.
Solucin
library(MASS) #cargamos la lbreria
school <- painters$School
school.freq = table(school)
school.freq

## school
## A B C D E F G H
## 10 6 6 10 7 4 7 4

Una solucin mejorada es aplicar la funcin cbind() para mostrar el resultado en un formato
de columna.
cbind(school.freq)

Distribucin de frecuencias absolutas

Estadstica bsica con R

## school.freq
## A 10
## B 6
## C 6
## D 10
## E 7
## F 4
## G 7
## H 4

A continuacin encontrars un vdeo relacionado con los temas de esta seccin:


Embedded Video: https://www.youtube.com/watch?v=d5hgXahULjI

Distribucin de frecuencias absolutas

Estadstica bsica con R

Distribucin de frecuencias relativas


LLamaremos frecuencia relativa

de la modalidad

de la variable

al cociente

, verificndose,

Ejemplo
En el conjunto de datos painters, la distribucin de frecuencias relativas de la variable
School es un resumen de la proporcin de pintores en cada escuela.
Problema
Encontrar la distribucin relativa de frecuencias de las escuelas de pintura en el conjunto de
datos painters.
Solucin
Primeros aplicaremos la funcin table() para computar la distribucin de frecuencias
absolutas de la variable School.
library(MASS)
school = painters$School
school.freq = table(school)

El siguiente paso es encontrar el tamao de la muestra $n$ de painters con la funcin nrow
y dividiremos la distribucin de frecuencias absolutas por $n$. Por lo tanto, la distribucin de
frecuencias relativas es:
school.relfreq <- school.freq / nrow(painters)

Respuesta
La distribucin relativa de frecuencias de las escuelas es:
school.relfreq

Distribucin de frecuencias relativas

Estadstica bsica con R

## school
## A B C D E F
## 0.18518519 0.11111111 0.11111111 0.18518519 0.12962963 0.07407407
## G H
## 0.12962963 0.07407407

Podemos mostrar los datos en una columna:


cbind(school.relfreq)

## school.relfreq
## A 0.18518519
## B 0.11111111
## C 0.11111111
## D 0.18518519
## E 0.12962963
## F 0.07407407
## G 0.12962963
## H 0.07407407

Distribucin de frecuencias relativas

Estadstica bsica con R

Diagrama de barras
Esta representacin grfica consiste en construir tantos rectngulos como modalidades
presente el carcter cualitativo en estudio, todos ellos con base de igual amplitud. La altura
se toma igual a la frecuencia absoluta o relativa, consiguiendo de esta manera rectngulos
con reas proporcionales a las frecuencias que se quieren representar.
Ejemplo
En el conjunto de datos painters, el diagrama de barras de la variable School es una
coleccin de rectngulos verticales que muestran el nmero de pintores en cada escuela.
Problema
Encuentra el diagrama de barras de las escuelas de pintura en el data frame painters.
Solucin
Primeros encontraremos la distribucin de frecuencias absolutas de la variable School.
library(MASS)
school = painters$School
school.freq = table(school)

Entonces aplicamos la funcin barplot() para producir el diagrama.


barplot(school.freq)

Respuesta
El diagrama de barras de la variable School es:

Diagrama de barras

Estadstica bsica con R

Una solucin mejorada sera:


##Creamos un vector con colores para cada rectngulo
colors <- c(2, 3, 4, 5, 6, 7, 8, 9)
##Creamos un vector con los nombres de las escuelas
names <- c("Renaissance", "Mannerist", "Seicento", "Venetian",
"Lombard", "Sixteenth Century", "Seventeenth Century",
"French")
barplot(school.freq, col = colors,
legend.text = names,
main = "Escuelas de pintura")

Diagrama de barras

10

Estadstica bsica con R

Una solucin con el paquete ggplot2 podra ser la siguiente:


require(ggplot2)
qplot(school, data = painters, geom = "bar")

Diagrama de barras

11

Estadstica bsica con R

Obsrvese como ggplot2 ha contado el nmero de modalidades

de cada clase para

que nosotros no tengamos que tabular los valores manualmente a diferncia de como lo
hemos hecho anteriormente con la funcin base barplot().
En este video se explican los conceptos de esta seccin:
Embedded Video: https://www.youtube.com/watch?v=fZdoLDfj6e8

Diagrama de barras

12

Estadstica bsica con R

Diagrama de sectores
La representacin grfica de un diagrama de sectores consiste en dividir un crculo en
tantos sectores circulares como modalidades presente el carcter cualitativo asignando un
ngulo central a cada sector circular proporcional a la frecuencia absoluta
de esta manera un sector con rea proporcional tambin a

consiguiendo

Ejemplo
En el conjunto de datos painters, el diagrama de sectores de la variable School es una
coleccin de "porciones de pizza"" mostrando los pintores de cada escuela.
Problema
Encontrar el diagrama de sectores de las escuelas de pintura en el data frame painters.
Solucin
En primer lugar encontramos la distribucin de frecuencias de la variable School:
library(MASS) #cargamos la lbreria
school <- painters$School
school.freq = table(school)
school.freq

## school
## A B C D E F G H
## 10 6 6 10 7 4 7 4

Por ltimo, producimos el diagrama con la funcion pie():


pie(school.freq)

Respuesta
El diagrama de sectores de la variable School es:

Diagrama de sectores

13

Estadstica bsica con R

Una solucin mejorada podra ser la siguiente:


##Creamos un vector con colores para cada rectngulo
colors <- c(2, 3, 4, 5, 6, 7, 8, 9)
##Creamos un vector con los nombres de las escuelas
names <- c("Renaissance", "Mannerist", "Seicento", "Venetian",
"Lombard", "Sixteenth Century", "Seventeenth Century",
"French")
pie(x = school.freq, labels = names, col = colors, main = "Escuelas de pintura")

Diagrama de sectores

14

Estadstica bsica con R

Diagrama de sectores

15

Estadstica bsica con R

Datos cuantitativos
Los datos cuantitativos, conocidos tambin como datos continuos, son aquellos
caracteres tales que su observacin en un individuo determinado proporciona un valor
numrico como medida asociada. A diferncia de los datos cualitativos, cuyos valores
pertenecen a clases predefinidas sin que podamos realizar operaciones aritmticas en los
mismos.
Los datos cuantitativos, conocidos tambin como datos continuos, son aquellos
caracteres tales que su observacin en un individuo determinado proporciona un valor
numrico como medida asociada. A diferncia de los datos cualitativos, cuyos valores
pertenecen a clases predefinidas sin que podamos realizar operaciones aritmticas en los
mismos.
En este captulo mostraremos como aplicar algunas de las herramientas R para el anlisis
de datos cuantitativos con una serie de ejemplos.
El tutorial en esta seccin esta basado en data frame denominado faithful. Este data frame
consiste en una coleccin de observaciones del giser Old Faithful en el Parque Nacional
Yellowstone de Estados Unidos. A continuacin mostramos una vista preliminar mediante la
funcin head()
head(faithful)

## eruptions waiting
## 1 3.600 79
## 2 1.800 54
## 3 3.333 74
## 4 2.283 62
## 5 4.533 85
## 6 2.883 55

Existen dos variables en el conjunto de datos. La primera, denominada eruptions, es la


duracin de las erupciones del giser. La segunda, denominada waiting, es el tiempo
transcurrido hasta la siguiente erupcin.

Datos cuantitativos

16

Estadstica bsica con R

Distribucin de frecuencias absolutas


Llamamos frecuencia absoluta

del valor

de datos que presentan el valor

(modalidad

(modalidad

o intervalo ) al nmero

o intervalo ). Si existen

modalidades posibles, se verificar

siendo la frecuencia total al nmero de datos.


Ejemplo
En el conjunto de datos faitful, la frecuencia absoluta de la variable eruption es el resumen
de las erupciones.
Problema
Encuentra la distribucin de frecuencias de las duraciones en las erupciones en el conjunto
de datos faithful.
Solucin
La solucin consiste de los siguientes pasos:
Encontramos el rango de duracin en las erupciones con la funcin range(). Esto nos
mostrar el dato mayor

que s 5.1 y el dato menor

que s 1.6.

library(MASS)
duration <- faithful$eruptions
range(duration)

## [1] 1.6 5.1

Determinaremos el nmero de intervalos a considerar. Si el primer intervalo tiene que


contener 1.6 y el ltimo a 5.1 redondeando tendremos el intervalo [1.5, 5.5]. Si
consideramos como amplitud constante del intervalo 0.5, tendremos la siguiente
secuencia {1.5, 2.0, 2.5,...}.
breaks <- seq(1.5, 5.5, by=0.5)
breaks

Distribucin de frecuencias absolutas

17

Estadstica bsica con R

## [1] 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

Distribuimos los valores de la variable duration por intervalos con la funcin cut().
Como los intervalos son cerrados por la izquierda y abiertos por la derecha, pasamos
FALSE al argumento right.
duration.cut <- cut(duration, breaks, right = FALSE)

Computamos la frecuencia absoluta de los datos agrupados con la funcin table().


duration.freq <- table(duration.cut)

Respuesta
La distribucin absoluta de los datos agrupados en intervalos es la siguiente:
cbind(duration.freq)

## duration.freq
## [1.5,2) 51
## [2,2.5) 41
## [2.5,3) 5
## [3,3.5) 7
## [3.5,4) 30
## [4,4.5) 73
## [4.5,5) 61
## [5,5.5) 4

A continuacin podemos visualizar un video que explica el contenido de esta seccin:


Embedded Video: https://www.youtube.com/watch?v=JCZOaFYExUM

Distribucin de frecuencias absolutas

18

Estadstica bsica con R

Histograma
La representacin grafica Histograma consiste de rectngulos paralelos con un rea igual a
la frecuencia, absoluta o relativa segn la distribucin que estemos considerando, y una
base igual a la amplitud de los intervalos.
Ejemplo
En el conjunto de datos faithful, el histograma de la varible eruption es una coleccin de
rectngulos paralelos que muestran el nmero de erupciones clasificads de acuerdo a sus
duraciones.
Problema
Encontrar el histograma de la variable eruption en el data frame faithful.
Solucin
Utilizaremos la funcin hist() para producir el histograma de la variable erupciones.
duration <- faithful$eruptions
hist(duration, right = FALSE)

Respuesta
El histograma de las erupciones es:
duration <- faithful$eruptions
hist(duration, right = FALSE)

Histograma

19

Estadstica bsica con R

Solucin mejorada
colors = c("red", "yellow", "green", "violet", "orange", "blue",
"pink", "cyan")
hist(duration, right = FALSE,
col = colors,
main="Erupciones giser Faithful",
xlab = "Duracin en minutos")

Histograma

20

Estadstica bsica con R

Histograma

21

Estadstica bsica con R

Distribucin de frecuencias relativas


LLamaremos _frecuencia relativa
variable

al cociente

del dato

(modalidad

o intervalo ) de la

, verificndose,

Ejemplo
En el conjunto de datos faithful, la distribucin de frecuencias relativas de la variable
eruption muestra la proporcin de las erupciones de acuerdo la duracin.
Problema
Encuetra la distribucin de frecuencias relativas de la variable duration en el data frame
faithful.
Solucin
Primero tenemos que encontrar la distribucin de frecuencias absolutas de la variable
eruption.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, by=0.5, right = FALSE)
duration.freq <- table(duration.cut)

Con la funcin nrow() podemos encontrar la frecuencia total al nmero de datos, y de


esto modo podemos dividir la distribucin de frecuencias absolutas por . As pues, la
distribucin de frecuencias relativas es:
duration.relfreq <- duration.freq / nrow(faithful)

Respuesta
La distribucin de frecuencias relativas de la variable eruption es:
duration.relfreq <- duration.freq / nrow(faithful)
cbind(duration.relfreq)

Distribucin de frecuencias relativas

22

Estadstica bsica con R

## duration.relfreq
## [1.5,2) 0.18750000
## [2,2.5) 0.15073529
## [2.5,3) 0.01838235
## [3,3.5) 0.02573529
## [3.5,4) 0.11029412
## [4,4.5) 0.26838235
## [4.5,5) 0.22426471
## [5,5.5) 0.01470588

Podemos representar la tabla distribuciones con las frecuencias absolutas y relativas en


columnas paralelas del modo siguiente:
cbind(duration.freq, duration.relfreq)

## duration.freq duration.relfreq
## [1.5,2) 51 0.18750000
## [2,2.5) 41 0.15073529
## [2.5,3) 5 0.01838235
## [3,3.5) 7 0.02573529
## [3.5,4) 30 0.11029412
## [4,4.5) 73 0.26838235
## [4.5,5) 61 0.22426471
## [5,5.5) 4 0.01470588

Distribucin de frecuencias relativas

23

Estadstica bsica con R

Distribucin de frecuencias absolutas


acumuladas
LLamaremos frecuencia absoluta acumulada

hasta la modalidad

(valor

intervalo ) a la suma

Claramente es

Ejemplo
En el conjunto de datos faithful, la distribucin de frecuencias absolutas acumuladas de la
variable eruption muestra el nmero total de erupciones cuyas duraciones son menores que
o igual a un conjunto de intervalos escogidos.
Problema
Encuentra la distribucin de frecuencias absolutas acumuladas de la variable eruption en el
data frame faithful.
Solucin
En primer lugar tenemos que encontrar la distribucion de frecuencias absolutas.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, right = FALSE)
duration.freq <- table(duration.cut)

Entonces podemos utilitzar la funcin cumsum() para computar la distribucin de


frecuencias absolutas acumuladas.
duration.cumfreq <- cumsum(duration.freq)

Respuesta
La distribucin de frecuencias absolutas acumuladas es:
cbind(duration.cumfreq)

Distribucin de frecuencias absolutas acumuladas

24

Estadstica bsica con R

## duration.cumfreq
## [1.5,2) 51
## [2,2.5) 92
## [2.5,3) 97
## [3,3.5) 104
## [3.5,4) 134
## [4,4.5) 207
## [4.5,5) 268
## [5,5.5) 272

Distribucin de frecuencias absolutas acumuladas

25

Estadstica bsica con R

Polgono de frecuencias acumuladas


Un polgon de frecuencias absolutas acumuladas de un dato cuantitativo s una curva
que representa la distribucin de frecuencias absolutas acumuladas.
Ejemplo
En el conjunto de datos faithful, un punto en el polgono de frecuencias acumuladas de la
variable eruption representa el nmero total de erupciones cuyas duraciones son menor que
o igual a un rango dado.
Problema
Encontrar el polgono de frecuencias acumuladas en faithful.
Solucin
En primer lugar tenemos que encontrar la distribucion de frecuencias absolutas.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, right = FALSE)
duration.freq <- table(duration.cut)

Entonces podemos utilitzar la funcin cumsum() para computar la distribucin de


frecuencias absolutas acumuladas.
duration.cumfreq <- c(0,cumsum(duration.freq))

Obsrvese en el paso anterior que hemos computado la distribucin de frecuencias


acumuladas creando un vector que contiene como primer elemento el 0.
A continuacin vamos a graficar el polgono:
plot(breaks, duration.cumfreq,
main="Erupciones giser Faithful",
xlab = "Duracin en minutos",
ylab = "Erupciones acumuladas")
lines(breaks, duration.cumfreq)

Polgono de frecuencias acumuladas

26

Estadstica bsica con R

Polgono de frecuencias acumuladas

27

Estadstica bsica con R

Distribucin de frecuencias relativas


acumuladas
LLamaremos frecuencia relativa acumulada
intervalo ) al cociente

hasta la modalidad

(valor

, o lo que es lo mismo, a

siendo

Ejemplo
En el conjunto de datas faithful, la distribucin de frecuentcias relativas acumuladas de la
variable eruption representa la proporcin de frecuencias de las erupciones cuyas
duraciones son menor que o igual a un conjunto de niveles dado.
Problema
Encontrar la distribucin de frecuencias acumuladas de las erupciones en faithful.
Solucin
En primer lugar encontramos la distribucin de frecuencias absolutas.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, by=0.5, right = FALSE)
duration.freq <- table(duration.cut)

A continuacin aplicamos la funcin cumsum() para computar la distribucin de frecuencias


absolutas acumuladas.
duration.cumfreq = cumsum(duration.freq)

Por ltimo, encontramos en tamao de la muestra de faithful con la funcin nrow(), y


dividimos la distribucin de frecuencias absolutas por . As pues, la distribucin de
frecuencias relativas acumuladas es:
duration.cumrelfreq = duration.cumfreq / nrow(faithful)

Distribucin de frecuencias relativas acumuladas

28

Estadstica bsica con R

Respuesta
La distribucin de frecuencias relativas acumuladas de la variable eruption es:
cbind(duration.cumfreq,duration.cumrelfreq)

## duration.cumfreq duration.cumrelfreq
## [1.5,2) 51 0.1875000
## [2,2.5) 92 0.3382353
## [2.5,3) 97 0.3566176
## [3,3.5) 104 0.3823529
## [3.5,4) 134 0.4926471
## [4,4.5) 207 0.7610294
## [4.5,5) 268 0.9852941
## [5,5.5) 272 1.0000000

Distribucin de frecuencias relativas acumuladas

29

Estadstica bsica con R

Polgono de frecuencias relativas


acumuladas
Un polgono de frecuencias relativas acumuladas de una variable cuantitativa es una
representacin grfica de una curva representando la distribucin.
Ejemplo
En el conjunto de datos faithful, un punto en el polgono de frecuencias relativas
acumuladas de la variable eruption representa la proporcin de frecuencias de las
erupciones cuyas duraciones son menores que o igual a un nivel dado.
Problema
Encontrar el polgono de frecuencias relativas acumuladas de la variable eruption en el data
frame faithful.
Solucin
En primer lugar encontraremos la distribucin de frecuencias relativas acumuladas.
duration <- faithful$eruptions
breaks <- seq(1.5, 5.5, by=0.5)
duration.cut <- cut(duration, breaks, by=0.5, right = FALSE)
duration.freq <- table(duration.cut)
duration.cumfreq = cumsum(duration.freq)
duration.cumrelfreq = duration.cumfreq / nrow(faithful)

A continuacin graficamos el polgono con el cero como primer elemento.


cumrelfreq <- c(0, duration.cumrelfreq)
plot(breaks, cumrelfreq,
main = "Erupciones giser Faihtful",
xlab = "Duracin en minutos",
ylab = "Proporcin de erupciones acumuladas")
lines(breaks, cumrelfreq)

Respuesta
El polgono de distribucin de frecuencias relativas acumuladas es:

Polgono de frecuencias relativas acumuladas

30

Estadstica bsica con R

Polgono de frecuencias relativas acumuladas

31

Estadstica bsica con R

Diagrama de tallo y hojas


El diagrama de hojas y ramas es un histograma o diagrama de barras girado, con la
misma interpretacin visual que stos, pero con una caracterstica adicional muy
importante: del grfico podemos recuperar las observaciones.
Ejemplo
En el conjunto de datos faithful, un diagrama de hojas y ramas de la variable eruption
identifica las duraciones con una precisin de dos dgitos y los muestra ordenados por filas.
Problema
Representar el diagrama de tallo y hojas de la variable eruption del data frame faithful.
Solucin
Utilizaremos la funcin stem() para graficar el diagrama de tallo y hojas.
Respuesta
El diagrama de tallo y hojas de la variable duration es:
> duration <- faithful$eruptions
> stem(duration)

Diagrama de tallo y hojas

32

Estadstica bsica con R

The decimal point is 1 digit(s) to the left of the |


16 | 070355555588
18 | 000022233333335577777777888822335777888
20 | 00002223378800035778
22 | 0002335578023578
24 | 00228
26 | 23
28 | 080
30 | 7
32 | 2337
34 | 250077
36 | 0000823577
38 | 2333335582225577
40 | 0000003357788888002233555577778
42 | 03335555778800233333555577778
44 | 02222335557780000000023333357778888
46 | 0000233357700000023578
48 | 00000022335800333
50 | 0370

Diagrama de tallo y hojas

33

Estadstica bsica con R

Diagrama de dispersin y recta de


mnimos cuadrados
La representacin grfica, denominada diagrama de dispersin o nube de puntos, se hace
utilizando un sistema de ejes de coordenadas de dos dimensiones representando cada dato
en un punto de coordenadas

Ejemplo
En el conjunto de datos faithful, emparejamos el par de valores de eruption y duration en la
misma observacin como coordenadas (x, y). Entonces representaremos los puntos en el
plano Cartesiano.
library(MASS)
duration <- faithful$eruptions
waiting <- faithful$waiting
head(cbind(duration, waiting))

## duration waiting
## [1,] 3.600 79
## [2,] 1.800 54
## [3,] 3.333 74
## [4,] 2.283 62
## [5,] 4.533 85
## [6,] 2.883 55

Problema
Encuentra el diagrama de dispersin de la distribucin bidimensional de frecuencias de las
variables eruption y waiting. Determinar la recta de mnimos cuadrados.

Solucin
Aplicaremos la funcin plot() para computar el diagrama de dispersin de eruption y
waiting.

Diagrama de dispersin

34

Estadstica bsica con R

duration <- faithful$eruptions


waiting <- faithful$waiting
plot(x = duration, y = waiting,
xlab = "Duracin erupciones",
ylab = "Tiempo de espera")

Respuesta

A continuacin para encontrar la recta de mnimos cuadradaos para generar un modelo de


regresin lineal de las dos variables podemos utilizar la funcin lm() y posterioremente
aadirlo al diagrama de dispersin mediante la funcin abline().

Diagrama de dispersin

35

Estadstica bsica con R

abline(lm(waiting ~ duration))

Diagrama de dispersin

36

Estadstica bsica con R

Medidas numericas
En esta seccin aprenderemos a assignar, calcular e interpretar diferentes indicadors
numricos que nos ayuden a describir el "centro" de los datos. Evidentemente, existen
varios modos de describir el centro; nosotros nos concentraremos en tres medidas: la
mediana y la media.
Adems, tambin aprenderemos otros indicadores numericos que nos ayudan a describir
como se distribuyen los datos alrededor del "centro". Estudiaremos las cuatro medidas de
dispersin ms utilizadas: Recorrido, Varianza, Desviacin tpica y Coeficiente de
variacin de Pearson.
A continuacin encontrars un video explicatorio de las medidas de centralizacin:
Embedded Video: https://www.youtube.com/watch?v=av8a4pytjug
Por ltimo, en este video se explican las medidas de dispersin:
Embedded Video: https://www.youtube.com/watch?v=NuE2VY0CZ3g

Medidas numericas

37

Estadstica bsica con R

Media
LLamando

a los datos distintos de un carcter cuantitativo e estudio, o las

marcas de clase de los intervalos en los que se han agrupado dichos datos, y
a las correspondientes frecuencias absolutas de dichos valores o marcas de clase,
llamaremos mdia aritmtica de la distribucin de frecuencias al valor

en donde es la frecuencia total.


Problema
Encontrar la media de la variable eruption en el conjunto de datos faithful.
Solucin
Utilizaremos la funcin mean() para computar el valor de la media en el carcter (variable)
eruption
> duration <- faithful$eruptions
> mean(duration)

[1] 3.487783

Respuesta
La media de la variable erupcin es 3.4878 minutos.

Media

38

Estadstica bsica con R

Mediana
La mediana es una medida de posicin, la cual se define como aquel valor de la variable tal
que, supuestos ordenados los valores de sta en orden creciente, la mitad son menores o
iguales y la otra mitad mayores o iguales. As, si en la siguiente distribucin de frecuencias,

ordenamos los valores en orden creciente,


0, 0, 0, 1, 1, 2, 2

el uno ser el valor que cumple la definicin de mediana.


Problema
Encontrar la mediana de la duracin de las erupciones en el conjunto de datos faithful.
Solucin
Aplicamos la funcin median() para computar el valor de la mediana.
library(MASS)
duration <- faithful$eruptions
median(duration)

## [1] 4

Respuesta
La mediana de la duracin en las erupciones es de 4 minutos.

Mediana

39

Estadstica bsica con R

Cuartiles
La idea de cuartil se debe al inters de dividir los datos ordenados en cuatro grupos con
aproximadamente el mismo nmero de individuos para poder observar el "espacio que
ocupa" cada grupo en relacin con los otros. Por tanto, definimos los elementos siguientes:
1. Primer cuartil (Q1): es aquel valor numrico tal que al menos el 25% de las
observaciones son menores o iguales que aquel, y al menos el 75%, ms grandes o
iguales.
2. Segundo cuartil (Q2): es la mediana.
3. Tercer cuartil (Q3):es aquel valor numrico tal que al menos el 75% de las
observaciones son menores o iguales que aquel, y al menos el 25%, ms grandes o
iguales.
Problema
Encuentra los quartiles de la duracin en las erupciones en el conjunto de datos faithful.
Solucin
Aplicamos la funcin quantile() para computar los quartiles.
> duration <- faithful$eruptions
> quantile(duration)

0% 25% 50% 75% 100%


1.60000 2.16275 4.00000 4.45425 5.10000

Respuesta
El primer, segundo y tercer cuartil de la duracin en las erupciones son 2.1627, 4.0000 y
4.4543 minutos respectivamente.
A continuacin encontrars un video en el que se explican los contenidos de esta seccin:
Embedded Video: https://www.youtube.com/watch?v=7Ww0OTZo8Y

Cuantiles

40

Estadstica bsica con R

Recorrido
Si

(tambin representado por

) es el dato mayor, o la ltima marca de clase si es

que los datos vienen agrupados en intervalos, y

) el dato menor, o la primera

marca de clase, llamaremos Recorrido a

Problema
Encuentra el recorrido de la duracin en las erupciones en el conjunto de datos faithful.
Solucin
Aplicaremos las funciones max() y min() para computar el nmero ms grande y ms
pequeo en los valores de la variable eruption, entonces realizaremos la diferencia.
> duration <- faithful$eruptions
> range <- max(duration) - min(duration)
> range

[1] 3.5

Respuesta
El recorrido la variable eruption es de 3.5 minutos.

Recorrido

41

Estadstica bsica con R

Rango intercuartilico
El rango intercuartilico es la diferencia entre el tercer y el primer cuartil, es decir

Como entre Q1 y Q3 se distribuyen aproximadamente el 50% de las observaciones


centrales de la variable, el rango intercuartilico es una medida de la dispersin de este
colectivo. As pues, un rango pequeo significa que los datos centrales estn muy juntos,
mientras que un rango grande indica una fuerte dispersin.
Problema
Encuentra el rango intercuartilico de la duracin en la variable eruption en el conjunto de
datos faithful.
Solucin
Aplicaremos la funcin IQR() para computar el rango intercuartilico.
duration <- faithful$eruptions
IQR(duration)

## [1] 2.2915

Respuesta
El rango intercuartilico_ de la duracin en las erupciones es de 2.2915__ minutos

Rango intercuartilico

42

Estadstica bsica con R

Diagrama de cajas
El diagrama de cajas de las observaciones de una variable es una representacin grfica
basada en sus cuartiles, valor mximo y mnimo.
Problema
Encuentra el diagrama de cajas de la variable eruption en el conjunto de datos faithful.
Solucin
Aplicaremos la funcin boxplot() para producir el diagrama de cajas de la variable eruption.
duration <- faithful$eruptions
boxplot(duration, horizontal = TRUE)

Respuesta
El diagrama de cajas de la duracin en las erupciones es:

Diagrama de cajas

43

Estadstica bsica con R

Varianza
La varianza es una medida de dispersin que tiene como propsito estudiar lo concentrada
que est la distribucin en torno la media. Denotando por

los datos o marcas

de clase, llamamos Varianza a

Problema
Encontrar la varianza de la variable eruption en el conjunto de datos faithful.

Solucin
Aplicaremos la funcin var() para computar la varianza en la variable eruption.
> library(MASS)
> duration <- faithful$eruptions
> var(duration)

[1] 1.302728

Respuesta
La varianza de la duracin en las erupciones es 1.3027.

Varianza

44

Estadstica bsica con R

Desviacin tpica
La desviacin tpica de la observacin de una variable es la raiz cuadrada de su varianza.

Problema
Encuentra la desviacin tpica de la variable eruption en el conjunto de datos faithful.

Solucin
Aplicaremos la funcin sd() para computar la desviacin tpica de la varible eruption.
> library(MASS)
> duration <- faithful$eruptions
> sd(duration)

[1] 1.141371

Respuesta
La desviacin tpica de la duracin en las erupciones es 1.1414.

Desviacin tpica

45

Você também pode gostar