Você está na página 1de 18

Estatstica Bsica: Introduo ao software R

Minicurso Apresentado na SBPC/2011 - Goiania/GO

Professor: Gecirlei Francisco da Silva


gecirlei@yahoo.com

Universidade Federal de Gois


Campus Jata
Coordenao de Matemtica
Julho/2011
1

Continuao da apostila anterior


Exerccios:

1.

Para o conjunto de dados proposto na figura 2.18 apresente o clculo das


medidas descritivas para cada varivel, ou seja, para o consumo1 e consumo2.

2.

Considere como populao os participantes da SBPC/2011 em Goiania.


Destaque 2 ou 3 variveis de seu interesse sobre essa populao. Realize uma
pesquisa junto aos participantes, considerando um tamanho de amostra mnimo
de 30 e recolha as informaes necessrias para que voc possa tirar suas
concluses acerca da populao. Com as informaes em mos, utilize o
software R para realizar uma anlise descritiva bsica.

3.

Os dados a seguir representam as notas de alunos que cursaram a disciplina de


Probabilidade e Estatstica nos anos de 2009 e 2010 na UFG/CAJ.
7,2
5,1
5,3
5,4
4,7
5,7
6,1
8,2
2009
4,3
5,3
4,6
4,5
5,0
4,4
5,2
5,0
4,8
2,0
2010
Apresente o clculo das medidas descritivas bsicas para a varivel Nota em
ambos os anos. O que voc pode concluir em termos de comparao ao analisar
as medidas?

1. Como gerar Grficos no R


O R possui um grande nmero de possibilidades grficas. Suas capacidades grficas so
uma componente muito importante e extremamente verstil. O R consegue plotar desde
grficos bidimensionais simples at grficos tridimensionais mais complexos por meio
de comandos simples. D-se muita nfase no R aos grficos estatsticos, tais como
histogramas, curvas de distribuies, grfico de barras dentre outros.
Quando um grfico gerado, o R abre uma nova janela. Nessa janela so inseridos os
grficos criados. A janela grfica ir sobrepor todos os grficos criados. Assim, cada
vez que voc pedir para criar um novo grfico o anterior ser totalmente apagado e o
novo grfico ser adicionado na janela grfica. Existem algumas funes que apenas
acrescentam elementos novos ao grfico j existente, como por exemplo, uma legenda.
O comando bsico para a criao grfica o plot(). A funo plot(dados) gera um
grfico simples, atribuindo pontos em coordenadas cartesianas. Digite a seqncia de
comandos no R, um a um, e veja o que est acontecendo na janela grfica.
x <- c(2,4,5,6,9,16,8,5); y<-c(4,6,7,4,8,9,22,45)
plot(x,y)
plot(x,y ,main="Ttulo")
plot(x,y ,main="Ttulo", xlab=Eixo X, ylab=Eixo Y)
Veja este outro exemplo.
2

x<-1:10
y<-sqrt(x) # sqrt=raiz quadrada
plot(x,y)
plot(x,y,main="Ttulo",xlab="Eixo x",ylab="Eixo y",type="l")
plot(x,y,main="Ttulo",xlab="Eixo x",ylab="Eixo y",type="l",col=2)
plot(x,y,main="Ttulo",xlab="Eixo x",ylab="Eixo y",type="l",col=2,axes=F)
plot(x,y,main="Ttulo",xlab="Eixo x",ylab="Eixo y",type="b",col=2)

Para mais detalhes sobre a funo plot, digite no Console do R ?plot e


abrir uma tela com diversas informaes de como usar os argumentos
utilizados nesta funo.

Voc pode acrescentar pontos e linhas em um grfico, utilizando as funes points,


lines e abline. Verifique o resultado dos comandos a seguir.
plot(x,y)
points(x+.5,y-.5)
lines(x+0.5,y - 0.5)
abline(h=2)
abline(v=4)
O R permite que sejam feitas mudanas na representao dos indicadores grficos
(pontos) atravs do parmetro pch= nos comandos plot() e points(). Veja o exemplo
abaixo:
a <- 1:20; b <- a^2
plot(a,b,pch=2)
points(a,400-b, pch=5)
points(a,200-b, pch=10)
windows()
Este comando permite abrir uma outra janela grfica.
plot(0:20,0:20,pch=0:20)

Ainda, possvel realizar mudanas nas caracteristicas das linhas. Para isso, basta
utilizar os comandos lwd= e lty= que modificam, respectivamente, a largura e o
estilo da linha. Veja o exemplo seguinte:
a <- 1:20; b <- a^2
plot(a,b,type="l")
lines(a,2*b,lwd=4)
lines(a,0.5*b,lty=2)
lines(a,3*b,lty=3)
lines(a,4*b,lty=2,lwd=4)
3

ajustando os limites da abscissa e da ordenada e depois gerar o grfico desejado.


Observe no exemplo como proceder:
plot(c(-pi,pi),c(-1,1), type="n") #gerando um grfico em branco
x<-seq(-pi,pi,0.1)
a <- sin(x)
b <- sin(x-2/3*pi)
c <- sin(x+2/3*pi)
lines(x,a,col=2,lwd=1)
lines(x,b,col=3,lwd=2)
lines(x,c,col=4,lwd=3)

Observe os argumentos xlim e ylim na funo plot. Eles tambm tem objetivos de
alterar os limites dos eixos.
A legenda e ou texto no grfico podem ser acrescidos atravs dos comandos text() e
legend(), que possuem como argumentos as coordenadas do ponto em que se quer
colocar a legenda e o texto desejado. Observe o exemplo:
plot(c(-pi,pi),c(-1,3),xlab="Perodo", ylab="Fases", type="n")
title("Representao das tenses trifsicas","Fases ABC")
lines(x,a,col=2,lwd=1)
lines(x,b,col=3,lwd=2)
lines(x,c,col=4,lwd=3)
text(0,1.4,"Observe a defasagem de 120_ entre as fases")
legend(x=1.5,y=2.5, c("linha 1","linha 2", linha 3),col=2:4,pch=19,cex=1.5)

Uma funcionalidade bastante til do R consiste na utilizao de identificadores


grficosquando se deseja identificar um ponto ou um conjunto de pontos em um grfico.
Para tanto, existem dois identificadores que podem ser utilizados:
locator(): permite que o utilizador selecione regies do grfico utilizando o boto
esquerdo do mouse at que se tenha um nmero n de pontos selecionados ou at
pressionar o boto direito do mouse. Cada clique que dado com o boto esquerdo do
mouse o R retorna na console as coordenadas do clique. Ou seja, com a janela grfica
aberta, execute o comando locator(n=1). Ao executar esse comando, observe que o
cursor fica piscando e nada acontece. Nesse momento, v para a janela grfica e clique
em algun ponto dentro do grfico. O resultado, voltando para a janela do editor a
posio do ponto clicado com o mouse na forma de coordenadas x e y. Se voc
selecionar n=2, dever clicar duas vezes dentro do grfico para obter as coordenadas de
Veja a sintaxe e o exemplo:
x=1:20
y=sqrt(x)
plot(x,y)
text(locator(1),"Outlier")
#onde for dado o clique ser escrita a mensagem

#ou de outra forma:


plot(x,y)
locator(2)

identify(): comando semelhante ao locator(), porm, apresenta a capacidade de


identificar pontos particulares de um grfico e no apenas sua posio. Vejamos um
exemplo: representar as coordenadas de oito diferentes cidades, nome-las e identificlas graficamente.
x <- c(2,3,4,5,6,7,8,9) #Representao das coordenadas "x" das cidades
y <- c(15,26,45,8,74,11,61,32) #Coordenadas y das cidades
#Descrevendo o nome das cidades:
nomes <- paste("cidade", LETTERS[1:8], sep= " ")
cidades <- data.frame(x,y,row.names=nomes) #Juntando os dados
#Visualizando graficamente os pontos que representam as cidades:
plot(cidades)
identify(x,y,nomes,n=4) # Clique no grfico para identificar as 4 cidades de interesse

O R permite acrescentar grficos mltiplos, basta utilizar o comando


par(mfrow=c(x,y)). No vetor c(x,y), x define o nmero de divises horizontais (linhas)
e y o nmero de divises verticais (colunas).

par(mfrow=c(1,2))
x<-1:10
y<- c(2,5,9,6,7,8,4,1,3,10)
plot(x,y)
plot (x,y, xlab="Eixo X", ylab="Eixo Y", main="Personalizando um grfico",
xlim=c(0,10), ylim=c(0,10), col="red", pch=22, bg="blue", tcl=0.4, las=1, cex=1.5,
bty="l")

2. Grficos da Estatstica Descritiva


2.1.

Histograma

Um histograma divide uma srie de dados em diferentes classes igualmente espaadas e


mostra a freqncia de valores em cada classe. Em um grfico, o histograma mostra
diferentes barras, com bases iguais e amplitudes relativas s freqncias dos dados em
cada classe. O eixo das ordenadas, portanto, mostra a freqncia relativa de cada classe
e o eixo das abcissas os valores e intervalos das classes. Abaixo apresentada a sintaxe
do comando e um exemplo ilustrativo:
dados<- c(96,96,102,102,102,104,104,108,126,126,128,128,140,156,160,160,164,170,
115,121,118,142,145,145,149,112,152,144,122,121,133,134,109,108,107,148,162,96)
par(mfrow=c(2,2))
hist(dados,nclass=12)
5

hist(dados,nclass=6)
hist(dados,freq=FALSE)

2.2.

Grfico de Barras e/ou Colunas

Para confeccionar um grfico de barras ou de colunas utilizamos a funo barplot(),


onde cada barra representa a medida (freqncia) de cada elemento de um vetor, ou
seja, as barras so proporcionais com a dimenso do elemento. Veja os comandos
abaixo. Recorra aos dados da figura 2.18 para mostrarmos o grfico de barras para a
varivel consumo1 em funo do fator Ms.
consumo1 <- c(328,345,257,335,322,957,168,80,539,162,128,284)
Ms <- c("mar/11","fev/11","jan/11","dez/10","nov/10","out/10","set/10","ago/10",
"jul/10","jun/10","mai/10","abr/10")
barplot(consumo1)
barplot(consumo1, names.arg=Ms, xlab = Ms, ylab=Consumo,
main=Consumo Mensal)

2.3.

Boxplot

O boxplot um grfico que possibilita representar a distribuio de um conjunto de


dados com base em alguns de seus parmetros descritivos (mediana e os quarts). Ele
permite avaliar a simetria dos dados e a sua disperso. especialmente recomendado
para a comparao de dois ou mais conjuntos de dados correspondentes s categorias de
uma varivel qualitativa. A figura a seguir apresenta uma descrio e possibilita uma
interpretao deste grfico.

Com base neste grfico, podemos identificar em um boxplot os seguintes parmetros:


A linha central marca a mediana do conjunto de dados;
A parte inferior da caixa delimitada pelo primeiro quartil (Q1) e a parte
superior pelo terceiro quartil (Q3);
Podemos, com isso, verificar tambm o intervalo interquartil dado pela diferena
entre o primeiro e o terceiro quartil (IQR = Q3 Q1);
As hastes inferiores e superiores se estendem, respectivamente, do quartil
inferior at o menor valor no inferior a Q1 1.5 _ IQR e do quartil superior at
o maior valor no superior a Q3 + 1.5 _ IQR;
Os valores inferiores a Q11.5 _ IQR e superiores a Q3+1.5 _ IQR so
representados individualmente no grfico sendo estes valores caracterizados
como outliers.
consumo1 <- c(328,345,257,335,322,957,168,80,539,162,128,284)
consumo2 <- c(68,59,57,75,116,124,141,131,121,117,117,134)
par(mfrow=c(1,2))
boxplot(consumo1)
boxplot(consumo1, consumo2)
text(locator(1),"Outlier")
Outra forma de montar o grfico.
Id <- c(rep(consumo1,length(consumo1)), rep(consumo2,length(consumo2)))
Dados<-c(consumo1, consumo2)
boxplot(Dados~Id)

2.4.

Grfico de Pizza

Grficos de pizza exibem dados como proporo de um todo o que permite fazer
comparaes entre grupos. Este tipo de grfico no apresenta nenhum eixo. Quando
um dado solto em um grfico de pizza, o grfico calcula a porcentagem de cada
valor em relao a toda pizza. Veja a sintaxe e o exemplo abaixo:
par(mfrow=c(1,2))
a<-c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12)
names(a)<-c("a","b","c","d","e","f")
pie(a,col = c("red","blue","green","gray", "brown", "black"))

pie(a, labels = a, col = c("red","blue","green","gray", "brown", "black"))


legend("topright", names(a),pch=19 ,col=c("red","blue","green","gray","brown",
"black"),cex=1.0)
Para montar um grfico de barras ou pizza, voc precisa ter um resumo do conjunto de
dados, ou seja, voc precisa saber da freqncia dos nveis antes de fazer o grfico. Se
voc no tiver as freqncias, utilize a funo table() para obt-las.
7

Para fazer um grfico de pizza 3D utilize os comandos abaixo.


Prof <- c("A","B","C","D")
Freq <- c(59,66,60,52)
Freq.p <- round(((Freq/sum(Freq))*100),2)
require(plotrix) # pacote necessrio para rodar o grfico 3D
pielabels <- Freq.p
pie3D(Freq.p, labels = pielabels, explode=0.1, col = 3:6, radius=0.8, height=0.3,
theta=pi/7, main = "Grfico de Pizza para a Varivel Profissional (em %)")
legend("topright",Prof, pch=19 ,col=3:6,cex=1.0)

3. Exerccios
3.1. Faa os grficos possveis para os dados apresentados nos exerccios do incio
deste documento.

4. Inferncia Estatstica
4.1.

Teste de normalidade

Hipteses
H0: Dados seguem distribuio Normal
H1: Dados no seguem distribuio Normal

qqnorm(x)
qqline(x)

2
0

Sample Quantiles

Normal Q-Q Plot

-2

-1

Theoretical Quantiles

4.2.

Teste de Mdia para populao Normal

Hipteses
H0: mdia igual a 2
H1: mdia diferente de 2

4.3.
Teste de igualdade de varincia para populao
Normal
Hipteses
H0: varincia da populao A igual a varincia da populao B
H1: c.c.

10

4.4.

Teste de igualdade de mdias para populao Normal

Hipteses
H0: mdia da populao A igual a mdia da populao B
H1: c.c.

11

4.5.

Teste de igualdade de mdias para populao Normal

Hipteses
H0: mdia A = Media B = Media C
H1: c.c.

12

13

10

20

30

40

Realiza teste de Tukey para anova de um fator requer pacote multcomp


Utilize a Funo glht

Demonstra que o nvel y diferente dos nveis x e z, conforme observado no grfico


boxplot.

Reproduza o prximo exemplo

14

F1

F2

F3

15

350

400

450

Sugere que F3 diferente dos demais, apesar de no rejeitar sua igualdade com F2, ao
nvel de 5%.

Outro exemplo
A rea de qualidade deseja avaliar a capacidade de um sistema de medio. Para isto,
cinco itens foram retirados aleatoriamente da produo e trs operadores escolhidos.
Cada operador realizou duas medies em cada item. Verifique, a partir da anlise de
varincia, se h diferenas significativas entre os operadores.
Material Operador Medio
1
1
49,77
1
2
50,06
1
1
49,92
1
2
49,83
1
1
50,05
1
2
49,77
2
1
50,49
2
2
50,59
2
1
49,86
2
2
49,96
2
1
49,98
2
2
49,71
3
1
50,2
3
2
50,36
3
1
49,9
3
2
49,9
3
1
49,93
3
2
50,04
4
1
50,1
4
2
50,48
4
1
50,26
4
2
49,87
4
1
49,76
4
2
49,75
5
1
49,93
5
2
49,82
5
1
50,12
5
2
50,05
5
1
49,81
5
2
50,06

16

17

49.8

50.0

50.2

50.4

50.6

Temos que o fator operador significativo, pois, o p-valor inferior a 0.05. Pelo teste
de Tukey o operador 1 difere dos demais, o que percebemos visualmente pelo grfico de
boxplot.

4. Referncias bibliogrficas
COSTA, Srgio Francisco. Introduo Ilustrada Estatstica. 4 Edio, So
Paulo,Editora Harbra, 2005.
VENABLES, Bill e KUHNERT, Petra. An Introduction to R: Software for
Statistical Modelling & Computing. Apostila editada pelo departamento de Cincias
Exatas, ESALQ/USP, Piracicaba/SP, 2005.
DALGAARD, Peter, Introductory Statistics With R, Second Edition, New York,
Springer, 2008.
Apostilas disponveis no site: www.r-project.org
Silva, Bruno F. da; Diniz, Jean e Bortoluzzi, Matias A.; Apostila: Minicurso de
Estatstica Bsica: Introduo ao software R, pego em http://www.ufsm.br/pet-ee
no dia 15/06/2011.

18

Você também pode gostar