Escolar Documentos
Profissional Documentos
Cultura Documentos
Box Spot-Estatistica
Box Spot-Estatistica
Boxplot in GeoGebra
_____________________________________
Resumo
O objetivo deste trabalho apresentar o resultado do uso da ferramenta para
construo do grfico boxplot no ambiente dinmico do GeoGebra. O boxplot um
grfico de um conjunto de dados que consiste de uma linha que se estende do valor
mnimo ao valor mximo, em uma caixa com linhas verticais, traadas no primeiro
quartil (Q1), na mediana e no terceiro quartil (Q3). Os quartis, isto , primeiro quartil,
a mediana e o terceiro quartil so trs valores que dividem os dados ordenados em
quatro grupos com aproximadamente 25% dos valores em cada grupo. Na Estatstica
Descritiva ou na anlise exploratria e comparao de dados, o boxplot um grfico
configurado para poder identificar os outlies (valores discrepantes), valores que so
bastante incomuns, no sentido de estarem muito afastados da maioria dos dados. As
modificaes do boxplot ocorrem nos valores mnimos e mximos que so substitudos
pelos valores abaixo do primeiro quartil por uma quantidade que pode ser maior do
que o mnimo [Q1-1,5(Q3-Q1)] e uma quantidade que pode ser menor que mximo
[Q3+1,5(Q3-Q1)], respectivamente. Por exemplo, a identificao dos valores outlies
importante no clculo da mdia aritmtica que tem como caracterstica a influncia dos
valores extremos. At o momento a ferramenta para construo do grfico boxplot no
ambiente dinmico do GeoGebra no evidencia os outlies dos dados podendo
comprometer, em princpio, o uso do GeoGebra na Estatstica Descritiva e na anlise
exploratria e comparao de dados. Portanto, consideramos importante que nas
verses futuras do GeoGebra seja includa na opo dessa ferramenta uma
modificao que permita identificar os outlies.
Palavras chave: Boxplot, GeoGebra, Estatstica Descritiva, Anlise exploratria de
dados.
Introduo
O objetivo deste trabalho apresentar o resultado do uso da ferramenta para construo
do grfico boxplot no ambiente dinmico do GeoGebra. O GeoGebra um software de
matemtica dinmica gratuito e multiplataforma para todos os nveis de ensino, que
combina geometria, lgebra, tabelas, grficos, estatstica e clculo numa nica
1
O Boxplot
O Boxplot um grfico de um conjunto de dados que consiste de uma linha que se
estende do valor mnimo ao valor mximo, em uma caixa com linhas verticais, traadas
no primeiro quartil (Q1), na mediana e no terceiro quartil (Q3). Os quartis, isto ,
primeiro quartil, a mediana e o terceiro quartil so trs valores que dividem os dados
ordenados em quatro grupos com aproximadamente 25% dos valores em cada grupo. Na
Estatstica Descritiva ou na anlise exploratria e comparao de dados, o boxplot um
grfico configurado para poder identificar os outlies (valores discrepantes), valores que
so bastante incomuns, no sentido de estarem muito afastados da maioria dos dados.
Como apresentado por Silva (2011):
http://www.gnu.org/
http://www.tibco.com/
14
1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012
4
Exemplo explorado
Para comparar o Boxplot obtido no GeoGebra com o Boxplot obtido com R, vamos
explorar o seguinte exemplo: Coletaram-se os pesos, em kg, de 40 alunos 20 rapazes e
20 moas obtendo-se os dados abaixo. Trace um boxplot para cada sexo. (OLIVEIRA,
2010, p.142)
Primeiro vamos construir o Boxplot no GeoGebra:
BoxPlot[0, 1 {40,49,55,70,40,50,57,75,43,50,60,83,45,52,65,92,47,55,67,105}] para
obter o Box Plot 1 e tecle Enter
15
BoxPlot[4, 1
{32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65}] para obter o
Box Plot 2 e tecle Enter
Max.
Max.
16
17
Vamos analisar os grficos acima no sentido horrio. O primeiro do tipo boxplot onde
identificamos um valor discrepante, j comentado, o segundo grfico um violplot,
grfico em forma de violino no qual observamos o formato da distribuio de
freqncia e os outros dois so histogramas. O violplot e o histograma dos dados dos
Rapazes apresentam uma cauda mais longa porque a distncia entre seus extremos
maior do que os dados das Moas e tambm por conta de um peso de 105 kg um valor
discrepante. Assim, podemos verificar o efeito de um valor discrepante na disperso,
isto , os pesos dos Rapazes tm uma distribuio com uma alta disperso. Observamos
que a distribuio dos dados dos Rapazes assimtrica positiva com a mediana menor
que a mdia:
summary(Rapazes)
Min. 1st Qu. Median
Max.
18
Max.
19
Para fazer a interpretao do grfico dos quantis normais do R, temos que verificar se os
pontos esto razoavelmente prximo de uma reta, uma identidade, no ter um padro
sistemtico que no seja de uma reta e se no houver valores discrepantes (outlies),
como afirma Triola (2008). Alisando os grficos dos quantis normais dos dados do
exemplo em estudo e apresentados pelo programa R, verificamos que os dados dos
pesos das Moas por apresentarem uma simetria, regularidade e no h valores
discrepantes (outlies), esto prximos de uma distribuio Normal, enquanto os dados
dos pesos dos Rapazes por apresentarem assimetria e valores discrepantes no esto
prximos duma distribuio. Essas informaes so relevantes no mbito da Inferncia
Estatstica Clssica e principalmente nos testes de hiptese paramtricos onde a
normalidade dos dados um requisito.
Consideraes finais
20
Referncias
LANDIM, Flvia M. P. F. Anlise Exploratria de Dados 2006 Disponvel em
www.dme.ufrj.br/marina/mad114r6.ppt - acesso em 11/11/2011.
OLIVEIRA, Joo U.C. Estatstica- Uma nova abordagem. Rio de Janeiro, Editora
Cincia Moderna LTDA, 2010.
R DEVELOPMENT CORE TEAMT. R: A language and environment for statistical
computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-90005107-0, URL http://www.R-project.org/. 2011.
SILVA, Marcos F, Aplicao de Mtodos Quantitativos em Auditoria: Uso do R em
Anlise
de
Dados
aplicada
Auditoria.
Disponvel
em
21