Você está na página 1de 9

Sobre o Boxplot no GeoGebra

Boxplot in GeoGebra
_____________________________________

PRICLES CSAR DE ARAUJO1


CELINA APARECIDA ALMEIDA PEREIRA ABAR 2

Resumo
O objetivo deste trabalho apresentar o resultado do uso da ferramenta para
construo do grfico boxplot no ambiente dinmico do GeoGebra. O boxplot um
grfico de um conjunto de dados que consiste de uma linha que se estende do valor
mnimo ao valor mximo, em uma caixa com linhas verticais, traadas no primeiro
quartil (Q1), na mediana e no terceiro quartil (Q3). Os quartis, isto , primeiro quartil,
a mediana e o terceiro quartil so trs valores que dividem os dados ordenados em
quatro grupos com aproximadamente 25% dos valores em cada grupo. Na Estatstica
Descritiva ou na anlise exploratria e comparao de dados, o boxplot um grfico
configurado para poder identificar os outlies (valores discrepantes), valores que so
bastante incomuns, no sentido de estarem muito afastados da maioria dos dados. As
modificaes do boxplot ocorrem nos valores mnimos e mximos que so substitudos
pelos valores abaixo do primeiro quartil por uma quantidade que pode ser maior do
que o mnimo [Q1-1,5(Q3-Q1)] e uma quantidade que pode ser menor que mximo
[Q3+1,5(Q3-Q1)], respectivamente. Por exemplo, a identificao dos valores outlies
importante no clculo da mdia aritmtica que tem como caracterstica a influncia dos
valores extremos. At o momento a ferramenta para construo do grfico boxplot no
ambiente dinmico do GeoGebra no evidencia os outlies dos dados podendo
comprometer, em princpio, o uso do GeoGebra na Estatstica Descritiva e na anlise
exploratria e comparao de dados. Portanto, consideramos importante que nas
verses futuras do GeoGebra seja includa na opo dessa ferramenta uma
modificao que permita identificar os outlies.
Palavras chave: Boxplot, GeoGebra, Estatstica Descritiva, Anlise exploratria de
dados.

Introduo
O objetivo deste trabalho apresentar o resultado do uso da ferramenta para construo
do grfico boxplot no ambiente dinmico do GeoGebra. O GeoGebra um software de
matemtica dinmica gratuito e multiplataforma para todos os nveis de ensino, que
combina geometria, lgebra, tabelas, grficos, estatstica e clculo numa nica
1

Docente da Universidade Estadual de Feira de Santana e doutorando em Educao Matemtica da


Pontifcia Universidade Catlica de So Paulo - e-mail: pericles@uefs.br
2
Docente do Programa de Estudos Ps-Graduados em Educao Matemtica da Pontifcia Universidade
Catlica de So Paulo - e-mail: abarcaap@gmail.com
1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

aplicao. Tem recebido vrios prmios na Europa e EUA. Observamos que a


Estatstica, presente no GeoGebra, mais uma ferramenta para ensino de Matemtica.
Dessa forma, verificamos que a ferramenta do GeoGebra para construo do grfico
boxplot, um grfico estatstico de analise exploratria de dados, apresentado em um
formato que pode induzir o estudante a um erro, isto , o grfico Boxplot obtido no
GeoGebra no destaca os valores discrepantes (outlier).
Para identificar o erro de construo do Boxplot no GeoGebra, vamos comparar com
Boxplot obtido por meio do R, um programa estatstico no qual so destacados os
valores discrepantes (outlier).
O R uma linguagem e ambiente para computao estatstica e grfica. um projeto
GNU - GENERAL PUBLIC LICENSE3 - que similar linguagem e ambiente SPLUS, que foi desenvolvido no Bell Laboratories (anteriormente AT & T, agora Lucent
Technologies) por John Chambers e colegas. O R pode ser considerado como uma
implementao diferente de S-PLUS. S-PLUS um pacote de software comercial de
anlise estatstica e grfica produzido pela empresa TIBCO4. H algumas diferenas
importantes, mas muitos cdigos escritos para S-PLUS, funcionam inalterados em R.

O Boxplot
O Boxplot um grfico de um conjunto de dados que consiste de uma linha que se
estende do valor mnimo ao valor mximo, em uma caixa com linhas verticais, traadas
no primeiro quartil (Q1), na mediana e no terceiro quartil (Q3). Os quartis, isto ,
primeiro quartil, a mediana e o terceiro quartil so trs valores que dividem os dados
ordenados em quatro grupos com aproximadamente 25% dos valores em cada grupo. Na
Estatstica Descritiva ou na anlise exploratria e comparao de dados, o boxplot um
grfico configurado para poder identificar os outlies (valores discrepantes), valores que
so bastante incomuns, no sentido de estarem muito afastados da maioria dos dados.
Como apresentado por Silva (2011):

http://www.gnu.org/
http://www.tibco.com/
14
1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012
4

FIGURA 1: Exemplo do uso do BoxPlot


FONTE: Silva (2011)

As modificaes do boxplot ocorrem nos valores mnimos e mximos que so


substitudos pelos valores abaixo do primeiro quartil por uma quantidade que pode ser
maior do que o mnimo [Q1-1,5(Q3-Q1)] e uma quantidade que pode ser menor que
mximo [Q3+1,5(Q3-Q1)], respectivamente.

Exemplo explorado
Para comparar o Boxplot obtido no GeoGebra com o Boxplot obtido com R, vamos
explorar o seguinte exemplo: Coletaram-se os pesos, em kg, de 40 alunos 20 rapazes e
20 moas obtendo-se os dados abaixo. Trace um boxplot para cada sexo. (OLIVEIRA,
2010, p.142)
Primeiro vamos construir o Boxplot no GeoGebra:
BoxPlot[0, 1 {40,49,55,70,40,50,57,75,43,50,60,83,45,52,65,92,47,55,67,105}] para
obter o Box Plot 1 e tecle Enter

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

15

BoxPlot[4, 1
{32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65}] para obter o
Box Plot 2 e tecle Enter

FIGURA 2: Exemplo do uso do BoxPlot no GeoGebra

Agora vamos construir o Boxplot no R:


Rapazes=c(40,49,55,70,40,50,57,75,43,50,60,83,45,52,65,92,47,55,67,105)
summary(Rapazes)
Min. 1st Qu. Median

Mean 3rd Qu.

Max.

40.00 48.50 55.00 60.00 67.75 105.00


sort(Rapazes)
[1] 40 40 43 45 47 49 50 50 52 55 55 57 60 65 67 70 75 83 92
[20] 105
O valores Min., 1stQu., Median, Mean, 3rdQu., Max. so respectivamente: valor
mnimo, primeiro quartil, mediana, mdia, terceiro quartil e valor mximo.
Moas=c(32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65)
summary(Moas)
Min. 1st Qu. Median

Mean 3rd Qu.

Max.

32.00 39.50 46.00 46.85 54.00 65.00


sort(Moas)
[1] 32 33 35 36 38 40 40 42 43 45 47 48 50 52 53 57 58 60 63 65

16

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

FIGURA 3: Exemplo do uso do BoxPlot no R.

Portanto, como o R um programa estatstico e grfico, o Boxplot dos dados Rapazes


apresenta um valor discrepante (outlies) e no existe nos dados das Moas. No
GeoGebra as duas sries de dados no apresentam valores discrepantes, dessa maneira,
poderia levar o aprendiz ao erro, porque os grficos Boxplot construdos para os dados
das Moas nos dois programas, no apresentam valores discrepantes, so semelhantes.

Valores discrepantes (outlies)


Valores discrepantes (outlies) so valores que se localizam muito afastados de quase
todos os demais valores. A identificao dos valores discrepantes (outlies) importante
no calculo da mdia aritmtica, que tem como caracterstica a influncia dos valores
extremos. Os valores discrepantes (outlies) podem ter efeito sobre o desvio padro,
sobre a escala do histograma e da forma da distribuio de freqncia dos dados
(TRIOLA, 2008). O efeito dos valores discrepantes (outlies) pode ser observado na
sequncia de grficos gerados do programa R:

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

17

FIGURA 3: Outro exemplo do uso do BoxPlot no R.

Vamos analisar os grficos acima no sentido horrio. O primeiro do tipo boxplot onde
identificamos um valor discrepante, j comentado, o segundo grfico um violplot,
grfico em forma de violino no qual observamos o formato da distribuio de
freqncia e os outros dois so histogramas. O violplot e o histograma dos dados dos
Rapazes apresentam uma cauda mais longa porque a distncia entre seus extremos
maior do que os dados das Moas e tambm por conta de um peso de 105 kg um valor
discrepante. Assim, podemos verificar o efeito de um valor discrepante na disperso,
isto , os pesos dos Rapazes tm uma distribuio com uma alta disperso. Observamos
que a distribuio dos dados dos Rapazes assimtrica positiva com a mediana menor
que a mdia:
summary(Rapazes)
Min. 1st Qu. Median

Mean 3rd Qu.

Max.

40.00 48.50 55.00 60.00 67.75 105.00

18

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

Enquanto que os pesos das Moas tm uma distribuio aproximadamente simtrica, a


mediana igual a mdia ou aproximadamente:
summary(Moas)
Min. 1st Qu. Median

Mean 3rd Qu.

Max.

32.00 39.50 46.00 46.85 54.00 65.00


Os resultados das anlises acima apresentadas podem ser resumidos por meio do grfico
qqnorm do R. O grfico compara os quartis e percentis de uma distribuio terica
Normal com os quartis e percentis dos dados observados. Para o grfico qqnorm do R,
podemos definir essa funo por meio de uma adaptao de Triola (2008, p.238) :
Um grfico dos quantis normais (ou grfico de probabilidades normal)
um grfico de pontos (x,y) onde cada valor y vem do conjunto de
dados amostrais e cada valor x o escore de z correspondente ao valor
esperado do quantil da distribuio normal padro.

Ento, para os conjuntos dos dados representados pelos pesos em Kg de Rapazes e


Moas temos os seguintes grficos dos quantis:

FIGURA 4: Grficos dos quantis (Triola, 2008, p. 238)

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

19

Para fazer a interpretao do grfico dos quantis normais do R, temos que verificar se os
pontos esto razoavelmente prximo de uma reta, uma identidade, no ter um padro
sistemtico que no seja de uma reta e se no houver valores discrepantes (outlies),
como afirma Triola (2008). Alisando os grficos dos quantis normais dos dados do
exemplo em estudo e apresentados pelo programa R, verificamos que os dados dos
pesos das Moas por apresentarem uma simetria, regularidade e no h valores
discrepantes (outlies), esto prximos de uma distribuio Normal, enquanto os dados
dos pesos dos Rapazes por apresentarem assimetria e valores discrepantes no esto
prximos duma distribuio. Essas informaes so relevantes no mbito da Inferncia
Estatstica Clssica e principalmente nos testes de hiptese paramtricos onde a
normalidade dos dados um requisito.

Origem dos valores discrepantes (outlies)


Valores discrepantes (outlies) podem ter origem em observaes, leituras incorretas, ou
podem ser valores reais fruto de um pas desigual como o Brasil onde h uma grande
concentrao de recurso e populao em algumas capitais, como apresentado no
grfico abaixo por LANDIM (2011):

FIGURA 5: Grfico exemplo de valores discrepantes (Landim, 2011)

Consideraes finais
20

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

Exploramos exemplos por meio de um programa estatstico para mostrar a importncia


dos valores discrepantes (outlies). O programa R mais utilizado no mbito da pesquisa
quantitativa e o GeoGebra um programa para o ensino de geometria, lgebra e noes
de estatstica. No entanto conveniente observar alguns erros do tipo que observamos
na ferramenta para construo do grfico boxplot no GeoGebra, para no comprometer
a formao dos estudantes que esto tendo o primeiro contato com uma ferramenta to
importante.
Com ficou evidenciado nesse trabalho, a ferramenta para construo do grfico boxplot
no ambiente dinmico do GeoGebra no evidencia os outlies dos dados
comprometendo, desta forma, o uso do GeoGebra na Estatstica Descritiva e na anlise
exploratria e comparao de dados. Portanto, consideramos importante que nas verses
futuras do GeoGebra sejam includas, na opo da ferramenta para construo do
grfico boxplot, alguma modificao que permita identificar os outlies.

Referncias
LANDIM, Flvia M. P. F. Anlise Exploratria de Dados 2006 Disponvel em
www.dme.ufrj.br/marina/mad114r6.ppt - acesso em 11/11/2011.
OLIVEIRA, Joo U.C. Estatstica- Uma nova abordagem. Rio de Janeiro, Editora
Cincia Moderna LTDA, 2010.
R DEVELOPMENT CORE TEAMT. R: A language and environment for statistical
computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-90005107-0, URL http://www.R-project.org/. 2011.
SILVA, Marcos F, Aplicao de Mtodos Quantitativos em Auditoria: Uso do R em
Anlise

de

Dados

aplicada

Auditoria.

Disponvel

em

http://sites.google.com/site/marcosfs2006/ acesso em 11/11/2011.


TRIOLA, Mario F. Introduo Estatstica, 10 ed.-Rio de Janeiro, LTC, 2008.

1. Conferncia Latino Americana de GeoGebra. ISSN 2237- 9657, pp.13-21, 2012

21

Você também pode gostar