Você está na página 1de 14

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

INE 7001 - Procedimentos de Anlise Bidimensional de variveis QUANTITATIVAS utilizando o


Microsoft Excel.
Professor Marcelo Menezes Reis
O objetivo deste texto apresentar os principais procedimentos de Anlise Bidimensional de
variveis quantitativas, tal como apresentados em sala, mas utilizando a planilha eletrnica Excel.
Os dados esto na planilha "Temperatura e vendas", do arquivo Bidimensional.xls, disponvel nas
pginas das disciplinas: contm as informaes sobre 250 pares de observaes temperatura (em
graus Celsius) e quantidade vendida de refrigerantes.
Os procedimentos foram preparados utilizando a verso 2003 do Excel. H algumas
diferenas em relao s verses mais modernas (2007, 2010), mas a essncia permanece a mesma.
1. Construo de diagrama de disperso para as variveis.
No presente caso, em que h apenas 2 variveis, possvel construir um diagrama de
disperso, relacionando temperatura e vendas. O objetivo avaliar a fora, a direo e a forma de
uma eventual correlao entre elas: com isso ser possvel avaliar qual modelo de regresso aplicar
para prever os valores de uma varivel em funo dos da outra. Os dados de interesse esto
mostrados na figura 1:
Na coluna A encontram-se os valores de Temperatura, e na coluna B
os das Vendas. preciso identificar corretamente qual varivel a
independente e qual a dependente: caso contrrio o diagrama
estar completamente errado, o modelo eventualmente ajustado
tambm, e as decises tomadas com base neles pouca validade tero.
razovel imaginar que a Temperatura possa influenciar as Vendas
de refrigerante: maiores valores de Temperatura poderiam causar
maiores valores de Vendas. Sendo assim, Temperatura ser a
varivel independente, sendo ento representada no eixo X, e
Vendas a varivel dependente, ocupando o eixo Y.
Passamos agora a construo do diagrama de disperso
propriamente dito, clicando sobre o cone "Assistente Grfico", na
barra de ferramentas do Excel, resultando na figura 2. Selecionando
o grfico Disperso (XY), obtemos a figura 3.
Figura 1 - Temperatura e vendas

Figura 2 - Assistente grfico - 1a etapa

Figura 3 - Assistente grfico - Diagrama de disperso

Para os nossos interesses o subtipo mais interessante o padro, marcado em preto na figura 3.
Pressionando "Avanar" chegaremos a uma tela semelhante figura 4.
1

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Em
alguns
casos
o
Excel
automaticamente adiciona as seqncias
de dados necessrias para criar o
grfico. Muitas vezes estas seqncias
incluem dados que no nos interessam.
Se isso ocorrer, pressione "Remover"
at que todas as seqncias sejam
retiradas, resultando na tela mostrada na
figura 4.
Agora podemos adicionar as seqncias
de dados de interesse, pressionando
"Adicionar", o que resultar na figura 5.

Figura 4 - Assistente grfico - 2a etapa

Precisamos adicionar os valores de X e


de Y (no h necessidade de adicionar
valores em "Nome"). Podemos fazer
isso de duas formas: ou digitando as
referncias das clulas (em "Valores de
X" teramos A2:A251; em "Valores de
Y" teramos B2:B251), ou marcando as
clulas na planilha (pressionando a seta
vermelha na extrema direita de cada
janela, e marcando as clulas de
interesse na planilha).
Aps a adio dos dados, o resultado
ser uma tela semelhante da figura 6.
Figura 5 - Assistente grfico: adio de seqncias

Observe que j possvel ter uma


idia do diagrama de disperso: os
dados parecem distribuir-se de forma
curva, com os valores de X
comeando acima de 20, e os valores
de Y variando de 500 at quase
4000. Possivelmente teremos que
modificar a escala do eixo X, para
que a visualizao do grfico seja
mais apropriada: da forma como est
o grfico os dados esto muito
agrupados, o que pode dificultar a
anlise do diagrama de disperso.
Pressionando "Avanar" chegaremos
tela mostrada na figura 7.
Figura 6 - Assistente grfico: dados inseridos
2

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

necessrio pr um
ttulo no grfico, e
identificar as variveis
em cada eixo, incluindo
suas unidades.
Ttulo:
Vendas
por
temperatura.
Eixo X: temperatura (em
graus Celsius).
Eixo Y: Vendas.
Retiramos a legenda,
pois no h necessidade
neste grfico.
Ao pressionar "Avanar"
chegamos
na
tela
mostrada na figura 8.
Figura 7 - Assistente grfico - 3a etapa

Escolhe-se onde queremos que o


diagrama
seja
posicionado.
Selecionando "Como objeto em:"
o grfico ser colocado na
planilha onde esto os seus dados,
o que pode ser mais interessante.
O diagrama resultante est na
figura 9.
Figura 8 - Assistente grfico - 4a etapa

Figura 9 - Diagrama de disperso: Vendas por temperatura

Se colocarmos o mouse sobre o grfico (na parte branca) e pressionarmos o boto esquerdo,
teremos uma situao semelhante mostrada na figura 10.

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Figura 10 - Diagrama de disperso: grfico e dados

Observe que ao selecionar o


grfico as clulas que contm os
dados que o geraram tem suas
bordas coloridas, o que pode ser
til para avaliar se no houve
erros ou falta de alguns valores.
O grfico das figuras 9 e 10
apresenta alguns problemas: a
escala do eixo X deixou os
dados muito prximos, o que
pode dificultar a anlise do
diagrama; o fundo cinza do
grfico pode resultar em gasto
desnecessrio de tinta se
decidirmos imprimi-lo depois.

Temos que modificar a escala do eixo X, e o fundo cinza. Comearemos por este ltimo,
precisamos selecionar a rea de plotagem do grfico: ao colocarmos o cursor sobre o grfico, sobre
a parte cinza, e pressionando o boto esquerdo do mouse, vamos obter a tela mostrada na figura 11.
Colocando o cursor sobre a
rea
de
plotagem,
j
selecionada, e pressionando o
boto direito do mouse
teremos a tela mostrada na
figura 12, com as vrias
opes possveis.

Figura 11 - Seleo da rea de plotagem

Estamos interessados na
primeira opo: "Formatar
rea
de
plotagem".
Escolhendo esta opo o
Excel apresentar a tela
mostrada na figura 13.

Figura 12 - Opes para a rea de plotagem

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Figura 13 - Formatao padro da rea de plotagem

Figura 14 - rea de plotagem com fundo branco

Na figura 13 vemos a formatao padro da rea de plotagem, com fundo cinza: observe no campo
"rea" que a cor cinza est selecionada, fazendo com que o campo "Exemplo" tambm tenha cor
cinza. Na figura 14 selecionamos a cor branca, fazendo com que o campo "Exemplo" passe a ser
branco tambm. Pressionando "OK" o grfico passar a ser como o da figura 15.
Resolvemos o problema do fundo, agora
precisamos modificar a escala. Para tanto
preciso colocar o cursor exatamente sobre
o eixo X, e pressionando o boto esquerdo
do mouse teremos uma situao como a
exposta na figura 16. Posteriormente,
mantendo o cursor sobre o eixo e
pressionando o boto direito do mouse
vamos ter acesso s opes relativas ao
eixo X, como mostrado na figura 17.
Figura 15 - Diagrama de disperso com fundo branco

Figura 16 - Seleo do eixo X

Figura 17 - Opes para o eixo X

Pressionando "Formatar eixo" vamos ter acesso a uma srie de opes de modificao do eixo X,
mostradas na figura 18.

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Figura 18 - Opes de formatao de eixo: escala

Figura 19 - Formatao de eixo: escala modificada

Escolhendo a opo "Escala" chegamos figura 18. O comportamento padro do Excel construir
a escala do grfico com os valores mnimo e mximo encontrados nos dados. Mas algumas vezes,
como no nosso problema, isso pode ser modificado, levando a um grfico em que os dados esto
muito concentrados. Como TODOS os valores de temperatura esto acima de 25 graus Celsius,
vamos mudar o "Mnimo" da escala para 25, o que pode ser visto na figura 19. Pressionando "OK"
vamos chegar ao grfico mostrado na figura 20.

Figura 20 - Diagrama de disperso vendas por temperatura - Final

Agora podemos fazer uma anlise do diagrama de disperso:


- as variveis parecem estar fortemente correlacionadas, porque os pontos encontram-se bastante
prximos.
- a correlao entre elas parece ser positiva, pois se observa que a nuvem de pontos tem um
comportamento crescente, ou seja, maiores valores de temperatura, maiores valores de vendas (e
razovel imaginar que realmente um aumento na temperatura cause um aumento nas vendas).
- quanto forma do relacionamento, isto , que tipo de curva poderamos ajustar aos dados para
realizao de previses, talvez seja interessante pensar em um polinmio de segundo grau, ou uma
exponencial; a utilizao de uma reta talvez no seja uma boa idia.
6

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

2. Ajuste de uma tendncia a um diagrama de disperso.


Imagine que quisssemos ajustar uma reta ao diagrama de disperso mostrado na figura 20,
no obstante a anlise feita. Como proceder? O Excel permite ajustar uma variedade de curvas aos
dados mostrados em um diagrama de disperso, e ainda calcula os coeficientes das equaes das
curvas, pelo mtodo dos mnimos quadrados (ou seja, obtm os coeficientes minimizam a soma dos
quadrados dos desvios entre os valores observados e os previstos por cada curva).
Para fazer o ajuste de qualquer curva, que no Excel significa adicionar uma linha de
tendncia, o primeiro passo colocar o cursor sobre os pontos do grfico e pressionar o boto
esquerdo do mouse. Alguns pontos mudaro de cor, tal como mostrado na figura 21.
Em seguida, mantendo o cursor
sobre os pontos, precisamos
pressionar o boto direito do
mouse, e surgiro as opes
possveis para os dados, entre elas
"Adicionar linha de tendncia", tal
como mostrado na figura 22.

Figura 21 - Seleo de pontos no grfico

Figura 22 - Opes de modificao dos dados

Figura 23 - Tipos de curva

Se pressionarmos "Adicionar linha de


tendncia" na figura 22 chegaremos
tela mostrada na figura 23. O tipo
padro de linha a linear (reta), mas
podemos selecionar outras. No nosso
problema vamos manter a curva
linear, mas queremos que o Excel
exiba a equao e o valor de Rquadrado
(coeficiente
de
determinao) no grfico. Ento, em
"Opes" (figura 24) selecionamos
ambos. Pressionando "OK" o grfico
ficar como o da figura 25.

Figura 24 - Opes para os tipos de curva


7

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Observe no canto superior


direito da figura a equao
da reta, com um coeficiente
angular
positivo
(reta
crescente), e o coeficiente
de determinao, que vale
0,8565. Este valor significa
que cerca de 85,65% da
variabilidade mdia das
vendas pode ser explicada
pela variabilidade mdia da
temperatura, atravs do
modelo de regresso.
Figura 25 - Diagrama de disperso com reta

Embora o valor de R2 sugira que a reta um bom modelo de regresso, devemos observar
com cuidado o grfico, e lembrar a anlise feita na figura 20. Realmente a reta passa "entre" a
maioria dos pontos, mas talvez outra curva apresente um melhor ajuste aos dados (polinmio de
segundo grau ou exponencial, conforme sugerido anteriormente). Para realmente saber se o modelo
ajustado bom precisamos analisar seus resduos.

3. Anlise de resduos
Uma vez tendo construdo o diagrama de disperso para as duas variveis, e adicionado a
linha de tendncia a ele, pode ser interessante realizar a anlise dos resduos do modelo. Se o
modelo for apropriado os resduos devero ter um comportamento aleatrio, sem nenhum padro
identificvel, mostrando que a variao residual, que no pode ser explicada pelo modelo
realmente casual, e ele poder ser utilizado para realizar previses e seus resultados sero teis na
tomada de deciso. Se, porm, algum padro for detectado nos resduos a varincia residual no
aleatria, o que significa que o modelo no est conseguindo "explicar" de maneira consistente o
relacionamento entre as variveis, e, portanto, as previses feitas pelo modelo so questionveis.
Isso pode acontecer mesmo que o R2 assuma um valor elevado. Sendo assim a anlise de resduos
indispensvel para avaliar a adequao de qualquer modelo de regresso, sendo especialmente
importante nos casos de regresso mltipla, onde muitas vezes no possvel plotar um grfico dos
dados.
Pensando nos dados de Vendas e Temperatura, estudados nos itens 1 e 2, que culminaram no
grfico mostrado na figura 25, queremos analisar os resduos do modelo linear (reta). O primeiro
passo calcular os valores de vendas previstos pelo modelo linear: na clula C2 da planilha
inserimos a frmula com a equao da reta obtida pelo Excel, tal como na figura 26.

Figura 26 - Frmula de previso de vendas (reta)

Observe que a frmula construda


em funo da temperatura (cujo
primeiro valor est na clula A2).
Aps digitar a frmula e pressionar
"Enter" (ou "Return", dependendo do
computador), podemos colocar o
cursor
sobre
a
clula
C2,
selecionando-a.

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Para estender os clculos a todos os valores de temperatura basta "arrastar" a frmula at a ltima
linha do arquivo. As previses de vendas atravs do modelo linear estaro ento completas.
Para calcular os resduos devemos obter a diferena entre os valores observados de Vendas e
os valores previstos atravs do modelo linear. A figura 27 mostra isso.
Novamente, basta construir a frmula
para o primeiro valor e "arrast-la" at
a ltima linha para obter todos os
resduos do modelo.
Figura 27 - Clculo dos resduos

A obteno dos resduos muito importante, mas dependendo da unidade das variveis os
resduos podero ser consideravelmente grandes em valores absolutos, embora em termos relativos
sejam pequenos, ou o contrrio. Podemos ter resduos pequenos em termos absolutos, mas
substancialmente grandes em relativos. Para que a anlise seja feita objetivamente preciso
padronizar os resduos: subtra-los de sua mdia esperada (que deve ser igual a zero se o modelo for
bom) e dividir pelo seu desvio padro. O clculo do desvio padro dos resduos est mostrado na
figura 28.
Inserimos a frmula do desvio
padro amostral, com os dados
das clulas D2 a D251, que
contm os resduos calculados
anteriormente. O resultado est
mostrado na figura 29.
Figura 28 - Clculo do desvio padro dos resduos

Para obter os resduos padronizados basta dividir cada resduo pelo desvio padro. Para que
no haja problemas ao "arrastar" a frmula preciso dar uma referncia absoluta ao denominador
da frmula: acrescentar $ antes da letra que designa a coluna e antes do nmero que designa linha,
tal como na figura 29.

Figura 29 - Clculo dos desvios padronizados

Para obter todos os resduos basta "arrastar" a frmula at a ltima linha do arquivo.
Uma vez obtidos os resduos padronizados podemos fazer a sua anlise propriamente dita.
Precisamos construir dois diagramas de disperso dos resduos: resduos padronizados em funo de
X (Temperatura), e resduos padronizados em funo dos valores preditos. O procedimento
semelhante ao visto no item 1, mudando apenas os valores de X e de Y, e escrevendo os ttulos
adequados, o que mostrado nas figuras 30 e 31.

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Observe a escala do diagrama. Novamente


precisamos modific-la, bem como o fundo
cinza. Devemos fazer o mesmo procedimento
tambm para o diagrama dos resduos
padronizados pelos valores preditos. Os
diagramas resultantes esto nas figuras 32 e 33.

Figura 30 - Dados para o anlise de resduos

Figura 31 - Ttulos do diagrama de disperso

Fazendo a anlise dos resduos


mostrados na figura 32.
Observe a escala vertical do
grfico: devemos sempre tornla simtrica ao zero, para
auxiliar na anlise:
1) Nmero de resduos positivos
semelhante ao dos negativos.
2) As distncias dos resduos
positivos a zero so maiores do
que as dos negativos.
3) H um padro nos resduos,
parece uma parbola.
Figura 32 - Resduos padronizados por temperatura - Modelo linear

Fazendo a anlise dos resduos


mostrados na figura 33.
1) Nmero de resduos positivos
semelhante ao dos negativos.
2) As distncias dos resduos
positivos a zero so maiores do
que as dos negativos.
3) H um padro nos resduos,
parece uma parbola.
Juntando a anlise dos dois
diagramas chegamos concluso
que o modelo linear NO
apropriado para o problema, pois
seus resduos no se comportam
Figura 33 - Resduos padronizados por valores previstos - Modelo linear
de forma aleatria.
Sugerimos a utilizao de outro modelo.
10

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Repetindo o procedimento das Figuras 21 a 23 podemos escolher o modelo Polinmio do 2 grau. O


resultado pode ser visto na Figura 34, superposto ao resultado da Figura 25.
Ttulo do grfico
4000

y = 23,039x2 - 1220,1x + 17074

3500

R2 = 0,9147

Vendas

3000

y = 255,17x - 6451,7

2500

R = 0,8565

2000
1500
1000
500
0
25

27

29

31

33

35

37

39

Temperatura

Figura 34 - Diagrama de disperso com reta e polinmio do 2 grau

Percebe-se que o coeficiente de determinao do polinmio de 2 grau maior do que o da reta. E,


tambm, o ajuste da curva do polinmio de 2 grau aos pontos bem melhor. Provavelmente os
resduos sero melhores do que os da reta. Outros modelos poderiam ser ajustados, resultando na
Figura 35.

Temperatura por Vendas


y = 255,17x - 6451,7
4000

R = 0,8565

3500
y = 1,81E-04x

3000

Vendas

y = 23,039x - 1220,1x + 17074

R2 = 0,9147

4,62E+00

R = 8,85E-01

2500
y = 8021,5Ln(x) - 26071
2000

R = 0,8344

y = 15,409e

1500

0,1458x

R2 = 0,8924

1000
500
0
25

27

29

31

33

35

37

39

Temperatura
Figura 35 - Diagrama de disperso com cinco modelos de regresso

Todos os cinco modelos aplicveis esto no grfico da Figura 35: reta, polinmio de 2 grau,
logartmico, exponencial e potncia. Mas, observe o formato dos coeficientes no modelo potncia:
est cientfico, 1,81E-04x4,62E+00. Isso significa 0,000181x4,62, que o formato que devemos usar
nas previses. s vezes o Excel automaticamente apresenta as equaes de um modelo em formato
cientfico, e com um nmero insuficiente de casas decimais, o que pode prejudicar nossas previses.
Para mudar o formato e as casas decimais veja o procedimento a seguir.
11

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Selecione a equao do modelo potncia na Figura 35:

Figura 36 - Seleo de uma equao

Clicando duas vezes sobre a equao surge a tela da Figura 37.


s vezes o Excel apresenta os
dados em formato cientfico, mas
na
categoria
Geral.
Se
quisermos que os nmeros sejam
apresentados da forma usual
devemos escolher Nmero e
quantas casas decimais forem
necessrias: no nosso caso, como
o Excel usou E-04, deve-se
escolher no mnimo 4, mas o ideal
um pouco mais para ganhar
preciso nas previses, 6, por
exemplo. O resultado pode ser
visto na Figura 38.
Figura 37 Formatao de rtulo de dados: Nmero

Temperatura por Vendas


y = 255,17x - 6451,7
4000

R = 0,8565

3500
y = 0,000181x

3000
Vendas

y = 23,039x - 1220,1x + 17074

R = 0,9147

4,624102

R = 0,885469

2500
y = 8021,5Ln(x) - 26071
2000

R = 0,8344

y = 15,409e

1500

0,1458x

R2 = 0,8924

1000
500
0
25

27

29

31

33

35

37

39

Temperatura

Figura 38 - Diagrama de disperso com cinco modelos de regresso - modificado

12

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel

Na Figura 26 fizemos a previso usando o modelo de Reta, agora apresentaremos as


previses pelos outros modelos disponveis:

Figura 39 - Modelo polinmio de 2o grau (para equao da Figura 38)

Na Figura 39 possvel observar que no lugar de X colocamos a primeira clula do intervalo


que contm os valores de temperatura (clula A2). Observe que o ^ o smbolo de potenciao no
Excel (e no Calc tambm). Basta arrastar at a clula R251 para completar a previso pelo modelo
polinmio de 2 grau. O clculo dos resduos, desvio padro dos resduos e resduos padronizados
anlogo ao caso da reta (para este e para os prximos modelos).

Figura 40 - Modelo logartmico (para equao da Figura 38)

Na Figura 40 possvel observar que no lugar de X colocamos a primeira clula do intervalo


que contm os valores de temperatura (clula A2). Observe que LN() uma funo do Excel (e do
Calc tambm) que permite calcular o logaritmo neperiano (com base igual a e, a constante de
Neper, igual a 2, 71828...). Basta arrastar at a clula V251 para completar a previso pelo modelo
logartmico.

Figura 41 - Modelo potncia (para equao da Figura 38)

Na Figura 41 possvel observar que no lugar de X colocamos a primeira clula do intervalo


que contm os valores de temperatura (clula A2). Observe que X (no caso o contedo da clula
A2) elevado (^) a 4,624102, que expoente do modelo potncia (ver Figura 38). Basta arrastar at
a clula Z251 para completar a previso pelo modelo potncia.

Figura 42 - Modelo exponencial (para equao da Figura 38)

Na Figura 42 possvel observar que no lugar de X colocamos a primeira clula do intervalo


que contm os valores de temperatura (clula A2). Observe que EXP() uma funo do Excel (e do
Calc tambm) que permite calcular o valor da constante de Neper (e = 2, 71828...) elevada ao
produto de 0,1458 pelo contedo da clula A2). Basta arrastar at a clula AD251 para completar a
previso pelo modelo exponencial.
Vejam os resduos padronizados do modelo polinmio do 2 grau:
13

Anlise Bidimensional de Variveis Quantitativas usando o Microsoft Excel


R e s d u o s p a ra p a r b o la

4
R e s d u o s p a d ro n iz a d o s

3
2
1
0
-1 2 5

30

35

40

-2

Fazendo a anlise dos resduos


mostrados na Figura 43.
1) Nmero de resduos positivos
semelhante ao dos negativos.
2) As distncias dos resduos
positivos e negativos a zero so
semelhantes.
3) Os resduos distribuem-se
aleatoriamente, sem padro.

-3
-4
Te m p e ra t u ra

Figura 43 - Resduos do polinmio de 2 grau por temperatura


R e s d u o s p a ra p a r b o la

4
R e s d u o s p a d ro n iz a d o s

3
2
1
0
-1 5 0 0

1000

1500

2000

2500

3000

-2
-3
-4
V a lo re s p re d it o s

Figura 44 - Resduos do polinmio do 2 grau por valores preditos

Fazendo a anlise dos resduos


mostrados na Figura 44.
1) Nmero de resduos positivos
semelhante ao dos negativos.
2) As distncias dos resduos
positivos e negativos a zero so
semelhantes.
3) Os resduos distribuem-se
aleatoriamente, sem padro.
Juntando a anlise dos dois
diagramas chegamos concluso
que o modelo de polinmio de 2
grau apropriado para o
problema, pois seus resduos se
comportam de forma aleatria.

14

Você também pode gostar