Você está na página 1de 24

2.2.

ANLISE ESTATSTICA

2.2.1. DADOS OPERACIONAIS

Uma unidade industrial monitorada a partir da anlise sistemtica individual


das variveis tidas como principais tende a ser de difcil controle, facilmente
sujeita a instabilidades decorrentes de variaes operacionais, comuns a
todas unidades, por diferentes causas.

Contudo, este tipo de monitoramento pressupe que a qualidade destes


dados seja boa, permitindo que se faa uma anlise mais abrangente,
utilizando ferramentas estatsticas, procurando relacionar as variveis,
tentando estabelecer outras possibilidades que facilitem o controle da
unidade,

estabilizando-a,

melhorando

consequentemente

operao,

tornando possvel sua otimizao.

Alm da boa qualidade dos dados disponveis, um passo inicial fundamental


para o sucesso deste tipo de anlise saber como os organizar, sendo para
tal necessrio ter um bom conhecimento da unidade em estudo, evitando
misturar dados gerados com caractersticas processuais ou produtivas
diferentes, o que torna a interpretao dos resultados difcil, alm de invalidar
qualquer tipo de predio. Uma anlise global dos dados disponveis,
constituindo

um

universo

expressivo,

mas

misturando

caractersticas

operacionais, conforme mencionado, usualmente menos conclusiva que a


anlise feita sobre um universo constitudo de um nmero expressivamente
menor de dados, mas em que certas caractersticas operacionais foram
selecionadas.

62

Evidentemente, para que tal comparao possa ser feita, h a necessidade


de que a anlise sobre os universos em comparao seja feita, permitindo
posteriormente avaliar qual universo mais representativo do modo que se
pretende controlar a unidade.

Apesar da anlise pretendida neste estudo utilizar ferramentas estatsticas,


o conhecimento do processo fundamental para que os resultados sejam
coerentes, preditivos e conclusivos.

Concluindo, seja qual for o nmero de universos disponveis, em que os


dados operacionais estejam distribudos, a anlise estatstica de todos se faz
necessria, para que, com seus resultados, interpretados conjuntamente com
as caractersticas processuais, operacionais ou produtivas, que diferenciam os
universos estudados, seja possvel estabelecer de forma segura o modo
atravs do qual se pretende realizar as predies.

2.2.2. MATRIZ DE CORRELAES

Designada por Matrix Plots no software estatstico Minitab, utilizado no


desenvolvimento deste estudo, consiste de uma matriz bi-dimensional
composta por grficos correlacionando as diversas variveis entre si, sendo
til para visualizar de forma imediata as potenciais correlaes entre duas
variveis, entre todas as variveis envolvidas, j que possvel identificar as
correlaes significativas em um grfico, economizando tempo (Minitab,
2000).

63

A matriz de correlaes utilizada para iniciar a anlise estatstica dos


dados histricos dos diversos universos estudados, identificando visualmente
as variveis envolvidas no estudo que se relacionam entre si, conforme
mostrado a seguir:
MatrixP lot 'Z1' 'Z2' 'Z3' 'Z4' 'Z5' 'Z6' 'Z7' 'Y2';

6,9

Z1

2,7
8,025
Z2

2,875
0,8775

Z3

0,4925
5,875

Z4

4,225
19,325
Z5

11,175
34,1

Z6

27,1
33175

Z7

28305
12,3

Y2

8,5

2 ,7

6,9

2 ,8

75

8 ,0

25

0 ,4

92 5

0 ,8

77 5

25
4,2

75
5,8

11 ,1

75

25
19 ,3

2 7,1

3 4,1

0
28 3

75
331

8 ,5

12 ,3

Figura 2.27 Exemplo de matriz de correlaes de anlise estatstica, indicando as variveis


que se relacionam.

2.2.3. CARTA DE CONTROLE

As matrizes bi-dimensionais de correlao entre as variveis evidenciam


pontos que eventualmente estejam fora de controle, no possibilitando muitas
vezes que se detecte visualmente as potenciais correlaes.

A carta de controle ou carta de valores individuais de cada uma das


variveis envolvidas permite visualizar pontos que estejam fora de controle,
permitindo, por exemplo, melhorar a qualidade da anlise via as matrizes de
correlao, caso os conjuntos contendo estes pontos sejam eliminados.

64

Para tanto, necessrio que, aps a realizao inicial da anlise via


matrizes de correlaes, para todas as matrizes bi-dimensionais em que se
julgue haver pontos fora de controle, que a carta de controle da varivel com
problema seja aberta. Com a carta possvel detectar se a excessiva
variao percebida normal ou no, de acordo com o determinado pelos
mtodos descritos na literatura, a partir dos dados observados (Montgomery,
2001). Se for considerada normal, ou explicvel por algo de conhecimento
comum, o conjunto preservado. Caso contrrio, h necessidade de eliminar
o conjunto de dados que contenha aquele ponto.

Usualmente percebe-se que a varivel muito constante e que o ponto


visualizado como fora de controle est dentro de sua normalidade. possvel
tambm detectar erros de leitura, ou mesmo de digitao; neste caso, se uma
correo for possvel, o conjunto de dados a que pertence o ponto mantido.

Por outro lado, ao abrir as diversas cartas de controle das variveis em que
se detectou uma variao excessiva, possvel explicar uma poca de
operao anormal, facilitando a deciso de eliminar os conjuntos que
contenham estes valores anmalos.

Aps concluir a anlise atravs das cartas de controle, conforme o descrito,


eliminando os conjuntos contendo os referidos pontos, se faz necessrio fazer
nova anlise atravs da matriz de correlao, que, com segurana,
proporcionar uma melhor visualizao das eventuais correlaes entre as
diversas variveis, permitindo a evoluo da anlise estatstica.

65

17000

1
11

16000

1
1

Individual Value

15000

1 11

UCL=14881

14000
13000

_
X=12438

12000
11000
10000

LCL=9995

9000
1

8000
1

27

53

79

105 131 157


Observation

183

209

235

Figura 2.28 Exemplo de carta de controle de varivel envolvida em anlise estatstica,


sugerindo a eliminao de conjuntos em que se evidencia a perda controle.

2.2.4. TESTE DE CORRELAO DE PEARSON

Compreende a determinao do grau de relao entre duas variveis, dado


pelo coeficiente de Pearson, tambm chamado de coeficiente de correlao,
ou ainda, simplesmente correlao para os pares de variveis. Este
coeficiente de correlao expressa o grau de dependncia linear entre duas
variveis. O coeficiente de correlao tem valores entre 1 e +1, sendo
negativa quando uma varivel diminui com o aumento da outra varivel, e
positiva quando uma varivel aumenta com o aumento da outra.

66

Para duas variveis quaisquer sendo testadas, x e y, calcula-se o coeficiente


de correlao de Pearson_ r, como segue:

r=

( x x ) ( y y )
(n 1) s x s y

(2.11)

onde,
x - mdia do conjunto de dados da primeira varivel;
sx desvio padro do conjunto de dados da primeira varivel;
y - mdia do conjunto de dados da segunda varivel;
sy desvio padro do conjunto de dados da segunda varivel.

Supondo a distribuio normal dos dados, a significncia do coeficiente de


correlao testada, via determinao do nvel de significncia, expresso pelo
de valor p, para testar as hipteses nula e alternativa, isto :

H0:

r = 0, no h correlao.

H1:

r 0, h correlao.

A rejeio da hiptese nula ser julgada com o seguinte critrio:

Correlao fraca 0,05 < p 0,1


0,01 < p 0,05

forte

fortssima

p < 0,01

67

O Minitab imprime todos os testes entre os pares de variveis como uma


matriz, indicando numa primeira linha o coeficiente de Pearson e, na segunda
linha o valor p. Desta forma, pode-se visualizar facilmente quais as variveis
que se relacionam entre si, bem como, comparar as relaes entre os
diferentes pares de variveis, como se pode observar no exemplo a seguir:
Correlations: Z1; Z2; Z3; Z4; Z5; Z6; Z7; Y2

Z1
0,600
0,000

Z2

Z3

0,134
0,179

0,153
0,125

Z4

-0,184
0,064

-0,256
0,009

0,013
0,896

Z5

-0,283
0,004

-0,360
0,000

-0,187
0,060

0,031
0,756

Z6

0,068
0,499

0,065
0,515

-0,062
0,539

-0,200
0,043

-0,032
0,749

Z7

0,005
0,962

-0,008
0,935

0,121
0,224

-0,045
0,652

-0,091
0,364

0,357
0,000

Y2

-0,135
0,177

-0,083
0,408

0,490
0,000

0,067
0,502

-0,143
0,153

-0,142
0,153

Z2

Z3

Z4

Z5

Z6

Z7

0,595
0,000

Cell Contents: Pearson correlation


P-Value

Figura 2.29 Exemplo de matriz de teste de correlao de Pearson de anlise estatstica,


indicando as variveis que se relacionam.

2.2.5. CODIFICAO DAS VARIVEIS

No planejamento de um programa experimental, o executor v-se


usualmente com os seguintes problemas:

escolher as variveis de entrada a serem utilizadas no experimento;

68

selecionar a faixa de variao, bem como o nmero de nveis de cada


varivel, de forma a avaliar adequadamente os efeitos de cada varivel
sobre a resposta.

Somente ao resolver estes problemas o programa experimental estar


definido. Uma questo que dificulta a interpretao da resposta a diferena
de natureza das variveis de entrada, bem como, no caso das variveis serem
da mesma natureza, diferenas de unidades, ou ainda, diferentes faixas de
variao. Dependendo das diferenas descritas, a resposta de dificlima
interpretao ou visualizao. Por exemplo, no caso do experimento de uma
reao qumica com trs variveis independentes, temperatura, tempo e
presso, variando entre 120 e 230C, 5 a 10 segundos e 5,3 a 8,8 kgf/cm
respectivamente, os nveis mnimos e mximos estariam dispostos nos
vrtices de um cubo, cuja construo seria difcil, bem como difcil seria sua
visualizao.

A codificao das variveis independentes, normalizando os valores das


variveis entre 1 e +1, padronizaria o formato do cubo, facilitando a
visualizao das respostas.

A utilizao de variveis codificadas no lugar das variveis de entrada, em


sua forma original, como apresentada, facilita a montagem de projetos de
experimentos. A codificao remove as unidades de medida dos variveis,
bem como normaliza as dimenses do cubo que expressa suas possveis
variaes.

Se expressa, portanto, a codificao das variveis como:

69

xi =

2 X i ( X iL + X iH )
( X iL X iH )

(2.12)

onde,

Xi - varivel de entrada;
XiH - valor mximo da varivel;
XiL - valor mnimo da varivel;
xi - varivel codificada (Khuri& Cornell, 1987).

No caso do exemplo relativo ao experimento da reao qumica com trs


variveis, temperatura, tempo e presso, define-se a temperatura como X1,
sendo 120<X1<230C, tempo como X2, sendo 5<X2<10 segundos e presso
como X3, sendo 5,3<X3<8,8 kgf/cm. As variveis codificadas para o exemplo
so definidas, portanto como:

temperatura  x1 =

2 X 1 350
110

(2.13)

 x2 =

2 X 2 15
5

(2.14)

2 X 3 14,1
3,5

(2.15)

tempo

presso

 x3 =

Observa-se que, para cada uma das variveis independentes codificadas,


quando a varivel original de entrada tem o valor mnimo, o valor obtido para a
varivel codificada 1, +1, quando a varivel original de entrada tem o valor
mximo, e 0, quando a varivel original de entrada tem o valor mdio.

70

Existem diversas vantagens em utilizar as variveis codificadas ao ajustar


modelos polinomiais, sendo as principais:

facilidade computacional e aumento da preciso na determinao dos


coeficientes do modelo;

melhora a interpretao e visualizao da estimativa dos coeficientes no


modelo;

possibilita a execuo de anlises, preservando a confidencialidade de


dados operacionais.

2.2.6. REGRESSO

2.2.6.1. INTRODUO

A anlise por regresso uma ferramenta estatstica que utiliza as relaes


entre duas ou mais variveis, de tal forma que uma varivel possa ser predita
a partir da outra ou das outras (Netter et alii, 1983).

A regresso pode expressar relaes funcionais ou estatsticas. A funcional


expressa por frmulas matemticas, em que Xi, sendo i = 1, 2, 3, ....., so as
variveis independentes e Yj, sendo j =

1, 2, 3, ....., so as variveis

dependentes, determinadas a partir das primeiras.

A relao estatstica no perfeita, pois, em geral, os pontos no se


localizam sobre a curva, sendo que, cada ponto, resultado de uma
observao ou ensaio, realizado de forma aleatria. Apesar das relaes
estatsticas serem muito teis, no so to exatas quanto as relaes
funcionais.

71

Um modelo de regresso um meio de expressar duas caractersticas


essenciais de uma relao estatstica:

a tendncia das variveis dependentes Yj se relacionarem com as


variveis independentes Xi de um modo sistemtico, ou funcional, ou
seja, atravs de frmulas matemticas, ou, modelos;

o conjunto de pontos espalhados ao redor de uma curva de relao


estatstica.

Como a realidade precisa ser reduzida a propores manipulveis, sempre


que se estabelece um modelo de regresso, apenas um certo nmero de
variveis independentes deve ser includo no modelo de regresso, o que
um ponto importante a ser discutido. Juntamente com este ponto, deve-se
configurar a forma funcional do modelo que se pretende utilizar, apesar de
que, usualmente, s se pode determinar com preciso este ponto aps coleta
de dados e anlises.

A determinao do modelo de regresso deve garantir a trs propsitos


bsicos na anlise de regresso de um determinado fenmeno ou evento em
estudo:
-

descrio;

controle;

predio.

O modelo bsico de regresso o estabelecido somente para uma varivel


independente e a funo de regresso linear, expressa por:
Yi = 0 + 1 Xi + i,

(2.16)

onde,

72

Yi valor da varivel de resposta no ensaio ou medida i;


0 e 1 parmetros de regresso;
Xi valor da varivel independente no ensaio ou medida i;
i termo relativo ao erro aleatrio com mdia E(i)=0 e varincia
(i)=;
i = 1, 2, 3, ..., n

O modelo descrito dito simples, linear em parmetros e linear em variveis


independentes, tambm denominado de modelo de primeira ordem e a funo
de regresso uma linha reta. Os parmetros de regresso 0 e 1
normalmente no so conhecidos, sendo determinados atravs de dados
experimentais ou no experimentais, utilizando mtodos como o dos mnimos
quadrados, da mxima semelhana, etc..

A anlise de regresso mltipla uma das mais largamente utilizadas de


todas ferramentas estatsticas. Quando duas variveis independentes X1 e X2
so utilizadas, o modelo dado por:
Yi = 0 + 1 Xi1 + 2 Xi2 + i

(2.17)

onde,

Yi valor da varivel de resposta no ensaio ou medida i;


0 ,1 e 2 parmetros de regresso;
Xi1 e Xi2 valores das variveis independentes no ensaio ou medida i;
i termo relativo ao erro aleatrio com mdia E(i)=0 e varincia
(i)=;
i = 1, 2, 3, ..., n

A funo de regresso deste modelo um plano e, analogamente ao


modelo de primeira ordem, os parmetros de regresso 0 ,1 e 2,

73

igualmente desconhecidos, so determinados pelos mesmos mtodos


descritos anteriormente.

Para a anlise de regresso utilizando um modelo de mltiplas variveis,


define-se o modelo geral de regresso, dado por:

Yi = 0 + 1 Xi1 + 2 Xi2 +.......+ p-1 Xip-1 + i

(2.18)

onde,

Yi valor da varivel de resposta no ensaio ou medida i;


0 ,1 , 2 , ......... , p-1 parmetros de regresso;
Xi1, Xi2, ....., Xip-1 valores das variveis independentes no ensaio ou
medida i;
i termo relativo ao erro aleatrio com mdia E(i)=0 e varincia
(i)=;
i = 1, 2, 3, ..., n

A funo de regresso deste modelo um hiperplano, que um plano em


mais de duas dimenses, representada graficamente, para determinadas
variveis fixas, atravs da superfcie de resposta. Analogamente ao modelo
de primeira ordem, os parmetros de regresso 0, 1, 2, ....., p-1,,
igualmente desconhecidos, so igualmente determinados pelos mesmos
mtodos descritos anteriormente (Netter et alii, 1983).

2.2.6.2. DETERMINAO DO MELHOR SUBCONJUNTO DE REGRESSO

Como o objetivo de uma anlise por regresso o de estabelecer um


modelo que descreva, controle e faa predies sobre o fenmeno em estudo,

74

um problema que se impe o de estabelecer o conjunto adequado de


variveis independentes a serem consideradas no modelo.

Para um fenmeno qualquer em estudo, o passo inicial o de observar as


variveis independentes que potencialmente o influenciam, o que pode
usualmente resultar num nmero elevado; inicia-se ento um processo de
seleo, eliminando as variveis independentes excedentes de acordo com o
seguinte critrio:

no so realmente fundamentais para o fenmeno em estudo;

esto sujeitas a grandes erros de medida;

podem efetivamente duplicar outra varivel independente.

Tipicamente, o nmero de variveis independentes remanescentes aps


uma seleo preliminar, como anteriormente descrita, continua a ser elevado.
Alm do mais, muitas destas variveis so potencialmente correlacionveis,
piorando a qualidade do modelo, quanto sua capacidade de executar
predies. Trabalhar com modelos com elevado nmero de variveis
independentes eleva desnecessariamente o custo, pois envolve nmero
excessivo de medies e anlises, aumentando ou potencializando a
probabilidade de ocorrncia de erros, que interferem na exatido do modelo.

Apesar de haver a necessidade de eliminar variveis, deve-se tomar


cuidado, contudo, para que variveis explicativas, fundamentais para a
exatido do modelo, no sejam desnecessariamente eliminadas, o que pode
danificar seriamente a capacidade esclarecedora do modelo, conduzindo
ainda

determinao

de

coeficientes

de

correlao

afetados

por

interferncias, que resultam em respostas fracas, alm de predies falhas.

75

A questo ento saber como diminuir o nmero de variveis


independentes, mantendo as qualidades do modelo, executando, portanto a
boa seleo de variveis independentes. Este subconjunto de variveis
independentes precisa ser pequeno o suficiente para reduo de custos e
facilidade de anlise, e, ao mesmo tempo, grande o suficiente para garantir as
qualidades do modelo quanto descrio, controle e predio.

Como as razes para execuo da anlise por regresso variam, no existe


um subconjunto que seja o melhor para todos usos. Para um determinado
fenmeno em estudo, comum achar vrios subconjuntos que apresentem
igual desempenho, mas a escolha do subconjunto a ser utilizado num modelo
de regresso precisa ser feita com base em consideraes adicionais. O
processo de seleo , e deveria ser, pragmtico, apesar de ser importante
saber no desprezar fundamentais julgamentos subjetivos. Deve-se sempre
evitar julgamentos por razes mecnicas, como, por exemplo, eliminar uma
varivel independente porque, na amostra analisada, apresentou uma estreita
faixa de variao, tornando-se estatisticamente sem significado, o que no
verdade.

O procedimento descrito na referncia (Netter et alii, 1983), identificado


como seleo de todas regresses possveis, requer um exame de todos os
possveis modelos, envolvendo as potenciais variveis independentes _X,
identificando os subconjuntos bons, de acordo com um critrio estabelecido,
a ser descrito a seguir. Inicia-se a anlise pelo modelo de regresso sem
variveis independentes X, seguindo-se dos modelos de regresso com uma
varivel independente Xi (X1, X2, X3, X4, ...), e, depois destes, os modelos de
regresso com duas variveis independentes Xi (X1 e X2, X1 e X3, X1 e X4,
....., X2 e X3, X2 e X4, X3 e X4, .......), e assim por diante.

Diferentes critrios de comparao podem ser utilizados no procedimento


seleo de todas regresses possveis, mas conforme o usualmente indicado

76

(Hocking, 1976; Netter et alii, 1983, Breyfogle, 1999), bem como aplicado no
software utilizado neste estudo (Minitab, 2000), trs critrios so mais comuns
e sero descritos com maiores detalhes.

Critrio RP
Define-se o coeficiente de determinao Rp como sendo a porcentagem de
pontos ajustados ao modelo de regresso, com relao ao universo total de
dados. utilizado para selecionar um ou vrios subconjuntos de variveis
independentes, onde o nmero de parmetros no modelo analisado indicado
pelo ndice p, significando, portanto que o modelo contm p componentes,
contando com a constante independente da varivel independente, ou seja,
p-1 variveis independentes, sendo expresso por:

Rp 2 =

SSRp
SSEp
= 1
SSTO
SSTO

(2.19)

onde,

SSEP - mede a variao da varivel dependente Y, quando o modelo de

regresso com p 1 variveis independentes utilizado;

SSTO - mede a variao (ou a impreciso) da varivel dependente Y, quando

nenhum modelo de regresso utilizado;

SSRP - a diferena entre SSEP e SSTO, tambm denominado resduo (Netter

et alii, 1983).

Como RP a razo das somatrias dos quadrados e o denominador


constante, porque independe do modelo de regresso, e como SSEP diminui
com o aumento de variveis independentes, RP aumenta com o acrscimo de
variveis (Netter et alii, 1983). O maior valor possvel de RP 1, o que ocorre
77

somente quando no houver resduo, ou seja, quando o modelo de regresso


proposto estiver totalmente ajustado ao universo total de dados (Farias, 2004).

O critrio de determinar o coeficiente de determinao Rp, que o mais


comumente utilizado na anlise de seleo de melhor subconjunto, consiste
no em maximizar RP, mas, principalmente saber qual o ponto em que a
incluso de novas variveis no modelo de regresso traz acrscimos
desprezveis em RP. Freqentemente, o ponto timo atingido quando um
nmero limitado de variveis independentes considerado no modelo de
regresso.

Construindo um grfico de RP versus p, a regio prxima ao ponto timo


mostra basicamente que RP no varia com p, nada significando aumentar p,
significando sim, ser possvel reduzir o nmero de variveis independentes
sem, contudo, alterar RP, que continua prximo ao valor mximo. Continuando
a reduzir o nmero de variveis independentes, confirma-se esta variao
desprezvel de RP, at que, para um determinado valor de p, abaixo do qual
se verifica uma drstica reduo de RP; o nmero de variveis independentes
p, em que se verifica este joelho o verdadeiro ponto timo, sendo
frequentemente utilizado para definir o modelo de regresso (Hocking, 1976;
Netter et alii, 1983).

Critrio Ra
Define-se o coeficiente de determinao ajustado Ra, como sendo a
porcentagem de pontos ajustados ao modelo de regresso, com relao ao
nmero total de pontos da amostra.

Como no critrio RP o valor mximo nunca diminui com o aumento de p, a


anlise do coeficiente de determinao ajustado _ Ra executada, levando

78

em considerao o nmero de variveis independentes, atravs do grau de


liberdade, sendo expressa por:

n 1 SSEp

Ra 2 = 1
n

SSTO

(2.20)

Sendo o erro mdio quadrtico das variveis independentes do modelo_


MSEp expresso por:

MSEp =

SSEp
n p

(2.21)

sendo,
(n p) nmero de graus de liberdade com que o erro estimado.

Expressa-se o coeficiente de determinao ajustado _ Ra por:

Ra 2 = 1

MSEp
SSTO
n 1

(2.22)

79

Pode-se observar que Ra aumenta somente se MSEp diminuir, j que


SSTO/(n-1) constante para um dado nmero de observaes de Y na

amostra. Portanto, Ra e MSE constituem um critrio equivalente. O mnimo


MSEp pode verdadeiramente aumentar com o aumento de p, o que resulta na

diminuio de SSEp, que se torna to pequeno que no suficiente para


compensar a perda devido ao aumento dos graus de liberdade.

O critrio consiste, portanto, em determinar o subconjunto de variveis


independentes X, que minimize MSEp, ou ento um ou vrios subconjuntos
para os quais MSEp to prximo do mnimo que, considerando mais variveis
no modelo de regresso no faa nenhuma diferena (Hocking, 1976; Netter
et alii, 1983).

Critrio Cp
Cp expressa a relao entre o erro quadrtico mdio total e as m variveis

ajustados

para

cada

um

dos

diversos

subconjuntos

de

variveis

independentes constituintes dos modelos de regresso (Hocking, 1976).

Assume-se que o modelo que incluir todas P-1 potenciais variveis


independentes _ X, cuidadosamente escolhidas de tal forma que o erro
quadrtico mdio _ MSE das P -1 variveis ajustadas (MSEm) uma estimativa
de .

Para estas condies, Cp expresso por:

Cp =

SSEp
(n 2 p )
MSEm

(2.23)

80

O critrio de utilizao do Cp consiste em procurar identificar os subconjuntos


de variveis independentes _ X para os quais:

o valor de Cp seja mnimo (indicando que o modelo est ajustado, por ter
varincia mnima);

o valor de Cp seja prximo a p (nmero de variveis independentes do


modelo de regresso).

Subconjuntos com valores mnimos de Cp tm um valor mnimo de erro


quadrtico mdio total. Quando o valor de Cp prximo ao valor de p a
interferncia no modelo de regresso pequena (Hocking, 1976; Netter et alii,
1983).

Pode ocorrer algumas vezes que o modelo de regresso baseado no


subconjunto de variveis independentes _ X com o mnimo valor de Cp
apresente alguma interferncia. Neste caso, deve-se preferir utilizar um
modelo de regresso, baseado em um nmero pouco maior de variveis
independentes _ X, para o qual o Cp seja ligeiramente maior, mas que no
envolva significativa interferncia, como o caso da anlise complementar
executada pelo software Minitab (Minitab, 2000), utilizado no desenvolvimento
deste estudo, que apresenta a determinao da varincia _s, raiz quadrada do
erro quadrtico mdio _ MSE, consistindo, portanto num critrio complementar
de anlise (Hocking, 1976).

Para ilustrar o descrito neste item, apresenta-se abaixo um quadro de sada


do Minitab, contendo todos os conceitos descritos.

81

Best Subsets Regression: Y2 versus Z^2; Z^3; Z^4; Z^5; Z^6; Z^7; Z^8
Response is Y2

Vars

R-Sq

R-Sq(adj)

C-p

1
1
2
2
3
3
4
4
5
5
6
6
7

40,8
22,4
56,3
56,2
68,9
57,9
70,0
69,1
70,5
70,3
70,8
70,5
70,8

40,2
21,6
55,4
55,2
67,9
56,5
68,7
67,7
68,8
68,6
68,8
68,5
68,5

86,7
142,1
41,8
42,2
5,8
39,1
4,5
7,2
5,1
5,7
6,1
7,1
8,0

1,2298
1,4079
1,0620
1,0636
0,90071
1,0485
0,88966
0,90289
0,88751
0,89032
0,88748
0,89237
0,89204

Z Z Z Z Z Z Z
^ ^ ^ ^ ^ ^ ^
2 3 4 5 6 7 8
X
X

X
X
X
X
X
X
X

X
X
X
X
X
X X
X
X X
X X X
X X X

X X
X
X X
X
X X
X X
X X
X X
X X
X X
X X

X
X
X
X

Figura 2.30 Exemplo de sada do Minitab para seleo de subconjunto de variveis


independentes para modelo de regresso.

2.2.6.3. ESTABELECIMENTO DO MODELO DE REGRESSO

Definido o melhor subconjunto de variveis independentes X, seja utilizando


qualquer um dos critrios descritos no item anterior, ou, conforme o realizado
pelo software Minitab, utilizado no desenvolvimento deste estudo, ajusta-se o
modelo de regresso mltipla para o mesmo universo de dados, definindo-se
as variveis do modelo, executando a diagnose da anlise, o que se faz
principalmente pela visualizao da probabilidade de erro que cada varivel
introduz, significando que quanto menor seu valor, ou seja, quanto mais
prximo de zero, melhor, significando que a baixa probabilidade de risco de
rejeitar a hiptese de que o coeficiente nulo, quando ele for verdadeiramente
nulo, ou ainda, baixos valores de p, como ser referenciado na anlise indica
que o coeficiente realmente existe (Soares & Siqueira, 2002).

82

A indicao do coeficiente de determinao ajustado (Ra), conforme o


detalhado em 2.2.6.2, um critrio para avaliar o quanto, em termos de
porcentagem de pontos ajustados, o modelo regresso ajustado explica das
variaes observadas, com relao ao nmero total de pontos da amostra. H
ainda a verificao grfica da distribuio dos resduos, diferena entre as
respostas calculadas pelo modelo e as medidas.

Por fim, identificam-se os pontos que esto fora do ajuste, em ingls outliers,
definidos atravs do termo distncia, que, se superior a 2, devem ser
eliminados, o que usualmente requer nova anlise, visando verificar se o
subconjunto selecionado na anlise inicial confirmado.

Repete-se o ajuste do modelo de regresso, mantendo o mesmo


subconjunto de variveis independentes X, ou, caso este no tenha sido
mantido, o novo subconjunto selecionado, repetindo o procedimento descrito
neste item (Minitab, 2000).

Definido o modelo de regresso mltipla, executa-se um teste na instalao


em estudo, dentro da mesma faixa de operao dos dados histricos, com o
propsito de validar o modelo, definindo-se previamente em que ponto as
variveis independentes devem ser ajustadas, visando melhor confirmao do
modelo estabelecido. O modelo estar validado se os valores obtidos para a
varivel dependente _ Y, calculados atravs do modelo, estiverem no intervalo
de confiana estipulado para Y.

Da mesma forma do que foi apresentado para o item anterior, tambm


visando ilustrar o descrito neste item, apresenta-se abaixo uma sada do
Minitab, contendo o descrito.

83

Regression Analysis: Y2 versus Z^2; Z^3; Z^5; Z^6; Z^7


The regression equation is
Y2 = 10,5 - 0,577 Z^2 + 1,30 Z^3 - 0,384 Z^5 - 1,89 Z^6 + 2,09 Z^7
Predictor
Constant
Z^2
Z^3
Z^5
Z^6
Z^7

Coef
10,5002
-0,5766
1,3003
-0,3838
-1,8948
2,0920

S = 0,8836

SE Coef
0,2506
0,2676
0,1720
0,3919
0,3003
0,1829

R-Sq = 72,3%

T
41,90
-2,15
7,56
-0,98
-6,31
11,44

P
0,000
0,034
0,000
0,330
0,000
0,000

R-Sq(adj) = 70,8%

Analysis of Variance
Source
Regression
Residual Error
Total
Source
Z^2
Z^3
Z^5
Z^6
Z^7
Unusual
Obs
3
17
18
59
70
74
88

DF
1
1
1
1
1

DF
5
91
96

SS
185,414
71,051
256,465

MS
37,083
0,781

F
47,49

P
0,000

Seq SS
1,986
73,355
2,802
5,140
102,131

Observations
Z^2
Y2
-0,39
9,5000
0,55
8,1000
-0,41
9,0000
0,05
11,6000
-0,29
6,6000
-0,29
11,5000
0,82
13,3000

Fit
8,0207
10,0817
10,9212
9,8128
8,4051
9,7139
13,4680

SE Fit
0,3914
0,2429
0,1044
0,2058
0,2464
0,1396
0,5781

Residual
1,4793
-1,9817
-1,9212
1,7872
-1,8051
1,7861
-0,1680

St Resid
1,87 X
-2,33R
-2,19R
2,08R
-2,13R
2,05R
-0,25 X

R denotes an observation with a large standardized residual


X denotes an observation whose X value gives it large influence.

Figura 2.31 Exemplo de sada Minitab para anlise do modelo de regresso mltipla ajustado
para as variveis independentes selecionadas.

84

Figura 2.32

Exemplo de sada Minitab para grfico dos resduos normalizados do modelo de


regresso mltipla ajustado.

Figura 2.33 Exemplo de sada Minitab histograma dos resduos do modelo de regresso
mltipla ajustado, para anlise estatstica realizada no presente estudo.

85

Você também pode gostar