Você está na página 1de 5

ARTIGO

Apresentao de equaes de regresso e


suas interpretaes

Vctor Hugo Alvarez V.


Gustavo Adolfo Moyss Alvarez

Introduo
Grande parte dos resultados de nossas pesquisas apresentada e discutida em forma de
equaes. Tanto a apresentao como a conseqente discusso seguem diferentes formas
de linguagem e estilo, muitas vezes com uma
srie de equvocos, que levam o leitor a vrios
mal entendidos. A experincia como editor
assistente e o dilogo com outros editores tem
levado a duas constataes:
a) apresentaes e discusses como as que,
muitas vezes, temos lido no deveriam ser enviadas para publicao.
b) como esses textos submetidos publicao passaram pelo crivo de autores e de revisores sem que se realizassem profundas modificaes?
O que vamos discutir so exemplos de
equaes apresentadas de forma inadequada
e com discusses incorretas, para as que sero realizadas observaes e sugeridas correes e melhorias. Com isto, pretendemos fazer
um esforo de normatizao para que os autores melhorem os trabalhos e, especialmente,
os revisores/editores contribuam de modo
mais eficiente para a melhoria da apresentao
e discusso dos resultados das pesquisas submetidas publicao.

Nomenclatura das equaes


Em geral, utilizamos as equaes para expressar dois tipos de relaes entre variveis.
a) relao causa-efeito (Y = f (X)). Neste
caso, a equao descreve a relao funcional
da varivel dependente, Y (efeito, resposta), de
acordo com a ao de uma ou mais variveis
independentes, Xi (causa).
b) modelo preditivo (Y1 = f (Y2)). Neste caso,
relacionam-se variveis dependentes entre si,
(1)
(2)

28

com objetivo de conhecer (estimar) uma caracterstica, ou propriedade, de difcil e, ou, demorada obteno (Y1), conhecendo-se outra (Y2)
ou outras variveis dependentes (Y2, Y3,...) de
fcil e, ou, mais rpida obteno.
As variveis so indicadas em maisculas
(Y, X, Z) quando o fenmeno foi estudado na
populao. Por conveno, as letras em maiscula so utilizadas para funes, variveis aleatrias e caractersticas da populao. As variveis medidas em amostras recebem letras em
minsculas. Ento, quando o fenmeno estudado com amostras(1) as variveis devem ser
indicadas em minsculas (y, x, z).
Por outro lado, na grande maioria de vezes,
as variveis medidas em amostras de nossas
pesquisas, para estudar fenmenos biolgicos,
agronmicos, seguem modelos probabilsticos
e no modelos determinsticos. Portanto, a linguagem de nossas equaes deveria ser estatstica (por exemplo: y = b0 + b1 x + b11 x2 ) e
no matemtica (y = a x2 + b x + c), mesmo que
no clculo, a planilha Excel ou qualquer outro
programa disponibilise a equao em forma
matemtica.
Tambm, ao escrever as equaes devemos usar linguagem algbrica, evitando linguagem de computador. Por exemplo:
y = 1,32 + 10,26 e 0,0084 x ; e no,
Y = 10,26 * e ** 8,4 E-03 * X + 1,32
Isto gera dvidas entre multiplicao ou
potenciao e os sinais utilizados para indicar
a significncia.
Em outro exemplo, a equao deveria ser
apresentada(2) da seguinte forma:
y = 144 + 0,45 x 0,00467 x2 , em lugar
de: Y = 4,67 e-3 X2 + 0,45 X + 144; em que,
o primeiro termo do lado direito da equao, a
rigor, deveria ler-se 4,67 2,718282-3 X2 =
0,2325 X2, e no como se teve que adivi-

At um conjunto de experimentos de campo representa uma amostra.


Com um espao antes e aps cada sinal ou varivel.
BOLETIM INFORMATIVO - Sociedade Brasileira de Cincia do Solo

ARTIGO
nhar que 4,67 E-03 X2 = 4,67 10-3 X2
= 0,00467 X2.
A forma estatstica, tambm deve ser apresentada o mais simples possvel, evitando expresses potenciais como:
y = 7,89 1,623 10 -2 ** x + 3,126
10 -5 ** x 2 ; R 2 = 0,963
em que: x foi expresso em 10-8 mol/cm3.
Para evitar as expresses potenciais da
equao suficiente modificar a unidade para
mol/dm3.
Assim a equao ficaria:
y = 7,89 1,623** x + 0,3126** x 2;
2
R = 0,963.
Esta equao apresenta valores dos coeficientes de regresso de mais fcil leitura e interpretao.
Em relao aos nomes dos coeficientes de
regresso (estimadores de parmetros) de uma
equao linear devemos evitar o uso dos nomes coeficiente angular e coeficiente linear
para designar o coeficiente de regresso linear e o intercepto. Coeficiente angular poderia
interpretar-se como o valor da ordenada onde
se forma o ngulo entre a equao linear e
a paralela ao eixo de abscissas (b0) e no como
o valor da tangente trigonomtrica do ngulo
que uma reta faz com o eixo ou a paralela ao
eixo das XXs de um sistema cartesiano, o que
corresponde ao coeficiente da varivel x na
equao de uma reta (b1). Por sua vez, coeficiente linear no indica o valor onde a linha horizontal intercepta o eixo de ordenadas (b0), ele
est associado ao nome das funes linear (l),
quadrtica q), cbica (c), etc., de um monmio
ou polinmio de nsima ordem.
Portanto, os nomes usados com alguma freqncia, coeficiente angular e
coeficiente linear, causam dvidase confuso.
Devemos chamar a b0 de intercepto, a b1 de coeficiente linear, a

b11 coeficiente quadrtico, a b111 coeficiente ou


componente cbico da regresso, ...., quando
acompanhados respectivamente de x, x2, x3, ....
Ou a b11 coeficiente raiz quadrtico, a b111, coeficiente cbico base raiz quadrtico da regresso, quando acompanhados de x0,5 ou x1,5.

Coeficiente de determinao
O coeficiente de determinao que
quantifica o grau de aproximao do modelo s
mdias ou s observaes deve ser representado por R2, pois uma das formas de se obter seu
valor elevar ao quadrado o valor de R (coeficiente de regresso mltipla, parcial, curvilinear
simples, curvilinear mltipla) que indica as diferentes formas de correlao, entre as que r representa o caso especfico de correlao linear
simples. Assim, inadequado usar r2, para coeficiente de determinao, pois generalizar o
caso especfico, desconhecendo a maioria das
outras situaes. Mesmo para equaes linear
simples recomenda-se utilizar R2.
O valor de R2 e sua interpretao dependem de como foi calculada a equao, se foi
realizado o clculo com as mdias ( y i) ou com
as observaes (yij)(3). No primeiro caso, o valor maior e indica o grau de aproximao do
modelo s mdias, informao que muitas vezes mais nos interessa. Entretanto, tambm indica a capacidade preditiva do modelo para
estimar as mdias, portanto, valores hipotticos.
No segundo caso, o valor menor, muitas vezes bem menor, e indica o grau de aproximao
do modelo s observaes, indica a capacidade preditiva da resposta que se pode esperar
pela ao de definida dose da varivel independente em estudo.

(3)

O R2 calcula-se:
Com as mdias: R2 = (SQ y i Ed2)/SQ y i ; em que d = y i y i
Com as observaes: R2 = (SQyij Ed2)/SQyij ; em que d = yij y i.
Volume 28 - Nmero 3 - Setembro/Dezembro/2003

29

ARTIGO

Significncia dos modelos de


regresso
A apresentao das significncias dos modelos um problema delicado e conflitante.Em
primeiro lugar, a escolha dos nveis de significncia para os modelos direito do autor. Revisores e editores podem, ou no, gostar dos
nveis de significncia escolhidos pelo autor. Entretanto, fundamental que o autor indique claramente a significncia das equaes apresentadas no trabalho. Em segundo lugar, o modelo
(forma da resposta equao de regresso)
deve obedecer, prioritariamente, Lei de Resposta Esperada (hiptese) e no aos resultados do trabalho, especialmente quando no se
tem respaldo terico para encarar nova hiptese com os resultados obtidos. Em terceiro
lugar, a significncia do modelo deve estar
explicitamente apresentada na equao (em
cada coeficiente de regresso) e no com apresentao da significncia no R2, como acontece com muita freqncia. No h confuso
apenas no caso de regresso linear simples em
que a significncia de b1 a mesma do R2 (4).
Mesmo assim prefervel apresentar a equao na seguinte forma:
y = 0,642 0,3873** x ; R2 = 0,90, em
lugar de:
y = 0,642 0,3873 x ; R 2 = 0,90 (p =
0,0042)
Para que uma equao seja significativa, no
necessrio que todos os coeficientes sejam
significativos. Exige-se que a significncia, ao
nvel escolhido pelo autor (usualmente, at p <
0,10, ou esporadicamente, qualquer outro nvel de significncia , por exemplo p = 0,3216),
seja dos coeficientes que definem a forma da
curva, os de maior ordem ou os que determinam a curvatura nas equaes de regresso.
No caso de comparao de dois mtodos,
quando queremos testar sua identidade (Y1 =
Y2), ou seja, quando idealmente se espera que
na regresso ( y 1 = b0 + b1 y2), b0 = 0, b1 = 1 e
R2 = 1, testam-se tanto o b0 como o b1. O b0

estima a mdia sem efeito de tratamento.


Mdia em cuja estimativa j foi gasto 1 GL.
Portanto, para se provar a identidade estatstica entre mtodos necessrio testar tanto a
hiptese 0 = 0 como 1 = 1. Quando se quer
testar ambas as hipteses tolera-se testar tambm o b0, especialmente por que, neste caso,
a mdia sem efeito de tratamento no se
estima, assume-se que igual a zero.
Tambm nos testes de identidade de modelos, devemos obedecer forma de resposta indicada pelo fenmeno (hiptese) e no
tendncia observada com os resultados. Se a
hiptese indica que as curvas de resposta, dos
diferentes nveis de um fator, em funo das
doses de outro fator so semelhantes, ento
devemos utilizar teste de identidade de modelos, para evidenciar o modelo representativo
das diferentes curvas. Mas se a hiptese que
as curvas de resposta, dos nveis de um fator,
s variaes das doses de outro fator so diferentes, devemos evitar teste de identidade de
modelos que podem levar a um modelo irreal
que no tem respaldo na hiptese(5).
No faz sentido apresentar equaes como:
y = 1,68** + 0,21** x ; R2 = 0,93**.
Esta equao descreve a resposta y a seis
doses de x, em que na anlise de varincia da
regresso se tem 1 GL para devido regresso
(modelo) e 4 GL para independente da regresso. Portanto, com que GL foi testado o intercepto (1,68)? E qual a hiptese que se est testando? Que a resposta com a dose zero zero?
Tambm na equao(6):
y = 10,32 + 0,087 x + 0,120 z 0,0027
x2 + 0,0045 z2 0,0012 xz ;
R2 = 0,48*
a significncia de R2 (com 5 GL) testada com F,
que quando significativo indica que pelo menos um dos cinco efeitos (l e q para x, l e q para
z e xlzl) ser significativo, mas que no prova
que todos eles sejam significativos, a no ser
que o autor aceite os nveis de significncia,
hipoteticamente, apresentados a seguir:

(4)
R2 usualmente testado pelo F com 1 e (t 1 1) GL para independente da regresso (em que t = nmero de doses),
quando o correto deveria ser pelo F com 1 e GL do erro experimental.
(5)
Neste caso, estaramos na mesma situao e com o mesmo problema de estimar uma mdia para diferentes populaes.
(6)
O modelo completo apresentado matematicamente adequado, pois a soma dos expoentes da interao (xlzl =
1 1
x z ) no supera o valor do expoente das variveis independentes (x2 ou z2) em sua maior ordem.

30

BOLETIM INFORMATIVO - Sociedade Brasileira de Cincia do Solo

ARTIGO
y = 10,32 + 0,087* x + 0,120** z
0,0027 x2 + 0,0045(0,3216) z2 0,0011(0,1518) xz;
R2 = 0,48.
Podemos no gostar das significncias do
efeito quadrtico de z (p = 0,3216) e da
interao xlzl (p = 0,1518), mas essa informao no nos foi sonegada, como quando se
apresentou R2 = 0,48*.
Por outro lado, bom lembrar que um R2 =
0,48NS, testado pelo F (com 5 e GL do erro
experimental) no significa que nenhum efeito (dos cinco do modelo completo) poder ser
significativo, pois o teste F, que um teste global, freqentemente se apresenta NS, quando
um ou poucos efeitos significativos so diludos
pelos outros no significativos, dando em mdia um valor NS.
Se o limite de significncia que se impe o
autor de 10 % (0, p < 0,10), para os coeficientes de regresso, a equao anterior poderia ficar reduzida ao seguinte modelo:
y = b0 + b1 x + b2 z + b11 x2 ; com R2 < 0,48.

Apresentao da significncia
Em alguns trabalhos a significncia apresentada junto a varivel (b11 x2 **), o que no correto. Quem significativo o coeficiente de regresso e no a varivel. Portanto, a significncia
deve ser indicada junto ao coeficiente (b11** x2).
A forma mais exata de indicar a significncia
dos coeficientes de regresso apresentar a
probabilidade correspondente do teste utilizado (t ou F). Por exemplo: p = 0,0042, p =
0,0001, p = 0,0351, p = 0,3216. mais simples e cmodo para o autor, mas incmodo
para o leitor, que necessita adequar os valores
de p dentro dos limites e smbolos convencionalmente utilizados.
Convencionalmente, os nveis de significncia so indicados com asteriscos: significativo
a 5 % de probabilidade = significativo (*); significativo a 1 % = altamente significativo (**); a
0,1 % = muito altamente significativo (***).
Como atualmente usual para regresso utilizar o nvel de significncia de 10 %, e como
no est convencionado um smbolo para seu
uso, observa-se para este nvel a utilizao de
smbolos diferentes, como 0, U, , ....
Por outro lado, quando no significativo

at o limite predeterminado pelo autor, ou


omite-se o uso de qualquer smbolo ou utilizase simplesmente NS. Nesses casos surge a dvida, no significativo at que nvel? Pode no
ser significativo a 5 %, mas ser significativo a
10 % , por exemplo. Por isto, quando se omite
smbolo, ou quando se utiliza NS, devemos indicar que NS = no significativo at 5 %, ou at
10 %, ...
Quando, as significncias, em lugar de NS, 0,
*, **, *** (no significativo at 10 % e significativo a 10, 5, 1 e 0,1 %), se quer indicar pelo
valor da probabilidade sem apresentar seu real
valor (p < 0,05 (*?) em lugar de p = 0,0351
(*)) so gerados vrios mal entendidos e confuses. Por exemplo, quando para no significativo indica-se p = 0,10. Ento somente NS
quando p = 0,10 ? Seria significativo com p >
0,10 ? Outro exemplo quando se utiliza entre vrios modelos com p < 0,05 (* ?), um
modelo com p > 0,05 (NS?). Se o leitor no presta ateno suficiente pode considerar que todos os modelos so significativos (*). Tambm
no suficiente para significativo (*) indicar p
< 0,05. Deve-se indicar: 0,05 > p 0,01. Para
indicar adequadamente as significncias (NS, 0, *,
**, ***) com valores relativos de probabilidade, deveria utilizar-se as seguintes equivalncias: NS
(p 0,10), 0 (0,10 > p 0,05), * (0,05> p 0,01),
** (0,01 > p 0,001) e *** (p < 0,001).
Como se pode observar, para o autor fcil e cmodo apresentar o valor exato da probabilidade (p = 0,0042) deixando para o leitor
enquadrar a mesma dentro dos limites correspondentes (0,01 > p 0,001). Para facilitar o
entendimento por parte do leitor (objetivo principal do autor), para este caso, deve-se indicar
que o efeito foi altamente significativo (**). Portanto, a forma mais simples e clara, tanto para
autores como para leitores, usar os smbolos
correspondentes: NS, 0, *, ** ou ***.

Representao Grfica
Indicar claramente nos grficos, para cada coordenada: a varivel, a unidade (exemplo: Rendimento gros, kg/ha ou kg ha-1) e a escala. Plotar
as mdias ou as observaes da varivel resposta em funo de doses. Graficar o modelo (linha
contnua, da forma indicada pela equao).

Volume 28 - Nmero 3 - Setembro/Dezembro/2003

31

ARTIGO
Um modelo linear no pode ser representado por uma curva.
Visualmente, devemos verificar se o modelo passa eqidistantemente por entre as mdias, pois Ed = 0, sendo d = y i - y i, neste caso
para cada dose h dois pontos, um, o valor
mdio ( y i), plotado independente da curva, e
outro o ponto da curva (yi); ou se o modelo passa eqidistantemente por entre as observaes, pois Ed = 0, em que d = yij y i, e neste
caso, para cada dose haver r + 1 pontos, sendo as r observaes (respostas das r repeties)
da dose correspondente mais o ponto da curva. No devemos observar que de um lado da
curva os valores de d superam os do outro lado.
Modelos com disperso semelhante de
mdias (ou de observaes) em relao curva devem apresentar R2 semelhantes (U S).

Se uma equao linear, para uma varivel


independente em estudo, no significativa
at 10 % (p >
_ 0,10), por exemplo, no quer
dizer que no tenha equao; unicamente quer
dizer que no foi possvel, com os dados obtidos, evidenciar o efeito. Nesse caso, a equao seria y = y = (o valor da mdia geral das respostas s doses). Sua representao no um
ponto (valor na ordenada), mas sim, uma reta
paralela s abscissas, e seu R2 calculado como
anteriormente indicado(7).
Se no estudo da resposta a duas variveis independentes no se obtm efeitos significativos,
novamente a equao seria y = y = (valor da
mdia geral). O R2 calculado da forma antes
indicada. E a representao grfica seria a de um
plano horizontal, paralelo ao espao fatorial.

Forma usual e conflitante de interpretar os


efeitos de uma varivel independente quantitativa indicar, no mesmo grfico, a curva de
resposta significativa e plotar as mdias com
seus correspondentes intervalos de confiana.
Conflitante porque se duas doses (por exemplo, 50 e 100 kg/ha de N) apresentam valores de resposta em comum nos intervalos de
confiana correspondentes, poderiamos afirmar que no h diferena significativa entre
estas doses. Por outro lado, se a regresso
significativa, no s temos que afirmar que as
respostas com 50 e 100 kg/ha de N so diferentes, mas que as respostas so diferentes
com uso de 50 ou de 51 kg/ha de N, no importando se o Uy possa ser extremamente pequeno. Portanto, no devemos indicar, junto
com o modelo de regresso, intervalos de confiana e muito menos, ainda, diferenas mnimas significativas.

Devemos acreditar que a equao a confirmao, a representao da hiptese de trabalho (uso do mtodo cientfico - pesquisa), e
no aceitar a apresentao de intervalos de
confiana, diferenas mnimas significativas
(comparao de mdias - experimentao).
Mas, se fizermos isto, deve ser sem a equao
nem sua representao grfica.
A motivao para estas reflexes foi a aspirao de que nossas publicaes, especialmente as da Revista Brasileira de Cincia do
Solo e de Tpicos em Cincia do Solo, veiculem trabalhos com elevada qualidade.
Vctor Hugo Alvarez V. professor titular do Departamento
de Solos da UFV.
Gustavo Adolfo Moyss Alvarez professor de estatstica da
Universidade do Grande ABC, Santo Andr.

(7)

32

Neste caso, os desvios so: d = y i y , ou d = yij y .

BOLETIM INFORMATIVO - Sociedade Brasileira de Cincia do Solo

Você também pode gostar