Você está na página 1de 6

5.

1 Conjunto de dados da Serrapilheira no período de seca – atributos físicos e químicos

No Passo 1 da execução do método Forward Stepwise, foi escolhida a primeira


variável para compor o modelo. A variável dummy “dsist1” (diferença entre o Sistema
Convencional e Mata) foi a primeira variável selecionada por apresentar maior escore estatístico
e alta significância, isto é, dentre as variáveis significativas a que apresentou maior valor da
estatística de Wald, no teste realizado entre o intercepto e cada variável.
Esta variável foi pareada com as demais e o critério de seleção foi novamente comparado.
A variável “kser” (potássio em serrapilheira) foi a segunda variável escolhida para entrar na
análise. O programa utilizado (SPSS, versão 15.0) realiza o processo de inclusão e exclusão de
variáveis automaticamente a cada passo, até que se chegue a um modelo final.
Nos passos seguintes, foram selecionadas as variáveis “moser" (matéria orgânica da
serrapilheira) e “cotser” (carbono orgânico total em serrapilheira). Desta forma, o modelo
específico para a estimativa da probabilidade de ocorrência de mais de 9 indivíduos por m2 no
solo, nas áreas estudadas foi:

e ( β0 +β1dsist 1+β2kser +β3 cot ser +β4moser )


P(Mais de 9 indivíduos ) =
1 + e( β0 +β1dsist 1+β2kser +β3 cot ser +β4moser )
Como se pode observar, a variável X 1 (dsist1) foi a única variável dummy selecionada
para o modelo. Por ser uma variável dummy e da forma como foi codificada, entende-se que o
Sistema “Mata” apresenta diferença em relação ao Sistema “Convencional” que foi o sistema
escolhido como referência na codificação. As variáveis “dsist2” (diferença entre o Sistema
Convencional e o Sistema Agroecológico) e “dsist3” (diferença entre o Sistema Convencional e
o Sistema Agroflorestal) foram excluídas do modelo, uma vez que não apresentaram
significância estatística, o que implica que não há diferenças entre o Sistema Convencional na
variável resposta do modelo em relação ao Sistema Agroecológico e o Sistema Agroflorestal.
Dessa forma, essas variáveis foram excluídas, uma vez que elas podem ser agrupadas na
categoria de referência.
A Tabela 1 apresenta uma comparação entre os valores estimados e observados em
relação ao modelo dado por (1.1), e nela pode-se verificar que as 31 amostras, de um total de 38
(81,6%), com a presença de 9 ou menos indivíduos por m2 (valor 0), foram corretamente
estimadas. Da mesma forma, 16 amostras, de um total de 22 (72,7%), com a presença de mais de
9 indivíduos por m2 (valor 1), foram também corretamente estimadas. A diagonal secundaria da
tabela mostra quantas amostras foram incorretamente classificadas (6 + 7 = 13). No total, 78,3%
das amostras foram classificadas corretamente.
A tabela não revela a distribuição de probabilidade para cada grupo estimado, apenas
mostra se a estimativa da probabilidade é maior ou menor que 50%.
Tabela 1 – Tabela de classificação da regressão logística para a variável dependente

Estimada
Observada Percentagem correta
0 1
0 31 7 81,6
1 6 16 72,7
Percentagem total 78,3

A significância das variáveis explicativas incluídas no modelo foi


avaliada por meio de um teste Qui-Quadrado (Wald), sob a hipótese nula de
que todos os coeficientes são iguais a zero. O resultado do teste foi uma
estatística Qui-Quadrado de 25,406 (p-valor < 0,001), o que levou à rejeição
da hipótese nula e à interpretação de que ao menos um dos coeficientes é
estatisticamente diferente de zero (Tabela 2).
Tabela 2 – Teste dos coeficientes do modelo
Qui − quadrado g .l . sig .
25,406 4 0,000

A análise da significância estatística de cada coeficiente foi feita com


base no teste Wald, que avalia a hipótese nula de que o coeficiente estimado
é igual a zero. A estatística Wald tem distribuição Qui-Quadrado, sendo
calculada pelo quadrado da razão entre o coeficiente e o seu erro padrão. Os
resultados indicam que, ao nível de significância de 10%, os coeficientes das
quatro variáveis explicativas selecionadas são estatisticamente diferentes de
zero. A Tabela 3 exibe os coeficientes do modelo, bem como os erros-
padrão, as estatísticas Wald e os níveis descritivos. Desta forma, o modelo passa a
ser:
e ( 2, 336 +3,590 dsist 1+0, 431 kser +4, 665 cot ser −2, 698 moser )
P(Mais de 9 indivíduos ) =
1 + e ( 2,336 +3, 590 dsist 1+0, 431 kser +4, 665 cot ser −2, 698 moser )
Tabela 3 – Coeficientes do modelo

Variáveis β̂ SE ( βˆ ) W g .l . p − valor

Constante 2,336 2,700 0,748 1 0,387


12,12
dsist1 3,590 1,031 1 0,000
3
Kser 0,431 0,157 7,547 1 0,006
Cotser 4,665 2,456 3,609 1 0,057
Moser -2,698 1,374 3,857 1 0,050
Variável inserida no passo 1: dsist1.
Variable inserida no passo 2: kser.
Variable inserida no passo 3: moser.
Variável inserida no passo 4: cotser.

A verossimilhança probabilística do modelo, medida pela estatística “-


2LL (Deviance)” apresenta-se muito rudimentar, dado que seu melhor ajuste
de probabilidade se dá com a estatística tendo valor ao redor de zero (HAIR,
1998). O R2 de Cox e Snell e R2 de Nagalkerke, são medida que se assemelham ao
coeficiente de determinação da regressão linear. Maiores valores dessa
medida, que tem escala de zero a um, indicam melhor ajuste do modelo.
A Tabela 4 exibe os valores do - 2LL (Deviance), do R2 de Cox e Snell e R2
de Nagalkerke do modelo. As estatísticas R2 apresentadas sugerem que ainda é reduzida a
capacidade preditiva do modelo, isto é, menos de 50% da variância da variável
dependente é explicada pelas variáveis independentes do modelo.
Tabela 4 – Estatística da Deviance, de R2 de Cox e Snell e R2 de Nagalkerke
R 2 (Cox e R2
− 2 LL
Snell) (Nagalkerke)
53,453 0,345 0,472

O teste de Hosmer e Lemeshow avalia as diferenças entre as


classificações previstas pelo modelo e as observadas (HOSMER e
LEMESHOW, 1980). Se as diferenças forem significativas, o grau de acurácia
do modelo não é bom. O teste divide os casos em classes e compara as
freqüências preditas e observadas em cada classe por meio de uma
estatística Qui- Quadrado. A Tabela 5 exibe os resultados do teste. Ao nível
de significância de 5%, não podemos rejeitar a hipótese nula de que não há
diferenças significativas entre os valores preditos e observados, o que indica
que o modelo é capaz de produzir classificações confiáveis.
Tabela 5 – Teste de Hosmer e Lemeshow
Qui − quadrado g .l. sig .
5,518 8 0,701

Da mesma maneira, a área sob a curva ROC que varia de zero a um, pode
ser empregada como um índice da exatidão do teste, sendo tanto melhor
quanto maior for esta área.
Como a variável dependente estimada pode assumir um valor entre
zero e um, neste estudo, foi utilizado um ponto de corte de 0,5 para o
modelo, de forma que as amostras com resultados inferiores a 0,5 são
classificadas como “presença de 9 ou menos indivíduos por m2, em média,
no solo ” e as amostras com resultados superiores a esse valor são
classificadas como “presença de mais de 9 indivíduos por m2, em média, no
solo”.
Para a construção da Curva ROC, foram calculadas a sensibilidade
(proporção de acerto na previsão da ocorrência de um evento nos casos em
que ele de fato ocorreu) e a especificidade (proporção de acerto na previsão
da não ocorrência de um evento nos casos em que ele de fato não ocorreu)
para todas as observações da amostra, considerando diferentes pontos de
corte do modelo. Graficamente, a Curva ROC do modelo desenvolvido,
apresenta o seguinte formato:
Gráfico 1 – Curva ROC
No modelo desenvolvido, a área sob a curva foi de 0,853, o que, segundo Hosmer e
Lemeshow (2000), é uma excelente capacidade de discriminação (Tabela 6).
Além de obter um modelo, testar a significância de seus parâmetros e verificar a acurácia
e eficiência desse modelo encontrado, outra análise interessante de ser feita é a da razão das

probabilidades, calculada por exp ( βˆ ) . A Tabela 7 mostra os valores dessas razões para o

modelo final.
Tabela 7 – Razão de Chance do modelo final
∧ ∧
Variáveis β̂ exp ( βˆ ) IC 95% exp ( βˆ )
Constante 2,336 10,337
dsist1 3,590 36,245 [4,803; 273,511]
Kser 0,431 1,538 [1,131; 2,091]
Cotser 4,665 106,197 [0,863; 13074,718]
Moser -2,698 0,067 [0,005; 0,995]
Dentre os fatores que influenciam a presença de mais ou menos indivíduos por m2 no solo
nas áreas estudadas, a variável dummy “diferença entre o Sistema Convencional e Mata” atuou
de forma positiva, assim como as variáveis “Potássio em serrapilheira” e “Carbono orgânico
total em serrapilheira”, isto é, quando há aumento em unidades dessas variáveis, as chances de
aumentar o número de indivíduos também aumenta.
Em relação ao Sistema Convencional, categoria de referência utilizada na codificação das
variáveis dummy, o Sistema “Mata” aumenta mais de 36 vezes a chance de se encontrar mais de
9 indivíduos por m2 no solo das áreas estudadas, podendo esse valor variar entre [4,803;
273,511], com 95% de confiança.
O aumento de uma unidade (em gkg-1) de Potássio em serrapilheira, aumenta em
aproximadamente 54% as chances de ocorrência de mais de 9 indivíduos por m2 no solo. Pode-se
dizer então, que se tem 95% de confiança de que a variação da razão de chance devido ao
acréscimo de uma unidade na variável X 2 está compreendido no intervalo 13% e 109%.
A quantidade de carbono orgânico total em serrapilheira é uma variável de grande
importância no modelo, pois o aumento de uma unidade dessa variável, aumenta em mais de 106
vezes a chance de se encontrar mais de 9 indivíduos por m2 no solo, tem-se 95% de confiança de
que esse valor possa variar dentro do intervalo [0,863; 13074,718].
Pelo valor negativo do coeficiente β4 da matéria orgânica da serrapilheira, pode-se
afirmar que a quantidade de indivíduos presentes por m2 no solo é maior que 9 indivíduos em
média, em locais com baixa quantidade de matéria orgânica. Pode-se deduzir pela observação da

exp ( βˆ ) na Tabela 7, que, com o aumento de uma unidade na variável, as chances de se

encontrar mais de 9 indivíduos no solo diminui em 93%, podendo esse valor variar entre 1% e
99%, com 95% de confiança.

Você também pode gostar