Você está na página 1de 41

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/315735094

Módulo 4 - Regressão no SPSS

Technical Report · September 2016


DOI: 10.13140/RG.2.2.21763.09765

CITATIONS READS

0 20,959

1 author:

Eduardo Federighi Baisi Chagas


Universidade de Marília
97 PUBLICATIONS   93 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

LEVEL OF PHYSICAL ACTIVITY AND GLYCEMIC VARIABILITY IN CHILDREN AND ADOLESCENTS WITH DIABETES MELLITUS TYPE 1. View project

Frequência Cardíaca de indivíduos diabéticos e exercício resistido View project

All content following this page was uploaded by Eduardo Federighi Baisi Chagas on 01 April 2017.

The user has requested enhancement of the downloaded file.


Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

MATERIAL DIDÁTICO
CURSO DE ESTATÍSTICA APLICADA PARA INICIANTES

MÓDULO 4
ESTATÍSTICA ANALÍTICA III
Regressão no SPSS

AUTOR: EDUARDO FEDERIGHI BAISI CHAGAS

MARÍLIA
2016
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

SUMÁRIO
1. Regressão
2. Regressão Linear Simples
3. Regressão Linear Múltipla
4. Regressão Logística Binária
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

1. REGRESSÃO
A correlação pode ser uma ferramenta útil, porém ela não informa sobre o
poder preditivo de uma ou mais variáveis. Por outro lado, a REGRESSÃO permite
ajustar um modelo preditivo, ou seja, construir um modelo matemático para prever os
valores da variável dependente (VD) a partir de uma ou mais variáveis independentes
(VI). O conceito de regressão é baseado na equação genérica:

Saídai = (Modeloi) + Erroi

Na REGRESSÃO o modelo que ajustamos é linear, ou seja, o modelo é


baseado em uma RETA. Desta forma, é necessário ajustar o melhor modelo que
descreve os dados. Porém lembre que o melhor modelo ainda pode não ser suficiente
para prever suficientemente a Saída (VD). Existem vários modelos de ajuste da linha ou
reta de regressão e o mais utilizado é o métodos dos mínimos quadrados.
A Reta é definida por dois aspectos:
a) A inclinação da linha (Slope), normalmente representado por “b1”;
b) O ponto que a linha cruza o eixo vertical (y), conhecido como intercepto
(b0).

Desta forma, o modelo pode ser representado pela equação:

Yi = (b0+bi *Xi) + ei

Onde Yi é a variável de saída e Xi representa a variável previsora. Os


parâmetros b0 e bi são conhecidos como coeficientes de regressão. O termo
resíduo ei representa a diferença entre o valor previsto pela linha e o valor
observado.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

O método dos Mínimos Quadrados analisa a diferença vertical entre a linha e


os dados reais. Algumas diferenças são positivas e outras negativas, e estas diferenças
são chamadas de resíduos. As diferenças elevadas ao quadrado fornecem uma medida
de quão bem uma medida se ajusta aos dados. O método dos Mínimos Quadrados
seleciona a linha que produz a menor soma das diferenças elevadas ao quadrado.
Selecionada a linha de melhor ajuste é necessário avaliar a qualidade desta
linha, ou seja, determinar qual a capacidade da equação produzida pela regressão prever
os dados da VD a partir de dados de uma VI. Para isto, a linha de regressão produzida é
comparada com a forma mais básica de previsão, que é representada pela média.
Imagine no exemplo das figuras abaixo que se pretenda prever os valore de
Consumo Máximo de Oxigênio (VO2max) e partir dos valores de índice de massa
corporal (IMC). Considerando que a amostra tem um valor médio de VO2max de 17
(ml/kg/mim) a previsão mais simples seria dizer que independente do valor de IMC o
sujeito terá um VO2max de 17.
A soma dos quadrados dos desvios é calculada para a média (SSt) e para os
valores para a linha de regressão de melhor ajuste (SSr). A melhor previsão resultante da
utilização da linha de regressão ao invés da média é obtida calculado a diferença entre
SSt e SSr. Essa diferença nos mostra a redução da imprecisão do modelo resultante do
ajuste do modelo da linha de regressão aos dados. Essa melhoria é a soma dos
quadrados do modelo (SSm).
Se o valor de SSm é alto, usar o modelo é bem melhor do que utilizar a média
para prever o valor da variável resultante. No entanto se o SSm é pequeno, então utilizar
o modelo de regressão é apenas um pouco melhor do que usar a média.
Uma medida útil para se obter as somas dos quadrados é a proporção de
melhoria debitada ao nosso modelo. Isso é facilmente calculado dividindo a SSr por SSt.
O valor obtido é denominado R2 que representa a quantidade de variância nas saídas
explicadas pelo modelo SSm relativa a quanta variação foi inicialmente explicada por
SSt..
R2 = SSm / SSt
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

SSt – utiliza as diferenças


entre os dados
observados e a média
dos valores de “y”

SSr – utiliza as diferenças


entre os dados
observados e a linha de
regressão

SSm – utiliza as diferenças


entre o valor médio de Y
e a linha de regressão

A interpretação do R2 é semelhante a correlação e a raiz quadrada do valor de


R2 produz o valor de correlação de Pearson. Valores de R2 próximos de 1 indicam que o
modelo explica grande percentual das variações de “y” a partir das variações nos
valores de “x”. Por outro lado, valores próximos de ZERO indicam que o modelo
explica pouco do comportamento de “y” a partir dos valores de “x”.
Uma segunda utilização das somas dos quadrados para avaliar o modelo é por
meio do teste F, que tem por base a razão de melhoria devida ao modelo SSm e a
diferença entre o modelo e os dados observados (SSr).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

De fato, em vez de utilizar a soma dos quadrados, tomamos a Média dessas


somas, denominada de Quadrados Médios (MS). O valor de F é calculado pela razão
entre a Média dos Quadrados do Modelo (MSm) e a Média dos Quadrados dos Resíduos
(MSr).
F = MSm / MSr

Se o modelo é bom, a melhoria na previsão do modelo é grande (MSm) em


comparação com MSr produzindo valores de F superior a 1. Quando o modelo é ruim,
com no exemplo do uso da média, os valores de b1 (slope – inclinação) é zero, ou seja,
em modelos ruins o coeficiente de regressão é zero produzindo uma linha de regressão
horizontal.
Assim se uma variável prevê significativamente um valor de saída, então ela
deve ter um valor de b1 (slope – inclinação) significativamente diferente de ZERO. Está
hipótese é verificada utilizando o teste “t”.

2. REGRESSÃO LINEAR SIMPLES


A Regressão Linear Simples é utilizada quando se pretende prever o
comportamento de uma variável dependente (VD) a partir de valores de uma variável
independente (VI). Isto pode ser útil quando a medida da VD diretamente é limitada
devido a necessidade de equipamentos de alto custo.
Na área da saúde o Consumo Máximo de Oxigênio (VO2max) representa uma
importante medida da capacidade Cardiorrespiratória e pode ser utilizado para orientar
programas de exercício físico em diferentes populações.
As medidas diretas do VO2max, entretanto são de alto custo e raramente estão
disponíveis. Por outro lado as medidas de Índice de Massa Corporal (IMC) são
extremamente simples, rápidas e de baixo custo. Supondo que exista uma relação entre
o IMC e a capacidade máxima de consumo de oxigênio, seria possível prever o
VO2max (VD) a partir de valores de IMC (VI).
Lembre que a Regressão Linear Simples exige que as variáveis sejam
Quantitativas e apresentem a distribuição de normalidade. Entretanto a não distribuição
não impede a análise de Regressão, mas diminui as chances de se observar efeito
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

significativo da variável independente prever a variável dependente. Portanto é


recomendado que se observe se as variáveis analisadas não apresentam Outliers. Caso
se observe Outliers é recomendado retirá-los.
Para realizar a análise de Regressão Simples no SPSS clicar em Analyze<
Regression< Linear. Na caixa de dialogo que abrir inserir em Dependent a variável
dependente (Consumo máximo de oxigênio) e em Independent (s) a variável previsora
(índice de massa corporal). Em Method deixar a opção Enter.

Em Statistics selecionar em Regression Coefficients os itens Estimates e


Confidence intervals Level. Também selecionar os itens Model Fit, R square change e
Descritive. Em Plots inserir em “Y” DEPENDENT e em “X” *ZPRED, em seguida
clicar em NEXT e inserir em “Y” *ZREDID e em “X” *ZPRED. As opções SAVE e
OPTIONS não serão utilizadas na Regressão Linear Simples. Agora clicar em OK na
caixa de dialogo principal.

No Output do SPSS é apresentado os valores médios das variáveis inseridas em


Descriptive Statistics. No quadro Correlations é apresenta a correlação de Pearson e os
valores de significância associados ao valor de “p”. Quando foi selecionado o método
ENTER o SPSS indica quais variáveis independentes foram mantidas ou retiradas do
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

modelo, mas como estamos tratando de uma regressão simples temos apenas uma
variável independente não sendo necessário considerar está informação apresentada no
quadro Variables Entered/Removed.

No quadro Model Summary é apresentado o resumo do modelo. Em R é


apresentado o valor da correlação simple, em R square (R2) é apresentado o valor que a
variável independente explica as variações na variável dependente. Em Ajusted R
Square é apresendo o valor de R2 associados a análise dos resíduos. O erro padrão (Std.
Error of the Estimate) indica a variabilidade dos resíduos. Em Change Statistics é
apresentado a estatística F (F Change), os graus de liberdade (df1 e df2) e o valor de “p”
associado a estatística F (Sig. F Change).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No quadro ANOVA é apresentado em Sum of Squares a soma dos quadrados


para o total (SSt), para a regressão (SSm) e para os resíduos (SSr). Para SSm o grau de
liberdade (df) é simplesmente o número de variáveis independentes, para SSr é o
número de observações menos o número de parâmetros sendo estimados (70-2= 68), e
para SSt é o número de observações menos 1. Em Mean Square é apresentado a Média
dos quadrados para o modelo (MSm) e a Média dos quadrados para o resíduo (MSr).
Ainda é apresentada a estatística F e o valor de significância para F (sig).

No quadro Coefficients são apresentados os parâmetros do modelo. Em


Unstandardized Coefficients no item B é apresentado em CONSTANT o valor
correspondente ao Intercepto (b0 ou a). No item B referente a índice de massa corporal é
apresentado o gradiente de inclinação ou Slope (b1 ou b). Na equação X representa o
valor da variável independente.

Yi = (b0+bi *Xi) + ei ou Y=a +b*X ou Y= 28,191+(-0,344*X)

Ainda no quadro Coefficients o valor de “t” nos informa se o valor de B é


diferente de ZERO, ou seja, o valor de Sig fornece a probabilidade exata de que o valor
de “t” acorra se o valor de B é ZERO. Os valores de Sig indicam que tanto a Constante
(Intercepto - b0 ou a), quanto a inclinação ou Slope (b1 ou b) são consideradas
significativos no Modelo.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No gráfico abaixo é possível observar que embora a linha de regressão


(vermelha) seja estatisticamente diferente da média (preta), os valores observado de
VO2 são muito diferentes dos valores preditos pela equação. Ainda na análise do
resíduos figura 2 é possível observar que os dados diferem de foram considerável dos
resíduos previsto pelo linha de regressão.

Embora os parâmetros da equação de Regressão produzidos sejam


significativos a variável independente IMC explica somente 19,7% das variações da
variável dependente Consumo máximo de oxigênio (VO2max), ou seja, outras variáveis
independentes são necessárias para explicar ou predizer adequadamente os valores de
VO2max. Assim para produzir uma equação de Regressão que tenha capacidade de
predizer adequadamente os valores de VO2max é necessário utilizar uma Regressão
Linear Múltipla.

3. REGRESSÃO LINEAR MÚLTIPLA

A Regressão Múltipla é uma extensão lógica da Regressão Simples, para


situações em que existem vários previsores. Porém a equação agora deverá apresentar
um intercepto (constante b0), um coeficiente de regressão para cada variável previsora
(b1, b2, ...) e diferença entre o modelo e os valores reais (ei).
Y=b0+(b1*x1)+(b2*x2)+....+(bn*xn)+ei
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Como existem vários previsores, o SPSS produz um coeficiente de correlação


múltiplo (R), que representa a correlação entre os valores observados de Y e os valores
de Y previstos pelo modelo de Regressão Múltipla.
Além da correlação (R) o SPSS fornece os dados de R-quadrado (R2), que
representa o fator de explicação, ou seja, quanto da variação de Y é explicada pelo
modelo.
O SPSS também apresentado o R-quadrado ajustado (R2 ajustado) que fornece
uma noção de quão bem o modelo pode ser generalizado quando comparado ao R2 (R2-
R2ajustado). Esta diferença indica o percentual de variância que não seria explicada pelo
modelo se este fosse derivado da população ao invés de uma amostra.
O SPSS fornece diferentes Métodos de Regressão que se referem a entrada dos
dados que podem diferenciar a o modelo final.
- Método Hierárquico: as variáveis previsoras são inseridas no modelo uma a uma por
ordem de importância de acordo com o interesse do pesquisador.
- Método ENTER (entrada forçada): todos os previsores são forçados no modelo ao
mesmo tempo.
- Método Stepwise: a manutenção ou retirada das variáveis no modelo é determinada
por procedimentos matemáticos combinando o Método Forward e Backward.
- Método Forward: a entrada das variáveis previsoras é realizada uma a uma de acordo
com o tamanho da contribuição na previsão do modelo se considerar a contribuição da
ou das variáveis inseridas anteriormente. Está quantificação é feita através de
correlações semi-parciais.
- Método Backward: é realizado o processo inverso do Forward, ou seja, todas as todas
as variáveis previsoras são inseridas no modelo e através de testes “t” é comparado o
valor de previsão com e sem a variável. Caso variável não apresente contribuição
significativa ela é retirada do modelo.
Para avaliar o quão bem o modelo adere as dados observados, devemos
analisar a presença de valores atípicos (outliers) ou de casos influentes. Isto é feito pela
análise das diferenças entre os valores previstos pelo modelo e os valores observados
que são chamados de resíduos.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Diagnóstico de Outliers
Os resíduos normais ou não padronizados são mensurados na mesma
unidade de medida da variável de saída (Y) e são difíceis de serem detectados, a não ser
quando estes são particularmente grandes.
Por outro lado, os resíduos padronizados que são resíduos divididos por uma
estimativa do seu desvio-padrão (escore-z) permitem a identificação mais clara de
valores atípicos. Algumas regras gerais são padronizadas para está interpretação:
- (1) Valores de escore-z > que 3,29 são preocupantes, porque raramente eles ocorrem
ao acaso;
- (2) Se mais de 1% da amostra padronizada apresenta resíduos padronizados com
valores absolutos maiores de 2,58, existem evidências de que o nível de erro dentro do
modelo é inaceitável;
- (3) Se mais de 5% dos casos tem resíduos padronizados com um valor absoluto maior
que 1,96 (pode utilizar 2), também há evidências de que o modelo é frágil.

Uma terceira forma de análise dos resíduos é o resíduo estudentizado, que é o


valor na padronizado dividido por uma estimativa do desvio-padrão entre eles que varia
ponto a ponto. Isto fornece uma estimativa mais precisa da variância do erro para um
caso específico.

Casos influentes
Além de procurar casos atípicos, também é possível buscar casos que
influenciam o modelo, e permite avaliar a estabilidade do modelo.
Uma estatística utilizada para avaliar casos influentes é o valor previsto
ajustado, que compara o valor previsto do modelo com o caso e o valor previsto
ajustado sem o caso. Se a retirada do caso influente produz valores previsto semelhantes
do modelo inicial é indicativo que o modelo é estável. A diferença entre o valor previsto
original e o valor previsto ajustado é conhecido como DFFit. Uma estatística que avalia
o efeito de um único caso no modelo como um todo é a Distância de Cook, onde
valores maiores que 1 indica influência significativa.
Embora existam outras formas de avaliar a influencia de casos no modelo eles
não é uma forma de justificar a remoção de dados para simplesmente produzir um valor
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

de B significativo. Lembre ainda que um valor atípico ou caso influente possa de fato
representar o padrão biológico presente na população e sua retirada leva a um modelo
não real. Além disso, a variável previsora ou o conjunto de variáveis previsoras podem
não ser capazes de prever adequadamente da variável de saída (Y).

GENERALIZAÇÃO DE UM MODELO DE REGRESSÃO


Para generalizar um modelo de regressão devemos estar seguros de que as
suposições (pressupostos) foram satisfeitos, e para testar se o modelo de fato é
generalizável, podemos realizar uma validação cruzada.
Pressupostos
- Tipos de variáveis: todas as variáveis devem ser Quantitativas, e devem ser não
limitada. Isto significa que os dados devem conter toda a amplitude em a variável pode
apresentar. Embora a Regressão Múltipla aceite variáveis categóricas, estas devem ser
inseridas somente se apresentarem contribuição significativa na melhoria das previsões.
- Variância não-nula: os previsores devem apresentar alguma variação, ou seja, não
podem apresentar variância ZERO.
- Multicolinariedade na deve ser perfeita: não deve existir relacionamento linear
perfeito entre dois ou mais previsores, ou seja, não devem apresentar correlações muito
elevadas (>0,80).
- Homocedasticidade: a cada nível das variáveis previsoras, a variância do termo
residual deve ser constante. Isso significa que os resíduos a cada nível dos previsores
devem ter a mesma variância (Homocedasticidade). Quando as variâncias são desiguais
os dados apresentam Heterocedasticidade.
- Erros independentes: para quaisquer duas observações os termos resíduos devem ser
não-correlacionados. Está suposição pode ser testada pelo teste de Durbin-Watson, que
testa a correlação entre erros. Os resultados podem varia de 0 a 4, onde valores de 2
indicam que os resíduos não se correlacionam. Valores acima de 2 indicam correlação
negativa e abaixo de 2 correlação positiva. Valores acima de 3 e menores que 1 indicam
que os resíduos se correlacionam.
- Erros normalmente distribuídos: as diferenças entre o modelo e os dados
observados são frequentemente ZERO ou próximo de ZERO. As variáveis previsoras
não necessitam ter distribuição normal, mas os resíduos sim.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

- Independência: as variáveis previsoras devem representar aspectos diferentes.


- Linearidade: os dados devem apresentar um comportamento linear.

Validação Cruzada do Modelo

Representa a forma de determinar o quão bem o modelo pode prever a saída


(Y) em uma amostra diferente daquela que produziu a equação. Quando o modelo é
capaz de prever a variável de saída em uma amostra diferente daquela que o modelo foi
construído, dizemos que o modelo é generalizável. O método para realizar a análise de
validação cruzada é o R2 ajustado, que representa a perda de poder de previsão. O
SPSS determina o valor do R2 ajustado utilizando a equação de Wherry.

Tamanho da amostra na Regressão


Existem diferentes regras para se determinar o tamanho da amostra em
regressão. A mais simples delas é a de se utilizar de 10 a 15 elementos por variável
previsora inserida no modelo. Deste modo, se temos 3 variáveis previsoras necessitamos
de 30 a 45 elementos amostrais.
Outra regra refere-se ao objetivo da regressão. Se você quer testar o modelo
como um todo, o tamanho mínino da amostra é =50+8*k, onde k representa o número
de previsores. Porém se o objetivo é analisar a contribuição de cada previsor
individualmente o tamanho da amostra é 104+k.
Porém para a estimativa precisa do tamanho da amostra é recomendado o uso
dos gráficos propostos por Miles & Shevin (2001). Estes gráficos relacionam o tamanho
do efeito com o número de previsores. Lembre que quanto menor o efeito que se deseja
detectar maior será o tamanho da amostra.
Considerando um poder de 80%, valor mais comumente utilizado na área da
saúde é possível verificar na figura abaixo o tamanho da amostra para diferentes
tamanhos de efeito e número de previsores.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Para gerar a análise de regressão múltipla no SPSS clicar em Analyze<


Regression< Linear. Na caixa de dialogo que abrir inserir em Dependent a variável de
saída (Y) e em Independent (s) as variáveis previsoras.
No exemplo dado a variável dependente é o Consumo máximo de Oxigênio
(VO2max) e as variáveis independentes previsoras são: índice de massa corporal (IMC),
circunferência de cintura (CC), Idade e Frequência cardíaca de repouso (FCr). No
campo Method selecionar a opção ENTER.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Em Statistics selecionar todos os itens exceto Covariance Matrix. Em Casewise


diagnostics, que lista os valores observados da saída, os valores de saída previstos, a
diferença entre esses valores (os resíduos) e essa diferença padronizada, é possível
selecionar o número de desvios-padrões, sendo recomendado indicar o valor 2.

Em Plots aparece uma lista de variáveis, devendo utilizar principalmente


DEPENDENT (variável dependente), *ZPRED (valores previstos padronizados da
variável dependente com base no modelo) e *ZRESID: resíduos padronizados (erro).
Selecionar as opções Histogram, Normal probality plots e Produce all partila plots.
Inserir *ZPRED em “X” e DEPENDENT em “Y” e clicar em NEXT. Inserir
agora *ZPRED em “X” e *RESID em “Y” e clicar em Continue.

Em SAVE selecionar em Predicted Values as opções Unstandardized (valor


previsto não padronizado), Standardized (valor previsto padronizado) e Ajusted (valor
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

previsto ajustado). Em Residuals clicar em Standardized (resíduo padronizado), Deleted


(resíduo excluído) e Studentized deleted (resíduo estudentizado excluído). Em Distances
clicar em Mahalanobis (distância de Mahalanobis), Cook´s (distância de Cook) e
Leverage values (valor centrado de influência). Em Influence Statistics clicar em
Standardized DfBeta (s) (DfBeta padronizado do previsor) e Standardized DfFit (DfFit
padronizado). A interpretação destes índices será descrita adiante.

Em Options em Use probability é possível selecionar os critério de entrada


(Entry) e de remoção (Removal) de uma variável previsora pelo valor de “p” associado
a estatística F (Multivariada). Clicar em Continue e depois em OK na caixa de dialogo
principal.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No Output do SPSS no quadro Descriptive Statistics é apresentado os valores


de média e desvio-padrão das variáveis analisadas. No quadro Correlations é
apresentado os valores de correlação de Pearson e os respectivos valores de “p” para as
variáveis inseridas no modelo.

No quadro Correlations é possível observar que as variáveis IMC e CC


apresentam correlação elevada, indicando que uma delas deverá ser retirada do modelo.

No quadro Variables Entered/Removed é apresentado as variáveis que foram


incluídas no modelo e as variáveis que forma removidas.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No quadro Model Summary o valor de R=0,528 indica que os previsores tem


uma correlação modera com a variável de saída VO2max. O R Square (R2) indica que o
modelo explica 27,9% das variações em VO2max. Os valores de Adjusted R Square
indica os valores de R2 se o modelo fosse derivado da população (0,279 – 0,235 = 0,044
=4,4%). Em Change Statistics é analisada se a variação entre de R2 são significativas.
Em Durbon-Watson se a hipótese de Independência dos Erros é satisfeita, onde quanto
mais próximo de 2 melhor.

No quadro ANOVA contém a análise de variância que testa se o modelo de


regressão é significativamente melhor para prever a saída de VO2max do que utilizar a
média das variáveis previsora. Como o valor de “p” (Sig) é menor que 0,05 podemo
dizer que o modelo é melhor do que utilizar a média.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No quando Coefficients é apresentado os parâmetros do modelo. Em


Unstarndardized no item “B” estão apresentados os parâmetros da equação e ao erro
padrão que pode ser observado em repetidas amostras da população. Em Standardized
Coefficients é apresentado os valores de “B” padronizados em unidades de desvios-
padrões o que fornece uma idéia melhor da importância da importância de cada previsor
no modelo. Os valore de t e Sig indicam se o previsor contribui de forma significativa
no modelo, ou seja, se o valor do coeficiente é diferente do valor médio.

Y=41,732 + (-0,128*X1)+ (0,109*X2)+(-0,121*X3)+(0,035*X4)

Ainda no quadro Coefficients são apresentados os valores do Intervalo de


Confiança de 95% para os valores de “B” (95% Confidence Interval for B). Em
Correlation é apresentada a correlação parcial (Partial) entre os previsores controlado a
auto correlação entre os previsores. Em Collinearity Statistics valores de VIF próximos
de 10 indicam a presença de Multicolinearidade e valores próximo de 1 indicam
ausência de Multicolinearidade. Os valores de Tolerance aceitáveis são maiores 0,20.

No quadro Casewise Diagnostics são indicados os casos que representam


Outliers no modelo, apresentado os valores do desvio-padrão residual (Std. Residual),
Valor Observado, Valor Predito pelo modelo (Predited Value) e valor residual
(Redisual).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No quadro Residuals Statistics é possível visualizar a estatística descritiva dos


valores previstos e residuais, porém uma informação importante refere-se a distância de
COOK, onde valores acima de 1 indicam influência significativas de casos.

A análise da Regressão com a observação dos gráficos de Histograma dos


resíduos e o Diagrama de Probabilidade Acumulada Observada.

No gráfico de da relação entre a variável dependente e *ZPRED, e no gráfico


entre *ZRESID e *ZPRED, clicar duas vezes sobre o gráfico para abrir o editor.
Selecionar na barra de ferramentas os itens indicados abaixo em vermelho para inserir a
linha correspondente a média (vermelha) e a linha de regressão prevista pelo modelo
(preta). Depois clicar na linha de regressão e em Properties selecionar a opção Mean em
Confidence Interval para traçar a linha de IC95% para a linha de regressão.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Inserindo variáveis categóricas na Regressão Linear


Na análise de regressão é possível a inclusão de variáveis categóricas nas
variáveis previsoras (independente). Porém está deverá estar em escala dicotômica e sua
codificação deverá ser sempre 0 e 1. A categoria “0” deve representar a ausência da
característica de interesse, e a variável “1” a presença.
Quando temos uma variável categórica que possui mais de duas categorias
temos que definir a categoria de interesse e atribuir o código “1”, e para o restante das
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

categorias atribuir o código “0”. Quando isto é feito a variável criada é chamada de
variável Dummy, pois, o código “0” representa mais de uma categoria de resposta se
caracterizando com uma variável fictícia.
No SPSS é possível transformar uma variável categórica com mais de duas
categorias em uma variável Dummy. Considerando a planilha do SPSS Regressão
Logística, a variável estado nutricional (EST_NUT) possui 3 categorias de resposta,
sendo, 0=eutrófico; 1=sobrepeso; 2=obeso. Supondo que o propósito seja criar 3
variáveis Dummy: Eutrófico (0=não eutrófico; 1= eutrófico); Sobrepeso (0=não
sobrepeso; 1= sobrepeso); Obeso (0=não obeso; 1=obeso).
Clicar em Transform<Recode into Different Variables. No item Numeric
Variable -> Output Variable inserir a variável EST_NUT que será transformada. Em
Name nomear a nova variávei Dummy, e em Label descrever a nova variável. Feito isto
clicar em Change. Em seguida clicar em Old and New Values para atribuir os novos
códigos.

Em Old Value inserir em Value o código original da categoria. Em New Value


inserir em Value o novo código e clicar em Add para adicionar. O mesmo deverá ser
feito para as categorias que receberam o código “0”. Após inserir em Add todas as
categorias clicar em Continue e depois em OK.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

O SPSS irá criar uma nova variável chamada de Eutrófico. Caso queira fazer o
mesmo para as outras categorias de resposta deverá realizar o mesmo procedimento para
cada uma delas.

Embora seja possível incluir variáveis categóricas nos previsores da Regressão


Linear, a variável de saída (Y) sempre deverá ser uma variável quantitativa.
Para exemplificar está situação utilize a planilha do SPSS Regressão Logística
e realize uma Regressão Linear Simples incluindo a variável quantitativa IL6 como
variável dependente e a variável Dummy Obesidade vs. Não Obesidade na lista de
variável dependente. Lembre de testar os pressuposto discutidos anteriormente.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Também é possível inserir simultaneamente variáveis quantitativas e


categóricas com variáveis previsoras. Realize a Regressão Linear Múltipla incluir além
da variável Dummy Obesidade as variáveis quantitativas idade, tempo sem menstruação
(TSM) e circunferência de cintura (CC), para testar um modelo de previsão dos valores
de Interleucina-6 (IL6). Lembre que agora temos mais pressupostos para testar.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

4. REGRESSÃO LOGÍSTICA BINÁRIA


Na Regressão Logística a variável de saída (Y) é uma variável categórica
dicotômica que representa a ausência ou presença de um desfecho. As variáveis
previsoras pode ser quantitativas ou qualitativas.
Embora seja parecida com a Regressão Linear, a Regressão Logística não
prevê os valores de Y, mas sim a probabilidade do desfecho de interesse em Y ocorrer.
Na sua forma mais simples a Regressão Logística com um único previsor a
equação pode ser descrita da seguinte forma.

P(Y) = 1/ 1+e – (b0 + b1*X + ɛi )

Onde P é a probabilidade de Y ocorrer, “e” é a base do logaritmo naturnais, e


o restante da equação representa os mesmo parâmetros descritos na Regressão Linear.
Quando a Regressão Logística incluir múltiplos previsores ela é representada da
seguinte forma.
P(Y) = 1/ 1+e – (b0 + b1*X1+ b2*X2+ ....bn*Xn+ ɛi )

A equação de Regressão Logística descrita é expressa por uma Regressão


Linear em termos logarítmicos e dessa forma resolve a problema da violação da
hipótese de linearidade. O valor resultante da equação é uma probabilidade que varia de
0 a 1, onde um valor próximo de 0 significa que a ocorrência de Y é bastante
improvável, e próximo de 1 é bastante provável.
Os parâmetros estimado pela equação são analisados pela Estimação da
Máxima Verossimilhança, que seleciona os coeficientes de regressão.
Da mesma forma, que a regressão linear, a Regressão Logística, utiliza os
valores observados e previsto para avaliar a Aderência do modelo. Para fazer isso é
utilizado a Verossimilhança-log.
A estatística da Verossimilhança-log é análoga à soma dos quadrados dos
resíduos na regressão múltipla, no sentido de que ela é um indicador da quantia de
informação não explicada pelo modelo.
Contudo, é possível calcular uma versão mais adequada da correlação múltipla
na regressão logística por um valor conhecido como estatística-R.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Essa estatística-R é a correlação parcial entre a variável de saída (Y) e cada


uma das variáveis previsoras, e pode variar de -1 a 1. O valor positivo indica que
quando a variável previsora aumenta, também aumenta probabilidade da ocorrência do
evento. Um valor negativo indica que quando a variável previsora aumenta, diminui a
probabilidade do evento ocorre.
Existe controvérsia sobre qual o melhor método para determinar o R2 na
regressão logística. O SPSS fornece duas medidas que podem ser utilizadas, o R2cs de
Cox & Snell e sua correção no valor de R2n de Nagelherke.
A estatística de Wald é utilizada para avaliar a contribuição dos previsores no
modelo, informando se o coeficiente “B” de cada previsor é significativamente diferente
de ZERO.
O item de maior relevância na interpretação da Regressão Logística é o valor
de Exp b (Exp(B) na saída do SPSS), que é um indicador da mudança nas
probabilidades resultantes da mudança de uma unidade no previsor. Essa proporção de
mudança na Chance (Odds) é interpretada da seguinte forma: se o valor é maior que
1significa que quando o previsor aumenta as chances da saída ocorrer é maior; se o
valor é menor que 1 indica que quando o previsor aumenta as chances da saída ocorrer
diminuem.
Quanto ao método de Regressão recomendado é o ENTER, embora a opção do
Stepwise esteja disponível.
Lembre que na Regressão Logística os previsores podem ser variáveis
quantitativas ou qualitativas, porém quando for incluir variáveis categóricas é
importante indicar estas para o SPSS caso estas não estejam no formato Dummy para
que seja possível sua dicotomização.
Para exemplificar a aplicação da Regressão Logística no SPSS primeiro vamos
utilizar um exemplo em que as variáveis previsoras são todas quantitativas. No exemplo
o objetivo é analisar um modelo de variáveis quantitativas que consiga prever os
desfecho relacionado a inflamação crônica de baixo grau representado na variável
(IL6_diag), onde 1 representa a presença e 0 a ausência.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Clicar em Analyze<Regression<Binary Logistic. Na caixa de dialogo que


abrir inserir em Dependent a variável que representa o desfecho que se pretende prever,
e em Covariates inserir as variáveis previsoras que se pretende testar. A opção
Categorical será utilizada somente quando houver uma variável categórica com mais de
duas categorias que seja necessário transformar em variável Dummy.

Em SAVE selecionar as opções indicadas no quadro abaixo para gerar


informações relacionadas ao valor predito pelo modelo (Predicted Values), Resíduos
(Residuals) e influência de valores (Incluence). Lembre o SPSS irá produzir novas
variáveis quando estas opções estiverem selecionadas. O uso de cada informação será
descrito juntamente com os resultados mais a frente.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Em Options selecionar as opções marcadas no quadro abaixo, porém se optou


pelo Metódo Stepwise vale apenas considerar a possibilidade de alterar os valores de
entrada (Entry) e remoção (Removal), pois, estes limites podem ser ampliados.
No item Statistics and Plots o diagrama de classificação (classification plots)
produz um histograma dos valores reais e previstos da variável de saída, que serve para
avaliar o ajuste do modelo aos dados observados. Em Casewise listing of residuals é
apresentada uma lista de resíduos por caso e para todos os casos. Em CI for exp(B) é
produzido um intervalo de confiança para a estatística exp(B). A opção Hosmer-
Lemeshow goodness-of-fit fornece uma estimativa de quão bem o modelo se ajusta ao
dados.
Em Display é possível optar em possível optar em apresentar todas as
estatísticas e gráficos a cada estágio, ou somente ao final quando o modelo estiver
determinado.

Selecionado todos os itens de interesse clicar em Continue e retornando na


caixa de dialogo principal clicar em OK. No Output do SPSS inicialmente é apresentado
no quadro Case Processing Summary a lista de elementos incluídos na análise. Em
Dependent Variable Encoding a indicação dos códigos atribuídos as categorias da
variáveis desfecho (Y).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Os resultados são apresentados em dois blocos de análise. No Bloco “0” em


Interation History é apresentado como um relatório de como a constante se modifica
com a inclusão de previsores no modelo. Em Classification Table é apresentada uma
tabela de contingência que analisa os valores observados e preditos pelo modelo quando
apenas a constante é incluída. Em Overall Percentage é apresentada a porcentagem de
sujeitos que tiveram a previsão do desfecho corretamente pelo modelo, sendo
considerado bom valores acima de 70%.

Ainda no Bloco “0” em Variable in the Equation é apresentado os parâmetros


calculados sem a inclusão dos previsores, ou seja, baseada somente na probabilidade do
desfecho ocorrer, onde B representa a constante da equação (b0), S.E. o erro padrão
associado a constante, a estatística Wald que informa se contribuição da constante é
significativa no modelo, em Sig. o valor de “p” associado a estatística Wald, e em
Exp(B) o variação da chance do desfecho ocorrer.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Finalizando o Bloco “0” o quadro Variables not in the Equation é fornecido a


significância da entrada de cada variável previsora no modelo. Na última linha em
Overall Statistics é apresentada a estatística do Qui-quadrado dos resíduos em Score e
seus respectivo valor de “p” (Sig). Está estatística informa se os coeficientes para as
variáveis que não estão no modelo são significativamente diferente de ZERO, ou seja,
se a adição de uma ou mais destas variáveis no modelo irá afetar o seu poder de
previsão.

Agora no no Bloco 1: Metodo Enter é apresentado os resultados do modelo


com a inclusão dos previsores. Em Iteration History é apresentada os coeficiente de
cada previsor considerando primeiro (Step 1) a inclusão dos previsores sem interação e
depois sucessivamente com a interação de 2 a 5 previsores.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Em Omnibus Tests of Model Coeficients é apresentada o valor de significância


do modelo. Em Modelo Summary o SPSS fornece a aderência total do novo modelo.
Lembre que os valores de -2Log likelihood devem ser menores do que quando somente
a constante foi incluída, pois, isto indica que o novo modelo está prevendo a variável
desfecho com maior precisão, ou seja, quando menor melhor. Recomenda-se olhar para
Nagelkerke R Square que indica a aderência do modelo, ou seja, o quanto o modelo
explica a ocorrência do desfecho. Complementar ao Nagelkerke R Square no quadro
Hosmer and Lemeshow Test é indicado se a aderência ao modelo é significativa.

Em Classification Table no item Overall Percentage 75,7% dos sujeitos com o


desfecho forma previstos corretamente, porém no modelo somente com a constante
foram previsto corretamente 74,3%, o que indica que a inclusão das variáveis previsoras
contribuiu pouco para a melhoria do modelo. Porém 17 dos 18 elementos sem
inflamação receberam incorretamente a previsão de inflamação o que indica fragilidade
do modelo, pois, apesar de detectar corretamente 75%, não demonstrou capacidade de
detectar os sujeitos sem o desfecho.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No quadro Variable in the Equation são apresentados os parâmetros da equação


e sua estatística para cada previsor e para constante, onde B representa o coeficiente de
cada previsor que modifica a saída resultante da mudança de uma unidade na variável
previsora. É também apresentada a estatística Wald e seu respectivo valor de “p” (Sig)
que informa se o coeficiente “b” para dado previsor é significativamente diferente de
ZERO.
Em Exp(B) é descrita a taxa de mudança na chance que resultada do aumento
de uma unidade do previsor. Em TSM o valor é de 0,938, o que representa um fator de
proteção para o desfecho, ou seja, o aumento em uma unidade no previsor TSM
aumenta a chance do desfecho não ocorrer. Por outro lado, em IMC o valor de 1,146
indica que o aumento de uma unidade no IMC aumento a chance do desfecho ocorrer
em 1,146%. Também é fornecido o Intervalo de Confiança de 95% para Exp(B), e
quando este IC95% incluir o valor 1 é indicativo que este previsor não tem contribuição
significativa no aumento da chance do desfecho ocorrer.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Por último é apresentado um diagrama de classificação que representa um


histograma das probabilidades previstas. Se o modelo adere perfeitamente aos dados, o
histograma deve mostrar todos os casos em o evento ocorreu do lado direito e todos os
casos que o evento não ocorreu do lado esquerdo. Quando as variáveis previsoras são
contínuas os casos ficam espalhados por várias colunas. Como regras prática, quanto
mais casos se concentrarem nos finais do gráfico, melhor. Por outro lado, se existirem
muitos pontos agrupados no centro do diagrama, o modelo prevê tão bem quanto lançar
uma moeda.Ainda, ainda um bom modelo deve assegurar que poucos casos sejam mal
classificados.

Vimos nos resultados que alguns previsores têm B com valor negativo e
Exp(B) menor que 1 indicando que quando estes previsores aumentar a probabilidade
do desfecho ocorrer diminui. Assim podemos realizar a análise novamente retirando
estes previsores. Além disso, também é possível inserir previsores de modo a analisar
sua interação. Para isso após clicar em Analyze<Regression<Binary Logistic, na lista
de variáveis da caixa de dialogo que abrir selecionar duas variáveis e a opção “>a*b>
será ativada para inserir a interação no item Covariates. No Bloco “0” é possível
verificar no quadro Variabeles not in the Equation em Overall Statistics que nenhuma
variável previsor é significativamente diferente de ZERO, ou seja, se a adição de uma
ou mais destas variáveis no modelo não irá afetar o seu poder de previsão.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

No Bloco 1, em Nagelkerke R Square é possível verificar que a aderência de


modelo é baixa, pois o modelo explica somente 6,9% da ocorrência do desfecho, e em
Hosmer and Lemeshow Test o valor de Sig. indica que o R2 (aderência) não é
significativo. No quadro Variable in the Equation a estatística de Wald mostra em Sig.
que nenhuma variável previsora foi significativa e o IC95% para Exp(B) incluem o
valor 1.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Também é possível realizar a Regressão Logística incluindo nos previsores


variáveis qualitativas. Embora o SPSS tenha a opção em Categorical para dicotimizar
uma variável qualitativa com mais de duas categorias de resposta, recomendo que o
próprio pesquisado faça isso atribuindo os códigos de resposta “0” e “1”.
Agora utilizando as variáveis da planilha Regressão Logística vamos testar um
modelo para prever a inflamação crônica de baixo grau, incluindo nos previsores as
variáveis Hipertensão (HAS), Colesterol Total elevado (CT), HDL-colesterol baixo
(HDL-c) e Diabete (DM). Todas as variáveis previsoras estão dicotomizadas em
Ausência (0) e Presença (1).
Agora clicar em Analyze<Regression<Binary Logistic e inserir as novas
variáveis em Covariantes. Lembre de selecionar os itens em SAVE para analisar os
resíduos, porém antes de produzir novas variáveis na sua planilha, é possível rodas a
análise se selecionar esta opção e caso o modelo se mostre promissor fazer está análise
subsequente. Porém no itens options não esqueça de selecionar as opções
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Agora que estamos habituados com o Output podemos analisar diretamente o


quadro Variable not the Equation no Bloco “0”, como também a aderência do modelo
no Bloco 1 (Modelo Summary e Hosmer and Lemeshow Teste).

Na análise do quadro Variable in the Equation do Bloco 1 observamos que


embora nenhuma variável previsora tenha apresentado significância menor que 0,050,
as variáveis HAS e CT apresentaram valores abaixo de 0,100 (10%). Porém o CT indica
que o aumento do CT aumenta as chances do desfecho não ocorrer. Além disto, o HDL-
c apresentou valor de Exp(B) é maior que 1 e podem ter potencial de contribuir com o
modelo apesar do IC95% incluir o valor 1. Após estas considerações podemos rodar a
análise novamente somente com as variáveis HAS e HDL-c, com também com a
interação entre elas.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

Observe que retirada das variável CT e DM alteraram todos os valores


descritos no quadro Variables in the Equation, e isto indica o efeito de um previsor
sobre o outro na construção do modelo de previsão. Além disto, lembre que o tamanho
da amostra e as características destas podem influenciar a capacidade do modelo prever
o desfecho. Outra questão é que uma amostra pode produzir um modelo de boa
aderência e significativo, porém se a amostra utilizada para construir o modelo, não
representar adequadamente a população para qual o modelo foi construído, suas
previsões terão baixo percentual de acerto, por isso testar a reprodutibilidade de
modelos de previsão é necessário antes de recomendar sua utilização.

BIBLIOGRAFIA

1. DAWSON, B.; TRAPP, R.G. Bioestatística básica e clínica. 3 ed.Rio de Janeiro:


McGraw-Hill, 2001.
2. DEMIDENKO, E. Sample size determination for logistic regression revisited.
Statistics in Medicine, John Wiley. v. 26, p. 3385-3397, 2007.
3. DEMIDENKO, E. Sample size and optimal design for logistic regression with
binary interaction. Statistics in Medicine. John Wiley. v. 27, p. 36-46, 2008.
4. FIELD, A. Descobrindo a estatística usando o SPSS. 2 ed. Porto Alegre:
Artmed, 2009, 689p.
5. FONTELLES, M.J.;et al. Metodologia da pesquisa: diretrizes para o cálculo do
tamanho da amostra. Revista Paraense de Medicina. v.24, n.2. 2010
6. GLANTZ, S.A. Princípios de Bioestatística. 7 ed. Porto Alegre: Artmed, 2014,
306p.
7. LINDENAU, J.D.; GUIMARÃES, L.S.P. Calculando o tamanho do efeito no
SPSS. Rev. HCPA, Secção de Bioestatística, v.32, n.3, 2012.
8. LUNET, N.; SEVERO, M.; BARROS, H. Desvio Padrão e Erro Padrão. Notas
Metodológicas. Arquivos de Medicina, 2006.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III

9. MIOT, Hélio Amante. Tamanho da amostra em estudos clínicos experimentais. J


Vas Bras. 2011; 10 (4); 275-278.
10. NOVIKOV, I.; FUND, N.; FREEDMAN, L. S. A modified approach to
estimating sample size for simple logistic regression with one continuous
covariate. Statistics in Medicine. John Wiley. v. 29, p. 97-107, 2009.
11. RIBAS, J.R.; VIEIRA, P.R.C. Análise multivariada com o uso do SPSS. 1 ed.
Rio de Janeiro: Editora Ciência Moderna, 2011, 272p.
12. VIEIRA, A.C.R.; ALVAREZ, M.M.; MARINS, V.M.R.; SICHIERI, R.;
VEIGA, G.V. Desempenho de pontos de corte do índice de massa corporal de
diferentes referências na predição de gordura corporal em adolescentes. Cad.
Saúde Pública, Rio de Janeiro, v.22, n.8, p.1681-1690, 2006.
13. WHITTEMORE, A. S. Sample size for logistic regression with small response
probability. Journal of the American Statistical Association. American
Statistical Association. v. 76, p. 27-32, 1981.

View publication stats

Você também pode gostar