Você está na página 1de 143

UNIVERSIDADE ABERTA

Mestrado em Estatstica, Matemtica e Computao


(Ramo Estatstica Computacional)

Modelos de Regresso:
uma aplicao em Medicina Dentria

Maria Cristina Campos dos Santos Ferreira

Dissertao apresentada na Universidade Aberta para obteno


do grau de Mestre em Matemtica, Estatstica e Computao

Orientadora:

Professora Doutora Teresa Paula Costa Azinheira Oliveira

Lisboa 2013
Ao meu marido

Aos meus filhos Andr e Carolina

ii
minha Me

memria do meu Pai

iii
AGRADECIMENTOS

Professora Teresa Oliveira, minha orientadora de dissertao e docente de Estatstica, a


quem agradeo, em primeiro lugar, o interesse que me despertou pelo tema, o desejo de
continuar a pesquisa e aprofundamento dos meus conhecimentos. Agradeo a confiana,
inspirao e contribuio na transmisso dos seus conhecimentos para a elaborao desta
tese.

Ao meu querido marido, pelo apoio incondicional, pela sua compreenso e contnua
motivao, mesmo nos momentos mais difceis, o meu muito obrigada.

O meu agradecimento a todos os meus amigos que tornaram possvel a realizao deste
trabalho, sempre demonstrando o seu apoio, mesmo quando tudo parecia impossvel.

iv
RESUMO

Os fenmenos biolgicos geralmente revestem-se duma elevada complexidade dada a


multifatorialidade da sua etiologia. Assim, a anlise estatstica, como ferramenta
indispensvel para a determinao de associaes e interaes complexas entre os
diferentes potenciais fatores causais e a varivel dependente em estudo, adquire importncia
capital. Neste contexto a escolha do tipo de anlise dever ser adequadamente
fundamentada numa perspectiva terica, de modo a permitir ao investigador a percepo
correta do fenmeno biolgico em estudo.

Com o objetivo de clarificar a utilizao em estudos na rea da medicina dentria de um


ajustado tratamento estatstico proponho-me a abordar diferentes anlises estatsticas com
os dados existentes estudando a pertinncia do estudo e a sua viabilidade, tanto em funo
do significado biolgico das variveis como dos seus valores. So explorados modelos de
regresso linear clssicos e o modelo de regresso logstica procurando uma interpretao
explicada do que se pode retirar de cada anlise.

Na minha dissertao, proponho-me a analisar dados recolhidos no mbito de uma


investigao levada a cabo na rea da Medicina Dentria. Da base de dados constam
registos de observaes de 158 indivduos, sendo 79 diabticos e 79 no diabticos, relativos
a variveis bioqumicas, variveis antropomtricas, factores comportamentais e indicadores
de sade oral.

Ao proceder deste modo penso poder dar algum contributo para a aplicao correta da
estatstica em trabalhos biolgicos, alertando para que a anlise tem que ser adequada e os
resultados devem ser devidamente interpretados.

Palavras-chave: Regresso Linear Simples, Regresso Linear Mltipla, Regresso Logstica,


Diabetes Mellitus, Doena Periodontal

v
SUMMARY

The biological phenomena are usually highly complex due to the multifactorial aetiology. Thus
the statistical analysis is an indispensable tool find associations and complex interactions
between different potential causal factors and the dependent variable under study. In this
context the statistical analysis is a major importance tool to access the associations and
interactions between dependent and independent variables. The choice of analysis type must
be grounded on solide theoretical bases and take in account the experimental design and the
nature of the phenomena of interest, in order give the researcher a correct perception of the
phenomenon under study.

In my dissertation, I propose to apply different multivariate statistical analysis methods to a


data set of 158 subjects (diabetic and nondiabetic) in order to compare their results and
feasibility, and get for each one an biological interpretation of the result. The data were
collected as part of a research work in the area of dentistry and includes variables on
biochemical, anthropometric, behavioural, and oral health surrogated endpoints.

This work is an effort to highlight the importance of a correct application and interpretation of
the statistics in biological work.

Keywords: Linear regression, Multiple Regression, Logistic Regression, Diabetes Mellitus,


Periodontal disease

vi
SIMBOLOGIA E NOTAES

ADM Anlise Discriminante Mltipla

ANOVA Anlise de Varincia


IC Intervalo de Confiana

MMQ Mtodo dos Mnimos Quadrados


RLS Regresso Linear Simples
MLG Modelo Linear Generalizado

MRLM Modelo de Regresso Linear Mltiplo


MRLS Modelo de Regresso Linear Simples

QME Quadrado Mdio do erro


QM Reg Quadrado Mdio devido regresso
QM Res Quadrado Mdio dos resduos
RM Regresso Mltipla

ROC Receiver Operating Characteristic


SQ Reg Soma dos Quadrados devidos regresso
SQ Res Soma dos Quadrados dos resduos

SQT Soma Quadrtica Total


SPSS Statistical Package for the Social Sciences
A1c Hemoglobina glicada
CT Colesterol total
GJ Glicemia em jejum
HDL Lipoprotenas de alta densidade

HPS Hemorragia ps-sondagem


IMC ndice de Massa Corporal

IP ndice de placa
LDL Lipoprotenas de baixa densidade
NA Nvel de aderncia clnica

PS Profundidade de sondagem
RG Retrao gengival
RCA Relao permetro da cinta/permetro da anca

vii
T Triglicerdeos
H0 Hiptese Nula

H1 Hiptese Alternativa

VD Varivel dependente
VI Varivel independente

Valor observado da varivel dependente

Valor estimado da varivel dependente

Mdia da varivel dependente

Mdia da observao i

Desvio Padro da varivel Y

Covarincia entre as variveis X e Y

Varincia amostral de

Covarincia amostral entre X e

Nvel de significncia Erro tipo I


Erro tipo II

e Constantes (parmetros) desconhecidas

e Estimativas dos parmetros e

Erro aleatrio

Efeito do tratamento i

Coeficiente de determinao

Coeficiente de determinao mltipla

Coeficiente de determinao ajustado

Coeficiente de Correlao

Coeficiente de Correlao de Pearson

Coeficiente de Correlao de Spearman

Coeficiente de varincia

Coeficiente angular da reta de regresso

Varincia dos erros ou resduos


or Odds ratio

viii
NDICE
Agradecimentos .................................................................................................................... iv
Resumo .................................................................................................................................. v
Summary ............................................................................................................................... vi
Simbologia e Notaes .......................................................................................................... vii
ndice de Tabelas .................................................................................................................. xi
ndice Figuras ....................................................................................................................... xiii
ndice de Anexos .................................................................................................................. xv

Introduo .................................................................................................................... 1

PARTE I
1. Anlise de Varincia (ANOVA) aplicada Regresso .................................................. 5
2. Tcnicas de Inferncia Estatstica No Paramtrica .................................................... 7
2.1. Teste do Qui-quadrado para a independncia ................................................... 10
2.2. Testes para duas ou mais amostras independentes .......................................... 12
2.3. Testes de Correlao ......................................................................................... 21
3. Anlise de regresso ................................................................................................. 24
3.1. Regresso e Correlao Linear .......................................................................... 25
3.2. Modelo de Regresso Linear Simples ................................................................ 27
3.2.1. Reta de Regresso .................................................................................... 27
3.2.2. Mtodo dos Mnimos Quadrados .............................................................. 28
3.2.3. Qualidade do ajustamento da reta ............................................................ 30
3.2.4. Pressupostos da Anlise de Regresso Linear Simples ........................... 31
3.2.5. ANOVA aplicada RLS ............................................................................ 32
3.2.6. Teste de Hipteses e Intervalos de Confiana
para os Coeficientes do MRLS ................................................................. 33
3.3. Modelo de Regresso Linear Mltipla ................................................................ 35
3.3.1. Anlise de Varincia (ANOVA) Aplicada Regresso Linear Mltipla ...... 36
3.3.2. Teste de significncia da equao de Regresso Linear Mltipla ............. 37
3.3.3. Teste de Partes de um Modelo de Regresso Linear Mltipla .................. 37
3.3.4. Coeficiente de determinao parcial ......................................................... 38
3.3.5. Inferncia sobre os coeficientes de determinao parcial ......................... 38
3.3.6. Intervalos de Confiana da Regresso Linear Mltipla ............................. 39
3.3.7. Avaliao da Regresso Linear Mltipla ................................................... 39

ix
3.4 Modelo de Regresso Logstica ............................................................................... 39
3.4.1. Estimao de parmetros em regresso logstica.. 42
3.4.2. Mtodo de seleo baseado no critrio de informao..................................... 46
4. Tcnicas de visualizao de informao .................................................................... 48
4.1. Fundamentos da visualizao grfica ................................................................ 48
4.2. Tipos de grficos aplicados neste estudo ........................................................... 50
5. Diabetes Mellitus e Periodontite ................................................................................. 60

PARTE II
1. Introduo ................................................................................................................. 65
2. Visualizao grfica e anlise exploratria dos dados ............................................... 72
3. Testes no paramtricos ........................................................................................... 76
3.1. Teste de Mann-Whitney .................................................................................... 76
3.2. Interpretao grfica .......................................................................................... 78
3.3. Teste de t de Student ......................................................................................... 79
4. Estudo das Correlaes ............................................................................................ 80
4.1. Relao entre o Nvel de Aderncia (NA) e as variveis independentes ............ 80
4.2. Relao entre o Nvel de Aderncia e o status diabtico com recurso ao R ....... 80
5. Anlise de Regresso Mltipla .................................................................................. 83
5.1. Regresso linear mltipla ................................................................................... 83
5.2. ANOVA para testar a significncia do modelo .................................................... 84
5.3. Validao dos pressupostos do modelo ............................................................. 85
5.4. Ajustamento do Modelo pelo Mtodo Stepwise .................................................. 88
5.5. Ajustamento do Modelo de RLM com recurso ao R ........................................... 94
6. Regresso Logstica .................................................................................................. 95
6.1 Introduo e Estratificao dos dados ................................................................. 95
6.2. Codificao de fatores ........................................................................................ 99
6.3. Qualidade do ajuste do modelo ......................................................................... 102
6.4. Anlise dos resduos ......................................................................................... 104
7. Concluso geral da anlise estatstica e recomendaes aos especialistas ............ 107

Referncias Bibliogrficas ........................................................................................ 110

Anexos ....................................................................................................................... 112

x
xi
NDICE DE TABELAS

Tabela 1 Teste a utilizar em funo do tipo de dados e do objetivo do estudo

Tabela 2 Testes no paramtricos mais utilizados

Tabela 3 Tabela de Contingncia 2x2

Tabela 4 Quadro resumo dos clculos da ANOVA

Tabela 5 Estratificao das variveis segundo o risco para a doena periodontal

Tabela 6 Indicadores socioeconmicos dos diabticos e no diabticos

Tabela 7 Dados antropomtricos dos diabticos e no diabticos

Tabela 8 Valores analticos dos diabticos e no diabtico

Tabela 9 Indicadores da sade periodontal dos diabticos e no diabticos

Tabela 10 Variveis includas no Modelo de regresso linear simples

Tabela 11 Resumo do Modelo de Regresso linear simples

Tabela 12 Tabela ANOVA

Tabela 13 Coeficientes do modelo de Regresso linear

Tabela 14 Teste One-Sample Kolmogorov-Smirnov

Tabela 15 Teste de normalidade

Tabela 16 Verificao da multicolinearidade

Tabela 17 Diagnstico de colinearidade

Tabela 18 Variveis includas e excludas do modelo

Tabela 19 Sumrio do modelo

Tabela 20 Tabela ANOVA

Tabela 21 Coeficientes

Tabela 22 Variveis includas e excludas do modelo

Tabela 23 Diagnstico de colinearidade

xii
Tabela 24 Estatsticas Residuais

Tabela 25 Clculo da rea sob a curva ROC

Tabela 26 Clculo da rea sob a curva ROC Coordenadas da Curva

Tabela 27 Codificao da varivel dependente

Tabela 28 Codificao das variveis independentes

Tabela 29 Clculo da Estatstica de Wald

Tabela 30 Estudo das variveis no includas

Tabela 31 Quadro inicial das iteraes

Tabela 32 Teste do rcio das verosimilhanas entre modelos

Tabela 33 Qualidade do ajustamento do modelo

Tabela 34 Teste de Hosmer and Lemeshow

Tabela 35 Tabela de contingncia do teste de Hosmer and Lemeshow

Tabela 36 Classificao observada e prevista no modelo ajustado

Tabela 37 Informaes sobre variveis independentes no modelo completo

Tabela 38 Quadro de identificao dos outliers

xiii
NDICE DE FIGURAS

Figura 1 Interpretao geomtrica dos parmetros do modelo de regresso linear simples

Figura 2 Representao mltipla (grfico explicativo de uma funo preditora com trs
variveis)

Figura 3 Avaliao de tarefas percetivas ordenadas segundo a sua preciso

Figura 4 As variveis visuais segundo Bertin

Figura 5 Digrama de disperso com reta de regresso

Figura 6 Exemplos de relao conjunta entre variveis

Figura 7 Verificao de independncia

Figura 8 Verificao da varincia dos resduos

Figura 9 Exemplos de correlaes

Figura 10 Correlaes lineares positivas e negativas

Figura 11 Exemplos de coeficientes de correlao

Figura 12 Distribuio no equilibrada de dados

Figura 13 Correlao entre quocientes de variveis

Figura 14 Correlao entre produto de variveis

Figura 15 Grficos P-P Plot e Q-Q Plot

Figura 16 Curva ROC, para uma dada capacidade de discriminao, com a variao do
critrio de deciso

Figura 17 Grfico de mosaico correspondente tabela de contingncia de 22

Figura 18 Figura explicativa dos conceitos utilizados nas variveis clnicas do sistema
periodontal

Figura 19 Distribuio dos participantes por status diabtico

Figura 20 Distribuio dos diabticos por sexo

Figura 21 Esquema com a estrutura do estudo

xiv
Figura 22 Histogramas das variveis Idade, Escolaridade e IMC

Figura 23 Grfico circular das variveis Sexo e Hbitos Tabgicos

Figura 24 Grficos circulares comparativo dos Hbitos Tabgicos por sexo

Figura 25 Distribuio do Nvel de Aderncia em fumadores por sexo e status diabtico

Figura 26 Diagrama de extremos das variveis Escolaridade e Idade em funo do status


diabtico

Figura 27 Grficos da varivel Nvel de aderncia

Figura 28 Diagrama de disperso da varivel NA em diabticos e no diabticos

Figura 29 Nuvens de pontos

Figura 30 Diagramas de disperso

Figura 31 Comparao de grupos relativamente aos valores do NA

Figura 32 Grficos dos Resduos versus preditos; resduos padronizados e da probabilidade


normal dos resduos

Figura 33 QQ-plot

Figura 34 Periodontal fingerprint

Figura 35 Curva ROC

Figura 36 Anlise de resduos

Figura 37 Grupos observados e Probabilidades Previstas

Figura 38 Odds ratio e respetivos Intervalos de Confiana

xv
NDICE DE ANEXOS

Anexo I Coordenadas dos pontos da Curva ROC

Anexo II Sadas do SPSS nos modelos de regresso (Stepwise Forward, Enter)

Anexo III Estatstica descritiva com recurso ao R

xvi
Modelos de Regresso: uma aplicao em Medicina Dentria

INTRODUO

O termo regresso foi usado, pela primeira vez, por Francis Galton num estudo sobre a
relao entre a altura dos pais e dos filhos e verificou que, mesmo havendo uma tendncia
para os pais altos terem filhos altos e os pais baixos terem filhos baixos, a altura mdia de
filhos tendia a deslocar-se, ou a regredir (da ter comeado a fazer uso deste termo) para a
altura mdia da populao.

A lei de regresso universal de Galton foi confirmada mais tarde por Karl Pearson, tendo este
recolhido mais de mil registos das alturas de indivduos pertencentes a grupos de famlias
altas e de famlias baixas, verificou que a altura mdia dos filhos de um grupo de pais altos
era inferior altura de seus pais e que a altura mdia dos filhos de um grupo de pais baixos
era superior altura de seus pais. Assim, tanto os filhos altos como os baixos regrediram
em direo altura mdia da populao. De acordo com Gujarati, A anlise de regresso
ocupa-se do estudo da dependncia de uma varivel, a varivel dependente, em relao a
uma ou mais variveis, as variveis explicativas, com o objetivo de estimar e/ou prever a
mdia (da populao) ou o valor mdio da dependente em termos dos valores conhecidos ou
fixos (em amostragem repetida) das explicativas (GUJARATI, 1996).

A anlise de regresso uma das tcnicas estatsticas mais utilizadas para pesquisar e
modelar a relao existente entre duas ou mais variveis, procura avaliar a existncia e o
grau de dependncia estatstica entre as variveis aleatrias, ou seja, aquelas que tm
distribuio de probabilidade. Enquanto a anlise de correlao consiste na medio do grau
ou intensidade de associao entre duas variveis. Quando se pode demonstrar que a
variao de uma varivel est de algum modo associada com a variao da outra, ento
podemos dizer que as duas variveis esto correlacionadas.

Os modelos de regresso podem ser classificados segundo o nmero de variveis


independentes. Quando existe apenas uma varivel independente denomina-se Modelo de
Regresso Simples; quando se tem mais de uma varivel independente denomina-se
Modelo de Regresso Mltipla. Tambm se usa classificar de acordo com o tipo funo que
define o modelo, podendo ser representada por diferentes tipos de equaes (linear,
polinomial, etc.).

Existem vrios mtodos para construir uma equao de regresso, sendo o mtodo
dos mnimos quadrados o mais utilizado. Este mtodo, atribudo ao matemtico alemo Carl
Friedrich Gauss, tem algumas propriedades estatsticas que fizeram dele um dos mais
poderosos e populares mtodos para construir uma equao de regresso. A reta de

1
Modelos de Regresso: uma aplicao em Medicina Dentria

regresso obtida por este mtodo passa pela mdia da amostra dos valores das variveis
dependente e independente (X e Y), mostrando se elas realmente mantm alguma relao,
assim como se so positivamente ou negativamente correlacionadas e igualando a soma dos
seus desvios a zero.

Quando o estudo da anlise de regresso envolve situaes onde existem mais de uma
varivel explicativa esse modelo de regresso recebe o nome de Modelo de Regresso
Mltipla.

A regresso logstica semelhante regresso linear e usada quando temos uma varivel
dependente binria. O objetivo saber quais as variveis independentes que influenciam o
resultado (varivel dependente) e us-las numa equao para prever o resultado de um
indivduo custa das variveis independentes.

Neste trabalho pretendemos analisar alguns dados recolhidos no mbito de uma investigao
levada a cabo na rea da Medicina Dentria em que se avaliaram 158 indivduos, sendo 79
diabticos e 79 no diabticos, relativos a variveis bioqumicas, variveis antropomtricas,
fatores comportamentais e indicadores de sade oral.

O principal objetivo do estudo clnico de natureza epidemiolgica foi avaliar a associao de


diferentes fatores de risco estabelecidos e/ou potenciais na doena periodontal extensa
definida pela perda de aderncia clnica. Os critrios adotados na definio de caso, que
sero descritos na Parte II, foram escolhidos de forma a evitar uma subavaliao da doena
(nvel de aderncia clnica). Os dados recolhidos incluram uma anamnese que abrangeu
diversas condies sistmicas de interesse, dados analticos referentes ao perfil lipdico e
glicemia em jejum, e indicadores antropomtricos, como o ndice de massa corporal.

A incluso das variveis que nos propomos avaliar neste trabalho so aquelas consideradas
como fatores de risco estabelecido para a periodontite. As variveis analticas relativas ao
perfil lipdico e glicemia no foram includas no modelo de estudo, que incluiu diabticos e
no diabticos, pois a dislipidemia e hiperglicemia so muito mais prevalentes e graves nos
doentes diabticos do que nos no diabticos. Porm, os dados analticos foram utilizados
em modelos que incluram apenas diabticos ou no diabticos.

O principal objetivo do trabalho que no propomos a desenvolver verificar se as associaes


entre fatores de risco e a varivel dependente se mantm, independentemente do mtodo de
anlise multivariado usado. Os dados usados neste estudo, sendo reais, serviram apenas
como matria-prima para ser trabalhada por diferentes mtodos estatsticos.

2
Modelos de Regresso: uma aplicao em Medicina Dentria

Para clarificar a utilizao de um ajustado tratamento estatstico, abordaremos diferentes


anlises estatsticas com os dados existentes estudando a pertinncia e a sua viabilidade,
tanto em funo do significado biolgico das variveis como dos seus valores, fazendo uma
interpretao explicada do que se pode retirar de cada anlise.

Com o intuito de se atingirem os objetivos enunciados, estruturou-se esta tese em duas


partes principais: apresentao dos conceitos basilares envolvidos neste estudo e aplicao
prtica a uma investigao cientfica.

Na primeira parte abordaremos a teoria da anlise de regresso, procurando clarificar este


conceito, e atravs da reviso bibliogrfica aprofundar contedos de interesse terico para a
fundamentao da metodologia adotada no nosso estudo. Seguidamente ser revisto o tema
da visualizao de informao, contextualizando os grficos que sero utilizados no decorrer
do nosso exemplo de aplicao. Por fim abordaremos os aspetos patofisiolgicos: diabetes
mellitus e doena periodontal, tendo como objetivo uma melhor compreenso das variveis
que sero estudadas e objetos do nosso estudo clnico.

A segunda parte dedicada aplicao da anlise de regresso a um estudo clnico, onde


ser explicado o desenho do estudo, as variveis selecionadas, a caraterizao da amostra e
os procedimentos que sero efetuados.

Na anlise dos dados, sero aplicados mtodos de regresso a uma base de dados na rea
de Medicina Dentria. Assim, procurar-se- promover uma discusso a nvel metodolgico e
dos prprios resultados do estudo.

Por fim, sero apontadas as concluses mais pertinentes do estudo, bem como algumas
sugestes que se considerem adequadas. Ao proceder deste modo penso poder dar algum
contributo para a aplicao correta da estatstica em trabalhos biolgicos, alertando para que
a anlise estatstica tem de ser adequada e os resultados devem ser devidamente
interpretados.

3
Modelos de Regresso: uma aplicao em Medicina Dentria

PARTE I

4
Modelos de Regresso: uma aplicao em Medicina Dentria

1. Anlise de Varincia (ANOVA) aplicada Regresso

A comparao de mdias de duas condies experimentais foi conseguida pelo t-test,


descrito pela primeira vez por W.S. Gosset (1908) e publicado sob o pseudnimo de
Student''. Porm, sempre que era necessrio comparar mais do que duas condies numa
experincia, aplicava-se mais do que um t-test, aumentando o erro tipo 1 (rejeio da
verdadeira). Este obstculo foi ultrapassado por Sir Ronald Aylmer Fisher em 1925, que
concebeu e descreveu o teste Analysis Of Variance (ANOVA) para analisar os dados de
experincias agrcolas sem qualquer aumento do erro tipo 1. Em 1934, G.W. Snedecor
utilizou a designao de distribuio F, como reconhecimento do trabalho de Fisher. Desde o
seu aparecimento a ANOVA como mtodo inferencial para comparao de mais do que
duas mdias tem sido aplicada por diferentes grupos de investigadores em distintas reas
do conhecimento, podendo estender-se avaliao de modelos de regresso,
nomeadamente modelos de Regresso Linear Simples e modelos de Regresso Linear
Mltipla, aos quais dedicamos particular ateno neste trabalho.

A ANOVA uma tcnica poderosa que envolve a partio estatstica da varincia observada
em diferentes componentes para realizar vrios testes de significncia. No nosso estudo
aplicamos a ANOVA a um conjunto de dados para avaliar se existe uma relao linear entre
uma varivel dependente e uma varivel independente e comparar mdias entre grupos
(diabticos e no diabticos). Tambm recorremos ANOVA para avaliar a qualidade do
ajuste dos modelos construdos.

A anlise de varincia (ANOVA) uma metodologia estatstica desenvolvida inicialmente com


o objetivo de comparar amostras ou tratamentos, utilizada para verificar se existem
diferenas significativas entre as mdias dos tratamentos, que sejam resultado dos efeitos
dos tratamentos. O modelo linear subjacente a uma anlise de varincia a um fator :

em que cada uma das observaes do tratamento , com a


mdia global de todas as observaes, o efeito do tratamento i, isto , a parte da
variabilidade que pode ser imputada ao facto de cada uma das amostras ter sido objeto de
um tratamento diferente, e a variabilidade residual ou erro experimental, isto , a parte
da variabilidade que no pode ser imputada aos tratamentos.

5
Modelos de Regresso: uma aplicao em Medicina Dentria

A ANOVA testa as hipteses:

As mdias no so todas iguais

Segundo o excerto do Studies in Crop Variation: An examination of the yield of dressed grain
from Broadbalk, Journal of Agriculture Science, 11, 107-135, 1921, a variao de qualquer
quantidade (varivel) que resulta de duas ou mais causas independentes funo da soma
dos valores da varincia produzida por cada causa separadamente. Esta propriedade da
varincia, pela qual cada causa independente, por si s, contribui para o total, permite-nos
analisar o total, e atribuir, aproximadamente, as diferentes pores s causas apropriadas (ou
grupo de causas).

Para a ANOVA ter validade tm que ser avaliados alguns pressupostos:

O modelo deve ser aditivo, isto , os efeitos devem-se somar (no h interao);
Os erros (eij) devem ter distribuio normal;
Os erros (eij) devem ser independentes;
Os erros (eij) devem ter a mesma varincia, ou seja, deve existir homocedasticidade.

Para testar a hiptese H0, pode utilizar-se o teste F apresentado numa tabela de Anlise de
Varincia. Convm lembrar que esse teste s vlido se os pressupostos assumidos para os
erros do modelo estiverem satisfeitos.

Se Fcalculado > Ftabelado, rejeita-se a hiptese de nulidade H0, ou seja, existem evidncias de
diferena significativa entre pelo menos um par de mdias de tratamentos, ao nvel de
significncia escolhido.

Para avaliar os pressupostos da ANOVA recorremos a mtodos no paramtricos. Da ser


pertinente neste captulo fazermos uma breve referncia a alguns testes.

6
Modelos de Regresso: uma aplicao em Medicina Dentria

2. Tcnicas de Inferncia Estatstica No Paramtrica

As tcnicas de Inferncia Estatstica No Paramtrica surgem como um processo de colmatar


problemas de difcil resoluo no campo da Estatstica Paramtrica, tendo neste trabalho
constitudo uma metodologia essencial, dadas as caratersticas inerentes amostra
observada. Os mtodos paramtricos, univariados e multivariados, obrigam muitas vezes a
que sejam assumidos pressupostos que nem sempre so reflexo do modelo estudado e que,
quando no so verificados, implicam graves erros na anlise e concluses.

Embora em 1710 se encontrem referncias utilizao de mtodos de estatstica no


paramtrica, estes surgem s bastante mais tarde, em 1942, com Wolfwitz, e s ento se
comea a verificar o seu desenvolvimento e um maior impacto, sendo hoje a estatstica no
paramtrica considerada como um ramo extremamente importante da Estatstica.

A estatstica no-paramtrica representa um conjunto de ferramentas de uso mais apropriado


em pesquisas onde no se conhece bem a distribuio da populao e seus parmetros.
Esse eventual desconhecimento da populao refora o estudo e a importncia da anlise de
pesquisas atravs dos testes no-paramtricos.

A designao Mtodos ou Testes no Paramtricos deve-se ao facto de estes no terem a


pretenso de testar ou estimar parmetros de uma dada distribuio, mas sim estudar o
ajustamento de certas funes aos dados, averiguar a independncia ou comparar duas ou
mais distribuies. (OLIVEIRA, T., 2004).

Segundo MAROCO (2007), os testes no paramtricos so tambm conhecidos por


distribution-free tests, ou seja, testes adistribucionais, uma vez que no necessitam do
conhecimento prvio da distribuio da varivel em estudo (normal), constituindo por isso
uma boa alternativa aos testes paramtricos quando relativamente varivel em estudo falha
a normalidade e a homogeneidade das varincias entre os grupos.

As principais diferenas entre estes dois tipos de testes podem ser sintetizadas da seguinte
forma:

Testes paramtricos (tambm denominados testes t):

Exigem que as amostras tenham uma distribuio normal, especialmente se tiverem


dimenso inferior a 30.
Nas amostras de dimenso superior a 30, a distribuio aproxima-se da distribuio
normal e tambm se aplicam testes t.

7
Modelos de Regresso: uma aplicao em Medicina Dentria

Testes no paramtricos:

No necessitam de requisitos to fortes, como a normalidade, para serem usados. So


tambm indicados quando as amostras so pequenas.
So usados quando a amostra tem uma distribuio que no normal ou quando, apesar
da amostra ter uma dimenso superior a 30, se opta por concluses mais conservadoras.
A desvantagem destes testes que no so to potentes quanto os testes paramtricos,
ou seja, com os testes no paramtricos no se encontram tantas diferenas entre os
dados, quando essas diferenas realmente existem.

Ou seja, esquematicamente temos:

Paramtricos No Paramtricos
Distribuio assumida Normal Qualquer uma
Varincia assumida Homognea Qualquer uma
Tipo de variveis normalmente
De intervalo ou rcio Ordinal ou nominal
usadas
Relao entre os dados Independentes Qualquer uma
Medidas de localizao central
Mdia Mediana
normalmente usadas

Quando precisamos de optar por um determinado tipo de teste devemos ter em conta o tipo
de dados do estudo e qual o objetivo do estudo (o que pretendemos avaliar).

8
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 1 : Teste a utilizar em funo do tipo de dados e do objetivo do estudo

TIPO DE DADOS

Ordem, resultado ou Dicotmicos (dois


Medida (de populaes
OBJETIVO medida (de populaes resultados
normais)
no normais) possveis)

Mediana e amplitude Teste de


Descrever um grupo Mdia e desvio padro
inter-quartil Proporo

Teste para uma s Teste de Qui-


Comparar um grupo a amostra Teste de Wilcoxon quadrado ou
um valor hipottico
(one-sample t-test) Teste Binomial

Teste para duas amostras Teste de Fisher


Comparar 2 grupos
independentes (Unpaired Teste de Mann-Whitney ou Teste de Qui-
independentes
t-test) quadrado

Teste para duas amostras


Comparar 2 grupos Teste de
emparelhadas (Paired t- Teste de Wilcoxon
emparelhados McNemar
test)

Comparar 2 ou mais Teste de Qui-


One-way ANOVA Teste de Kruskal-Wallis
grupos independentes quadrado

Comparar 2 ou mais Reapeted-measures


Teste de Friedman Cochran Q
grupos emparelhados ANOVA

Quantificar a associao Correlao de Coeficiente de


Correlao de Pearson
entre 2 variveis Spearman contingncia

Prever valores a partir Regresso linear simples Regresso


Regresso paramtrica
de uma varivel medida ou regresso no linear logstica simples

Prever valores a partir


Regresso
de vrias variveis Regresso linear mltipla
logstica mltipla
binomiais ou medida

9
Modelos de Regresso: uma aplicao em Medicina Dentria

Assim, mais especificamente, se analisarmos unicamente os testes no paramtricos vem:

Tabela 2 : Testes no paramtricos mais utilizados


Escala de medida
Nmero de
Nominal Ordinal Intervalo
amostras
Teste de Kolmogorov-Smirnov
Teste de Qui- para uma amostra
Uma amostra quadrado ou Teste
Teste de iteraes para uma
Binomial
amostra
Teste de Walsh
Amostras Teste do sinal ou Teste de
Teste de McNemar
emparelhadas Teste de Wilcoxon aleatoriedade para
Duas amostras

pares
Teste da mediana
Teste de Mann-Whitney
Teste de
Teste de Fisher ou Teste de Kolmogorov-Smirnov
Amostras aleatoriedade para 2
Teste de Qui- para duas amostras
independentes amostras
quadrado Teste de Wald independentes
Teste de Moses para reaes
extremas
Amostras Teste Q de
Teste de Friedman
emparelhados Cochran
K amostras

Teste de Qui-
Amostras quadrado
Teste de Kruskal-Wallis
independentes (para k amostra
independentes)
Adaptado de Siegel (1975)

2.1. Teste do Qui-quadrado para a independncia

O teste do Qui-quadrado permite verificar a independncia entre duas variveis, tendo por
base uma disposio dos dados de acordo com uma tabela de contingncia do tipo x .

Genericamente, uma tabela de contingncia resulta de uma classificao, segundo dois itens
diferentes, de um mesmo grupo de indivduos. Tem por objetivo inferir sobre a existncia ou
inexistncia de relao entre as variveis.

Considere-se, ento, uma amostra de n indivduos extrada de uma populao, atendendo a


dois critrios de classificao: (varivel 1) e (varivel 2), cujos valores observados sero
representados por , com , e . As frequncias observadas podem
apresentar-se numa Tabela de Contingncia com linhas e colunas.

10
Modelos de Regresso: uma aplicao em Medicina Dentria

Hipteses a testar

A formalizao do teste de hipteses, com a definio das hipteses nula e alternativa, ser
apresentada da seguinte forma:

H independncia entre as variveis e


No h independncia entre as variveis e .

Designar-se-, genericamente, por uma categoria da primeira varivel e por


uma categoria da segunda varivel, e os dados sero apresentados numa
tabela de contingncia, como se segue:

Total

Total

Onde:

representa os valores observados, e


e
representa os valores esperados, e

Sendo: , com e

Estatstica de teste

A estatstica do teste dada por:

Onde , sendo a aproximao tanto melhor quanto maior for a dimenso


da amostra.

Regra de deciso

A regra de deciso a seguinte:

Se , rejeita-se ao nvel de significncia .

11
Modelos de Regresso: uma aplicao em Medicina Dentria

2.2. Testes para duas ou mais amostras independentes

Teste de Mann-Whitney

Foi desenvolvido por F. Wilcoxon em 1945 para comparar as tendncias centrais de duas
amostras independentes de tamanhos iguais. Em 1947, H. B. Mann e D. R. Whitney
generalizaram a tcnica para amostras de tamanhos diferentes e passou a ser conhecido
como o teste de Mann-Whitney. Este teste pois um substituto do teste t de Student e
aplicvel quando se verificam os seguintes pressupostos:
Amostras aleatrias
Observaes independentes
Varivel de interesse tem caratersticas contnua (mesmo que os dados no sejam
contnuos)

O teste de Mann-Whitney um teste no paramtrico que permite a comparao entre duas


amostras independentes, de dimenses n 1 e n2. um teste alternativo ao teste t para duas
amostras independentes. Enquanto que o teste t compara as mdias de duas amostras
independentes, o teste de Mann-Whitney compara o centro de localizao das duas
amostras, como forma de detetar diferenas entre as duas populaes correspondentes. As
vantagens do teste de Mann-Whitney so: no exigir o pressuposto da normalidade, podendo
ser aplicado para amostras pequenas e em variveis de escala ordinal.

Considerem-se duas amostras independentes:


, retirada da populao
, retirada da populao

E suponha-se que com um total de

Hipteses a testar

As duas amostras so provenientes de populaes com a mesma distribuio.


As duas amostras so provenientes de populaes com distribuies distintas.

As hipteses anteriores podem ser reformuladas, se definir a funo distribuio da


populao e a funo distribuio da populao . As hipteses podem ento ser
escritas do seguinte modo:

12
Modelos de Regresso: uma aplicao em Medicina Dentria

A forma como o teste construdo torna-o particularmente sensvel s diferenas de medidas


de localizao, especialmente s diferenas nas medianas das distribuies.

Em vez de se basear em parmetros da distribuio normal como a mdia e a varincia, o


teste de Mann-Whitney baseia-se nas ordenaes da varivel.

Estatstica de teste

A estatstica de teste baseia-se nas ordens (ranks) das observaes das amostras.

Combinam-se as duas amostras, o total das observaes e ordenam-se estas por ordem
crescente assinalando o grupo a que pertencem. No caso das observaes empatadas
atribui-se a mdia dada pela posio sequencial das observaes que lhe corresponderiam.

A estatstica de teste dada por:

Em que: e

Onde: a dimenso da amostra menor


a dimenso da amostra maior
a soma das ordenaes da menor amostra
a soma das ordenaes da maior amostra

Quando e pequenos ( ) Compara-se o valor observado da estatstica de teste


com o valor tabelado (Tabela de Mann-Whitney).

Regra de deciso

Se , ento pertence regio crtica, pelo que se rejeita a hiptese nula ao nvel
de significncia .

Quando e grandes ( ) Normalmente recorre-se aproximao normal.

A estatstica de teste dada por:

13
Modelos de Regresso: uma aplicao em Medicina Dentria

Se o valor observado da estatstica de teste pertencer regio no crtica:

para um nvel de significncia , no se rejeita .

O teste Mann-Whitney pode ser aplicado em situaes em que existem empates nas
observaes e em situaes em que no ocorrem empates.

Correo para empates

No caso em que ocorrem empates entre duas ou mais observaes da mesma amostra, o
valor de no afetado. Mas se os empates envolvem elementos das duas amostras e
ocorrem entre duas ou mais observaes, o valor de pode ser afetado. A correo para
empates deve ser feita ao desvio padro da distribuio amostral .

Em que corresponde ao nmero de observaes empatadas em cada grupo .

Teste de Kruskal-Wallis

O teste de Kruskal-Wallis aplicado quando esto em comparao trs ou mais grupos


independentes e a varivel deve ser de mensurao ordinal.

A aplicao da anlise de varincia paramtrica, normalmente abreviada para ANOVA,


pressupe a verificao de alguns pressupostos, designadamente:

1. A normalidade da sua distribuio


2. A homogeneidade da varincia
3. Independncia

Para alm disto, a anlise de varincia paramtrica s pode ser aplicada quando a varivel
dependente admite pelo menos a escala de intervalos como nvel de medida. Quando no se
verificam os pressupostos da anlise de varincia paramtrica e/ou quando o nvel de medida
mais restrito da varivel dependente a escala ordinal, o teste de Kruskal-Wallis que uma
generalizao, para k>2 amostras, do teste de Mann-Whitney. Pode ser considerado como a
alternativa no paramtrica ANOVA one-way (KRUSKAL e WALLIS,1952). Este teste
destina-se a verificar se h diferenas na localizao das populaes (com distribuies
contnuas) subjacentes aos n grupos.

14
Modelos de Regresso: uma aplicao em Medicina Dentria

Hipteses a testar

H0: As n populaes tm a mesma localizao


H1: Pelo menos duas das n populaes no tm a mesma localizao

O procedimento a aplicar para efetuar o teste de Kruskal-Wallis semelhante ao do teste de


Mann-Whitney: ordenam-se as N observaes em conjunto e atribuem-se-lhes ranks
(posies: ).

Quando h empates (observaes repetidas) atribui-se o rank mdio s observaes


empatadas.

A ideia base do teste a de que, se for verdadeira, os ranks correspondentes aos vrios
grupos estaro misturados de forma aleatria; caso contrrio, devero existir grupos com
predominncia de ranks reduzidos e outros grupos com predominncia de ranks elevados.

O teste de Kruskal-Wallis baseia-se na comparao entre a mdia dos valores de ordem das
diversas amostras e no na comparao entre as mdias amostrais da varivel dependente,
uma vez que nem sempre possvel calcular as mdias amostrais (esse clculo s possvel
quando as variveis dependentes admitem como nvel de medida mais restrito a escala de
intervalos).

Considerem-se ento populaes, , a partir das quais foram retiradas k


amostras aleatrias, de dimenses n1, n2,, nk.

Deste modo, tem-se:

( ) da populao

Considere-se R(X0) a ordem (rank) atribuda observao e seja:

a soma das ordens da i-sima amostra ( ).

O nmero total de observaes

Estatstica de teste

A estatstica de Kruskal-Wallis dada por:

15
Modelos de Regresso: uma aplicao em Medicina Dentria

Onde

Para o caso de no existirem empates (ou de o seu nmero ser muito pequeno), esta
estatstica reduz-se a:

A distribuio por amostragem da estatstica de teste depende do nmero de amostras


envolvidas na comparao, bem como do nmero de observaes por amostra.

Correo para empates

Assim, para os casos em que no h empates, e se o nmero de amostras for inferior ou


igual a trs ou o nmero de observaes por amostra no ultrapassar as 5, para tomar a
deciso quanto diferena nas distribuies das trs populaes, compara-se o valor da
estatstica de teste com os valores fornecido pela tabela de Kruskal-Wallis.

Para os casos em que no h empates, e se o nmero de amostras superior a trs ou a


dimenso de uma amostra superior a 5, a estatstica de teste pode ser aproximada
distribuio do Qui-quadrado com graus de liberdade (distribuio assimpttica).

Esta aproximao ser tanto melhor quanto maiores forem as amostras e a dimenso de
cada amostra.

Regra de deciso

Rejeita-se H0 se o valor da estatstica de teste for superior ao valor tabelado.

Quando existem observaes com o mesmo valor (empates), importante corrigir o valor do
teste. Se mais de 25% das observaes forem empates, a estatstica de teste T dever ser
corrigida dividindo T por:

onde representa o nmero de amostras com diferentes ordens de empates e t j representa


o nmero de empates na amostra .

O procedimento do teste de Kruskal-Wallis pode ser resumido da seguinte forma:

1) Ordenar as observaes das amostras num nico grupo atribuindo-lhes ordens de a .


2) Calcular para cada amostra (soma das ordens).
3) Calcular o valor da estatstica T.

16
Modelos de Regresso: uma aplicao em Medicina Dentria

A regra de deciso ser:

1) Para e , recorrer tabela. Se rejeitar ao nvel de


significncia .

2) Se pelo menos uma das amostras tiver dimenso , deve usar-se a distribuio do
Qui-quadrado. Se , ento rejeita-se ao nvel de significncia .

Se o valor observado da estatstica de teste pertencer regio crtica ento isso significa que
existem diferenas significativas entre as amostras.

Para identificar onde se situa a diferena necessrio proceder a comparaes dos grupos,
dois a dois, o que corresponde a efetuar testes.

As hipteses podem ser definidas, para um certo par de grupos , , do seguinte


modo:

: A distribuio da populao idntica distribuio na populao ,

: A distribuio da populao difere da distribuio na populao , para algum

A regra de deciso dada pela seguinte expresso:

Isto , a primeira desigualdade ser superior segunda se existirem diferenas entre o grupo
e o . Assim, corresponde ao valor da probabilidade de uma varivel aleatria

com distribuio t-Student, graus de liberdade.

Teste de Kolmogorov-Smirnov

O teste paramtrico tradicional, baseado na distribuio t-Student, obtido sob a hiptese de


que a populao tem distribuio normal. Nesse sentido, surge a necessidade de
certificarmos se essa suposio pode ser assumida. Em alguns casos, assumir a normalidade
dos dados o primeiro passo que tomamos para simplificar a nossa anlise. Para dar suporte
a esta suposio, consideramos, dentre outros, o teste de Kolmogorov-Smirnov.

17
Modelos de Regresso: uma aplicao em Medicina Dentria

Hipteses a testar

O teste de Kolmogorov-Smirnov pode ser utilizado para avaliar as hipteses:

: Os dados seguem uma distribuio normal

: Os dados no seguem uma distribuio normal

Este teste observa a mxima diferena absoluta entre a funo de distribuio acumulada
assumida para os dados, no caso a normal, e a funo de distribuio emprica dos dados.
Como critrio, comparamos esta diferena com um valor crtico, para um dado nvel de
significncia.

Considere-se uma amostra aleatria simples, de uma populao com funo de


distribuio acumulada contnua desconhecida. A estatstica utilizada para o teste :

Esta funo corresponde a distncia mxima vertical entre os grficos de e sobre


a amplitude dos possveis valores de . Em temos que:

representa a funo de distribuio acumulada assumida para os dados;


representa a funo de distribuio acumulada emprica dos dados.

Neste caso, queremos testar a hiptese . Para isto,


tomamos as observaes aleatrias ordenadas de forma crescente da
populao com funo de distribuio contnua . No caso de anlise da normalidade dos
dados, assumimos a funo de distribuio da normal.

A funo de distribuio acumulada assumida para os dados definida por


e a funo de distribuio acumulada emprica definida por uma funo escada,
dada pela frmula:

onde a funo indicadora. A funo indicadora definida da seguinte forma:

Observe a funo da distribuio emprica corresponde proporo de valores


menores ou iguais a . Tal funo tambm pode ser descrita da seguinte forma:

18
Modelos de Regresso: uma aplicao em Medicina Dentria

Estatstica de teste

Sob , a distribuio assinttica da estatstica de kolmogorov-Smirnov dada por:

Esta distribuio assinttica vlida quando temos conhecimento completo sobre a


distribuio de , entretanto, na prtica, especifica uma famlia de distribuies de
probabilidade. Neste caso, a distribuio assinttica da estatstica de Kolmogorov-Smirnov
no conhecida e foi determinada via simulao.

Como a funo de distribuio emprica descontnua e a funo de distribuio


hipottica contnua, vamos considerar duas outras estatsticas:

para calcularmos a estatstica de Kolmogorov-Smirnov. Essas estatsticas medem as


distncias (vertical) entre os grficos das duas funes, terica e emprica, nos pontos
e . Com isso, podemos utilizar como estatstica de teste:

Regra de deciso

Se maior que o valor crtico, rejeitamos a hiptese de normalidade dos dados com
de confiana. Caso contrrio, no rejeitamos a hiptese de normalidade.

Teste de Wald

O teste de Wald obtido por comparao entre a estimativa de mxima verosimilhana do


parmetro ( ) e a estimativa de seu erro padro.

Hipteses a testar

A razo resultante, sob a hiptese tem distribuio normal padro.

19
Modelos de Regresso: uma aplicao em Medicina Dentria

Estatstica de teste

A estatstica do teste Wald para a regresso logstica .

O p-valor definido como , sendo que denota a varivel aleatria da


distribuio normal padro.

HAUCK e DONNER (1977) examinaram o desempenho do teste de Wald e descobriram que


ele se comporta de maneira estranha, em determinadas situaes, frequentemente no
rejeitando a hiptese nula quando o coeficiente significativo. Eles recomendam a utilizao
do teste da razo de verosimilhana para testar se realmente o coeficiente no significativo
quando o teste de Wald no rejeita a hiptese nula.

Teste de Fisher

Em tabelas de contingncia , valores esperados menores que 5 e amostras pequenas


podem ter como efeito que a aproximao da distribuio Qui-quadrado para a
estatstica no seja suficientemente boa.

Neste caso prefervel usar o teste exato de Fisher, que passaremos a descrever. Neste
teste basemo-nos no clculo da distribuio de probabilidade das frequncias da tabela.
Contudo isso no possvel na situao das tabelas com margens livres ou com uma
margem fixa e outra livre, porque a probabilidade de uma dada distribuio das frequncias
funo de parmetros de valor desconhecido.

Fisher (1934) props que a distribuio de probabilidade das frequncias de qualquer um


destes tipos de tabelas sejam substitudas pela probabilidade da distribuio das mesmas
frequncias considerando tabelas com duas margens fixas, ou seja uma distribuio de
probabilidade hipergeomtrica para a nica frequncia de valor livre (independente).

Tabela 3 : Tabela de Contingncia

Varivel Coluna
Total
1 2

1 A B A+B
Varivel linha
2 C D C+D

Total A+C B+D n = A+B+C+D

20
Modelos de Regresso: uma aplicao em Medicina Dentria

Para a tabela 3 (arranjada de modo a que ( ), se for a frequncia de valor


independente, neste caso a frequncia da clula (1,1), considerando:

o teste exato de Fisher consiste na determinao desta


probabilidade e a dos arranjos possveis que, com os
mesmos totais marginais, tenham ainda mais desvio em
relao hiptese nula, isto , as probabilidades de
tabelas com as mesmas margens e com menores valores
na entrada cujo valor, na tabela de contingncia em
questo, j foi considerado na tabela esquerda.

Se a soma for inferior ao nvel de


significncia que escolhermos para o nosso teste,
devemos rejeitar a hiptese de independncia ou a
hiptese de homogeneidade que estipulamos.

2.3. Testes de Correlao

Teste de Spearman

O coeficiente de correlao de Spearman a mais antiga estatstica baseada em postos e a


sua utilizao remonta a 1904. utilizada para avaliar o grau de correlao entre variveis
quantitativas quando as exigncias para o teste de Pearson no so satisfeitas (distribuio
bivariada normal e homocedasticidade).

O teste de Spearman considera uma populao da qual foi retirada uma amostra de
dimenso n de pares ordenados de duas variveis aleatrias x e y. Considera ainda que as
mesmas variveis so ordenadas de forma crescente e lhes atribudo um nmero de
ordem. Estas variveis podem encontrar-se associadas de uma forma direta ou de uma forma
inversa como se mostra na tabela seguinte:

21
Modelos de Regresso: uma aplicao em Medicina Dentria

A B
Varivel x Varivel y Varivel x Varivel y
(N de ordem) (N de ordem) (N de ordem) (N de ordem)
1 1 1 n
2 2 2 n-1

n-1 n-1 n-1 2
n n n 1

Considere-se di (com i = 1, 2, 3, , n) a diferena entre os nmeros de ordem de cada par de


observaes xi e yi. Em presena de uma associao direta, teremos: . No caso

de uma associao inversa, teremos: , e o coeficiente de correlao de

Spearman dado por: .

O coeficiente assume o valor 1 quando entre o conjunto das observaes existe uma
associao direta perfeita e assume o valor -1 quando se verificar uma associao inversa
perfeita. Quando no se verificar qualquer associao entre as variveis x e y, o coeficiente
assume valores prximos de zero.

Hipteses a testar

A partir deste coeficiente pode ser construdo um teste bilateral para testar em que:

: As variveis no se encontram associadas


: As variveis encontram-se associadas

Como hipteses alternativas de podem ainda considerar-se:

: Associao direta (teste unilateral direita)


: Associao inversa (teste unilateral esquerda)

Estatstica do teste

Quando a amostra for superior a 30 observaes, a estatstica de teste dever ser substituda
por:

Quando verdadeira, segue uma distribuio t de Student com (n-2) graus de liberdade.

22
Modelos de Regresso: uma aplicao em Medicina Dentria

Correo para empates

Sempre que se verifiquem empates, atribui-se s observaes naquela situao o nmero de


ordem que corresponde mdia dos nmeros de ordem que as observaes receberiam se
no estivessem empatadas. Se existir um nmero pequeno de empates, o valor da estatstica
deve ser calculado atravs da expresso:

e no ser significativamente afetado. Caso contrrio, a estatstica dever ser calculada


atravs da expresso:

Sendo

em que ui e vi representam o nmero de empates no i-simo grupo de observaes iguais


pertencentes, respetivamente, varivel x e varivel y.

23
Modelos de Regresso: uma aplicao em Medicina Dentria

3. Anlise de Regresso

O modelo linear normal, criado no incio do sculo XIX por Legendre e Gauss, dominou a
modelao estatstica at meados do sculo XX, embora vrios modelos no lineares ou no
normais tenham entretanto sido desenvolvidos para fazer face a situaes que no eram
adequadamente explicadas pelo modelo linear normal.

So exemplo disso, tal como referem McCULLAGH and NELDER (1989) e LINDSEY (1997),
o modelo complementar log-log para ensaios de diluio (Fisher, 1922), os modelos probit
(BLISS, 1935) e logit (BERKSON, 1944; DYKE and PATTERSON, 1952; RASCH, 1960) para
propores, os modelos log-lineares para dados de contagens (BIRCH,1963), os modelos de
regresso para anlise de sobrevivncia (FEIGL and ZELEN, 1965; ZIPPIN and ARMITAGE,
1966; GLASSER, 1967).

Todos os modelos anteriormente descritos apresentam uma estrutura de regresso linear e


tm em comum o facto da varivel resposta seguir uma distribuio dentro de uma famlia de
distribuies com propriedades muito especficas: a famlia exponencial.

Os Modelos Lineares Generalizados introduzidos por NELDER e WEDDERBURN (1972)


correspondem a uma sntese destes e de outros modelos, vindo assim unificar, tanto do
ponto de vista terico como concetual, a teoria da modelao estatstica at ento
desenvolvida.

So pois casos particulares dos modelos lineares generalizados (MLG) os seguintes


modelos:

modelo de regresso linear clssico,


modelos de anlise de varincia e covarincia,
modelo de regresso logstica,
modelo de regresso de Poisson,
modelos log-lineares para tabelas de contingncia multidimensionais,
modelo probit para estudos de propores, etc.

Neste estudo recorreremos ao modelo de regresso linear clssico e ao modelo de regresso


logstica.

Anlise de regresso uma tcnica de modelao utilizada para analisar a relao entre uma
varivel dependente ( ) e uma ou mais variveis independentes . O objetivo
desta tcnica identificar e estimar uma funo que descreva, o mais prximo possvel, a

24
Modelos de Regresso: uma aplicao em Medicina Dentria

relao entre essas variveis e que assim ir permitir predizer o valor que a varivel
dependente ( ) ir assumir para um determinado valor da varivel independente .

O modelo de regresso poder ser escrito genericamente como:

onde o termo representa uma perturbao aleatria na funo, ou o erro da aproximao. O


nmero de variveis independentes varia entre aplicaes: quando se tem apenas uma
varivel independente, denomina-se Modelo de Regresso Simples; quando se tem mais de
uma varivel independente, denomina-se de Modelo de Regresso Mltipla. A forma da
funo tambm varia, podendo ser representada por uma equao linear, polinomial ou outro
mesmo tipo de funo (simples ou multivariada).

3.1. Regresso e Correlao Linear

Testes de Hipteses sobre o Coeficiente de Correlao

A correlao entre duas variveis determinada numericamente por meio dos coeficientes de
correlao que representam o grau de associao entre duas variveis contnuas e designa-
se por .

O coeficiente de correlao linear, tambm chamado de covarincia normalizada,


representado por:

x,y =

Onde: a covarincia entre as variveis e


so os desvios padro das variveis e

A covarincia entre duas variveis pode ser estimada pela equao:

Onde: a covarincia amostral entre as variveis e


e so as mdias aritmticas de cada uma das variveis
o tamanho da amostra
so as observaes simultneas das variveis

25
Modelos de Regresso: uma aplicao em Medicina Dentria

Admitindo-se que a distribuio conjunta das variveis normal bivariada, torna-se


conveniente utilizar, como medida da correlao, o coeficiente de correlao de Pearson cujo
estimador dado por:

Onde: e so os desvios padro das amostras.

Para se decidir sobre a existncia de correlao e o sentido da variao da reta de


regresso, calcula-se e o erro de , e seguidamente efetua-se um teste de t-Student, para
as seguintes hipteses:

, a reta de regresso em paralela ao eixo das abcissas.


, a reta de regresso em no paralela ao eixo das abcissas.

A estatstica do teste

Onde: a estatstica do teste


o tamanho da amostra
a estimativa do coeficiente de correlao linear

Para encontrar o consulta-se uma tabela de t-Student, e interpretado conforme


o seguinte critrio:

no significativo significativo
no significativamente diferente de significativamente diferente de
(a reta paralela ao eixo dos ) (a reta no paralela ao eixo dos )

Quando a escala de medida ordinal devemos utilizar o coeficiente de correlao de


Spearman pois este, ao contrrio do coeficiente de correlao de Pearson, no requer a
suposio que a relao entre as variveis linear, nem requer que as variveis sejam
medidas em intervalo de classe, podendo ser usado para as variveis medidas no nvel
ordinal.

importante realar que as correlaes ordinais no podem ser interpretadas da mesma


maneira que as correlaes de Pearson. Inicialmente no mostram tendncia linear, mas
podem ser consideradas como ndices de monotonia, ou seja, permitem-nos avaliar as

26
Modelos de Regresso: uma aplicao em Medicina Dentria

variaes para aumentos positivos da correlao (aumentos no valor de X correspondem a


aumentos no valor de Y) e para coeficientes negativos.

3.2. Modelo de Regresso Linear Simples

Um modelo de regresso linear simples (MRLS) descreve uma relao entre uma varivel
independente (explicativa ou regressora) e uma varivel dependente (resposta) , nos
termos seguintes:

(1)

Onde: e so constantes (parmetros) desconhecidas


o erro aleatrio

De uma maneira geral, os problemas de regresso e de correlao podem apresentar-se sob


diferentes aspetos, sobretudo dependendo da natureza dos dados e do objetivo do estudo. O
caso mais simples aquele em que uma das variveis em estudo assume apenas certos
valores, escolhidos a priori, de maneira arbitrria. Nesse caso, a varivel independente,
geralmente designada pela letra , no aleatria; porm, a varivel independente ,
aleatria. O objetivo final consiste em estimar o valor da varivel dependente em funo da
varivel independente.

3.2.1. Reta de Regresso

Figura 1: Interpretao geomtrica dos parmetros do modelo de regresso linear simples

27
Modelos de Regresso: uma aplicao em Medicina Dentria

O diagrama de disperso um grfico constitudo por pontos onde cada ponto, P i, representa
um par de valores observados, (xi, yi), (xi representa o valor da varivel independente
observada para o indivduo Pi e yi representa o valor da varivel dependente observada para
esse mesmo indivduo). O diagrama de disperso obtido pelos pontos posicionados em
torno da reta de regresso.

O diagrama de disperso tem uma funo dupla: analisar se existe alguma associao entre
as variveis e permitir identificar qual o modelo matemtico (equao) mais apropriado para
descrever essa associao.

Quando o diagrama de disperso indica uma tendncia para uma relao linear, ento os
dados encontram-se bem ajustados pela reta de regresso (de equao (1)).

Ao ajustar uma reta de regresso aos dados observados anulamos os efeitos da varivel
residual. Verifica-se que nem todos os pontos se encontram sobre a reta e essa diferena o
erro (), que pode ter sido ocasionado por fatores distintos. Mas supe-se que a mdia
desses erros tende a anular-se, ou seja: .

A obteno da reta ajustada implica o conhecimento dos parmetros 0 e 1 de tal modo que
o desvio entre os valores reais e os valores ajustados seja mnimo. Um mtodo que permite
minimizar estes desvios o mtodo dos mnimos quadrados.

3.2.2. Mtodo dos Mnimos Quadrados

Uma vez escolhido o modelo de regresso, deve-se estimar os seus parmetros, neste caso
os coeficientes da equao da reta, e . Isso pode ser feito a partir da aplicao do
Mtodo dos Mnimos Quadrados. Calculando a mdia sobre a equao (1), temos:

(2)

uma vez que a mdia dos erros zero.

(3)

(desvios)

So vantagens do mtodo dos mnimos quadrados:

Obter as melhores estimativas, pois elas no so enviesadas;


Ter em conta os desvios maiores, diluindo o efeito dos maiores valores;
Permitir realizar testes de significncia na equao de regresso;
A reta de regresso passa pelo ponto obtido pelo clculo das mdias das duas amostras.

28
Modelos de Regresso: uma aplicao em Medicina Dentria

Subtraindo as duas equaes (1-2) temos:

(4)

Denominando de e as diferenas centradas nas mdias, e respetivamente,


temos que:

ou (5)

Fazendo a soma dos quadrados dos erros (5),

como uma constante,

Como o objetivo estimar uma equao que minimize os erros, devemos ento derivar a
equao acima em relao a e igualar a zero. Como os verdadeiros valores so
desconhecidos e apenas conhecemos os valores de uma amostra, ou seja o valor a ser
determinado um estimador do verdadeiro valor populacional, a nova nomenclatura para
ser . Com isso temos:

Que pode ser reescrita como:

(6)

E o estimador , pode ser calculado a partir de (2):

(7)

Sendo que a equao de estimativa ser dada por:

(8)

) (9)

29
Modelos de Regresso: uma aplicao em Medicina Dentria

Os estimadores apresentam as seguintes propriedades:

So pontuais;
A linha de regresso amostral dada por: ;
O valor mdio do resduo zero;
Os resduos so no correlacionados com e .

Aps a estimativa dos coeficientes da reta de regresso, necessrio verificar se os dados


amostrais esto bem descritos pelo modelo encontrado e determinar a parcela da
variabilidade amostral que se encontra explicada pela reta de regresso.

3.2.3. Qualidade do ajustamento da reta

Coeficiente de determinao

Ora: (10)

A partir desta equao possvel demonstrar que:

(11)

O primeiro membro desta equao pode ser interpretado como proporcional varincia total
de , enquanto o segundo membro reflete a soma de termos proporcionais s suas
varincias residuais e explicada pelo modelo de regresso. Esta equao (11) pode ser
escrita da seguinte forma:

(12)

Onde: a soma quadrtica total


a soma dos quadrados dos resduos
a soma dos quadrados devidos regresso

O coeficiente de determinao dado pela relao entre a soma dos quadrados devidos
regresso ( ) e a soma dos quadrados ( ), ou seja

(13)

Onde: o coeficiente de determinao


o valor observado da varivel dependente
o valor estimado da varivel dependente
a mdia da varivel dependente

30
Modelos de Regresso: uma aplicao em Medicina Dentria

O coeficiente de determinao sempre positivo e deve ser interpretado como a proporo


da varincia total da varivel dependente que explicada pelo modelo de regresso e que
tambm pode ser estimado por:

(14)

Onde: a varincia amostral de


a varincia amostral de
o coeficiente angular da reta de regresso

O coeficiente de correlao amostral est relacionado ao coeficiente de determinao


atravs da seguinte equao: , onde o sinal de o mesmo do de . Este
coeficiente ( ) possui as seguintes propriedades:

No depende de qual varivel e qual ;


independente das unidades de medida;
Varia entre e 1 (incluindo os extremos);
Se indica uma linha reta com coeficiente angular positivo;
Se indica uma linha reta com coeficiente angular negativo.

Outra medida simples de calcular o coeficiente de varincia, bastante til para comparar
modelos diferentes e dado pela frmula:

(15)

3.2.4. Pressupostos da Anlise de Regresso Linear Simples

Os pressupostos da anlise de regresso linear simples (RLS) so a linearidade, a


normalidade e a homocedasticidade dos resduos.

A teoria da regresso assenta nas seguintes suposies sobre os erros:

1. A sua mdia zero e a varincia desconhecida.


2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro.
3. Os erros tm distribuio normal.

As verificaes das suposies supracitadas so feitas atravs da anlise dos resduos que,
segundo MAROCO (2007), consiste em avaliar os pressupostos de:

Homogeneidade dos resduos


Distribuio normal dos erros
Independncia dos resduos

31
Modelos de Regresso: uma aplicao em Medicina Dentria

Erro padro da estimativa

O modelo de regresso linear simples seria ideal se todos os pontos da amostra estivessem
sobre a reta ajustada. Porm difcil tal acontecer e torna-se importante avaliar a medida da
variabilidade dos pontos amostrais em relao reta.

Intrinsecamente ao processo de estimao dos parmetros da reta de regresso, foi


assumida a premissa de que os erros so realizaes de uma varivel aleatria independente
2
e normalmente distribuda com mdia zero, ou seja, , e varincia e Como
, a varincia dos erros ou resduos ser:

(16)

Uma estimativa no enviesada da varincia dos resduos em torno da reta de regresso pode
ser obtida por:
n 2 n 2
2 i 1 ei
e s2e i 1 i i
(17)
n 2 n 2

A raiz quadrada da varincia dos resduos ei chamada do erro padro da estimativa, ,e


mede a disperso dos resduos em torno da reta de regresso.

O erro padro da estimativa pode ser estimado por:

n 2
i 1 i i
e se n 2
(18)

3.2.5. ANOVA aplicada RLS

uma forma de dividir a varincia total em componentes, neste caso, devido a regresso e
ao resduo ( ). Tem o objetivo de verificar se a parte da variao total explicada
pelo modelo (regresso) significativamente diferente de zero. Na ANOVA as varincias so
denominadas quadrados mdios (QM) e obtm-se pela diviso da soma dos quadrados pelos
graus de liberdade. Seja QM o quadrado mdio, QMREG os quadrados mdios obtidos pela
regresso e QMRES os quadrados mdios devidos aos resduos.

A ANOVA pode ser esquematizada no quadro seguinte:

32
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 4 : Quadro resumo dos clculos da ANOVA


Soma dos
Fonte de variao g.l. Quadrados Mdios F
Quadrados

Regresso

Resduos Erros

Total

Utiliza-se o teste F para validar a hiptese H0 : 1 = 0, pois sob H0 a estatstica

Portanto, a hiptese nula deve ser rejeitada se o valor calculado for superior ao valor crtico.

3.2.6. Teste de Hipteses e Intervalos de Confiana para os Coeficientes do MRLS

Devido variabilidade amostral, a reta de regresso obtida da amostra uma das retas
possveis. Os valores calculados para e so estimativas pontuais dos parmetros
populacionais e . As retas da populao e da amostra so paralelas quando e
tero apenas um ponto necessariamente coincidente, a saber, a mdia das amostras, quando
.

Os intervalos de confiana para os coeficientes e da reta de regresso so estimados


por:

Onde: o valor do -Student para e graus de liberdade

e so estimadores dos parmetros da reta de regresso


o desvio-padro da estimativa do parmetro e indica o quanto est
afastado o parmetro estimado do parmetro populacional

33
Modelos de Regresso: uma aplicao em Medicina Dentria

A equao utilizada para o clculo de dada por:

(19)

o desvio-padro da estimativa de , calculado por:

(20)

No clculo de e tem-se:

(21)

Onde:
o tamanho da amostra
a mdia da varivel independente
o valor observado da varivel independente

A construo do intervalo de confiana para a reta de equao pode basear-se na


estimativa de . Considerando um valor que no foi utilizado no clculo dos parmetros da
reta de regresso, demonstra-se que:

(22)

donde

(23)

O intervalo de confiana para a reta de regresso dado por:

(24)

onde: , o valor do de Student para e

graus de liberdade.

de notar que a amplitude do intervalo de confiana ser mnima quando for igual ao valor
mdio da amostra utilizada na definio da equao da reta de regresso e ser tanto maior
quanto mais distante estiver da mdia.

34
Modelos de Regresso: uma aplicao em Medicina Dentria

3.3. Modelo de Regresso Linear Mltipla

Muitas aplicaes da anlise de regresso envolvem situaes com mais do que uma
varivel explicativa. Esse modelo de regresso recebe o nome de modelo de regresso
mltipla (MRLM).

Em geral, a varivel dependente ou resposta pode estar relacionada com variveis


explicativas ou independentes, ou seja, a varivel modelada como funo linear de
vetores multidimensionais, onde o nmero de atributos preditores varivel.

O modelo recebe o nome de regresso linear mltipla


com k variveis explicativas e os parmetros designam-se por coeficientes de
regresso.

Assim se h uma nica varivel preditora , a funo descreve uma linha reta. Se houver
duas variveis preditoras, ento a funo descreve um grfico no plano. Se existem n
variveis preditoras, ento a funo descreve um hiperplano n-dimensional, como se
encontra na figura 2.

Figura 2: Representao mltipla (grfico explicativo de uma funo preditora com trs variveis)

Pressupostos sobre os erros do modelo de regresso linear mltipla:

1. Tm mdia zero e a mesma varincia desconhecida.


2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro.
3. Os erros tm distribuio normal.

As verificaes das suposies supracitadas so feitas atravs da Anlise Residual.

35
Modelos de Regresso: uma aplicao em Medicina Dentria

Em algumas situaes, mais do que uma varivel independente pode ser


necessria para predizer o valor da varivel dependente . O modelo matemtico para esse
caso descrito abaixo:

(25)

Para as n observaes poder ser escrito da forma:

Que na realidade um sistema linear, que podemos escrever na forma de matriz:

Escrevendo ainda em outra forma mais compacta temos:

(26)

O estimador para ser dado por:

(27)

Pela equao (27), h necessidade que o produto tenha uma matriz inversa, o que
implica a condio obrigatria que nenhuma coluna da matriz seja combinao linear das
outras.

3.3.1. Anlise de Varincia (ANOVA) Aplicada Regresso Linear Mltipla

O modelo de regresso linear mltipla representa-se por:

(28)

com uma varivel dependente e k variveis independentes.

Segundo MAROCO (2007), aps explicarmos a variabilidade total do modelo ( ) como a


soma da variabilidade explicada pelo modelo ( com a variabilidade no explicada pelo
modelo (mas sim pelos erros) ( ), vamos avaliar, a partir de estimativas amostrais, se

36
Modelos de Regresso: uma aplicao em Medicina Dentria

na populao algumas das variveis independentes (VI) podem ou no influenciar a varivel


dependente (VD), ou seja, se o modelo ajustado ou no significativo.

A hiptese terica avaliada pelo teste que se refere de seguida.

3.3.2. Teste de significncia da equao de Regresso Linear Mltipla

A existncia de uma relao significativa entre a varivel dependente e as variveis


independentes ou explicativas pode ser avaliada pelo seguinte teste de hipteses:

(a relao entre as variveis no linear)

Este teste conhecido como teste do total. A estatstica do teste a relao entre a
varincia decorrente da regresso linear mltipla e a varincia dos resduos:

(29)

A hiptese nula ser aceite se:

Onde: o nvel de significncia


o nmero de variveis independente
e so os graus de liberdade da distribuio de Snedecor

3.3.3. Teste de Partes de um Modelo de Regresso Linear Mltipla

A contribuio de uma varivel explicativa ao modelo de regresso mltipla pode ser


determinada pelo critrio do teste do parcial. De acordo com este critrio, avalia-se a
contribuio de uma varivel explicativa para a soma dos quadrados devido regresso,
aps a incluso no modelo das restantes variveis independentes.

A verificao se a incluso de uma varivel Xk melhora significativamente o modelo de


regresso realizada por meio do seguinte teste de hipteses:

a varivel no melhora significativamente o modelo


a varivel melhora significativamente o modelo

A estatstica do teste dada por:

(30)

37
Modelos de Regresso: uma aplicao em Medicina Dentria

A hiptese nula deve ser rejeitada se a estatstica for maior ou igual ao valor critico da
distribuio de Snedecor,

Onde: tamanho da amostra


o nvel de significncia
o nmero de variveis explicativas incluindo
e so os graus de liberdade da distribuio de Snedecor

ou seja, rejeita-se se

3.3.4. Coeficiente de determinao parcial

O coeficiente de determinao mltipla, , avalia a proporo da varincia da varivel


dependente que explicada pelas variveis independentes, . Para um modelo de
regresso mltipla com variveis explicativas, o coeficiente de determinao parcial para a
varivel dado por:

(31)

3.3.5. Inferncia sobre os coeficientes de determinao parcial

Um teste de hiptese utilizado para verificar se , onde um valor constante


conhecido, pode ser implementado com as seguintes hipteses nula e alternativa:

Para tais hipteses, a estatstica do teste calculada pela relao:

A hiptese nula rejeitada se ,

Onde: o nvel de significncia (teste bilateral)


o tamanho da amostra
o nmero de variveis independentes do modelo

Os intervalos de confiana para os coeficientes da regresso so dados por:

(32)

38
Modelos de Regresso: uma aplicao em Medicina Dentria

3.3.6. Intervalos de Confiana da Regresso Linear Mltipla

Os limites de confiana de um valor individual previsto so estimados por:

(33)

Onde: a varincia de um valor individual previsto de

3.3.7. Avaliao da Regresso Linear Mltipla

Ao ajustar uma equao de regresso aos dados, na maioria das vezes o valor observado de
y no corresponde exatamente ao valor predito de y. A esta diferena chamamos de resduos
ou variao residual.

A varincia estimada para a da varivel independente y dada por:

(34)

O coeficiente de determinao deve ser ajustado para regresso mltipla por:

(35)

Quando pretendemos comparar diversos modelos com diferentes nmeros de variveis


independentes, usamos o , e no o r. O pondera o r2 de acordo com o
nmero de variveis independentes no modelo, e o nmero de observaes, com o intuito de
estimar a reduo da validade da equao de predio.

3.4. Regresso Logstica

Em muitas situaes prticas, no decurso da investigao de fenmenos reais, o investigador


necessita de recorrer a um modelo matemtico representativo, que pode ser definido como
uma abstrao dum sistema real que possa ser utilizada com os propsitos de predio e
controle e para aplicvel deve ter dois atributos, o realismo e a simplicidade (MARTINS
(1988)). Se por um lado o modelo deve servir como uma aproximao razoavelmente precisa
do sistema real e conter a maior parte dos aspetos importantes do mesmo, por outro no
deve ser to complexo que se torne impossvel compreend-lo e manipul-lo.

Nas situaes multifatoriais reais deparamo-nos com fatores que atuam efetivamente sobre a
varivel resposta influenciando-a, enquanto outros no, agindo apenas como fatores de
confuso. Assim, com o objetivo de se interpretar corretamente os fenmenos, devemos
utilizar modelos que considerem a ao conjunta de variveis. Para modelar estes

39
Modelos de Regresso: uma aplicao em Medicina Dentria

fenmenos, que envolvem uma varivel dependente categrica (nominal) e vrias variveis
independentes mtricas ou categricas, necessitamos de selecionar um mtodo estatstico
apropriado, que nestas situaes so a anlise discriminante e a regresso logstica.

As variveis dependentes categricas, como por exemplo: qualidade de vida (QOL, Quality of
Life), indicadores da condio de sade, gravidade da doena, etc. utilizadas em estudos
epidemiolgicos podem ser ordenadas na forma de score (k valores). Se as variveis
dependentes so discretas, inadequado inclui-las no modelo como se fossem variveis
escalares, devendo-se utilizar variveis de design (ou dummy), ou seja se uma varivel
discreta com valores possveis, ento representaremos cada um deles por uma varivel
dummys, obtendo um modelo com variveis dummy. Estes modelos, dependendo do
delineamento do estudo, permitem tambm calcular a estatstica odds ratio (or) ou a
probabilidade de ocorrncia de um evento ( ).

Seja Y uma varivel aleatria dummy definida como; , onde cada tem distribuio
de Bernoulli, cuja funo de distribuio de probabilidade dada por;

onde: identifica o evento ocorrido

a probabilidade de sucesso para a ocorrncia do evento

Como se trata de uma sequncia de eventos com distribuio de Bernoulli, a soma do


nmero de sucessos ou fracassos nesta experincia ter distribuio Binomial de
parmetros (nmero de observaes) e (probabilidade de sucesso). A funo de
distribuio de probabilidade da Binomial dada por;

A transformao logstica pode ser interpretada como sendo o logaritmo da razo de


probabilidades, sucesso versus fracasso, da a regresso logstica nos dar uma ideia do risco
de obter sucesso, dado o efeito das variveis explicativas (que sero introduzidas mais
adiante).

A funo de ligao deste modelo linear generalizado dada pela seguinte equao:

40
Modelos de Regresso: uma aplicao em Medicina Dentria

onde a probabilidade dada por:

A funo usada na regresso logstica para estimar a probabilidade de uma determinada


realizao da varivel independente ser sucesso

Onde o vetor das probabilidades estimadas e o vetor dos coeficientes de regresso


logstica. Este modelo pode ser ajustado recorrendo regresso no linear, em que a
soluo consiste em linearizar a funo atravs da transformao

Um modelo de regresso deve obedecer aos seguintes pressupostos:

- Linearidade e aditividade: a escala de aditiva e linear (mas a de no).

- Proporcionalidade: a contribuio para cada proporcional ao seu valor com


um fator .

- Constncia de efeito: a contribuio de uma varivel independente constante, e


independente da contribuio das outras variveis independentes.

- Os erros so independentes e apresentam distribuio binomial.

- Os preditores no so multicolineares

3.4.1.Estimao de parmetros em regresso logstica

O mtodo de ajustamento mais utilizado para estimar os parmetros de um modelo de


regresso logstica o mtodo da Mxima Verosimilhana. Este mtodo estima os
coeficientes de regresso que maximizam a probabilidade de encontrar as realizaes da
varivel dependente da amostra. Como a varivel tem uma distribuio de Bernoulli,

As observaes so independentes. Logo, a funo distribuio de probabilidade conjunta de


ser:

41
Modelos de Regresso: uma aplicao em Medicina Dentria

, com .

Ento a funo de verosimilhana ser dada por:

O princpio da mxima verosimilhana consiste em estimar o valor de que maximiza a


funo de verosimilhana. A aplicao do logaritmo natural ajuda no processo de
manipulao algbrica.

donde podemos obter (#)

O valor de que maximiza encontrado aps derivar-se em relao aos parmetros


.

Igualando as equaes das funes derivadas, em relao aos parmetros a zero obtemos
e que so equaes no lineares nos parmetros e
requerem o emprego de processo interativo na sua soluo.

Odds ratio

O odds a medida de ocorrncia que substitui a proporo quando esta no aplicvel. O


odds ratio (or), uma medida de efeito que compara a probabilidade de determinada
condio ocorrer entre grupos. Dados dois grupos distintos pela presena/ausncia de uma
determinada caraterstica ( e ), a ocorrncia de uma determinada condio comparada
pela razo das probabilidades em contra as probabilidades em e designando por a
presena da condio e a ausncia, o or dado por

ou

Tratando-se de uma medida contnua independente segue um modelo logstico, onde

Onde: uma constante

coeficiente da isima varivel independente

valor da isima varivel independente

indica mudana de um atributo

Assim para uma variao de atributo temos:

42
Modelos de Regresso: uma aplicao em Medicina Dentria

Ou seja, o or a exponencial do produto do coeficiente de regresso pela variao da


varivel independente.

Na rea da sade (campo do nosso estudo) o or, como definida anteriormente permite-nos
relacionar a ocorrncia de um evento entre indivduos expostos ( ) e no expostos ( )a
determinado fator de risco.

O intervalo de confiana para o or de obtido calculando o intervalo de


confiana de e aplicando a exponencial.

Tem-se: , onde o erro padro de .

Inferncia

Aps estimar os coeficientes de regresso, a significncia da varivel o primeiro aspeto a


observar antes de progredir com a anlise. Tal envolve testes de hipteses para saber se a
varivel ou no significativamente correlacionada com a sada. Na regresso logstica, a
comparao dos valores observados com os preditos baseada na funo logaritmo da
verosimilhana, apresentada na equao (#).

Segundo Hosmer e Lemeshow (1989), a estatstica chamada deviance, e desempenha


um papel fundamental em algumas aproximaes para verificar o bom ajuste.

Seja (Verosimilhana do modelo ajustado)

A comparao da estatstica deviance do modelo com e sem varivel conduz-nos a

No caso da regresso logstica simples, a verosimilhana do modelo pode ser testada se a


incluso de uma varivel independente melhoraria o ajuste do modelo sem a varivel, ou
seja, se o modelo apenas com a interseo descreveria melhor o comportamento dos
dados observados. Isso pode ser encarado como fazer , a estatstica segue uma
distribuio qui-quadrado com um grau de liberdade.

E segundo Maroco (2007) a estatstica do teste G 2 para testar a significncia do modelo


dada por:

43
Modelos de Regresso: uma aplicao em Medicina Dentria

Onde: o modelo nulo ou reduzido

o modelo completo

Assim o valor de G2, obtm-se a partir do rcio das verosimilhanas de dois modelos e
uma medida de incremento da qualidade do modelo nulo por adio das variveis
independentes. Logo o modelo completo estatisticamente significativo apenas quando a
adio de uma ou mais variveis independentes ao modelo, reduz significativamente o valor
de -2LL.

de realar que concluir que o modelo completo significativo, permite apenas afirmar que
pelo menos uma varivel independente includa no modelo influencia significativamente a
varivel dependente como ajustado pelo modelo.

Tambm podemos recorrer formulao de um teste de hipteses que permita afirmar se


uma varivel ou no significante no modelo de regresso, alm de permitir calcular o p-
valor de tal varivel.

O teste de Wald, compara o valor de obtido da estimao de mxima verosimilhana e o


seu erro padro ( ).

Sob a hiptese de que , segue a distribuio normal padro.

J o teste de Score tem como principal vantagem o uso de pequeno esforo computacional
no seu clculo. Este teste baseado na teoria da distribuio das derivadas do log da
mxima verosimilhana.

O teste de Score dado por :

Sob a hiptese de que , a estatstica Score tem distribuio normal padro.

As estimativas do modelo de regresso logstica so estimativas de mxima verosimilhana


que se determinam atravs de um processo iterativo. Elas no so calculadas para minimizar
a varincia, logo as tcnicas utilizadas para avaliar a qualidade do ajuste no se aplicam.

Para avaliar a qualidade do ajuste de modelos logsticos, foram desenvolvidos vrios pseudo-
r2.

44
Modelos de Regresso: uma aplicao em Medicina Dentria

2
Quadro sntese dos pseudo-r

Pseudo-R2 Frmula Descrio

A verosimilhana do modelo de interceo


tratada como uma soma total de quadrados, e a
verosimilhana do modelo completo a soma dos
erros quadrados.

A razo das probabilidades sugere o nvel de


Pseudo-R2 melhoria em relao ao modelo de interceo
oferecida pelo modelo completo.
de
A probabilidade de se situar entre 0 e 1, de modo
McFadden
que o log da probabilidade menor do que ou igual
Mcompleto = Modelo com preditores a zero. Se um modelo tem uma probabilidade
muito baixa, ento o log da probabilidade ter uma
magnitude maior do que o log de um modelo mais
Minterc.= Modelo sem preditores provvel. Assim uma pequena proporo das
probabilidades de log indica que o modelo um
ajuste completo muito melhor do que o modelo de
interseo.

Se quisermos comparar dois modelos com os


mesmos dados, o ser maior para o modelo
com a maior probabilidade.

O rcio das probabilidades reflete a melhoria do


modelo completo sobre o modelo de interceo (a
uma menor proporo corresponde uma melhoria).
Definindo L (M) como a probabilidade condicional
da varivel dependente dadas as variveis
independentes. Se houver N observaes no
Pseudo-R2 conjunto de dados, ento L(M) o produto de N
tais probabilidades. Assim, tomando a raiz ndice n
de Cox&
do produto L (M) obtemos uma estimativa da
Snell probabilidade de cada valor de Y. obtm-se
como uma transformao da -
2ln[L(MInterc.)/L(MCompleto)] da estatstica que
utilizada para determinar a convergncia de uma
regresso logstica.

Note-se que tem um valor mximo que no


1: se o modelo completo, prediz perfeitamente e
tem uma probabilidade de 1, ento 1-
2/N
L(MInterc.) , que sempre menor que um.

2
Este pseudo-r ajusta o de modo que varie
Pseudo-R 2 entre 0 e 1.

de Para alcanar este objetivo, o dividido pelo


seu valor mximo, 1-L (Mnterc) 2 / N. Ento, se o
Nagelkerke modelo completo prediz perfeitamente e tem uma
probabilidade de 1, = 1.

Se L(MCompleto) = 1, ento = 1;
Se L(MCompleto) = L(Minterc), ento = 0.

45
Modelos de Regresso: uma aplicao em Medicina Dentria

3.4.2. Mtodo de seleo baseado no critrio de informao

A abordagem tradicional na construo de modelos estatsticos encontrar o modelo mais


parcimonioso que explica os dados. Quantas mais variveis no modelo, maior se torna a
estimativa do erro e mais dependente o modelo fica dos dados observados.

Existem algumas tcnicas para auxiliar na seleo de variveis para um modelo de


Regresso Logstica, assim o critrio para a adio ou remoo de covariveis geralmente
baseado na estatstica , comparando modelos com e sem as variveis em questo. Existem
trs procedimentos automticos: o Mtodo Forward, o Mtodo Backward e o Mtodo
Stepwise.

Estes mtodos distiguem-se pelo que aontece variabilidade devida ao efeito comum das VI
(quando esto correlacionadas entre si) e pelos critrios da ordem de entrada das VI na
equao. Esquematicamente podemos visualizar estes trs mtodos no esquema seguinte:

Adaptado de Tabachnick & Fidell (2007)

Qualquer procedimento para seleo ou excluso de variveis de um modelo baseado num


algoritmo que testa a importncia das variveis, incluindo ou excluindo-as do modelo
baseando-se numa regra de deciso. A importncia da varivel definida em termos de uma
medida de significncia estatstica do coeficiente associado varivel para o modelo. Essa
estatstica depende das suposies do modelo.

No nosso exemplo de aplicao vamos recorrer ao Mtodo de Seleo Stepwise. Neste


mtodo, recorre-se ao teste que utilizado desde que os erros tenham distribuio normal.

46
Modelos de Regresso: uma aplicao em Medicina Dentria

Na regresso logstica os erros seguem distribuio binomial e a significncia assegurada


atravs do Teste da Razo de Verosimilhana.

Assim, em cada passo do procedimento a varivel mais importante, em termos estatsticos,


aquela que produz a maior mudana no logaritmo da verosimilhana em relao ao modelo
que no contm a varivel.

47
Modelos de Regresso: uma aplicao em Medicina Dentria

4. Tcnicas de visualizao de informao

4.1. Fundamentos da visualizao grfica

Quando um grfico elaborado, um dos elementos mais importantes a ter em conta a sua
perceo, porque permite dar uma fundamentao cientfica sua construo e sustentar a
escolha de uma forma em detrimento de outra. Na fase da construo, a informao
codificada no grfico atravs de smbolos, comprimentos, declives dos segmentos de reta,
reas, textura ou cor. Quando um grfico analisado, a informao nele contida
descodificada pelo analista, sendo o processo de descodificao denominado de perceo
grfica, que permite avaliar a capacidade de um grfico transmitir informao (CLEVELAND,
MCGILL, 1987). A extrao de informao a partir dos grficos envolve tarefas percetivas
realizadas pelo sistema visual olho-crebro. No quadro seguinte, estas tarefas esto
ordenadas segundo a preciso na extrao de informao quantitativa. Quanto menos
precisa for a perceo, maior o erro de leitura, ou seja, maior a diferena entre o valor
percebido e o valor correto.

Figura 3: Avaliao de tarefas percetivas ordenadas segundo a sua preciso (adaptado de


CLEVELAND, MCGILL,1987)

BERTIN (1973) foi o primeiro a sistematizar os conhecimentos sobre a representao grfica


de informao, criando uma tipologia com as seguintes variveis visuais:

Localizao com utilizao dum referencial cartesiano que atribui a um ponto determinadas
coordenadas;

Tamanho atribuio dum tamanho ao smbolo que evidencie a importncia numrica da


informao que ele representa (variao em comprimento, largura, rea, etc.);

48
Modelos de Regresso: uma aplicao em Medicina Dentria

Valor refere-se variao percebida (contraste) claro/escuro da cor (ex.: preto-branco);

Textura tamanho e espaamento dos elementos grficos que constituem o smbolo (pontos,
linhas ou outros), expresso pelo nmero desses elementos que se repetem por unidade de
comprimento;

Cor sensao pela qual se diferencia entre pores particulares do espetro


eletromagntico, isto , azul, verde, vermelho, etc.;

Orientao tambm designada por direo, corresponde ao ngulo do smbolo com a linha
de leitura (referencial);

Forma pode ser geomtrica (como quadrados ou crculos) ou irregular.

Figura 4: As variveis visuais segundo Bertin

A representao grfica um conceito simples, porm poderoso, e tem causado grande


impacto em diversas reas, tais como, medicina, engenharia e cincias, por facilitar a
interpretao da informao tornando-a por vezes mais acessvel a indivduos com menos
conhecimentos de estatstica. Porm, o seu uso deve ser sempre ponderado em funo do
destinatrio e da mensagem a transmitir.

Citando DINIS PESTANA, na minha investigao uso os grficos com uma parcimnia que
ronda a avareza, e creio que apenas publiquei grficos em trabalhos de ndole didtica.
Grficos de construo simples podem ser inspiradores, mas de modo nenhum substituem
uma anlise assente em mtodos decerto menos apelativos, mas mais seguros. Os grficos
so mais prprios da anlise exploratria de dados do que da anlise estatstica
confirmatria, que decerto merece um estatuto de maior relevo.

49
Modelos de Regresso: uma aplicao em Medicina Dentria

4.2. Tipos de grficos aplicados neste estudo

Regresso Linear

Diagrama de Disperso um grfico que usaremos para observar o comportamento conjunto


de duas variveis e avaliar da existncia de alguma relao entre elas. Cada ponto do grfico
representa um elemento da populao e as respetivas coordenadas os valores das duas
variveis.

A este grfico ajustamos uma reta de equao: Y = X, denominada reta de regresso,


que a que melhor se ajusta aos pontos do diagrama de disperso, onde: representa o
coeficiente angular e o coeficiente linear. Esta reta ser a mdia procurada para o
Intervalo de Confiana que contm Y e os valores de e de so determinados de forma a
minimizar os resduos ou erros ( ) encontrados utilizando o Mtodo dos Mnimos
Quadrados Ordinrios.

Figura 5: Digrama de disperso com reta de regresso

O diagrama de disperso permite visualizar o grau de associao entre as variveis e a


tendncia de variao em conjunto. A figura 6, apresenta alguns exemplos de variao
conjunta entre duas variveis.

50
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 6: Exemplos de relao conjunta entre variveis (adaptado de HELSEL e HIRSH, 1992)

A independncia de resduos pode ser verificada com grficos em relao varivel prevista,
Y.

A figura seguinte ilustra duas situaes: uma onde se verifica a independncia dos resduos e
a outra onde se observa a ocorrncia de dependncia.

Figura 7: Verificao de independncia.

Tambm a hiptese de varincia constante no MRLS pode ser verificado por meio de anlise
grfica entre os resduos e a varivel dependente X, como se ilustra na figura seguinte, que
apresenta situaes em que existe a violao de varincia constante.

51
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 8: Verificao da varincia dos resduos.

A medida da variao conjunta das variveis ou covariao observada num diagrama de


disperso a correlao entre as duas variveis. Essa medida realizada numericamente
por meio dos coeficientes de correlao que representam o grau de associao entre duas
variveis contnuas. As medidas de correlao, frequentemente designadas por , so
adimensionadas e variam entre -1 e 1. No caso de = 0, no existe correlao entre as duas
variveis. Quando > 0, a correlao positiva e uma varivel aumenta quando a outra
cresce. A correlao negativa, <0, quando as variveis variam em direes opostas.

A correlao chamada de monotnica se uma das variveis aumenta ou diminui


sistematicamente quando a outra decresce, com associaes que podem ter forma linear ou
no linear. A figura 9 apresenta exemplos de correlaes monotnicas no lineares e no
monotnicas.

Figura 9: Exemplos de correlaes (adaptado de HELSEL e HIRSH, 1992)

52
Modelos de Regresso: uma aplicao em Medicina Dentria

importante salientar que variveis altamente correlacionadas no apresentam


necessariamente qualquer relao de causa e efeito. A correlao representa simplesmente
a tendncia que as variveis apresentam quanto sua variao conjunta. Assim, a medida
de correlao no indica necessariamente que h evidncias de relaes causais entre duas
variveis. As evidncias de relaes causais devem ser obtidas a partir do conhecimento dos
processos envolvidos.

Coeficiente de Correlao linear de Pearson

Duas variveis apresentam uma correlao linear quando os pontos do diagrama de


disperso se aproximam de uma reta. Essa correlao pode ser positiva (para valores
crescentes de X h uma tendncia a valores tambm crescentes de Y) ou negativa (para
valores crescentes de X a tendncia observarem-se valores decrescentes de Y). A figura
seguinte ilustra correlaes lineares positivas e negativas.

Figura 10: Correlaes lineares positivas e negativas

O coeficiente de correlao linear de Pearson adimensional e varia entre -1 e +1, o que no


ocorre com a covarincia. Assim, as unidades adotadas pelas variveis no afetam o valor do
coeficiente de correlao. Caso os dados se alinhem perfeitamente ao longo da reta com
declive positivo teremos a correlao linear positiva perfeita com o coeficiente de Pearson
igual a 1. A correlao linear negativa perfeita ocorre quando os dados se alinham
perfeitamente ao longo de uma reta com declive negativo e o coeficiente de correlao de
Pearson igual a -1. A figura 11, apresenta alguns diagramas de disperso com os
respetivos valores do coeficiente de correlao.

53
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 11: Exemplos de coeficientes de correlao

de realar que a um valor do coeficiente de correlao alto, embora estatisticamente


significativo, no corresponde necessariamente uma relao de causa e efeito, mas
simplesmente indica a tendncia que aquelas variveis apresentam quanto sua variao
conjunta.

Outro cuidado que se deve ter na anlise de duas variveis com a ocorrncia de
correlaes aparentes (em que as variveis no esto correlacionadas). As causas mais
frequentes desta ocorrncia so: a distribuio no equilibrada dos dados (figura 12); a
relao entre quocientes de variveis que apresentam o mesmo denominador (figura 13); e a
relao de variveis que foram multiplicadas por uma delas (figura 14).

Figura 12: Distribuio no equilibrada de dados

54
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 13: Correlao entre quocientes de variveis

Figura 14: Correlao entre produto de variveis

Grficos P-P plot e Q-Q plot para avaliao do ajuste do modelo

O pressuposto de normalidade dos resduos pode ser testado recorrendo a testes de


ajustamento tais como o Teste Kolmogorov-Smirnov ou o Teste da Normalidade de Lilliefors,
que j foram abordados anteriormente, porm esta condio tambm pode ser verificada
usando um grfico de probabilidade normal (normal probability plot).

O primeiro passo que dever ser dado para verificar se os dados provm duma populao
com uma determinada distribuio consiste numa comparao grfica dos dados com a
distribuio terica. Uma das formas consiste em recorrer aos grficos de probabilidade P-P
Plot e Q-Q Plot. Existem dois tipos de grficos de probabilidade normal: o Normal P-P Plot,
que representa a probabilidade acumulada que seria de esperar se a distribuio fosse
normal, em funo da probabilidade observada acumulada dos erros; e o Normal Q-Q Plot,
que representa o quantil de probabilidade esperado se a distribuio fosse normal em funo
dos resduos.

Para elaborar estes grficos, comea-se por estandardizar os resduos de forma a terem um
desvio padro unitrio:

55
Modelos de Regresso: uma aplicao em Medicina Dentria

E ordenam-se por ordem crescente.

Para desenhar os P-P Plot:

O valor da funo de distribuio para cada resduo estandardizado, assumindo que tem
distribuio normal, representado no eixo das ordenadas e a probabilidade observada
acumulada obtida atravs da frmula vai ser o valor da abcissa.

O P-P Plot faz corresponder a funo de distribuio terica com a funo de probabilidade
acumulada observada nos dados.

Para desenhar os Q-Q Plot:

Os quantis de probabilidade esperados, ou seja, os tais que sero as

ordenadas dos pontos, as abcissas correspondem aos resduos estandardizados.

O Q-Q Plot faz corresponder os quantis esperados com os quantis observados nos dados.

Se os erros possurem distribuio normal, todos os pontos dos grficos devem posicionar-se
mais ou menos sobre uma reta. Logo se os dados seguirem a distribuio terica esperada
os grficos sero aproximadamente lineares.

Exemplos de grficos P-P Plot e Q-Q Plot:

56
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 15: Grficos P-P Plot e Q-Q Plot

Na figura 15 observa-se que o primeiro par de grficos evidencia uma curvatura relativamente
reta, o que indicador de enviesamento, donde somos levados a concluir que a distribuio
no normal. J no segundo par tal no acontece, evidenciando uma distribuio normal.

Curva ROC

Uma prtica comum na rea relacionada com a medicina a forma de se descrever como e
quanto uma varivel contnua ou categrica ordinal capaz de classificar materiais ou
indivduos em grupos definidos.

A anlise ROC (Receiver Operating Characteristc) uma ferramenta que permite medir e
especificar problemas no desempenho do diagnstico em medicina. Pode ser feita por meio
de um grfico simples e robusto, que nos permite estudar a variao da sensibilidade e
especificidade, para diferentes valores de corte.

57
Modelos de Regresso: uma aplicao em Medicina Dentria

A sensibilidade (Sens.) definida como a probabilidade do teste fornecer um resultado


positivo quando o indivduo realmente portador da doena, enquanto a especificidade
(Esp.) definida como a probabilidade do teste fornecer um resultado negativo quando o
indivduo no portador da doena (MARGOTTO, 2002).

De outra forma, pode-se dizer que as curvas ROC foram desenvolvidas no ramo das
comunicaes como uma forma de demonstrar as relaes entre sinal-rudo. Neste sentido,
podemos interpretar o sinal como os verdadeiros positivos (sensibilidade) e o rudo como os
falsos positivos (1 especificidade)

A curva ROC um grfico de Sensibilidade (ou taxa de verdadeiros positivos) versus taxa de
falsos positivos, ou seja, representa-nos a Sensibilidade (ordenadas) e 1 Especificidade
(abcissas) resultantes da variao de um valor de corte ao longo do eixo de deciso x
(BRAGA, 2000).

Assim, a representao da curva ROC permite evidenciar os valores para os quais existe
otimizao da Sensibilidade em funo da Especificidade, correspondente ao ponto que se
encontra mais prximo do canto superior esquerdo do diagrama, uma vez que o indcio de
verdadeiro positivo 1 e o de falso positivo 0.

Figura 16: Curva ROC, para uma dada capacidade de discriminao, com a variao do critrio de
deciso (BRAGA (2000))

O valor do ponto de corte definido como um valor que pode ser selecionado arbitrariamente
pelo investigador entre os valores possveis para a varivel de deciso, acima da qual o
paciente classificado positivo e abaixo do qual classificado como negativo.

De acordo com Braga (2000), para cada ponto de corte so calculados valores de
Sensibilidade e Especificidade; estes valores podem assim ser dispostos no grfico. Um

58
Modelos de Regresso: uma aplicao em Medicina Dentria

classificador perfeito corresponderia a uma linha horizontal no topo do grfico, o que


bastante difcil de se obter. Na prtica, curvas consideradas boas estaro entre a linha
diagonal e a linha perfeita, onde quanto maior a distncia da linha diagonal, melhor o sistema.
A linha diagonal indica uma classificao aleatria, ou seja, um sistema que aleatoriamente
seleciona sadas como positivas ou negativas. Finalmente, a partir de uma curva ROC,
devemos poder selecionar o melhor limiar de corte para obtermos o melhor desempenho
possvel.

Odds Ratio

Dada uma tabela do tipo:

O odds ratio fornece-nos a fora da associao. A figura 17 mostra um grfico de mosaico de


duas variveis binrias, correspondentes tabela acima assim como as escalas de medida.

Figura 17: Grfico de mosaico correspondente tabela de contingncia de 22. O grfico da esquerda
relaciona as duas variveis binrias com o log odds. Os valores de log odds variam entre -2 e 2.

Com base na "leitura" de valores de uma representao grfica no podemos obter nmeros
precisos, procuramos somente uma avaliao aproximada. No caso dos rcios de
probabilidade log vamos poder observar algumas das seguintes propriedades:

Igualdade das alturas de azulejos corresponde a valores de odds ratio prximos de zero
(indicando independncia estatstica nos valores subjacentes).
Comparaes entre vrios mosaicos permitem avaliar a fora das associaes (mais
fraca e mais forte).
A comparao do tamanho dos azulejos permite-nos afirmar que: o odds ratio parece ser
idntico" em duas parcelas; ou "um odds ratio de cerca de x vezes superior a outro",
onde x um mltiplo inteiro pequeno.

59
Modelos de Regresso: uma aplicao em Medicina Dentria

5. Diabetes mellitus e Periodontite

No nosso estudo, as metodologias descritas anteriormente so exploradas numa aplicao a


dados reais no mbito da Medicina Dentria, com o objetivo de avaliar o grau de relao
entre as variveis, a significncia das diferenas entre diabticos e no diabticos e construir
um modelo vlido que conseguisse prever a doena (NA > 4 mm), uma vez que este assunto
tem forte impacto no mbito da Sade Pblica. Os resultados podero ser teis para o
desenvolvimento de medidas de preveno. Podem ser vistos como um ponto de partida para
novos estudos e, ainda, dadas as implicaes em Sade Pblica das doenas em estudo,
permitem promover a reflexo, pois so inmeras as suas implicaes econmicas que com
uma preveno adequada poderiam ser reduzidas.

Assim, entendemos ser pertinente neste ponto do trabalho, e antes de iniciarmos a parte
prtica da aplicao, proceder a uma breve reviso de conceitos importantes nas reas da
diabetes mellitus e da periodontite, bem como das suas relaes.

A diabetes mellitus um grupo de doenas metablicas caraterizadas por hiperglicemia


persistente que resulta principalmente de deficiente ao da insulina, secreo de insulina ou
ambas. As complicaes da diabetes a longo prazo incluem alteraes do metabolismo dos
hidratos de carbono, protenas e gorduras; retinopatia com risco de perda de viso; nefropatia
que pode levar falncia renal; neuropatia perifrica com risco de lceras nos ps (p
diabtico); amputaes; articulaes de Charcot; neuropatia do sistema autnomo com
disfunes do trato gastrointestinal, genito-urinrio, doena cardiovascular (arterial perifrica,
cerebrovascular e hipertenso); disfuno sexual; e alteraes no metabolismo da
lipoprotenas conducentes dislipidemia (American Diabetes Association, 2001).

A diabetes compreende duas formas de apresentao principais: a diabetes tipo 1 e a tipo 2.


A diabetes tipo 1 resulta da destruio das clulas do pncreas; geralmente leva
insulinopenia absoluta e atinge 5-10% dos diabticos. A diabetes tipo 2 resulta da
combinao da resistncia insulina (ao inadequada) e da resposta inadequada de
secreo compensatria de insulina, padecendo desta condio 90 a 95% da populao
diabtica.

A diabetes mellitus atualmente considerada um grave problema de Sade Pblica escala


mundial, tendo-se calculado que, no ano 2000, tero existido 160 milhes de diabticos (120
milhes nos pases em vias de desenvolvimento e 40 milhes nos pases desenvolvidos) e
que, no ano 2010, o nmero destes doentes foi superior a 225 milhes (DUARTE, 2002).

60
Modelos de Regresso: uma aplicao em Medicina Dentria

No mbito da Medicina Dentria, a periodontite uma condio infeciosa, complexa e com


grande polimorfismo sintomtico, caraterizando-se basicamente por perda de osso alveolar
associada perda de aderncia, podendo coexistir com mltiplos sintomas e sinais como
inflamao gengival, bolsas de profundidade varivel, recesso gengival e mobilidade
dentria patolgica, culminando a sua evoluo clnica na perda dentria.

Neste estudo vamos recorrer a um grupo de variveis que melhor representam o estado de
higiene oral e de sade periodontal, sendo por isso as mais frequentemente usadas na clnica
periodontal.

As variveis que investigamos com particular ateno no nosso estudo so:

ndice de Placa (IP)

O IP pretende avaliar o grau de higiene oral em termos de presena de placa bacteriana


supra gengival.

Para calcular o IP, dos seis pontos observados em torno de cada dente trs pontos
vestibulares (msio-vestibular, vestibular e disto-vestibular) e trs pontos linguais (msio-
lingual, lingual e disto-lingual) foram contabilizados apenas quatro: um mesial (vestibular ou
lingual), um distal (vestibular ou lingual), o ponto intermdio vestibular e o ponto intermdio
lingual. Foi determinado o nmero total de pontos que apresentaram placa bacteriana e
dividido pelo nmero total de pontos considerados para este efeito, sendo o resultado
apresentado como percentagem.

Os pontos considerados com placa bacteriana foram aqueles que coraram aps a aplicao
do revelador de placa (eritrosina) e os que, apesar de no terem corado, apresentaram
pigmentao superficial e/ou clculo dentrio, ou apresentaram placa que se conseguiu
destacar com a ponta da sonda.

Profundidade de Sondagem (PS)

O valor da profundidade de sondagem do sulco/bolsa periodontal obteve-se medindo a


distncia, em mm, entre a aderncia epitelial e o bordo da gengiva livre em seis pontos por
dente. Quando o valor observado no foi exato, registou-se o valor inteiro mais prximo,
tendo este procedimento de aproximao sido aplicado a todos os parmetros que foram
avaliados em termos absolutos.

61
Modelos de Regresso: uma aplicao em Medicina Dentria

Retrao Gengival (RG)

A retrao gengival corresponde distncia entre a margem da gengiva livre e a linha amelo-
cementria, tomando-se esta medida nos seis pontos correspondentes aos pontos de
sondagem. Sempre que necessrio procedeu-se aproximao pelo mtodo j referido.

Nvel de Aderncia Clnica (NA)

O nvel de aderncia clnica reflete a maior ou menor perda de aderncia e corresponde


distncia entre a aderncia epitelial e a linha amelo-cementria, ou seja, ao valor da
profundidade de sondagem adicionado do valor da retrao gengival, podendo, tambm
neste caso, estar eventualmente indicado o procedimento de aproximao anteriormente
referido.

ndice de Hemorragia Ps-Sondagem (HPS)

A hemorragia ps-sondagem foi avaliada simultaneamente com a sondagem sulco/bolsa


periodontal e representa a percentagem do nmero de stios sondados que apresentaram
hemorragia imediatamente aps a sondagem ou nos dois minutos seguintes. Todos os
pontos hemorrgicos foram registados independentemente da quantidade e da durao do
sangramento (mtodo qualitativo).

Figura 18: Figura explicativa dos conceitos utilizados nas variveis clnicas do sistema periodontal

62
Modelos de Regresso: uma aplicao em Medicina Dentria

A associao entre a diabetes mellitus e alteraes patolgicas na cavidade oral,


especialmente a doena periodontal, tem sido extensivamente investigada, sendo atualmente
muito numerosos os estudos disponveis na literatura mdica e na literatura dentria em que
a associao demonstrada (PRESHAW et al. 2012). Diversas investigaes permitiram
concluir que existe uma associao entre a doena periodontal e a diabetes mellitus, quer em
diabticos tipo 1, quer em diabticos tipo 2, como podemos constatar na reviso de
LAMSTER et al. (2008). Estudos recentes permitiram ainda concluir que o tratamento da
doena periodontal pode contribuir significativamente para melhorar o controlo metablico da
diabetes (SGOLASTRA F., 2012).

63
Modelos de Regresso: uma aplicao em Medicina Dentria

PARTE II

64
Modelos de Regresso: uma aplicao em Medicina Dentria

1. Introduo

Atualmente esto em foco as interaes entre doenas locais e doenas sistmicas, entre as
quais, pela sua importncia como problema de sade pblica e pelas suas graves
consequncias socioeconmicas, se destaca a diabetes mellitus. A sua prevalncia tem
aumentado ao longo das ltimas dcadas acompanhando as modificaes dos estilos de vida
das sociedades modernas e com ela as doenas relacionadas, como por exemplo a doena
cardiovascular e a periodontite. Por outro lado, a doena periodontal tem implicaes a nvel
da inflamao sistmica, havendo dados que sugerem estar esta doena implicada em
alteraes no equilbrio metablico dos doentes diabticos. O estado atual do conhecimento
neste campo da sade, relao entre doena sistmica e doena periodontal, fornece a
plausibilidade biolgica para a realizao deste estudo, que aborda esta associao com
ajustamento a outros fatores tambm relacionados com estas mesmas doenas.

Os dados que iremos utilizar neste estudo foram extrados duma base de dados mais
abrangente obtida num estudo clnico realizado no campo da medicina dentria e
endocrinologia. Tal estudo foi aprovado pela Comisso de tica da Faculdade de Medicina
Dentria da Universidade do Porto e pela Comisso de tica do Hospital de S. Joo, e todos
os participantes assinaram uma declarao de consentimento informado, conforme a
Declarao de Helsnquia da Associao Mdica Mundial.

Alguns dos aspetos metodolgicos desse estudo clnico merecem ser mostrados neste
trabalho para contextualizar os dados que iremos tratar (PEREIRA, J. (2007)).

Os participantes foram selecionados aleatoriamente a partir dos doentes que frequentaram a


Consulta Externa de Endocrinologia do Hospital de S. Joo, e nos quais foi diagnosticada
diabetes tipo 1 ou diabetes tipo 2, e ainda a partir dos indivduos que constituam um grupo
organizado, de forma aleatria, pelo Servio de Higiene e Epidemiologia da Faculdade de
Medicina do Porto para efeitos de obteno de controlos. Foram assim selecionados, no total,
158 indivduos classificados em 2 grupos: no diabticos e diabticos (tipo 1 e tipo 2):

Figura 19: Distribuio dos participantes por status diabtico

65
Modelos de Regresso: uma aplicao em Medicina Dentria

O grupo de diabticos foi constitudo por 79 indivduos com idades compreendidas entre os
18 e os 79 anos (mdia = 50,57 (desvio padro 15,2)), sendo 38 do sexo masculino (48,1%) e
41 do sexo feminino (51,9 %), e foram selecionados consecutivamente a partir dos indivduos
que frequentaram a Consulta de Endocrinologia do Hospital de S. Joo e aceitaram deslocar-
se Faculdade de Medicina Dentria U.Porto para serem examinados por um mdico
dentista.

Os participantes no diabticos foram selecionados a partir de uma listagem fornecida pelo


Servio de Epidemiologia da Faculdade de Medicina U.Porto, e da qual constavam indivduos
que se disponibilizaram para servir de controlos em estudos epidemiolgicos. A arrolao dos
participantes foi feita de forma a obter pares de indivduos diabticos/no diabticos do
mesmo sexo e de idade aproximada a 2 anos. Este grupo foi constitudo por 79 indivduos
com idades compreendidas entre os 18 e os 81 anos, tendo como mdia 50,81 (desvio
padro 15,38), sendo 38 do sexo masculino (48,1%) e 41 do sexo feminino (51,9%).

Os participantes de ambos os grupos obedeceram aos critrios de incluso definidos no incio


do estudo (PEREIRA, J., 2007).

Figura 20: Distribuio dos diabticos por sexo

Todos os indivduos foram avaliados quanto aos seguintes parmetros:

Variveis Sociodemogrficas: Idade e Escolaridade.


Variveis Antropomtricas: Peso, Estatura, Permetro da Cinta e Permetro da Anca.
Foi calculado o ndice de massa corporal [IMC = Peso (kg) / estatura2 (m2)], que indica a
relao entre peso e altura, permitindo-nos avaliar o estado ponderal do indivduo.
Variveis Analticas: Lipoprotenas de baixa densidade (LDL), lipoprotenas de alta
densidade (HDL), Colesterol Total (CT) e Triglicerdeos (T).
Hbitos tabgicos.
Variveis Periodontais: ndice de Placa (IP), ndice de Hemorragia Ps-Sondagem
(HPS), Profundidade de Sondagem (PS), Recesso Gengival (RG), Nvel de Aderncia
(NA).

66
Modelos de Regresso: uma aplicao em Medicina Dentria

As variveis utilizadas nos modelos foram estratificadas conforme a sua associao com a
doena periodontal tendo em conta os seguintes fatores:

Gnero

A estratificao por sexo est fundamentada em estudos epidemiolgicos que mostraram


menor prevalncia e gravidade das doenas periodontais nas mulheres do que nos homens
(DESVARIEUX et al., 2004).

Idade >50

Os indivduos com idades superiores a 50 anos tm maior risco para a perda de osso
alveolar, passando a taxa anual de perda de aderncia de 0,1 mm/ano at aos 35 anos para
0,3 mm/anos aps os 50 anos de idade (AXELSSON et al., 1978). Esta alterao na taxa de
progresso da doena pode ser justificada por alteraes da imunidade inata e adaptativa
associadas com o envelhecimento (PANDA et al., 2009) e reduo dos nveis dos esterides
sexuais nos homens (ORWOL et al., 2009) e nas mulheres ps menopausa (MARKOU et al.,
2009).

Escolaridade 0-4 /5-9 />=10

O nvel de escolaridade um surrogate endpoint do nvel socioeconmico da populao


portuguesa, sobretudo na poca em que a maioria dos nossos participantes desenvolveu os
seus estudos. Outros autores j estabeleceram relaes entre os nveis socioeconmicos
(definidos pelos ciclos escolares) e as doenas periodontais (BOILLOT et al., 2004), da
termos adotado idntica estratificao adaptada para os ciclos escolares portugueses.

IP >90

A placa bacteriana o principal fator etiolgico para as doenas periodontais e fundamental


para a instalao da gengivite. Assim, a sua incluso neste estudo est justificada
(OFFENBACHER et al., 2007). O ndice de placa superior a 90 tem em conta os valores
observados na nossa amostra e a necessidade dos grupos terem dimenso vivel para a
aplicao das anlises estatsticas.

IMC <25

A obesidade e o sobrepeso tm sido associados a maior inflamao sistmica por


hiperativao macrofgica, que tambm desempenham um papel fundamental na regulao
da inflamao local, nomeadamente da periodontite (CHAFFEE et al., 2010). O IMC <25
corresponde ao limite normoponderal, da ter sido escolhido como valor de corte.

67
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabaco

Os hbitos tabgicos foram estratificados em fumadores e no fumadores, porque est


demonstrado que o tabaco um fator de risco comportamental/sistmico para a periodontite.
A no estratificao por dose de exposio resultou da impossibilidade metodolgica de
caraterizar com algum rigor a dose de exposio, pois os fumadores, para alm do tabaco
que consomem diretamente, esto expostos ao tabaco ambiental, e os no fumadores
(diretos) tambm podero ou no estar expostos ao tabaco ambiental (ARBES et al., 2001).
Na impossibilidade de realizar a quantificao da cotinina srica ou salivar, optamos por
simplificar a estratificao dos hbitos tabgicos de forma mais simples (WALTER et al.,
2012).

Os valores de corte considerados encontram-se na tabela seguinte:

Tabela 5 : Estratificao das variveis segundo o risco para a doena periodontal


Varivel Estratificao Risco
50
Idade (anos)
>50 ++
Feminino
Gnero
Masculino +
No diabticos
Status diabtico Diabticos tipo 1 +++
Diabticos tipo 2 +++
0-4 +++
Escolaridade (anos) 5-9 +
10
<25
IMC (kg/m2)
25 ++
No fumador
Hbitos tabgicos
Fumador +++
90%
IP
>90% +++

No nosso estudo, recorrendo a metodologias estatsticas e ferramentas computacionais


avanadas, pretendemos avaliar a associao de diferentes fatores de risco estabelecidos
e/ou potenciais com a doena periodontal extensa definida pela perda de aderncia clnica
conforme os critrios descritos na PARTE I. Este critrios tiveram como objetivo evitar uma
subavaliao da doena (Nvel de Aderncia clnica).

68
Modelos de Regresso: uma aplicao em Medicina Dentria

Procuramos respostas para as questes abaixo apresentadas:

1 Comparar diabticos com no-diabticos, emparelhados segundo o sexo e a idade,


quanto aos indicadores socioeconmicos, dados antropomtricos, valores analticos e
indicadores de sade periodontal.

2 Avaliar a relao dos indicadores de sade periodontal tais como Profundidade de


Sondagem, Nvel de Aderncia, Recesso Gengival e Hemorragia Ps-Sondagem, com a
Idade, Sexo, GPJ, Colesterol Total, HDL, Triglicerdeos, IMC e ndice de Placa.

3 Avaliar a associao entre a extenso e gravidade da doena periodontal e o status


diabtico, ajustada para as variveis independentes de interesse.

Para organizao da nossa anlise de modo a responder s questes colocadas


anteriormente, e de acordo com Tabachnick e Fidell (2007), apresentamos a estrutura da
Figura 21.

Metedologias estatsticas
adotadas para responder s
questes colocadas

Questo 1 Questo 2 Questo 3


Grau de relao Significncia das Predio da presena da
entre as variveis diferenas entre os grupos condio periodontal definida

Anlise
Anlise Bivariada t-Teste Discriminante

Anlise Regresso
Multivariada ANOVA Linear Mltipla

Regresso
Logstica

Figura 21: Esquema com a estrutura do estudo

Considerando a relevncia do tema do estudo clnico, entendemos que seria justificvel


explorar outras metodologias estatsticas adequadas e ferramentas computacionais que
permitissem explorar os dados de forma a enriquecer a informao cientfica extrada no
estudo inicial.

69
Modelos de Regresso: uma aplicao em Medicina Dentria

Passamos descrio e justificao de seleo das metodologias adotadas. Assim, para


comparar as diferenas entre os diabticos e no diabticos quanto s variveis quantitativas
recorreu-se aos testes de t-Student para observaes no emparelhadas e U de Mann-
Whitney. Sempre que as varincias das distribuies a comparar pelo teste t-Student foram
significativamente diferentes, efetuou-se a correo de Welch. Para comparar variveis
nominais dicotmicas utilizamos o teste do Qui-quadrado e o teste exato de Fisher (sempre
que o nmero de observaes foi inferior a 5).

As correlaes entre duas variveis foram avaliadas pelo coeficiente de Pearson ou de


Spearman. Esta anlise de correlaes fez parte dos critrios de seleo das variveis a
incluir no modelo.

No nosso estudo recorremos anlise multivariada para determinar a contribuio de


diversas variveis (Idade, Sexo, Escolaridade, Status Diabtico e ndice de Placa) para o
Nvel de Aderncia e tambm para escolher a combinao de variveis que melhor permite
prever o valor do Nvel de Aderncia (VD). Desta forma pretendemos determinar, numa
perspetiva matemtica, um modelo linear que melhor estime o valor da VD.

Foi construdo um modelo de Regresso Linear para determinar a influncia das variveis
Status Diabtico, Sexo, Idade, Escolaridade e ndice de Placa no Nvel de Aderncia. Para
avaliar o ajustamento do modelo recorremos ANOVA, cujos pressupostos normalidade,
multicolinearidade e homocedasticidade foram avaliados graficamente pelos testes do SPSS:
Kolmogorov-Smirnov, de VIF e de tolerncia. Tambm recorremos ao package Design no R.

A investigao dos fatores associados gravidade da sade periodontal, conforme definida,


foi feita utilizando a regresso logstica mltipla, pois o que se pretendia era descrever a
relao entre o Nvel de Aderncia (varivel dependente ou resposta) e um conjunto
simultneo de variveis explicativas (preditoras ou independentes) mediante um modelo que
tivesse bom ajuste e fosse biologicamente plausvel. A anlise logstica controla grande
nmero de variveis simultaneamente, permitindo que os dados sejam utilizados mais
eficientemente; o teste de homogeneidade pode ser feito em conjunto, bastando introduzir no
modelo o termo produto entre os fatores. O ajuste do modelo foi avaliado pelo mtodo da
mxima verosimilhana (maximum likelihood), que o mtodo de ajustamento utilizado na
regresso logstica. Este mtodo estima os parmetros do modelo de forma a maximizar a
probabilidade de encontrar as realizaes da varivel dependente.

Avaliou-se a significncia de cada um dos coeficientes das covariveis selecionadas no


processo anterior atravs do teste de Wald, considerando o nvel de significncia de 5%. A

70
Modelos de Regresso: uma aplicao em Medicina Dentria

escolha deste teste deve-se ao facto de nos permitir avaliar em simultneo hipteses sobre
vrias combinaes lineares dos parmetros.

Selecionaram-se as covariveis mais importantes pelo mtodo de Stepwise, o qual permite


selecionar variveis a partir de um conjunto inicial de variveis explicativas. A escolha das
variveis baseia-se num procedimento heurstico, mas no garante, do ponto de vista prtico,
que o modelo seja o melhor. A qualidade do ajuste do modelo foi realizada com a estatstica
de Pearson, com o teste de Hosmer-Lemeshow e o teste de Deviance. O teste de
Hosmer-Lemeshow um teste que avalia o modelo ajustado comparando as frequncias
observadas e as esperadas, associando aos dados as suas probabilidades estimadas de
forma crescente; seguidamente realiza um teste Qui-quadrado para determinar se as
frequncias observadas esto prximas das frequncias esperadas. O teste de Pearson
fornece-nos uma medida til para avaliar o quo bem o modelo selecionado ajustou-se aos
dados. O teste de Deviance do modelo uma estatstica de bondade que se baseia nas
funes de log-verosimilhanas maximizadas para verificar se um subconjunto das variveis
pode ser retirado do modelo de regresso logstica mltiplo, testando se os coeficientes de
regresso so iguais a zero.

A fundamentao terica das metodologias estatsticas utilizadas, referidas ao longo dos


ltimos pargrafos, foi apresentada na primeira parte desta dissertao.

As ferramentas computacionais usadas neste trabalho foram o SPSS (Statistical Package for
the Social Sciences) verso 18, e o R.

A utilizao destes dois softwares foi justificada pelas razes que passamos a descrever:

O SPSS um dos softwares mais utilizados em diferentes reas do saber pois possui um
ambiente grfico muito apelativo e de utilizao intuitiva, bastando para a maioria das
anlises efetuar a seleo das respetivas opes em menus e caixas de dilogos. Alm disso
permite tratar variveis de diferentes tipos e permite desenvolver todo o processo da
investigao, desde o planeamento do estudo at ao tratamento de dados para a anlise,
possibilitando a elaborao de relatrios, quer pelo prprio programa, quer por uma
articulao com um processador de texto (LAUREANO e BOTELHO, 2010).

O R uma ferramenta poderosa, com boas capacidades ao nvel da programao, e possui


um vasto nmero de packages (e em constante crescimento), que tm vindo a acrescentar
bastantes potencialidades estatsticas e grficas, o que lhe confere uma crescente
importncia no contexto atual e internacional. Alm disso, disponibilizado online
gratuitamente.

71
Modelos de Regresso: uma aplicao em Medicina Dentria

2. Visualizao grfica e anlise exploratria dos dados

Analisando a amostra obtivemos, com recurso ao SPSS, os grficos seguintes:

Figura 22: Histogramas das variveis Idade, Escolaridade e IMC

Figura 23: Grfico circular das variveis Sexo e Hbitos Tabgicos

Figura 24: Grficos circulares comparativo dos Hbitos Tabgicos por sexo

72
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 25: Distribuio do Nvel de Aderncia em fumadores por sexo e status diabtico

Figura 26: Diagrama de extremos das variveis Escolaridade e Idade em funo do Status Diabtico

73
Modelos de Regresso: uma aplicao em Medicina Dentria

Com recurso ao R, analismos graficamente a distribuio da varivel Nvel de Aderncia.

Figura 27: Grficos da varivel Nvel de Aderncia

Foram realizados os diagramas de disperso que nos permitem visualizar o grau de


associao entre as variveis e a tendncia de variao em conjunto que apresentam. De
seguida selecionamos alguns dos grficos mais elucidativos do estudo da relao entre as
variveis.

Figura 28: Diagrama de disperso da varivel Nvel de Aderncia em diabticos e no diabticos

74
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 29: Nuvens de pontos

As nuvens de pontos evidenciam a possvel relao entre Idade e Nvel de Aderncia e a


inexistncia de relao entre Idade e ndice de Placa.

Figura 30: Diagramas de disperso

Pela observao do diagrama de disperso podemos inferir que a correlao linear entre
HDL e Nvel de Aderncia negativa e que entre Nvel de Aderncia e Colesterol Total
positiva.

75
Modelos de Regresso: uma aplicao em Medicina Dentria

3. Testes no paramtricos

Comparao entre diabticos e no diabticos

Procedeu-se comparao de diferentes variveis no grupo dos diabticos e no diabticos,


com recurso ao SPSS, efetuando o teste no paramtrico de Mann-Whitney, com o objetivo
de avaliar se existiam diferenas entre eles.

3.1. Teste de Mann-Whitney

Para comparao entre diabticos e no diabticos, no que respeita s variveis Idade e


Escolaridade, foram consideradas as seguintes hiptese, nula e alternativa:

As variveis socioeconmicas tm a mesma distribuio nos diabticos e no


diabticos.
As variveis socioeconmicas no tm a mesma distribuio nos diabticos e no
diabticos.

Com recurso ao SPSS:

Tabela 6 : Indicadores socioeconmicos dos diabticos e no diabticos


Idade Escolaridade /
Diabticos 50,57(1,71) 6,71 41/38
No Diabticos 50,81(1,73) 8,89 41/38
p 0,921 0,003

A escolaridade mdia dos no diabticos (8,89) foi superior dos diabticos (6,71). Quando
comparados os dois grupos usando o teste de Mann-Whitney observamos uma diferena
estatisticamente significativa (p=0,0026). Podemos portanto concluir que existe diferena na
escolaridade entre os diabticos e no diabticos.

Considerando agora a comparao entre diabticos e no diabticos, no que respeita


medida da cinta, anca e ndice de Massa Corporal, foram consideradas as seguintes
hipteses, nula e alternativa:

Os dados antropomtricos tm a mesma distribuio nos diabticos e no


diabticos.
Os dados antropomtricos no tm a mesma distribuio nos diabticos e no
diabticos.

76
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 7 : Dados antropomtricos dos diabticos e no diabticos


Cinta Anca ndice de Massa Corporal
Diabticos 90,6211,21 101,6010,35 27,514,46
No diabticos 86,6811,79 98,818,32 25,673,90
p 0,0329 0,0603 0,0063

A comparao dos dados antropomtricos revelou que o grupo dos diabticos tinha valores
mdios superiores nas variveis observadas, sendo significativas apenas as diferenas do
permetro mdio da cinta (C) (p=0,0329) e do IMC mdio (p=0,0063) (Tabela 7).

Quanto comparao entre diabticos e no diabticos no que respeita aos valores


analticos e considerando as hipteses nula

Os valores analticos tm a mesma distribuio nos diabticos e no diabticos


versus a hiptese alternativa
Os valores analticos no tm a mesma distribuio nos diabticos e no
diabticos

Foram obtidos os resultados seguintes:

Tabela 8 : Valores analticos dos diabticos e no diabticos


Colesterol Total LDL HDL Triglicerdeos
Diabticos 224,9156,35 138,4447,34 52,0014,40 175,13188,09
No Diabticos 212,5345,70 130,1841,89 58,0112,75 119,8269,45
p 0,1314 0,2738 0,0061 0,0053
- Teste de Mann-Whitney

As variveis analticas Colesterol Total, LDL e TG apresentaram valores mdios superiores


nos doentes diabticos e o HDL inferiores. As diferenas das mdias foram estatisticamente
significativas para a varivel HDL (-6,01 (2,16); IC: -10,25 ; -1,77) e no significativas para
Colesterol Total (12,38 (8,16); IC: -3,62 ; 28,38) e LDL (7,81 (7,11); IC: -6,13 ; 2,75). Sendo a
distribuio dos valores de T no normal, foram comparadas as medianas dos grupos pelo
teste de Mann-Whitney e a diferena encontrada foi significativa (p = 0,0053) (tabela 8).

Conclui-se portanto que h evidncia estatstica acerca das diferenas no HDL e


Triglicerdeos entre os no diabticos e diabticos.

77
Modelos de Regresso: uma aplicao em Medicina Dentria

Quanto avaliao da sade periodontal, foram obtidos os respetivos indicadores que


constam na tabela 9:

Tabela 9 : Indicadores da sade periodontal dos diabticos e no diabticos


PS NA RG HPS IP
Diabticos 2,76 (0,73) 3,40 (1,18) 0,68 (0,72) 49,58 (24,27) 85,45 (16,86)
No Diabticos 2,19 (0,63) 2,53 (0,85) 0,33 (0,35) 40,86 (27,56) 78,85 (23,72)

p < 0,0001 < 0,0001 0,0017 0,0366 0,1111
- Teste de Mann-Whitney

A comparao da situao periodontal entre os doentes diabticos e no diabticos,


emparelhados para o sexo e idade, evidencia pior sade periodontal nos diabticos, avaliada
em termos de valores mdios de Nvel de Aderncia, Profundidade de Sondagem, Recesso
Gengival, Hemorragia Ps Sondagem e IP (ver tabela 9). A observao dos valores mdios
dos indicadores da doena periodontal dos dois grupos permitiu-nos constatar que os
doentes diabticos tinham maior Profundidade de Sondagem, Nvel de Aderncia, Recesso
Gengival e Hemorragia Ps Sondagem.

3.2. Interpretao grfica

Figura 31: Comparao de grupos relativamente aos valores do Nvel de Aderncia

Como podemos observar, o maior Nvel de Aderncia verificado na figura no canto inferior
direito, correspondente a Fumadores masculinos com diabetes tipo 2. Podemos ainda

78
Modelos de Regresso: uma aplicao em Medicina Dentria

observar que os indivduos que apresentam os valores inferiores do Nvel de Aderncia so


masculinos, no diabticos ou diabticos tipo 1 e fumadores. Globalmente, os no fumadores
tm os menores valores do Nvel de Aderncia (no grfico do lado esquerdo no
encontramos a cor correspondente ao valor mximo).

3.3. Teste de t de Student

Recorreu-se ao teste t de Student para comparar as diferenas entre os diabticos e no


diabticos para observaes no emparelhadas, tendo sido testadas as hipteses nulas H0:
X-Y=0 (X =Y) versus H1: X-Y >0 (X> Y) para a mdia da Profundidade de Sondagem e
da Hemorragia ps sondagem e as diferenas observadas foram estatisticamente
significativas, sendo os respetivos intervalos de confiana (IC: 0,36 ; 0,79) e (IC: 0,62 ;16,81).
Um intervalo de confiana d-nos uma estimativa da amplitude dos valores que
provavelmente incluiro o parmetro populacional desconhecido. A estimativa dessa
amplitude (intervalo) calculada a partir de um conjunto de dados de uma amostra.

Se muitos pares de amostras (no caso dependentes) so extradas repetidamente da mesma


populao, e um intervalo de confiana calculado para cada par de amostras, ento uma
certa percentagem (nvel de confiana) destes intervalos incluiro o parmetro populacional
desconhecido. No nosso exemplo podemos afirmar que, com um nvel de confiana de 95%,
o valor mdio da Profundidade de Sondagem se encontra entre 0,36 e 0,79, e analogamente
a Hemorragia Ps Sondagem se encontra entre 0,62 e 16,81.

As variveis Nvel de Aderncia e Recesso Gengival foram comparados pelo teste de Mann-
Whitney, uma vez que este teste no exige o pressuposto da normalidade, podendo ser
aplicado para amostras pequenas, e em variveis de escala ordinal. Tendo-se testado as
hipteses:

As duas amostras so provenientes de populaes com a mesma distribuio


versus
As duas amostras so provenientes de populaes com distribuies distintas

verificou-se serem as diferenas das suas medianas estatisticamente significativas com


p<0,0001 para o Nvel de Aderncia e p=0,0017 para a Recesso Gengival (tabela 9).

Concluso global: Comparando os diabticos com os no diabticos, verificou-se que s


no existem diferenas quanto ao ndice de Placa. Para as restantes variveis (Nvel de
Aderncia, Hemorragia Ps Sondagem e Recesso Gengival) os dois grupos apresentam
diferenas significativas, independentemente do mtodo utilizado na avaliao.

79
Modelos de Regresso: uma aplicao em Medicina Dentria

4. Estudo das Correlaes

Foram determinadas as correlaes entre os indicadores da sade periodontal Profundidade


de Sondagem, Nvel de Aderncia, Recesso Gengival e Hemorragia Ps Sondagem, e as
variveis independentes: Idade, GPJ, Colesterol Total, HDL, LDL, Triglicerdeos, IMC, ndice
de Placa, pelo coeficiente de Pearson ou de Spearman quando bivariada e recorrendo ao
SPSS, sendo que as opes no grupo Correlation Matrix apresentam a matriz de correlaes
entre variveis (ver anexo I). Recorremos ao clculo do coeficiente de Pearson com o R para
avaliar a correlao das variveis Nvel de Aderncia e Status Diabtico.

Dos valores encontrados podemos destacar as seguintes relaes:

4.1. Relao entre o Nvel de Aderncia (NA) e as variveis independentes

Os valores mdios do Nvel de Aderncia dos no diabticos e dos diabticos esto


diretamente correlacionados com a Idade (r=0,44; p<0,0001: r=0,51; p<0,0001), o HDL (r=-
0,45; p<0,0001: r=-0,28; p=0,0119), Triglicerdeos (r=0,26; p=0,023: r=0,28; p=0,0124) e
ndice de Placa (r=0,51; p<0,0001: r=0,30; p<0,0001).

Apenas nos no diabticos as variveis Colesterol Total (r=0,33; p=0,004), LDL (r=0,41;
p=0,0002) e ndice de Massa Corporal (r=0,34; p=0,002) apresentam diferenas entre os
coeficientes de correlao significativas para LDL (z=2,04) e no significativas as restantes
variveis.

de referir que para a varivel HDL o valor do coeficiente de correlao sempre negativo,
pelo que podemos afirmar que um agravamento dos indicadores de sade periodontal esto
associados a uma diminuio de HDL. Tal associao estatisticamente significativa em
geral para o grupo dos no diabticos, enquanto que para os diabticos s estatisticamente
significativa quanto ao Nvel de Aderncia e Receo Gengival.

4.2. Relao entre o Nvel de Aderncia e o status diabtico com recurso ao R

Para avaliarmos a relao entre o Nvel de Aderncia e o status diabtico recorremos ao R,


uma vez que este programa , neste caso, de utilizao muito intuitiva e fornece-nos
resultados de fcil leitura.

Utilizamos o comando lm usado para a regresso linear simples. A indicao de qual a


varivel resposta y e quais as variveis preditoras x1, ...,xp faz-se atravs do argumento
function.

80
Modelos de Regresso: uma aplicao em Medicina Dentria

Objetivos:

1. Determinar os coeficientes da reta de regresso utilizando o mtodo dos mnimos


quadrados. Escrever a equao terica do modelo e descrever os parmetros.

2. Determinar o coeficiente de correlao linear de Pearson e verificar se significativamente


diferente de zero.

3. Criar uma tabela de ANOVA e com recurso ao teste F testar a hiptese nula =0.

4. Calcular o coeficiente de determinao.

Rotinas:

81
Modelos de Regresso: uma aplicao em Medicina Dentria

Interpretao dos resultados:

1. Como a varivel diabetes dicotmica, o diagrama de disperso permitiu-nos


comparar os grupos quanto gravidade da doena periodontal avaliada pelo Nvel de
Aderncia. Assim podemos concluir que nos diabticos a doena (Nvel de Aderncia)
mais evidente que nos no diabticos.
2. O coeficiente de variao inferior a 0,50, logo o grau de disperso pequeno e
podemos concluir que a mdia representativa.
3. Como estamos a determinar a 95% de confiana o = 0,05 e como o p-value =
0,0004 menor que , logo rejeitamos a hiptese nula de que as variveis no se
encontram associadas. H evidncias significativas de que o Nvel de Aderncia e
Status Diabtico se encontram relacionados. Quanto ANOVA, os resultados
mostram que o modelo altamente significativo pois o p-value prximo de 0,000.
Considera-se portanto que o parmetro significativamente diferente de zero.
4. O coeficiente de determinao obtido igual a 0,077 afasta a hiptese de linearidade
dos dados, uma vez que este deve situar-se entre 0 e 0,1, sugerindo uma correlao
nfima positiva.

82
Modelos de Regresso: uma aplicao em Medicina Dentria

5. Anlise de Regresso Mltipla

O objetivo da anlise de regresso mltipla determinar a fora de cada uma das Variveis
Independentes que, em conjunto, melhor explicam o comportamento da Varivel
Dependente. No nosso estudo pretendemos prever mudanas da varivel Nvel de Aderncia
associadas a mudanas das variveis independentes (Idade, Sexo, Escolaridade, Status
Diabtico, Fumador e ndice de Placa).

As variveis com correlaes mais fortes sero aquelas que conduziro a um modelo que
melhor ir predizer a Varivel Dependente. Porm, como o nosso estudo foi feito no mbito
da Medicina Dentria, a escolha das Variveis Independentes a incluir tem relevncia na
interpretao biolgica do fenmeno. No se trata da escolha cega de variveis mas sim da
seleo de variveis nas condies anteriormente indicadas que tenham significado no
contexto do problema.

5.1. Regresso linear mltipla

Foi construdo um modelo de Regresso Linear, para conhecer quanto e se as variveis


Status Diabtico, Sexo, Idade, Escolaridade e ndice de Placa influenciam o Nvel de
Aderncia:

Y 0 1 X 1i 2 X 2i 3 . X 3i 4 X 4i 5 X 5i 6 X 6i

Onde em todos os modelos desenhados temos:

Y representa o Nvel de Aderncia, com a variar entre 1 e 158

1i representa a varivel Diabetes, do tipo dicotmico

2i representa a varivel Sexo, do tipo dicotmico

3i representa a varivel Idade, do tipo contnuo

4i representa a varivel Escolaridade, do tipo contnuo

5i representa a varivel Fumador, do tipo dicotmico

i representa a varivel ndice de Placa, do tipo contnuo

0 o interceto do plano de regresso (coeficiente linear).

1 , 2 , .... 6 so coeficientes de regresso (coeficientes angulares)

erro experimental ou variabilidade residual

83
Modelos de Regresso: uma aplicao em Medicina Dentria

Recorrendo ao SPSS obteve-se:

Tabela 10 : Variveis includas no Modelo de regresso linear simples


Modelo Variveis includas Variveis excludas Mtodo

IP, Sexo, Diabtico,


1 Fumador, Idade, ___ Enter
Escolaridadea
a. Test distribution is Normal.

Tabela 11 : Resumo do Modelo de regresso linear simples


Modelo r Quadrado de r Quadrado de r Erro Padro da
ajustado Estimativa
1 0,619 0,384 0,359 7,43606

A tabela 10, apresenta o sumrio do modelo, com as variveis (Variveis preditoras:


Constante), IP, Sexo, Status Diabtico, Idade, Escolaridade, Fumador, cuja construo ser
feita posteriormente.

Neste modelo encontramos =0,384, donde podemos afirmar que 38,4% da variabilidade
do Nvel de Aderncia explicada pelas variveis independentes do modelo ajustado. O valor
do coeficiente de correlao r=0,619. Ou seja, 61,9% da variabilidade encontrada para o
Nvel de Aderncia pode ser explicada pelas variveis independentes, ficando neste caso por
explicar cerca de 39%, que se devem a outros fatores. No podemos considerar que este
modelo seja um bom ajuste pois o valor de r 2 no se encontra prximo de 1. No existe pois
uma forte relao entre as variveis.

5.2. ANOVA para testar a significncia do modelo

Quando colocamos a questo Ser significativamente diferente de 0?, ou seja, ser o


modelo ajustado significativo?, temos que observar a tabela ANOVA (tabela 12).

Tabela 12 : ANOVA (Variveis preditoras: Constante), IP, Sexo, Diab., Idade, Escol, Fumador
Modelo Soma dos Quadrados Graus de liberdade Quadrado Mdio F Sinal
Regresso 5196,977 6 866,163 15,644 0,000
Residual 8349,543 151 55,295
Total 13546,520 157

84
Modelos de Regresso: uma aplicao em Medicina Dentria

A ANOVA apresentou um p-value de 0,000, ou seja, o modelo altamente significativo,


para qualquer nvel de significncia. Logo este modelo podia ser generalizado a outras
amostras. O modelo ajustado (tabela 13) dado por:

Tabela 13 : Coeficientes (Variveis dependente: NA)


Coeficientes no Coeficientes
Modelo padronizados padronizados t Sinal
B Erro Std. Beta
(Constante) -1,976 4,377 -0,451 0,652
Diabtico 3,117 0,677 0,312 4,604 0,000

Sexo -0,379 1,203 -0,020 -0,315 0,754


Idade 0,165 0,047 0,271 3,529 0,001
Escolaridade -0,346 0,159 -0,178 -2,173 0,031
Fumador 2,667 1,532 0,117 1,741 0,084
IP 0,064 0,031 0,144 2,068 0,040

A coluna t d-nos os valores observados das estatsticas dos testes de t de Student aplicados
aos coeficientes de regresso, que tm como finalidade testar a significncia dos parmetros
estimados do modelo. Com um nvel de confiana de 95%, apenas a varivel Status
Diabtico significante, sendo aquela que tem maior contribuio individual (4,604).

5.3. Validao dos pressupostos do modelo

A validao dos pressupostos do modelo assenta na anlise de resduos. Com esse objetivo
desenhmos o diagrama de disperso. Da sua observao razovel afirmar que existe uma
relao linear entre as variveis, uma vez que os resduos se distribuem de forma mais ou
menos aleatria em torno do zero, sugerindo a validade do pressuposto de independncia e
da homocedasticidade. Porm, no nos d qualquer informao sobre o pressuposto da
normalidade dos resduos.

Da interpretao do Normal P-P dos resduos podemos concluir que o pressuposto da


normalidade tambm vlido, pois a maioria dos pontos est sobre a diagonal principal.

85
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 32: Grficos dos Resduos versus preditos; resduos padronizados e da probabilidade normal
dos resduos

Procedamos pois realizao de testes exatos da ocorrncia de outliers e ao pressuposto da


distribuio normal. Assim, para testar a normalidade optou-se por usar o teste Kolmogorov-
Smirnov que um teste paramtrico tradicional, baseado na distribuio t-Student e obtido
sob a hiptese de que a populao tem distribuio normal, e o teste de Shapiro-Wilk, por se
tratar de um teste de ajustamento especfico para a distribuio normal que tem uma melhor
performance que o teste anterior em amostras reduzidas (n < 30).

Tabela 14 : Teste One-Sample Kolmogorov-Smirnov


N 158
Mdia 0,000
Parmetros da distribuio normal
Desvio padro 7,365
Absoluto 0,069
Diferenas mais Extremas Positivo 0,069
Negativo -0,049
Kolmogorov-Smirnov Z 0,869
Asymp. Sig. (2-caudas) 0,436
Exact Sig. (2-caudas) 0,418
Point Probability 0,000

O p-value (exato) 0,418, logo no rejeitamos a hiptese de que a varivel em estudo segue
uma distribuio normal para o nvel de significncia de = 0,05.

86
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 33: Q-Q plot

Usando a varivel RES (os resduos guardados) e fazendo um QQ plot (figura 33) e os
testes de ajustamento de Kolmogorov-Smirnov e de Shapiro-Wilk podemos concluir que os
resduos tm uma distribuio normal (o QQ plot identifica um ajuste entre os quantis
amostrais e os quantis de distribuio normal) e os testes de ajustamentos fornecem os p-
values superiores aos nveis de significncia usual (0,062 > 0,05).

Tabela 15 : Teste de normalidade


a
Kolmogorov-Smirnov Shapiro-Wilk
Graus de Graus de
Estatstica Sinal Estatstica Sinal
liberdade liberdade
Erros
0,069 158 0, 062 0,959 158 0,000
Padronizados
a. Correo de significncia de Lilliefors

87
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 16 : Verificao da multicolinearidade (Variveis dependente: NA)


Coeficientes no Coeficientes Estatsticas de
padronizados padronizados colinearidade
Modelo Sinal
Erro Padro Beta t Tolerncia VIF
(Constante) 19,241 1,250 15,395 0,000
1
Escolaridade -0,916 0,137 -0,473 -6,706 0,000 1,000 1,000
(Constante) 15,146 1,517 9,983 0,000
2 Escolaridade -0,732 0,136 -0,378 -5,366 0,000 0,902 1,109
Diabtico 3,041 0,704 0,304 4,319 0,000 0,902 1,109
(Constante) 5,700 3,285 1,735 0,085
Escolaridade -0,488 0,153 -0,252 -3,194 0,002 0,679 1,473
3
Diabtico 3,066 0,684 0,307 4,484 0,000 0,902 1,109
Idade 0,148 0,046 0,244 3,217 0,002 0,735 1,360
(Constante) -0,627 4,308 -0,146 0,884
Escolaridade -0,381 0,158 -0,196 -2,407 0,017 0,617 1,622
4 Diabtico 2,998 0,676 0,300 4,436 0,000 0,900 1,111
Idade 0,145 0,046 0,239 3,192 0,002 0,735 1,361
IP 0,069 0,031 0,155 2,232 0,027 0,849 1,178

Para avaliar a multicolinearidade, o SPSS utiliza a Tolerncia de cada varivel que a


medida da proporo da varincia da varivel que no explicada pelas restantes variveis
independentes e que calculada aquando da aplicao do mtodo Stepwise, onde se vo
selecionar as variveis que vo entrar na anlise. As variveis do nosso estudo que se
encontram nestas condies (Tolerncia > 0,8) so a Escolaridade e Diabetes, assim
revelando poder discriminante, pelo que no h a recear a violao do pressuposto de
multicolinearidade.

5.4. Ajustamento do Modelo pelo Mtodo Stepwise

A partir da tabela 17 tambm podemos verificar quais as variveis que so significantes para
o modelo, ou seja, aquelas cujo coeficiente apresenta um valor significativamente diferente
de zero.

88
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 17 : Diagnstico de colinearidade (Varivel Dependente: NA)


Variance Proportions
Model Valores Condition
Dimenso Const Fuma
o prprios Index Idade Sexo Diab. Escol. IP
ante dor
1 4,922 1,000 0,00 0,00 0,01 0,01 0,00 0,01 0,00
2 0,803 2,476 0,00 0,00 0,01 0,08 0,00 0,71 0,00
3 0,540 3,020 0,00 0,00 0,06 0,48 0,08 0,15 0,00
1 4 0,438 3,353 0,00 0,00 0,89 0,01 0,05 0,04 0,00
5 0,234 4,585 0,00 0,06 0,01 0,38 0,30 0,00 0,02
6 0,050 9,903 0,00 0,49 0,00 0,01 0,02 0,06 0,56
7 0,014 19,080 1,00 0,45 0,00 0,03 0,55 0,03 0,41

De seguida procedemos ao ajuste do nosso modelo recorrendo ao Mtodo de Stepwise.

Tabela 18: Variveis includas e excludas do modelo (Variveis dependente: NA)


Variveis Variveis
Modelo Mtodo
includas removidas
Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-
1 Escolaridade
to-remove >= ,100)
Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-
2 Diabtico
to-remove >= ,100)
Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-
3 Idade
to-remove >= ,100)
Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-
4 IP
to-remove >= ,100)

Tabela 19 : Sumrio do modelo (Variveis dependente: NA)


Modelo r Quadrado de r Quadrado de r ajustado Erro Padro do estimador Durbin-Watson
a
1 0,473 0,224 0,219 8,21011
b
2 0,554 0,307 0,298 7,78158
c
3 0,592 0,351 0,338 7,55694
d
4 0,609 0,371 0,355 7,46112 1,919
a. Predictors: (Constant), Escolaridade; b. Predictors: (Constant), Escolaridade, Diabtico
c. Predictors: (Constant), Escolaridade, Diabtico, Idade d. Predictors: (Constant), Escolaridade, Diabtico, Idade, IP
e. Dependent Variable: NA_4

Pela leitura da tabela 19, podemos concluir que o teste de significncia da equao de
Regresso Linear Mltipla indicou que todos os modelos construdos podem ser
considerados significativos para um nvel de significncia de 5%, uma vez que o F calculado
maior que o F crtico. Assim, rejeitamos a hiptese H0, o que quer dizer que as varincias
so iguais e consequentemente os modelos de regresso so vlidos. Como os p-value so

89
Modelos de Regresso: uma aplicao em Medicina Dentria

todos inferiores a 0,05, podemos assegurar que qualquer um dos quatro modelos de
regresso (descritos a seguir) so melhores que a mdia para predizer os valores do Nvel de
Aderncia.

Tabela 20 : ANOVA (Variveis dependente: NA)


Soma dos Graus de Mdia dos
Modelo F Sinal
Quadrado liberdade Quadrados
Regresso 3031,203 1 3031,203 44,969 ,000a
1 Resduo 10515,317 156 67,406
Total 13546,520 157
b
Regresso 4160,805 2 2080,402 34,357 ,000
2 Resduo 9385,715 155 60,553
Total 13546,520 157
Regresso 4751,983 3 1583,994 27,737 ,000c
3 Resduo 8794,537 154 57,107
Total 13546,520 157
Regresso 5029,260 4 1257,315 22,586 ,000d
4 Resduo 8517,260 153 55,668
Total 13546,520 157

Tabela 21 : Coeficientes (Variveis dependente: NA)


Coeficientes no Coeficientes Estatsticas de
padronizados padronizados colinearidade
Modelo Erro Sinal
B Beta t Tolerncia VIF
Padro
(Constante) 19,241 1,250 15,395 0,000
1
Escolaridade -0,916 0,137 -0,473 -6,706 0,000 1,000 1,000
(Constante) 15,146 1,517 9,983 0,000
2 Escolaridade -0,732 0,136 -0,378 -5,366 0,000 0,902 1,109
Diabtico 3,041 0,704 0,304 4,319 0,000 0,902 1,109
(Constante) 5,700 3,285 1,735 0,085
Escolaridade -0,488 0,153 -0,252 -3,194 0,002 0,679 1,473
3
Diabtico 3,066 0,684 0,307 4,484 0,000 0,902 1,109
Idade 0,148 0,046 0,244 3,217 0,002 0,735 1,360
(Constante) -0,627 4,308 -,146 0,884
Escolaridade -0,381 0,158 -0,196 -2,407 0,017 0,617 1,622
4 Diabtico 2,998 0,676 0,300 4,436 0,000 0,900 1,111
Idade 0,145 0,046 0,239 3,192 0,002 0,735 1,361
IP 0,069 0,031 0,155 2,232 0,027 0,849 1,178
a. Predictors: (Constant), Escolaridade; b. Predictors: (Constant), Escolaridade, Diabtico; c. Predictors:
(Constant), Escolaridade, Diabtico, Idade; d. Predictors: (Constant), Escolaridade, Diabtico, Idade, IP;
e. Dependent Variable: NA_4

90
Modelos de Regresso: uma aplicao em Medicina Dentria

A tabela 21 permite-me escrever a equao que nos d uma estimativa do Nvel de


Aderncia em cada um dos modelos.

Yi 0 1 X 1i 2 X 2i

No Modelo 1:

Yi 19,241 0,916 X 4i , onde o valor do Nvel de Aderncia e o valor da

Escolaridade

No Modelo 2:

Yi 15,146 0,732 X 4i 3,041 X 1i

onde Yi o valor do Nvel de Aderncia e X 4i e o valor da Escolaridade e X 1i o valor do Status


Diabtico.

No Modelo 3:

Yi 5,700 0,488 X 4i 3,066 X 1i 0,148. X 3i

onde Yi o valor do Nvel de Aderncia e X 4i e o valor da Escolaridade, X1i o valor do Status


Diabtico e X3i a Idade.

No Modelo 4:

Yi -0,627 0,381 X 4i 2,998 X 1i 0,145 X 3i 0,069 X 6i

onde Yi o valor do Nvel de Aderncia e X 4i e o valor da Escolaridade, X1i o valor do Status


Diabtico , X3i a Idade e X6i o ndice de placa.

91
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 22 : Variveis excludas (Variveis dependente: NA)

Estatsticas de colinearidade
Modelo Beta in t Sinal Parcial
Tolerncia
Tolerncia VIF
mnima
a
Diabtico 0,304 4,319 0,000 0,328 0,902 1,109 0,902
a
Sexo 0,011 0,161 0,872 0,013 1,000 1,000 1,000
a
1 Idade 0,240 2,988 0,003 0,233 0,735 1,360 0,735
a
Fumador 0,045 0,637 0,525 0,051 1,000 1,000 1,000
a
IP 0,175 2,327 0,021 0,184 0,851 1,175 0,851
b
Sexo 0,012 0,173 0,863 0,014 1,000 1,000 0,902
b
Idade 0,244 3,217 0,002 0,251 0,735 1,360 0,679
2 b
Fumador 0,072 1,067 0,288 0,086 0,992 1,008 0,895
b
IP 0,162 2,260 0,025 0,179 0,850 1,177 0,786
c
Sexo 0,004 0,068 0,946 0,006 0,999 1,001 0,678
c
3 Fumador 0,127 1,909 0,058 0,153 0,939 1,065 0,663
c
IP 0,155 2,232 ,027 0,178 0,849 1,178 0,617
d
Sexo -0,001 -0,018 ,986 -0,001 0,997 1,003 0,616
4 d
Fumador 0,113 1,718 0,088 0,138 0,930 1,076 0,608
a. Predictors in the Model: (Constant),
b. Predictors in the Model: (Constant), Escolaridade, Diabtico
Escolaridade
c. Predictors in the Model: (Constant), d. Predictors in the Model: (Constant), Escolaridade, Diabtico, Idade,
Escolaridade, Diabtico, Idade IP

Da anlise da tabela 23 verificamos que a proporo de varincia atribuvel colinearidade


caraterizada por cada valor prprio associada a cada coeficiente (Variance proportions)
ainda um indicador da existncia ou no de problemas na estimao dos parmetros. Um
valor elevado de k (Condition Index) associado a uma proporo de varincia (1 elevada
(>50%) tabela 22) revela uma situao problemtica por causa da multicolinearidade na
estimao dos parmetros.

92
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 23 : Diagnstico de colinearidade (Varivel Dependente: NA)


Variance Proportions
Valores
Modelo Dimenso Condition
prprios (Constante) Escolaridade Diabtico Idade IP
Index
1 1,853 1,000 0,07 0,07
1
2 0,147 3,545 0,93 0,93
1 2,349 1,000 0,03 0,03 0,05
2 2 0,550 2,066 0,01 0,15 0,56
3 0,101 4,827 0,97 0,82 0,38
1 3,219 1,000 0,00 0,01 0,03 0,01
2 0,550 2,418 0,00 0,11 0,56 0,00
3
3 0,209 3,920 0,01 0,33 0,36 0,12
4 0,021 12,289 0,99 0,54 0,05 0,88
1 4,145 1,000 0,00 0,01 0,02 0,00 0,00
2 0,551 2,742 0,00 0,10 0,58 0,00 0,00
4 3 0,237 4,185 0,00 0,33 0,38 0,06 0,02
4 0,053 8,812 0,00 0,03 0,01 0,52 0,51
5 0,014 17,261 1,00 0,54 0,02 0,42 0,47

Para avaliarmos a qualidade do modelo podemos comparar a variao de Nvel de Aderncia


que explicada pelo modelo, com a variao do Nvel de Aderncia que no explicada pelo
modelo e o modelo ser tanto melhor quanto maior for este quociente (r 2). Pela leitura da
tabela 19 o melhor modelo que inclui todas as variveis e se apresenta como modelo 4
(r2=0,371).

Tabela 24 : Estatsticas Residuais (Variveis dependente: NA)


Desvio
Mnimo Mximo Mdia N
Padro
Predicted Value -2,273 21,910 12,095 5,753 158
Residual -16,547 23,971 0,000 7,293 158
Std. Predicted Value -2,576 1,706 0,000 1,000 158
Std. Residual -2,283 3,224 0,000 0,981 158

93
Modelos de Regresso: uma aplicao em Medicina Dentria

5.5. Ajustamento do Modelo de RLM com recurso ao R

1. Construir um modelo de Regresso linear mltipla

VI: Na

VD: Diabetes, Idade, Sexo, Escolaridade, Fumador e ndice de placa

Rotinas:

#Determinar os coef da reta regresso mtodo min quadrados

modelo=lm(Na~diabetes+Idade+Sexo+Escol+Fumador+Ip)

#imprimir

modelo

Resultados:

Interpretao dos resultados:

O modelo encontrado no output do R idntico ao que se obteve recorrendo ao SPSS, logo


as concluses a tirar so as mesmas.

Assim: Yi 0,406 3,992 X 1i 0,292 X 3i 0,178 X 2i 0,436 X 4i 2,441X 5i 0,046X 6i

onde Yi o valor do Nvel de Aderncia e X 1i o valor do Status Diabtico, X3i o sexo, X2i a
Idade, X4i e o valor da Escolaridade, X5i ser Fumador e X6i o ndice de Placa.

94
Modelos de Regresso: uma aplicao em Medicina Dentria

6. Regresso logstica

6.1. Introduo e Estratificao dos dados

Procedeu-se estratificao dos dados conforme tabela 5.

O valor de corte (4 mm) para a varivel dependente (Nvel de Aderncia) foi feito com recurso
metodologia adotada em Medicina Dentria (PEREIRA, J. (2007)), que consiste num grfico
de percentagem acumulada do Nvel de Aderncia em que o ponto de inflexo das curvas
relativas aos diabticos e no diabticos vai corresponder ao valor de corte, neste caso ser
de aproximadamente 4 mm, conforme figura 34.

Profundidade de sondagem

NA(mm)

Diabticos
Controlos

3 5 7 9 11 13 15 17

Figura 34: Periodontal fingerprint

Em anlise estatstica, o valor 4 mm seria determinado com recurso curva ROC, que
representa a sensibilidade em funo da proporo de falsos positivos (1 Especificidade)
para um conjunto de valores de "cutoff point". Por outro lado, as curvas ROC permitem
quantificar a exatido de um teste diagnstico, j que esta proporcional rea sob a curva
ROC, isto , tanto maior quanto mais a curva se aproxima do canto superior esquerdo do
diagrama. Sabendo isto, a curva ser til, tambm, na comparao de testes diagnsticos,
tendo o teste uma exatido tanto maior quanto maior for a rea sob a curva ROC.

95
Modelos de Regresso: uma aplicao em Medicina Dentria

Figura 35: Curva ROC

Tabela 25 : Clculo da rea sob a curva ROC


Asymptotic 95% Confidence Interval
Area Std. Errora Asymptotic Sig.b
Lower Bound Upper Bound
,755 ,038 ,000 ,681 ,829
a.Under the nonparametric assumption b.Null hypothesis: true area = 0.5

A rea sob a curva representa a probabilidade de que o resultado do ensaio de um caso


positivo escolhido aleatoriamente ir exceder o resultado de um processo escolhido
aleatoriamente negativo.

O conhecimento da rea sob a curva possibilita quantificar a exatido de um teste diagnstico


(proporcional rea sob a curva), alm de possibilitar a comparao de testes diagnsticos.
A rea sob a curva ROC constitui um dos ndices mais usados para sumariar a qualidade da
curva.

A rea sob a curva ROC uma medida do desempenho de um teste (ndice de exatido do
teste). Um teste totalmente incapaz de discriminar indivduos doentes e no doentes teria
uma rea sob a curva de 0,5 (seria a hiptese nula). Acima de 0,70 considerado
desempenho satisfatrio. Por observao da tabela 25 podemos concluir que no nosso
exemplo a rea de 0,755 (IC a 95% de 0,681 a 0,829), logo a significncia inferior a 0,05,
o que significa que a utilizao do ensaio melhor do que a probabilidade do acaso.

96
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 26 : Clculo da rea sob a curva ROC - Coordenadas da Curva


Test Result Variable(s):Predicted probability
Positive if Positive if
Greater Than or Sensitivity 1 - Specificity Greater Than or Sensitivity 1 - Specificity
a a
Equal To Equal To
,0000000 1,000 1,000 ,0987914 ,671 ,291
,0120818 1,000 ,962 ,1002904 ,671 ,278
,0151700 1,000 ,873 ,1017453 ,658 ,278
,0183215 1,000 ,823 ,1030482 ,658 ,266
,0189955 1,000 ,810 ,1041776 ,658 ,253
,0197070 1,000 ,722 ,1081524 ,658 ,241
,0227586 1,000 ,709 ,1121348 ,633 ,241
,0258442 1,000 ,696 ,1136288 ,620 ,241
,0265755 ,949 ,696 ,1158933 ,582 ,241
,0271112 ,937 ,696 ,1212101 ,544 ,241
,0281013 ,937 ,671 ,1258524 ,532 ,241
,0314572 ,937 ,633 ,1281231 ,506 ,241
,0362993 ,924 ,633 ,1313628 ,481 ,241
,0386131 ,924 ,620 ,1340601 ,481 ,228
,0396809 ,924 ,608 ,1384628 ,481 ,215
,0416825 ,924 ,582 ,1418235 ,481 ,152
,0431778 ,911 ,582 ,1435435 ,481 ,139
,0447365 ,911 ,570 ,1470820 ,468 ,139
,0462146 ,911 ,557 ,1496545 ,468 ,127
,0468769 ,911 ,544 ,1507594 ,468 ,114
,0474568 ,911 ,532 ,1604783 ,468 ,076
,0520042 ,873 ,532 ,1706842 ,380 ,076
,0566896 ,861 ,532 ,1728060 ,316 ,076
,0577958 ,848 ,532 ,1773360 ,291 ,076
,0593667 ,848 ,519 ,1823956 ,278 ,076
,0605891 ,823 ,519 ,1885982 ,266 ,076
,0614011 ,810 ,519 ,1966153 ,266 ,063
,0639968 ,810 ,494 ,2025346 ,253 ,063
,0662411 ,810 ,481 ,2095441 ,253 ,051
,0692917 ,810 ,443 ,2213457 ,253 ,038
,0738447 ,797 ,443 ,2351092 ,241 ,038
,0806669 ,772 ,443 ,2417898 ,101 ,038
,0860077 ,747 ,443 ,2482103 ,089 ,038
,0873823 ,747 ,430 ,2551515 ,076 ,038
,0891976 ,734 ,430 ,2611699 ,063 ,038
,0897044 ,722 ,430 ,2723517 ,051 ,038
,0903673 ,709 ,430 ,2792284 ,051 ,025
,0915395 ,696 ,430 ,2868084 ,051 ,013
,0932573 ,696 ,418 ,3044728 ,051 ,000
,0944404 ,684 ,418 ,3205961 ,038 ,000
,0951521 ,671 ,418 ,3864775 ,013 ,000
,0963793 ,671 ,392 1,0000000 ,000 ,000
,0974435 ,671 ,304

a. The smallest cutoff value is the minimum observed test value minus 1, and the largest cutoff value is the maximum
observed test value plus 1. All the other cutoff values are the averages of two consecutive ordered observed test values.

97
Modelos de Regresso: uma aplicao em Medicina Dentria

O nosso exemplo encontra-se ilustrado na figura 35. A tabela 26 relata a sensibilidade e 1


especificidade para cada ponto de corte (no nosso caso ser 4 mm) possvel para a
classificao positiva. O ponto de corte 0 equivalente a assumir que todos so positivos
para a doena periodontal. O ponto de corte 1 equivalente a assumir que todos so
negativos para a doena periodontal. Note-se que ambos os extremos so insatisfatrios,
pelo que propomo-nos escolher um corte que permita equilibrar as necessidades de
sensibilidade e especificidade, vamos analisar o que se passa no 0,04 pois na figura 34
(periodontal fingerprint ) no valor 4 que encontramos uma maior diferena no Nvel de
Aderncia entre diabticos e no diabticos ( que destacmos a vermelho).

Por exemplo, considere-se o ponto de corte 0,04 (correspondente a NA=4). Calculemos as


mdias das coordenadas dos pontos nestas condies:

Usando este ponto de corte vamos ter uma sensibilidade de 0,913 e 1 especificidade de
0,561. Assim, aproximadamente 91,3% de todas as amostras do NA > 4 seriam corretamente
identificadas como tal, e 56,1% de todas as amostras do NA 4 poderiam ser incorretamente
identificadas como positivas.

A escolha do ponto de corte ser decidida pela necessidade de aumentar a sensibilidade ou


a especificidade e vai depender do investigador. Devemos notar que os valores da tabela
representam as melhores orientaes para os quais devemos considerar os pontos de corte.
Esta tabela no inclui as estimativas de erro, portanto, no h garantia da exatido da
sensibilidade ou especificidade para um dado ponto de corte na tabela.

O uso da Curva ROC possibilita-nos avaliar a acurcia deste teste.

A rea sob a curva (figura 35) mostrou que a utilizao do teste melhor do que a
probabilidade de ocorrncia, mas, alm disto, as coordenadas da curva (destacadas na
tabela 26) so teis porque fornecem algumas orientaes para determinar qual o melhor
ponto de corte para a determinao os resultados do teste positivo e negativo.

A probabilidade de ocorrer NA 4 mm em 25% dos casos refere-se extenso da doena


periodontal. Enquanto que o nmero 4 mm nos d a gravidade da doena, o valor 25%
refere-se extenso da doena (superfcie afetada).

Aps se definir o conjunto de variveis independentes a serem includas no modelo,


precisamos de identificar as variveis mais importantes para explicar a probabilidade de

98
Modelos de Regresso: uma aplicao em Medicina Dentria

sucesso. Assim, interessa-nos identificar, entre todas as variveis independentes (Idade,


Sexo, Diabetes, Escolaridade, Fumador e ndice de Placa) o conjunto de variveis que
melhor contribui para a explicao da variabilidade.

6.2. Codificao de fatores

Na regresso logstica utiliza-se uma codificao de fatores das variveis independentes em


que se determina um fator de referncia.

Os efeitos dos restantes fatores da respetiva varivel independente estaro em relao ao


fator de referncia. Por exemplo, a varivel sexo est codificada segundo o seguinte critrio
indicador: 0 = Feminino e 1 = Masculino, sendo a categoria de referncia a que tem o cdigo
zero, conforme consta na tabela 28.

Tabela 27 : Codificao da varivel dependente


Valor Original Cdigo
Inferior a 50% 0
Igual ou Superior a 50% 1

Tabela 28 : Codificao das variveis independentes


Cdigo do Parmetro
Frequncia
(1) (2)
Menos que 5 72 1 0
Escolaridade Entre 5 e 9 35 0 1
Mais que 9 51 0 0
<= 50 63 1
Idade_classe
>50 95 0

Cdigo do Parmetro
Frequncia
(1) (2)
Diabtico No diabtico 79 1 0
Diabtico tipo 1 20 0 1
Diabtico tipo2 59 0 0
Fumador No 125 1
Sim 33 0
Sexo Feminino 82 1
Masculino 76 0

99
Modelos de Regresso: uma aplicao em Medicina Dentria

O processo de seleo de variveis pode ser feito de vrias formas.

A seleo de Forward baseada no teste de Wald comea por considerar um modelo apenas
com a constante (tabela 29).

A estatstica de Wald usado para avaliar a significncia dos coeficientes da regresso


logstica. As hipteses so:

H0: 1 = 2= = k = 0, i.e., o modelo no estatisticamente significativo

H1: i 0, ( i= 1,,K) , i.e., o modelo estatisticamente significativo

No nosso exemplo, como o p-value = 0,000, no se rejeita a hiptese nula. Concluindo-se


que o modelo linear assim obtido no estatisticamente significativo.

Tabela 29 : Clculo da Estatstica de Wald


B S.E. Wald df Sig. Exp(B)
Step 0 Constant -2,051 0,250 67,110 1 0,000 0,129

Tabela 30 : Estudo das variveis no includas


Score g.l Sig.
Idade_classe 0,595 1 0,441
Sexo(1) 0,109 1 0,741
Diabetes 6,147 2 0,046
Diabetes(1) 1,003 1 0,317
Variables
Step 0 Diabetes(2) 2,944 1 0,086
Escol_classes 4,769 1 0,029
Fumador(1) 1,905 1 0,168
IP_classe 1,377 1 0,241
Overall Statistics 11,681 7 0,112

A tabela 30, apresenta as estatsticas Score das variveis no includas no modelo e os seus
p-value. Para , as variveis escolaridade e diabetes so estatisticamente
significativas.

100
Modelos de Regresso: uma aplicao em Medicina Dentria

Mtodo Stepwise (Forward)

Tabela 31 : Quadro inicial das iteraes


Iterao Coeficientes
-2 Log likelihood Constante Escol_classes
Step 1 1 113,985 -1,325 -0,253
2 107,444 -1,563 -0,527
3 106,926 -1,573 -0,692
4 106,917 -1,571 -0,720
5 106,917 -1,571 -0,720
a. Method: Forward Stepwise (Wald)
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 112,067
d. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

O valor de -2 Log Likelihood um indicador da qualidade do ajustamento do modelo aos


dados. Quanto maior for o seu valor, pior o ajustamento.

A tabela 32 mostra que o modelo encontrado tem uma m qualidade de ajustamento do


modelo aos dados, pois os seus valores so muito elevados (>106).

Tabela 32 : Teste do rcio das verosimilhanas entre modelos


Chi-square df Sig.
Step 5,150 1 0,023
Step 1 Block 5,150 1 0,023
Model 5,150 1 0,023

No nosso exemplo, sendo e , nada podemos concluir sobre o valor


preditivo da nossa varivel dependente sobre o Nvel de Aderncia.

Tabela 33 : Qualidade do ajustamento do modelo

Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square


a
1 106,917 0,032 0,063
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

Tambm importante detetarmos pontos influentes, ou seja, pontos que afetam de forma
significativa o ajuste do modelo.

Recorremos estatstica do teste para testar a significncia do modelo de regresso


logstica.

101
Modelos de Regresso: uma aplicao em Medicina Dentria

Os valores do podem ser determinados por:

Estes valores dos pseudo-r2 revelam o modelo em que a varivel dependente a


Escolaridade e ter uma qualidade fraca (tal modelo ser adiante escrito) pois o seu valor
varia entre 0 e 1 e o valor 1 indica o melhor ajuste do modelo.

6.3. Qualidade do ajuste do modelo

Para avaliar a qualidade do ajuste recorremos ao teste de Hosmer and Lemeshow.

Tabela 34 : Teste de Hosmer and Lemeshow

Step Chi-square df Sig.


1 0,293 1 0,588

Tabela 35 : Tabela de contingncia do teste de Hosmer and Lemeshow

Nvel de aderncia >4 =


Nvel de aderncia >4 = Inferior a 50%
Igual ou Superior a 50% Total
Observed Expected Observed Expected
1 49 48,608 2 2,392 51
Step 1 2 31 31,785 4 3,215 35
3 60 59,608 12 12,392 72

As tabelas 34 e 35 apresentam o teste de ajustamento de Hosmer and Lemeshow que


compara, aps diviso da amostra em aproximadamente 10 classes iguais, a
correspondncia entre os nmeros reais e os previstos em cada classe, utilizando a
estatstica Qui-quadrado. Um bom ajuste de modelo indicado por um valor Qui-quadrado
no-significante (tambm se pode recorrer aos valores esperados e observados para calcular
a estatstica do teste). Como p-value 0,588, podemos concluir que os valores estimados
pelo modelo esto prximos dos valores esperados, ou seja, o modelo ajusta-se aos dados.

102
Modelos de Regresso: uma aplicao em Medicina Dentria

Tabela 36 : Classificao observada e prevista no modelo ajustado

Predito
Observado Nvel de aderncia >4
Percentagem
< 50% 50%
< 50% 140 0 100,0
Nvel de aderncia >4
Step 1 50% 18 0 0,0
Overall Percentage 88,6
a. O valor de corte 0,500

De acordo com os dados da tabela 36, apenas 18 indivduos positivos para a condio esto
classificados como negativos (falso-negativos); os restantes encontram-se bem classificados.
Podemos assim concluir que a sensibilidade do modelo de 100% (ou seja, classifica
corretamente os doentes) e a especificidade 0% (que a probabilidade condicionada de
prever um diagnstico negativo sabendo que o indivduo no tem doena). Globalmente o
modelo classifica corretamente 88,6% dos indivduos que apresentam NA <4.

O estimador do logit e seu intervalo de confiana fornece o estimador dos valores ajustados.
O intervalo de confiana dos valores ajustados apresentado na tabela 37.

Tabela 37 : Informaes sobre variveis independentes no modelo completo

95% C.I. for EXP(B)


S.E. Wald df Sig. Exp(B)
Inferior Superior
Escol_classes -0,720 0,345 4,370 1 0,037 0,487
Step 1a 0,248 0,956
Constant -1,571 0,304 26,675 1 0,000 0,208

a. Variable(s) entered on step 1: Escol_classes.

ou seja, neste caso a equao do modelo de regresso logstica dada por

onde X4i e o valor da Escolaridade

Para a estatstica de Wald do quadrado mostra que s os indivduos com mais


escolaridade ( so significativos para o modelo, melhorando significativamente a
sua previsibilidade.

Nesta abordagem o ogo o modelo significativo.

103
Modelos de Regresso: uma aplicao em Medicina Dentria

6.4. Anlise dos resduos

A anlise dos resduos permite identificar outliers e casos influentes na estimao do modelo
e as medidas usadas so basicamente as mesmas da regresso linear, apenas necessrio
entrar em considerao com as varincias das observaes, pois na regresso logstica elas
no so constantes.

Inicimos o nosso estudo pela interpretao grfica:

Figura 36: Anlise de resduos

Do grfico representado na figura 36 podemos afirmar que este modelo apresenta outliers.

Predicted Probability is of Membership for Igual ou Superior a 50%. The Cut Value is .50. Symbols: 0 - Inferior a 50%; 1 - Igual ou
Superior a 50%; Each Symbol Represents 5 Cases.

Figura 37 : Grupos observados e Probabilidades Previstas

104
Modelos de Regresso: uma aplicao em Medicina Dentria

Neste tipo de grfico a distribuio desejvel em forma de U. Quando a distribuio em


forma de sino (como no nosso caso), o modelo classifica mal as observaes cujas
probabilidades se concentram em torno de 0,5.

Tabela 38 : Quadro de identificao dos outliers

Seleo Observada Varivel Temporria


Caso Predita Grupo Predito
Statusa Nvel de aderncia >4 Resid Z Resid
48 S 1** ,047 0 ,953 4,508
59 S 1** ,092 0 ,908 3,144
63 S 1** ,092 0 ,908 3,144
72 S 1** ,092 0 ,908 3,144
109 S 1** ,092 0 ,908 3,144
126 S 1** ,047 0 ,953 4,508
a. S = Selected, U = Unselected cases, and ** = Misclassified cases.
b. Cases with studentized residuals greater than 2,000 are listed.

Pela leitura da tabela 38 conclumos que as observaes 48, 59, 63, 72, 109 e 126
apresentam valores elevados de resduos estandardizados (ZRESID), indicando que estes
casos foram mal classificados no modelo (ou seja encontram-se mal classificados pelo
modelo 3,8% seis casos em 158 das observaes).

De forma anloga vamos analisar o modelo gerado pelo mtodo ENTER, cujas tabelas do
SPSS se encontram no anexo III.

Mtodo Enter

Como 2LL um indicador da qualidade do ajustamento do modelo aos dados, e o seu valor
muito elevado (102,408), podemos afirmar que o ajustamento no bom.

Com o valor de ;e , nada podemos concluir sobre o valor preditivo da


nossa varivel dependente relativamente ao Nvel de Aderncia.

Qualidade do ajuste do modelo

O teste de ajustamento de Hosmer and Lemeshow permite concluir que os valores estimados
pelo modelo esto prximos dos valores esperados, ou seja, o modelo ajusta-se aos dados
uma vez que o p-value 0,826.

Este modelo, relativamente significncia, no significativo pois os IC dos odds ratio


contm sempre o valor 1.

Graficamente, atendendo aos valores que se encontram no anexo II, vem:

105
Modelos de Regresso: uma aplicao em Medicina Dentria

12
10
8
6
Limite inferior
4
Limite Superior
2
odds ratio
0

Figura 38: Odds ratio e respetivos Intervalos de Confiana

A equao do modelo de regresso logstica dado por:

Onde X3i a Idade, X2i o Sexo, X1i o valor do Status Diabtico, X4i o valor da
Escolaridade, X5i ser Fumador e X6i o ndice de Placa.

Para a estatstica de Wald mostra que nenhuma varivel significativa para o


modelo quando pretendemos prever o valor do Nvel de Aderncia.

Graficamente, como a distribuio em forma de sino (Figura no anexo II), o modelo


classifica mal as observaes cujas probabilidades se concentram em torno de 0,5.

Analisando os outliers, conclumos que para alm das observaes 48, 59, 63, 72, 109 e 126
que se encontravam referenciadas no modelo anterior, ainda surgem mais duas (45 e 149)
que apresentam valores elevados de resduos estandardizados (ZRESID), indicando que
estes casos foram mal classificados no modelo.

106
Modelos de Regresso: uma aplicao em Medicina Dentria

7. Concluso geral da anlise estatstica e recomendaes aos especialistas

Quando utilizamos a regresso logstica devemos primeiramente determinar o modelo que


melhor se ajuste aos dados em anlise, com o intuito de se obter um modelo moderado e
biologicamente razovel, que permita descrever a relao entre a varivel resultado e um
conjunto de variveis independentes.

Algumas avaliaes devem ser realizadas para se ter alguma ideia da eficcia e adequao
do modelo.

De entre as tcnicas utilizadas para avaliar a eficcia do modelo, o coeficiente de


correlao uma primeira possibilidade.
Outra medida de adequao o coeficiente de determinao do modelo.
A determinao do melhor modelo, ou do modelo que melhor se ajusta aos dados, est
relacionada com a estimativa dos parmetros que tornem os resduos to prximos de
zero quanto possvel.
Por fim deve-se testar a significncia estatstica dos parmetros do modelo.

No nosso estudo, comparando os diabticos com os no diabticos, verificou-se que s no


existem diferenas quanto ao ndice de Placa. Quanto s restantes variveis (Nvel de
Aderncia, Hemorragia Ps Sondagem e Recesso Gengival), os dois grupos apresentam
diferenas significativas, independentemente do mtodo utilizado na avaliao.

Da nossa anlise, podemos concluir que o teste de significncia da equao de Regresso


Linear Mltipla indicou que todos os modelos construdos podem ser considerados
significativos para um nvel de significncia de 5%, o que indica homocedasticidade, e
consequentemente os modelos de regresso so vlidos. Em suma, o modelo altamente
significativo. Como o p-value encontrado foi inferior a 0,05, podemos assegurar que o
modelo de regresso considerado melhor que a mdia para predizer os valores do NA.

A interpretao dos parmetros de um modelo de regresso logstica obtida comparando a


probabilidade de sucesso com a probabilidade de fracasso, usando a funo odds ratio or,
38,4% da percentagem de varincia explicada pelo modelo.

A Probabilidade de um individuo com NA >4 ser portador de doena periodontal 39 vezes


superior probabilidade de se obter um individuo com NA >4 que no tenha doena
periodontal. Ou seja quando o fator NA >4 est presente mais provvel o individuo j ter
doena do que o contrrio.

107
Modelos de Regresso: uma aplicao em Medicina Dentria

Quando se aplicou a regresso logstica, a Escolaridade e o Status Diabtico revelaram ser


as variveis explanatrias mais importantes. Quando foi utilizado para a seleo das variveis
o Mtodo Stepwise (Forward), de acordo com os resultados apresentados, podemos
concluir que o modelo no se apresentou satisfatrio, logo apresentou com um fraco poder
preditivo. Aps ajustamento, o modelo classifica corretamente 88,6% dos indivduos que
apresentam NA <4.

Quando recorremos seleo de variveis pelo mtodo Enter (sadas do SPSS no anexo II),
de acordo com os resultados apresentados, podemos concluir que o modelo ajustado no se
apresentou satisfatrio, logo com um fraco poder preditivo. Neste modelo foram includas
todas as variveis independentes, a estatstica de Wald mostra que nenhuma varivel
significativa para o modelo quando pretendemos prever o valor do NA. Um bom ajuste de
modelo indicado por um valor Qui-quadrado no-significante. Na tabela (Hosmer and
Lemeshow Test anexo II), o alto valor de significncia (p-value) de 0,826, considerada a
distribuio Qui-quadrado com 8 graus de liberdade, sugere que falha em se rejeitar a
hiptese nula de que no h diferena entre os valores reais e os previstos. Em resumo, o
modelo estima o ajuste dos dados num nvel aceitvel.

Em sntese:

Grau de relao Anlise Multivariada Com recurso correlao foi comparada a situao
entre as variveis periodontal entre os doentes diabticos e no diabticos,
emparelhados para o sexo e idade, os diabticos
evidenciam pior sade periodontal.
Anlise Multivariada O NA dos no diabticos e dos diabticos esto
diretamente correlacionados com Idade, HDL,
Triglicerdeos e ndice de Placa.
Com base na Anlise Multivariada podemos dizer que as
variveis que melhor permitem prever o valor do Nvel de
Aderncia so a Idade, o HDL, Triglicerdeos e ndice de
Placa.

Significncia das t-Teste A comparao dos grupos diabticos e no diabticos foi


diferenas entre feita pelo teste de M-W tendo as diferenas das suas
grupos medianas sido estatisticamente significativas para o NA.
O modelo de regresso mltipla altamente significativo
ANOVA e a significncia da equao de Regresso Linear
Mltipla indicou que todos os modelos construdos
podem ser considerados significativos para um nvel de
significncia de 5%. Neste modelo 61,9% da variabilidade
encontrada para o NA pode ser explicada pelas variveis
independentes.
Anlise Discriminante O nosso modelo permite-nos afirmar que a probabilidade
Predio da de um individuo apresentar doena periodontal maior
pertena a um grupo nos diabticos e em indivduos com menor grau de
Regresso Mltipla
escolaridade.

Regresso logstica

108
Modelos de Regresso: uma aplicao em Medicina Dentria

Neste trabalho propusemo-nos a avaliar a utilizao da anlise de regresso a um caso


concreto, aplicando-a aos dados de um estudo sobre doena periodontal.

Convm referir que, de uma maneira geral, a anlise de regresso pode ser utilizada com
vrios objetivos dentre os quais destacamos a Descrio, a Predio, o Controlo e a
Estimao. Na prtica, a anlise de Regresso utilizada para atingir simultaneamente mais
do que um dos objetivos citados.

A primeira parte deste trabalho permitiu adquirir e ampliar conhecimentos relativos


problemtica da regresso, clssica e logstica, com particular destaques para os aspetos
tericos e representaes grficas, assim como um aprofundar de alguns conceitos bsicos
de doena periodontal. Na segunda parte, foi efetuada a anlise estatstica dos dados e sua
discusso, de acordo com diferentes metodologias. Em funo dos resultados obtidos e
tendo em vista a sua aplicao na rea da medicina, deixam-se algumas consideraes e
sugestes:

crucial o ajuste da escolha de variveis e mtodos em funo do contexto biolgico,


ouvindo e estudando os fenmenos alvos do estudo estatstico de modo que todas as
opes a fazer sejam devidamente fundamentadas tanto na vertente estatstica como na
vertente biolgica.
importante sensibilizar os utilizadores da Estatstica na rea da Sade para a
importncia da correta utilizao dos mtodos, no s validando pressupostos mas
tambm na seleo dos modelos (PAPOILA, A. (2012)).
Em trabalhos futuros ambicionamos explorar as componentes estatsticas da Anlise
Fatorial e Anlise em Componentes Principais e proceder comparao de resultados.
A realizao deste trabalho tornou-se uma experincia gratificante, apesar de ter exigido
grande disponibilidade e esforo. Espera-se que este estudo possa, de alguma forma,
contribuir, ainda que de forma modesta, para o desenvolvimento de alteraes a nvel das
estratgias adotadas e da clareza da informao veiculada.

109
Modelos de Regresso: uma aplicao em Medicina Dentria

REFERNCIAS BIBLIOGRFICAS

ABREU M. N. S., SIQUEIRA A. L., CAIAFFAI W.T. (2009): Regresso logstica ordinal em estudos
epidemiolgicos, Rev Sade Pblica;43(1): 183-94.

ALLISON, PAUL D. (1999): Multiple Regression A primer, Pine Forge Press.

BERTIN, J. (1973): Smiologie graphique.(2. ed.) Gauthier-Villars. Paris.

BETZ, N.E. (1987): Use of Discriminant Analyses in Counseling Psychology Research. Journal of
Counseling Psychology, 34 (4),393-403.

BRAGA, A. (2000): Curva ROC: Aspectos fundamentais e Avaliao. Braga: Tese de Doutoramento,
Universidade do Minho.

CHALONER K., LARNTZ K. (1989): Optimal Bayesian Design Applied to Logistic Regression
Experiments, Journal of Statistical Planning and Inference 21 191-208

CLEVELAND, WILLIAM S.; MCGILL, ROBERT (1987): Graphical perception: The visual decoding of
quantitative information on graphical displays of data, Journal of the Royal Statistical Society, 150,192-
229.

COLIN R.B (2004): Bioestatstica usando R - apostila para bilogos. Bragana.

COELHO-BARROS, E. A., SIMES P. A., ACHCAR J. A., MARTINEZ E. Z., SHIMANO A. C., (2008):
Mtodos de estimao em regresso linear mltipla: aplicao a dados clnicos, Revista Colombiana
de Estadstica, volume 31, n 1: 111- 129

DAGNELIE, P. (1973): Estatstica. Teoria e mtodos (2 Volume). Publicaes Europa-Amrica.

DUARTE, R. (2002): Autovigilncia e Mtodos de Avaliao do controlo Metablico do diabtico.


Diabetologia Clnica In LIDEL Ed Tcnicas Lda,. Lisboa 57-77.

FARAWAY, J. (2002): Practical Regression and Anova using R - http://csyue.nccu.edu.tw

LAUREANO, M.; BOTELHO, M. (2010): SPSS o meu manual de consulta rpida. (1 Edio) Edies
Slabo, Lda. Lisboa.

LAMSTER I., LALLA E., BORGNAKKE V., TAYLOR W. (2008): The Relationship Between Oral
Health and Diabetes Mellitus, JADA October 2008 vol. 139 no. supl 519S-24S

HEDEKER, D. (2003): A mixed-efects multinomial logistic regression model, Statistics in Medicine,


Statist. Med.; 22:14331446.

HOFFMAN, H. (2006): Visualizing Simple Logistic Regression Models using Mosaic Plots.

HOSMER, D. J., & LEMESHOW, S. (1989): Applied Logistic Regression. Copyright by John Wiley &
Sons, Inc.
nd
HOSMER D W, LEMESHOW S. (2000): Applied Logistic Regression, 2 ed. New York; Wiley.

MADSEN L., FANG Y., Joint Regression Analysis for Discrete Longitudinal Data, Biometrics.

MARGOTTO, P. (s.d.): Curva ROC: Como fazer e Interpretar no SPSS. Curso de Medicina da Escola
Superior de Cincias da Sade (ESCS/CES/DF).

MARGOTTO, P: (2002): Entendendo Bioestatstica Bsica. Boletim Informativo Peditrico (BIP)-


Braslia, N0 65, p. 6.

MAROCO, J. (2007): Anlise Estatstica com utilizao do SPSS. 3 Ed., Edies Slabo.

MARTINS, P. S. (2008). Anlise estatstica de performance de um conjunto de testes auditivos. Tese


de Mestrado, Universidade de Aveiro.

110
Modelos de Regresso: uma aplicao em Medicina Dentria

MILTON J. S.; TSOKOS J.O. (1983): Statistical Methods in the Biological and Health Sciences.
McGraw-Hill Book Company.

MONTGOMERY. D. C.: (2001): Design and Analysis of Experiments, 5th Ed, John Wiley & Sons.

MORRISON (1984): Multivariate Statistical Methods.2nd Edition, International Student Edition.

OLIVEIRA,T. A. (2004): Estatstica Aplicada, Universidade Aberta.

PEREIRA, J. A. (2007). Doena Periodontal e diabetes mellitus. Tese de Doutoramento, Universidade


de Porto.

PESTANA H. P., GAGEIRO J. N. (2000). Anlise de dados para cincias sociais. A


complementaridade do SPSS. 2 ed. Edies Slabo, Lda.

PRESHAW P. M., ALBA A. L., HERRERA D., JEPSEN S., KONSTANTINIDIS A., MAKRILAKIS K.,
TAYLOR R. (2012). Periodontitis and diabetes: a two-way relationship. Diabetologia. 2012
January; 55(1): 2131.

RUSH SLOAN (2001): Logistic Regression: The Standard Method of Analysis, in Medical Research

SIEGEL, S. (1975) Estatstica No-paramtrica Para as Cincias do Comportamento, McGraw-Hill.

SCOT, M. (2002): Applied Logistic Regression Analysis, 2nd Edition, Sage Publications.

SGOLASTRA F, SEVERINO M., PIETROPAOLI D., GATTO R., MONACO A. (2012): Effectiveness of
Periodontal Treatment to Improve Metabolic Control in Patients With Chronic Periodontitis and Type 2
Diabetes: A Meta-Analysis of Randomized Clinical Trials. Journal of Periodontology, October 29

STEEL, R. TORRIE, J. (1986): Bioestatistica Principios y procedimientos, 2thEd. Mc Graw Hill.

STEVEN C. B., HALBERT W., BEATRICE A. GOLOMBC (2001) Logistic regression in the medical
literature: Standards for use and reporting, with particular attention to one medical domain, Journal of
Clinical Epidemiology 54 979985.

TABACHNICK B., FIDELL L. (2007), Using Multivariate Statistics (5 Edio).NY: Pearson Allyn &
Baccon.

TURKMAN M. A., SILVA G. L. (2000), Modelos Lineares Generalizados - da teoria prtica Lisboa.

111
Modelos de Regresso: uma aplicao em Medicina Dentria

ANEXOS

112
Modelos de Regresso: uma aplicao em Medicina Dentria

Anexo I

Tabela das correlaes

113
Modelos de Regresso: uma aplicao em Medicina Dentria

PS NA Rm HPSm
r 0,394 0,442 0,572 0,361
No Diabticos p <0,0001 <0,0001 <0,0001 0,001
cd 0,15 0,20 0,33 0,13
I r 0,278 0,514 0,607 0,087
Diabticos p 0,013 <0,0001 <0,0001 0,447
cd 0,08 0,26 0,37 0,01
z dif. de r 0,81 0,57 0,33 1,79
r 0,083 0,176 0,114 0,126
No Diabticos p 0,466 0,121 0,319 0,270
cd 0,01 0,03 0,01 0,02
GPJ r -0,057 -0,029 -0,029 0,049
Diabticos p 0,616 0,983 0,797 0,666
cd 0,00 0,00 0,00 0,00
z dif. de r 0,87 1,28 0,88 0,47
r 0,388 0,325 0,258 0,401
No Diabticos p 0,000 0,004 0,022 0,000
cd 0,15 0,11 0,07 0,16
CT r 0,033 0,187 0,121 0,142
Diabticos p 0,776 0,0992 0,290 0,212
cd 0,00 0,03 0,01 0,02
z dif. de r 2,32 0,91 0,88 1,74
r -0,394 -0,451 -0,341 -0,371
No Diabticos p 0,000 <0,0001 0,002 0,001
cd 0,16 0,20 0,12 0,14
HDL r -0,149 -0,282 -0,269 -0,034
Diabticos p 0,189 0,0119 0,017 0,767
cd 0,02 0,08 0,07 0,00
z dif. de r 1,638 1,212 0,490 2,195
r 0,453 0,408 0,265 0,490
No Diabticos p <0,0001 0,000 0,018 <0,0001
cd 0,20 0,17 0,07 0,24
LDL r 0,017 0,102 0,113 0,127
Diabticos p 0,882 0,3712 0,323 0,264
cd 0,00 0,01 0,01 0,02
z dif. de r 2,90 2,04 0,98 2,52
r 0,262 0,255 0,339 0,171
No Diabticos p 0,020 0,023 0,002 0,133
cd 0,07 0,07 0,11 0,03
T r 0,267 0,280 0,207 0,218
Diabticos p 0,0174 0,0124 0,0 74 0,0533
cd 0,07 0,08 0,04 0,05
z dif. de r 0,03 0,17 0,88 0,31
r 0,353 0,342 0,400 0,419
No Diabticos p 0,001 0,002 0,000 0,000
cd 0,12 0,12 0,16 0,18
IMC r 0,098 0,215 0,214 0,181
Diabticos p 0,391 0,0 0,059 0,110
cd 0,01 0,05 0,05 0,00
z dif. de r 1,67 0,84 1,28 1,62
r 0,566 0,512 0,335 0,601
No Diabticos p <0,0001 <0,0001 0,003 <0,0001
cd 0,32 0,26 0,11 0,36

IP r 0,447 0,298 0,131 0,546
Diabticos p <0,0001 0,010 0,248 <0,0001
cd 0,20 0,09 0,02 0,30
z dif. de r 0,99 1,59 1,33 0,50
Spearman -

114
Modelos de Regresso: uma aplicao em Medicina Dentria

Anexo II

Sadas do SPSS nos modelos de regresso


(Stepwise Forward,Enter)

115
Modelos de Regresso: uma aplicao em Medicina Dentria

LOGISTIC REGRESSION VARIABLES Na_mais_4

/METHOD=BSTEP(WALD) Idade_classe Sexo Diabetes Escol_classes Fumador IP_classe

/CONTRAST (Sexo)=Indicator

/CONTRAST (Fumador)=Indicator

/CONTRAST (Diabetes)=Indicator

/SAVE=COOK LEVER DFBETA

/CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5).

Block 1: Method = Backward Stepwise (Wald)

Omnibus Tests of Model Coefficients


Chi-square df Sig.
Step 1 Step 14,167 7 ,048
Block 14,167 7 ,048
Model 14,167 7 ,048
a
Step 2 Step -,022 1 ,881
Block 14,145 6 ,028
Model 14,145 6 ,028
a
Step 3 Step -,414 1 ,520
Block 13,731 5 ,017
Model 13,731 5 ,017
a
Step 4 Step -,522 1 ,470
Block 13,209 4 ,010
Model 13,209 4 ,010
a
Step 5 Step -5,950 2 ,051
Block 7,259 2 ,027
Model 7,259 2 ,027
a
Step 6 Step -2,109 1 ,146
Block 5,150 1 ,023
Model 5,150 1 ,023
a. A negative Chi-squares value indicates that the Chi-squares value
has decreased from the previous step.

116
Modelos de Regresso: uma aplicao em Medicina Dentria

Model Summary
Step Cox & Snell R Nagelkerke R
-2 Log likelihood Square Square
a
1 97,899 ,086 ,169
2 97,922a ,086 ,169
a
3 98,336 ,083 ,164
a
4 98,857 ,080 ,158
b
5 104,808 ,045 ,088
c
6 106,917 ,032 ,063
a. Estimation terminated at iteration number 20 because maximum
iterations has been reached. Final solution cannot be found.
b. Estimation terminated at iteration number 6 because parameter
estimates changed by less than ,001.
c. Estimation terminated at iteration number 5 because parameter
estimates changed by less than ,001.

Classification Tablea
Observed Predicted
Nvel de aderncia >4
Igual ou Percentage
Inferior a 50% Superior a 50% Correct
Step 1 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
Step 2 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
Step 3 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
Step 4 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
Step 5 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
Step 6 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
a. The cut value is ,500

117
Modelos de Regresso: uma aplicao em Medicina Dentria

Variables in the Equation


B S.E. Wald df Sig. Exp(B)
a
Step 1 Idade_classe ,092 ,614 ,023 1 ,881 1,096
Sexo(1) ,345 ,560 ,380 1 ,538 1,412
Diabetes 1,685 2 ,431
Diabetes(1) -,732 ,564 1,685 1 ,194 ,481
Diabetes(2) -19,565 8753,441 ,000 1 ,998 ,000
Escol_classes -,485 ,406 1,424 1 ,233 ,616
Fumador(1) -1,144 ,632 3,271 1 ,071 ,319
IP_classe ,434 ,552 ,619 1 ,431 1,544
Constant -,831 ,725 1,316 1 ,251 ,435
a
Step 2 Sexo(1) ,355 ,556 ,409 1 ,523 1,427
Diabetes 1,694 2 ,429
Diabetes(1) -,735 ,565 1,694 1 ,193 ,479
Diabetes(2) -19,533 8752,731 ,000 1 ,998 ,000
Escol_classes -,465 ,382 1,475 1 ,224 ,628
Fumador(1) -1,166 ,616 3,586 1 ,058 ,312
IP_classe ,435 ,552 ,620 1 ,431 1,545
Constant -,801 ,695 1,329 1 ,249 ,449
a
Step 3 Diabetes 1,608 2 ,448
Diabetes(1) -,709 ,559 1,608 1 ,205 ,492
Diabetes(2) -19,520 8756,092 ,000 1 ,998 ,000
Escol_classes -,488 ,385 1,603 1 ,205 ,614
Fumador(1) -1,053 ,584 3,248 1 ,072 ,349
IP_classe ,393 ,548 ,514 1 ,473 1,481
Constant -,665 ,659 1,019 1 ,313 ,514
a
Step 4 Diabetes 1,495 2 ,474
Diabetes(1) -,687 ,562 1,495 1 ,221 ,503
Diabetes(2) -19,511 8753,746 ,000 1 ,998 ,000
Escol_classes -,547 ,377 2,103 1 ,147 ,578
Fumador(1) -1,013 ,580 3,055 1 ,080 ,363
Constant -,451 ,578 ,609 1 ,435 ,637
a
Step 5 Escol_classes -,767 ,356 4,634 1 ,031 ,465
Fumador(1) -,840 ,560 2,250 1 ,134 ,432
Constant -,921 ,512 3,239 1 ,072 ,398
Step 6a Escol_classes -,720 ,345 4,370 1 ,037 ,487
Constant -1,571 ,304 26,675 1 ,000 ,208
a. Variable(s) entered on step 1: Idade_classe, Sexo, Diabetes, Escol_classes, Fumador, IP_classe.

118
Modelos de Regresso: uma aplicao em Medicina Dentria

Variables not in the Equation


Score df Sig.
a
Step 2 Variables Idade_classe ,023 1 ,881
Overall Statistics ,023 1 ,881
b
Step 3 Variables Idade_classe ,052 1 ,820
Sexo(1) ,411 1 ,521
Overall Statistics ,434 2 ,805
c
Step 4 Variables Idade_classe ,045 1 ,831
Sexo(1) ,303 1 ,582
IP_classe ,517 1 ,472
Overall Statistics ,955 3 ,812
d
Step 5 Variables Idade_classe ,039 1 ,843
Sexo(1) ,255 1 ,613
Diabetes 4,160 2 ,125
Diabetes(1) ,351 1 ,554
Diabetes(2) 2,546 1 ,111
IP_classe ,363 1 ,547
Overall Statistics 5,217 5 ,390
e
Step 6 Variables Idade_classe ,006 1 ,938
Sexo(1) ,042 1 ,838
Diabetes 3,510 2 ,173
Diabetes(1) ,242 1 ,623
Diabetes(2) 2,319 1 ,128
Fumador(1) 2,346 1 ,126
IP_classe ,178 1 ,673
Overall Statistics 7,577 6 ,271
a. Variable(s) removed on step 2: Idade_classe.
b. Variable(s) removed on step 3: Sexo.
c. Variable(s) removed on step 4: IP_classe.
d. Variable(s) removed on step 5: Diabetes.
e. Variable(s) removed on step 6: Fumador.

119
Modelos de Regresso: uma aplicao em Medicina Dentria

LOGISTIC REGRESSION VARIABLES Na_mais_4

/METHOD=ENTER Idade_classe Sexo Diabetes Escol_classes Fumador IP_classe

/SAVE=PRED LRESID ZRESID DEV

/CLASSPLOT

/CASEWISE OUTLIER(2)

/PRINT=GOODFIT CORR CI(95)

/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).

Block 1: Method = Enter

Omnibus Tests of Model Coefficients


Chi-square df Sig.
Step 1 Step 9,659 6 ,140
Block 9,659 6 ,140
Model 9,659 6 ,140

Model Summary

Step -2 Log likelihood Cox & Snell R Nagelkerke R


Square Square
a
1 102,408 ,059 ,117
a. Estimation terminated at iteration number 6 because parameter
estimates changed by less than ,001.

Hosmer and Lemeshow Test

Step Chi-square df Sig.

1 4,331 8 ,826

120
Modelos de Regresso: uma aplicao em Medicina Dentria

Contingency Table for Hosmer and Lemeshow Test


Nvel de aderncia >4 = Inferior a Nvel de aderncia >4 = Igual ou
Total
50% Superior a 50%
Observed Expected Observed Expected
Step 1 1 18 17,601 0 ,399 18
2 16 16,415 1 ,585 17
3 16 16,123 1 ,877 17
4 15 13,888 0 1,112 15
5 14 14,588 2 1,412 16
6 12 13,312 3 1,688 15
7 12 12,122 2 1,878 14
8 14 13,330 2 2,670 16
9 16 14,779 3 4,221 19
10 7 7,843 4 3,157 11

Classification Tablea
Observed Predicted
Nvel de aderncia >4
Igual ou Superior Percentage
Inferior a 50% a 50% Correct
Step 1 Nvel de aderncia >4 Inferior a 50% 140 0 100,0
Igual ou Superior a 50% 18 0 ,0
Overall Percentage 88,6
a. The cut value is ,500

121
Modelos de Regresso: uma aplicao em Medicina Dentria
Correlation Matrix
Fumado
Constant Idade_classe Sexo Diabetes Escol_classes r IP_classe
Step 1 Constant 1,000 -,139 -,173 -,611 -,369 -,288 -,574
Idade_classe -,139 1,000 ,119 -,046 -,380 -,265 ,000
Sexo -,173 ,119 1,00 -,074 -,111 -,314 -,122
0
Diabetes -,611 -,046 -,074 1,000 ,248 ,189 ,068
Escol_classes -,369 -,380 -,111 ,248 1,000 ,066 ,205
Fumador -,288 -,265 -,314 ,189 ,066 1,000 ,181
IP_classe -,574 ,000 -,122 ,068 ,205 ,181 1,000

Variables in the Equation


95% C.I.for EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
a
Step 1 Idade_classe -,170 ,620 ,075 1 ,785 ,844 ,250 2,847
Sexo -,376 ,551 ,465 1 ,496 ,687 ,233 2,023
Diabetes ,368 ,294 1,566 1 ,211 1,445 ,812 2,573
Escol_classe -,531 ,409 1,686 1 ,194 ,588 ,264 1,311
s
Fumador 1,134 ,630 3,238 1 ,072 3,107 ,904 10,677
IP_classe ,428 ,554 ,596 1 ,440 1,533 ,518 4,538
Constant -2,375 ,700 11,516 1 ,001 ,093
a. Variable(s) entered on step 1: Idade_classe, Sexo, Diabetes, Escol_classes, Fumador, IP_classe.

122
Modelos de Regresso: uma aplicao em Medicina Dentria

Casewise Listb
Case Observed Temporary Variable
Selected Predicted
Statusa Nvel de aderncia >4 Predicted Group Resid ZResid
45 S 1** ,107 0 ,893 2,882
48 S 1** ,080 0 ,920 3,392
59 S 1** ,031 0 ,969 5,616
63 S 1** ,131 0 ,869 2,573
dimension0 72 S 1** ,103 0 ,897 2,959
93 S 1** ,125 0 ,875 2,647
109 S 1** ,104 0 ,896 2,928
126 S 1** ,044 0 ,956 4,657
149 S 1** ,089 0 ,911 3,195
a. S = Selected, U = Unselected cases, and ** = Misclassified cases.
b. Cases with studentized residuals greater than 2,000 are listed.

123
Modelos de Regresso: uma aplicao em Medicina Dentria

Anexo III

Estatstica descritiva com recurso ao R

124
Modelos de Regresso: uma aplicao em Medicina Dentria

Anlise Descritiva

Objetivos:

1. Construir grficos.

A. Construir caixa de bigodes

B. Construir um diagrama de caule e folhas

C. Construir um histograma

2. Determinar a mdia, varincia, moda e desvio padro da varivel.

1. Construir grficos

Rotinas:

125
Modelos de Regresso: uma aplicao em Medicina Dentria

Resultados:

126
Modelos de Regresso: uma aplicao em Medicina Dentria

127