Escolar Documentos
Profissional Documentos
Cultura Documentos
Nominal (não têm ordem, como as cores, sexo, categorias de Discretas (também pode ter casas decimais, nº do calçado –
profissão, classificação da instituição) 37,5, número de crianças nas consultas de pediatria, número
de elementos do agregado familiar, número de carros)
Ordinal (têm uma ordem específica (ascendente ou Contínuas (por exemplo, a temperatura)
descendente). Por exemplo, o grau de escolaridade, escalão
etário, escalão de rendimento, habilitações, categorias de
profissão)
O ajustamento
não é perfeito,
existe sempre
uma margem de
erro (há um certo
desvio entre o
valor observado e
o valor estimado
pela recta).
Será que o nível de autonomia na realização das tarefas (X) influencia positivamente o nível de satisfação com o
trabalho (Y)?
- Mais do que simplesmente medir a correlação entre duas variáveis (Rx1, X2 = RX2, X1), pretende-se explicar Y (variável
dependente, VD) ou a variável a explicar, em função de X (variável independente, VI) ou variável explicativa Assim, é
possível inferir-se se existe uma relação de dependência funcional entre X e Y e, ainda, estimar um modelo que explique a
relação entre as duas variáveis.
- MODELO: é a relação entre duas variáveis preditoras e a VD, isto é, o model summary é o sumário do
modelo (articulação/conjugação entre as várias variáveis).
1
- Se existir uma relação do tipo linear entre as duas variáveis, pode admitir-se explicar a relação entre as duas variáveis através
de um método linear, neste caso, o MRLS, o que equivale a modelizar a relação entre as duas variáveis através de uma recta,
como está acima demonstrado
no gráfico.
o Objectivos do MRLS:
- Medir em quanto uma variável (Y – VD) é explicada por outra (X – VI), bem como quantificar a qualidade do modelo para
explicar a relação linear entre as duas variáveis. Prevê Y a partir de X usando a equação da recta (função da regressão):
Modelo a estimar, e que representa a relação linear entre X e Y.
- Ademais, o MRLS infere, ainda, sobre a adequabilidade do modelo para explicar a relação linear entre as duas variáveis no
universo.
o Estimativa estandardizada para o coeficiente de regressão: A vantagem dos coeficientes beta é que permite eliminar o
problema decorrente de eventualmente se ter diferentes unidades de medida nas variáveis independentes (aspecto importante
na regressão linear múltipla).
Na regressão linear simples, o coeficiente Beta = R e nas estimativas estandardizadas a ordenada na origem é zero,
simplificando-se a equação da recta estimada:
2
o Cálculo do Beta:
3
o Como medir a qualidade do modelo?
O R2 (coeficiente de determinação) é influenciado pelo nº de variáveis independentes no modelo, pelo que deverá privilegiar-
se o coeficiente de determinação ajustado (R2ajustado) quando se está perante um MRLM. Ainda que não seja o caso, vai
exemplificar-se o cálculo do mesmo.
OU
O R (coeficiente de correlação) mede a correlação entre os valores observados e os valores estimados. Quanto mais perto de 1,
mais a qualidade do modelo estimado.
OU
- O objectivo é verificar se a VI influencia a VD no universo, o que equivale a detectar se o modelo ajustado é ou não
significativo, assim, permite inferir sobre a adequabilidade do modelo linear para explicar a relação entre as 2 variáveis;
4
- O teste F tem as seguintes hipóteses:
5
Exemplo:
Responda, por favor, utilizando esta escala em que 0 significa extremamente insatisfeito e 10 extremamente satisfeito.
B24: Tudo somado, qual é o seu grau de satisfação com a vida em geral?
B25: De um modo geral, qual o seu grau de satisfação com o estado actual da economia portuguesa?
B26: Pense agora no Governo português. Qual é o seu grau de satisfação com a forma como o Governo está a actuar?
B27: E, no geral, qual o seu grau de satisfação com o funcionamento da democracia em Portugal?
Será que o grau de satisfação com a forma como o governo está a actuar (X) tem efeito no grau de satisfação com o
funcionamento da democracia em Portugal (Y)?
Que tipo de modelo usar?
Comece por se observar a relação entre as duas variáveis através de um diagrama de dispersão.
6
Interpretação dos resultados:
- Deverá admitir-se que está a reportar-se os resultados num relatório ou num artigo.
o Pressupostos do MRLS:
(Análise gráfica da normalidade dos resíduos) Rejeita-se a hipótese da normalidade (p<0,001) mas, não obstante,
pode observar-se que existe uma acentuada sobreposição entre a
H0: Os erros têm distribuição normal; distribuição dos resíduos (representados pelos círculos) e a
Ha: Os erros não têm distribuição normal; distribuição normal (representada pelo segmento de recta)
7
Variância constante das variáveis aleatórias residuais:
- Apesar de se apresentar aqui este pressuposto, importa referir que a sua análise só faz sentido quando está em casa séries
temporais, ou seja, no caso de os dados terem inerente uma ordenação. Para o efeito, deve realizar-se o Teste Durbin-Watson
(terá de ser solicitado e aparece integrado no Quadro Model Summary)
- Identificar os determinantes do nível de satisfação com o desempenho das instituições em Portugal (VD).
Estes indicadores de satisfação compõem a VD (é uma variável compósita): Aferem o mesmo constructo. O
Satisfação com a economia portuguesa (B25) investigador saber que as
Satisfação com o governo (B26) variáveis têm a mesma
consistência (alfa cronbach) e são
Satisfação com a democracia portuguesa (B27)
agregadas para avaliar o
Satisfação com o sistema de educação em Portugal (B28)
Satisfação com os serviços de saúde em Portugal (B29)
8
Variáveis independentes:
Há 6 variáveis, e a relação entre elas é positiva, com intensidade
Interesse pela política (B1, B2, B3) moderada e aqui está sempre em módulo (positivo), mesmo que as
preditoras sejam negativas.
Confiança nas instituições democráticas (B4-B10) Na ANOVA, o modelo linear assume, neste caso, 6 rectas (hiperplano),
Ideologia (B23) cuja relação entre as variáveis é linear (entre as preditoras e a VD).
Para um teste é necessário:
Satisfação com a vida em geral (B24) - Hipóteses estatísticas (nula e alternativa): H0: O modelo linear não é
adequado; Há: O modelo linear é adequado.
Idade
- Hipóteses de trabalho (com as duas hipóteses estatísticas)
Escolaridade
- Numa regressão linear a VD é sempre uma variável quantitativa, já as VI podem ser variáveis quantitativas, mas o modelo
pode incluir também algumas qualitativas. No caso de existirem VI qualitativas terão de ser transformadas em variáveis
dummy (define-se K – 1 variáveis dummy (sendo K o nº de categorias da variável qualitativa)
Admita-se a variável sexo: como existem 2 categorias (K=2), então tem que se definir uma variável dummy (0 –
masculino, 1 – feminino).
Neste caso, a categoria masculino seria a categoria de referência, sendo estimado um coeficiente de regressão
para o sexo feminino.
- A VD e/ou VI poderão ser variáveis construídas a partir das variáveis originais obtendo-se assim variáveis quantitativas.
9
- A partir dos dados disponíveis na amostra, pretende-se estimar os parâmetros do modelo e é o modelo a estimar para o
exemplo em análise:
- Esta equação representa a associação linear entre X1, X2, X3, X4, X5, X6 e Y. É então necessário estimar os coeficientes de
regressão parciais e a constante (intercept).
o Dimensão mínima de amostra (n) ou de universo (N) para realizar uma Regressão Linear Múltipla (rácio casos/VI):
o Pressupostos do MRLM:
- A Tolerância é uma medida de multicolinearidade entre as variáveis independentes permitindo saber em que medida cada
variável Xi é explicada pelas outras VI: TOLi = 1 – R21 (coeficiente de determinação múltiplo, mas neste caso está a tornar-se a
variável Xi como dependente e as restantes Xi mantêm-se como independentes). Como pode constatar-se na expressão, a
tolerância corresponde à proporção da variação de cada VI que não é explicada pelas outras VI. A TOL varia entre [0, 1] e
quanto mais perto de 0 maior será a multicolinearidade entre certa variável independente e as outras variáveis independentes.
- Quanto à outra medida de multicolinearidade, o VIF (Variance Inflaction factor), tem-se que
deste modo, quando as VI apresentarem uma tolerância elevada – indicando a inexistência de multicolinearidade –
apresentarão valores de VIF baixos e vice-versa.
10
- Tomada de decisão relativamente à TOL vs VIF, para valores de VIF superiores a 5 já existem problemas de
multicolinearidade, outros autores sugerem valores de VIF superiores a 10. Fazendo a conversão para a leitura da TOL, sendo
:
Admitindo VIF > 5, existem problemas de multicolinearidade quando a TOL registar valores inferiores a 0,2;
Outro critério, admitindo que VIF > 10 existem problemas de multicolinearidade quando a TOL registar valores
inferiores a 0,1
Interpretação:
Como pode verificar-se
a Tolerância tem como
valor mínimo 0,643
(muito acima de 0,2) e,
consequentemente,
valores de VIF baixos
(bastante inferiores a 5)
11
Análise gráfica da normalidade via P-P Plot:
Análise (simultânea) dos pressupostos da Linearidade, da Normalidade e da homogeneidade de variância dos erros:
- A análise do diagrama que relaciona os valores previstos para Y com os resíduos permite analisar de uma só vez os
pressupostos da normalidade, da linearidade e da homogeneidade de variâncias (homocedasticidade);
- Distribuição normal dos resíduos: É necessário que os resíduos se distribuam de forma simétrica relativamente ao centro,
apresentando ainda maior concentração no centro;
- Distribuição linear dos resíduos: É necessário que a distribuição dos resíduos apresente uma forma rectangular e não curva.
Quando não há linearidade poder-se-á transformar-se as variáveis no sentido de as linearizar.
12
o Condições necessárias para o MRLM:
13
Modelação com moderadora categorizada: A VD é a
mesma, isto é, pretende-se perceber como é que a pessoa
com maior ou menos percepção de sentido de vida tem
implicação nas tarefas (D33) para explicar o futuro e as suas
perspectivas (variável moderadora qualitativa – percepção
dos recursos familiares, F42).
VI
VD (variável critério)
Variável Moderadora
Modelo de Moderação:
- Para testar uma moderação é necessário que o modelo inclua a interacção (XZ), neste exemplo, é a combinação entre
resiliência (X) e auto posicionamento social (Z);
- O valor do coeficiente de regressão β3 do termo do produto indica o impacto no declive da regressão de Y em X, aquando de
um acréscimo unitário em Z;
- No contexto da regressão, se uma certa variável for moderadora, espera-se que o declive – coeficiente de regressão B – da
relação entre o efeito principal (X) e a variável dependente (Y) se altere em função dos valores da variável moderadora (Z).
14
Temos um modelo com 3 sub-modelos. A moderadora é
uma variável quantitativa (reconhecimento social).
D30 (resiliência) é a variável preditora (X);
D35 (sentido de vida) é a variável critério (Y);
D38 (auto posicionamento social) é a variável
moderadora (Z)
O objectivo principal é explicar Y em função de X,
mas há um condicionamento da variável moderadora da
relação (Z).
X Y (main effect), com a Z é o efeito de moderação.
Outro exemplo:
o Valores a interpretar:
Adequabilidade do Modelo:
15
Efeito da Moderação (valores a interpretar):
- Coeficiente B de regressão parcial (coeficiente não estandardizado) associado ao efeito de interacção;
- Quanto à significância do efeito de interacção, a análise é feita via teste t e p-value e/ou via intervalo de confiança. Assim:
Para que exista efeito de interacção significativo dever-se-á rejeitar a hipótese nula H0 : β3 (XZ) = 0
Ou para que exista efeito de interacção significativo o intervalo de confiança não poderá incluir o 0
- A dimensão do efeito (effect size) corresponde ao R2 semiparcial (R2 part = R part * R part, disponibilizado pelo software) e
quantifica a proporção da variação total que é exclusivamente explicada pela interacção.
Efeito da Interacção:
EFEITO PRINCIPAL: O efeito de X (resiliência) em Y (sentido de vida) é positivo, através de B (não estandardizado: 0,259),
isto é, quanto maior a resiliência, maior o sentido de vida, e esse efeito é significativo (p<0,001).
Intervalo de confiança: 0,176 ; 0,342, com um intervalo de confiança de 95% (5% de erro de significância).
Teste t (hipóteses estatísticas), o efeito é significativo e rejeita-se a H0, logo o efeito XY é igual a zero (H0: O efeito linear
de X em Y é igual a zero; Ha: O efeito linear de X em Y é diferente de zero). O zero não está no intervalo de confiança (0,176
; 0,342). Assim, o efeito da resiliência no sentido de vida é positivo e significativo (B=0,259, t=6,145, p<0,001, 95% IC 0,176;
0,342)
EFEITO DE INTERACÇÃO: Quanto maior o posicionamento social, menor o efeito da resiliência no sentido de vida e esse
efeito é de interacção é negativo (B=-0,109) e é significativo (B=-0,109, t=-4,867, p<0,001, com confiança de 95%, com os
seguintes limites -0,152; -0,065). Assim, o efeito da resiliência no sentido de vida depende do autoposicionamento das pessoas.
16
o Exemplo MODGRAPH
- Correspondem (respectivamente): a um nível baixo (L: low - corresponde a -1 desvio-padrão); nível médio (M: médium,
corresponde à própria média de Z, considerando a variável Z centrada); nível elevado (H: high - corresponde a +1 desvio-
padrão).
o Pressupostos:
1) Independência das variáveis explicativas (inexistência de multicolinearidade)
- A TOL varia entre [0, 1] e quanto mais perto de 0 maior será a multicolinearidade entre certa variável independente e as
outras variáveis independentes.
- Admitindo VIF (inverso de TOL) > 5 existem problemas de multicolinearidade quando a tolerância registar valores inferiores
a 0,2 (Tol < 0,2); - Outro critério: Admitindo VIF > 10 existem problemas de multicolinearidade quando a tolerância registar
valores inferiores a 0,1 (Tol < 0,1).
Moderadora categorizada
(percepção quanto aos recursos familiares)
VD (sentido de vida)
18
Transformação da variável categorizada a fim de ser VI na regressão linear:
o Valores a interpretar:
19
Nota explicativa para a interpretação: Quando se testa um modelo com uma moderadora dummy as estimativas da constante
(intercept) e do efeito principal são interpretadas tomando por referência a categoria baseline (codificada com 0).
- Nas habilitações, onde não quero deixar nada de fora nem recodificar, quantas dummy temos que criar?
K = nº categorias da variável original qualitativa categorizada (+2 categorias) (K-1Dummy) – ficamos com 2 dummy e uma
baseline.
- Quando não há o critério substantivo, escolhemos como baseline aquela que tem mais peso (fazer descritivas).
- Quando assumimos como referência (baseline) as habilitações primárias, e fazemos 1º a dummy para secundário (de código 2
para código 1); superior (de código 3 para código 1) Fazer duas dummy (no secundário com código 1, o superior fica com
código zero, tal como a baseline).
20
- Gráfico já com a interacção. A recta de cima é mais acentuada
(efeito de X em Y) e há dois declives. Mas no quadro, a implicação
só aparece uma vez, logo só há um valor (0,527), portanto, no
gráfico é só para um dos grupos.
Procedimentos:
1. Testar o declive do efeito XY em cada uma das categorias da variável moderadora. Como já existem os resultados do
efeito XY em uma das categorias da moderadora será então necessário testar na outra.
2. Fazer reverse scoring e a categoria de referência passará (neste exemplo) a ser «o rendimento actual dá para viver» .Testar o
declive do efeito XY nessa categoria;
3. As componentes do modelo a incluir são: a variável preditora, a (nova) variável dummy e a interação com a nova variável
dummy.
- B2 = 1,902 representa a distância entre as médias da VD para as duas categorias da variável moderadora (5,043 + 1,902 =
6,945).
- Se se efectuar a diferença entre os dois declives estimados para o efeito XY (0,527 0,203 0,324) OU simetricamente
(resultados do reverse scoring 0,203 0,527 0,324):
Obter-se-á o valor que corresponde à estimativa do declive do efeito de interacção;
Então, estar-se-á também a testar a diferença entre os dois declives, a partir do coeficiente de regressão associado ao
termo do produto (interacção)
21
o Pressupostos:
1) Independência das variáveis explicativas (inexistência de multicolinearidade)
Mediação:
- Modelo
- Z (mediadora) é a resiliência; VD o sentido de vida; VI o
reconhecimento social (tem efeito no sentido de vida, mas a
maior ou menor capacidade em resolver problemas que
surjam, sendo a resiliência a mediadora).
- Quando sente que a pessoa é valorizada por outros, acaba
por ser mais optimista e sente-se bem no meio dos pares.
- Será que nesta relação x y a resiliência é um reforço? A
Z tem existência individual e é explicada pela VI mas
também tem efeito jusante na VD.
22
- Ao contrário do que acontece com a mediação, as moderadoras e preditoras estão no mesmo nível na análise. As variáveis
moderadoras são sempre variáveis independentes;
- Num modelo de mediação – o qual pressupõe uma cadeia de efeitos – a situação é diferente. Neste caso, a variável mediadora
pode ter o estatuto de dependente (a) ou de independente (b); No modelo de mediação podem medir-se dois efeitos sobre a
variável critério (variável dependente):
1. Efeito directo (c’) de X em Y. Nota: Referir o efeito directo pressupõe que a mediadora já integrou o modelo
2. Efeito indirecto (ab), através do qual X afecta indirectamente Y por via de M.
23
- Realizam-se as regressões necessárias e pode implementar-se o método proposto por Baron & Kenny e testar c e c’
Decisão sobre mediação parcial VS mediação completa.
o Estimar (e testar) os coeficientes c; a; b; c’ segundo Baron & Kenny (1986), os seus steps («causal chain») são:
- Na sua proposta (um método clássico e paramétrico) existem 4 passos e que implicam estimar três modelos de regressão
Nota: O método de Baron & Kenny não permite testar directamente o efeito indirecto Trata-se de uma fragilidade da
proposta de Baron & Kenny.
o Teste ao efeito indirecto (intervalo de confiança para o efeito indirecto e dimensão do efeito indirecto): Cálculos via
software medgraph:
Vantagens do medgraph: Existem outros sites que podem calcular o z de Sobel para a mediação (o applet on-line de Preacher e
Leonardelli é um excelente exemplo: http://quantpsy.org/sobel/sobel.htm). Estes sites oferecem capacidades que são úteis, no
entanto, não podem dar ao usuário todas as informações necessárias. Por exemplo, os pesquisadores confiam inteiramente num
valor Z significativo de Sobel, em vez de usar intervalos de confiança para determinar o significado dos efeitos mediados.
Além disso, muitas vezes desejamos saber o tamanho do efeito mediado e alguns sites não fornecem essas informações.
24
25
o Diagrama (output do medgraph):
- A Normalidade dos erros e a Homocedasticidade (homogeneidade de variâncias) dos erros A análise é feita via resíduos;
- Independência das variáveis explicativas (inexistência de multicolinearidade);
- Critério de leitura do VIF ou da Tolerância (objectivo: análise da Multicolinearidade):
Admitindo VIF > 5 ou tolerância inferior a 0,2 (Tol < 0,2) existem problemas de multicolinearidade;
Ou ainda, Admitindo VIF > 10 ou tolerância inferior a 0,1 (Tol < 0,1) existem problemas de multicolinearidade.
26
o Resultados das 3 regressões relativas à estimação dos coeficientes a, b, c e c’:
27
Modelação com regressão Logística Binária:
VD: Dummy (1 e 0)
- A regressão logística é usada com o objectivo de analisar uma VD categorizada em função de uma ou de diversas VI’S, isto
é, pretende estimar a probabilidade do sucesso, tendo em conta as variáveis de abaixo transcritas (sexo etc)..
- Pretende-se estimar a probabilidade: de ter uma característica de ocorrência de um acontecimento, pelo que as estimativas
variam entre 0 e 1.
- VD: Por relação aos cenários de investigação nos quais é adequada a regressão linear (VD quantitativas), neste caso admite-
se uma VD categorizada: ou dicotómica (Binary Logistic), ou com três ou mais categorias (Multinomial Logistic). Ou seja, a
VD (dummy) já não é quantitativa, está dicotomizada (K: nº de categorias = 3, K-1= 2)
- VI: As variáveis independentes podem ser variáveis quantitativas e/ou variáveis categorizadas (sendo estas transformadas em
variáveis dummy).
- Admita-se que se pretende implementar medidas educativas tendo em vista o sucesso a matemática (PISA 2003. Portugal)
A VD é binária: sucesso VS insucesso na disciplina.
- Tomando por referência a categoria ter sucesso a matemática é possível calcular a probabilidade de um aluno vir a ter sucesso
a matemática, a partir da combinação dos valores observados num conjunto de variáveis preditoras (VI’S) do sucesso a
matemática, designadamente:
Sexo (dummy)
ISEI (Estatuto socioeconómico dos alunos)
Dificuldade na aprendizagem da Matemática (*)
Empenho na aprendizagem da Matemática (*)
(*) Índices (variáveis compósitas). São variáveis quantitativas discretas com mínimo em 1: discordo completamente e máximo em 4:
concordo completamente.
- Quais os factores responsáveis pelos alunos terem ou não sucesso a matemática? A nota de matemática vai de 0 a 20: até 10 é
insucesso, que é a nossa baseline; igual ou superior a 10 é sucesso e significa que tem positiva a matemática (dummy).
- Uma das razões invocadas para a
inadequabilidade do modelo de regressão linear,
prende-se com a não verificação dos pressupostos
de linearidade: Veja-se o diagrama da relação entre
duas variáveis (VI e VD) quantitativas e o
diagrama da relação entre uma VI quantitativa e a
actual VD (dummy). No primeiro caso, faz sentido
ajustar uma recta, mas não no segundo. Aqui
ajusta-se uma função não linear com forma S. Está
então em causa uma transformação logit.
28
o Logged Odds:
- No caso da Regressão Linear, a modelização é feita através de uma função linear, estimando Y através da seguinte equação:
- A Regressão Logística assume uma relação linear entre as preditoras contínuas e a transformação logit da VD.
Exemplificando para uma VI
- A transformação logit pode assim ser vista como a linearização de relação entre X e a probabilidade de Y. O logit transforma
uma VD que tenha relação não-linear com um conjunto de VIs, numa VD com relação linear com as Vis
Neste caso a equação da regressão linear é o logaritmo (log) natural (ln) da probabilidade de pertencer a um grupo a
dividir pela probabilidade de pertencer a outro grupo (odds – probabilidade do sucesso e do insucesso, ou índice de
probabilidade).
- O odds de um acontecimento ocorrer é igual à probabilidade do acontecimento ocorrer a dividir pela probabilidade do mesmo
não ocorrer. Os odds indicam quanto mais possível é uma observação pertencer a um grupo alvo do que pertencer a outro
grupo;
A interpretação dos coeficientes é análoga à que é
feita na Regressão Linear, excepto no que se refere
ao facto das unidades da VD virem expressas em
logged odds. NOTA: A probabilidade varia entre 0 e
1 e os valores de odds podem variar de 0 a infinito
Exemplificando:
- Coeficiente -1,776 para a VI dificuldade (VI quantitativa): o acréscimo de uma unidade no score do nível de concordância
com a dificuldade na aprendizagem da matemática implica que o logged odds do sucesso a matemática diminua em -1,776;
- Coeficiente 0,614 para as raparigas (VI dummy). O logged odds do sucesso a matemática aumenta em 0,614 nos alunos do
sexo feminino.
- No caso das variáveis dummy a mudança de uma unidade implica comparar a categoria codificada com 1 com a categoria de
referência.
29
o Função logarítmica e função exponencial:
30
o Qualidade e inferência sobre o modelo
- Avaliação da qualidade do modelo (effect size of the model): Na regressão linear interpreta-se o R2. Já na regressão
logística existem várias medidas análogas, mas com uma interpretação diferente. Os Pseudo R2 baseiam-se na comparação do
modelo ajustado com o modelo nulo, não sendo propriamente uma medida da variabilidade explicada pelo modelo.
- No quadro Model Summary pode privilegiar-se o Nagelkerke R Square, varia entre 0 e 1
31
o Inferência a partir dos preditores:
- À semelhança do que acontece com o teste t na regressão linear, o teste Wald permite concluir se o coeficiente B para cada
preditor é estatisticamente diferente de zero. Se se rejeitar essa hipótese, então pode concluir-se que a VI tem efeito
significativo sobre Y.
- Exemplificando para a variável grau de dificuldade:
- Ausência de multicolinearidade: Na existência de várias VIs poderá existir multicolinearidade. A Regressão Logística
também é sensível à existência de correlações muito elevadas entre as VIs, mas o SPSS não integra nenhuma opção na
Regressão Logística para proceder a essa análise; Em alternativa, sugere-se o uso prévio da opção Collinearity diagnostics no
32
menu da Regressão Linear (como é indicado no slide seguinte). Pelo quadro seguinte pode concluir-se que não existem
problemas de multicolinearidade:
- Independência dos erros: A Regressão Logística assume que as respostas dos diferentes casos são independentes. Num
cenário de medidas repetidas a regressão logística não será a melhor opção.
- Ausência de outliers na solução: Pode detectar-se a existência de casos mal estimados pela solução: um caso que está numa
categoria mas que evidencia uma elevada probabilidade de estar na outra categoria. Serão os casos outliers e podem ser
detectados através da examinação dos resíduos.
Numa regressão logística o resíduo é a diferença (corresponde ao insucesso: ) Importa analisar os resíduos
estandardizados e avaliar se não existem mais de 5% dos casos com resíduos (em valor absoluto) acima de 2 e que não existe
mais de 1% com resíduos (em valor absoluto) acima de 2,5.
o Identificação de potenciais outliers (representação das probabilidades previstas (x) e dos resíduos studentizados (y):
33