Você está na página 1de 33

Resumos MAAD

 Revisão da Classificação das Variáveis:

Variáveis Qualitativas Variáveis Quantitativas


(nº ideal de filhos, rendimento, peso, idade, tempo, distância)

Nominal (não têm ordem, como as cores, sexo, categorias de Discretas (também pode ter casas decimais, nº do calçado –
profissão, classificação da instituição) 37,5, número de crianças nas consultas de pediatria, número
de elementos do agregado familiar, número de carros)

Ordinal (têm uma ordem específica (ascendente ou Contínuas (por exemplo, a temperatura)
descendente). Por exemplo, o grau de escolaridade, escalão
etário, escalão de rendimento, habilitações, categorias de
profissão)

 Modelo de Regressão Linear Simples (MRLS):

Exemplo: A Figura (diagrama de dispersão) permite observar uma


relação de tipo linear entre as 2 variáveis:

O ajustamento
não é perfeito,
existe sempre
uma margem de
erro (há um certo
desvio entre o
valor observado e
o valor estimado
pela recta).

Será que o nível de autonomia na realização das tarefas (X) influencia positivamente o nível de satisfação com o
trabalho (Y)?

- Mais do que simplesmente medir a correlação entre duas variáveis (Rx1, X2 = RX2, X1), pretende-se explicar Y (variável
dependente, VD) ou a variável a explicar, em função de X (variável independente, VI) ou variável explicativa  Assim, é
possível inferir-se se existe uma relação de dependência funcional entre X e Y e, ainda, estimar um modelo que explique a
relação entre as duas variáveis.
- MODELO: é a relação entre duas variáveis preditoras e a VD, isto é, o model summary é o sumário do
modelo (articulação/conjugação entre as várias variáveis).
1
- Se existir uma relação do tipo linear entre as duas variáveis, pode admitir-se explicar a relação entre as duas variáveis através
de um método linear, neste caso, o MRLS, o que equivale a modelizar a relação entre as duas variáveis através de uma recta,
como está acima demonstrado
no gráfico.

Os valores observados para Yi


resultam assim, da soma de uma
parte fixa:  0  1 Xi , e de uma
parte aleatória (erros) : i.

Assume-se que os erros são


independentes; têm distribuição
normal; têm média zero e
variância constante.

o Objectivos do MRLS:

- Medir em quanto uma variável (Y – VD) é explicada por outra (X – VI), bem como quantificar a qualidade do modelo para
explicar a relação linear entre as duas variáveis. Prevê Y a partir de X usando a equação da recta (função da regressão):
 Modelo a estimar, e que representa a relação linear entre X e Y.

- Ademais, o MRLS infere, ainda, sobre a adequabilidade do modelo para explicar a relação linear entre as duas variáveis no
universo.

o Estimativa estandardizada para o coeficiente de regressão: A vantagem dos coeficientes beta é que permite eliminar o
problema decorrente de eventualmente se ter diferentes unidades de medida nas variáveis independentes (aspecto importante
na regressão linear múltipla).
Na regressão linear simples, o coeficiente Beta = R e nas estimativas estandardizadas a ordenada na origem é zero,
simplificando-se a equação da recta estimada:

2
o Cálculo do Beta:

o Previsão de Y a partir do modelo estimado:

o Como medir a variação explicada pelo modelo?

- É através do coeficiente de determinação (R2) 


que quantifica a proporção ou percentagem se se
efectua x100 da variação de Y que é explicada por X

3
o Como medir a qualidade do modelo?

O R2 (coeficiente de determinação) é influenciado pelo nº de variáveis independentes no modelo, pelo que deverá privilegiar-
se o coeficiente de determinação ajustado (R2ajustado) quando se está perante um MRLM. Ainda que não seja o caso, vai
exemplificar-se o cálculo do mesmo.

OU

O R (coeficiente de correlação) mede a correlação entre os valores observados e os valores estimados. Quanto mais perto de 1,
mais a qualidade do modelo estimado.

OU

O Erro-padrão da estimativa é o desvio-padrão dos erros de


predição. Quanto menor for o valor do desvio-padrão dos erros
maior a qualidade do modelo.

o Análise Inferencial na regressão:

1) Teste F – Teste à adequabilidade do modelo:

- O objectivo é verificar se a VI influencia a VD no universo, o que equivale a detectar se o modelo ajustado é ou não
significativo, assim, permite inferir sobre a adequabilidade do modelo linear para explicar a relação entre as 2 variáveis;

4
- O teste F tem as seguintes hipóteses:

- Os componentes da expressão deste teste são:

2) Teste T – Teste ao parâmetro ᵝ0 e ᵝ1:

- Os testes t de student permitem inferir sobre os parâmetros (ordenada na origem e


coeficiente de regressão) a partir das suas estimativas. Habitualmente testa-se a nulidade
desses parâmetros, como se exemplifica:

5
Exemplo:
Responda, por favor, utilizando esta escala em que 0 significa extremamente insatisfeito e 10 extremamente satisfeito.
B24: Tudo somado, qual é o seu grau de satisfação com a vida em geral?
B25: De um modo geral, qual o seu grau de satisfação com o estado actual da economia portuguesa?
B26: Pense agora no Governo português. Qual é o seu grau de satisfação com a forma como o Governo está a actuar?
B27: E, no geral, qual o seu grau de satisfação com o funcionamento da democracia em Portugal?

Será que o grau de satisfação com a forma como o governo está a actuar (X) tem efeito no grau de satisfação com o
funcionamento da democracia em Portugal (Y)?
Que tipo de modelo usar?
Comece por se observar a relação entre as duas variáveis através de um diagrama de dispersão.

- Pode observar-se uma tendência para a linearidade


mas, como a relação entre as duas variáveis não é
perfeita, existe bastante variabilidade em torno da
recta Quanto maior essa variabilidade (erro), pior
o ajustamento do modelo.

- Pode observar-se neste exemplo a inexistência de relação – nem


linear nem de qualquer outro tipo – entre a idade (VI) e a mesma VD.

6
Interpretação dos resultados:
- Deverá admitir-se que está a reportar-se os resultados num relatório ou num artigo.

o Pressupostos do MRLS:

1) Linearidade do fenómeno em estudo;


2) Variáveis aleatórias residuais com valor esperado nulo;
3) Variância constante das variáveis aleatórias residuais;
4) Independência das variáveis aleatórias residuais;
5) Distribuição normal das variáveis aleatórias residuais.

Variáveis aleatórias residuais com valor esperado nulo:

Decisão: A média dos resultados é


aproximadamente zero (valor
assinalado), como refere a hipótese do
MRLS.

Distribuição aleatória das variáveis aleatórias residuais:

(Análise gráfica da normalidade dos resíduos) Rejeita-se a hipótese da normalidade (p<0,001) mas, não obstante,
pode observar-se que existe uma acentuada sobreposição entre a
H0: Os erros têm distribuição normal; distribuição dos resíduos (representados pelos círculos) e a
Ha: Os erros não têm distribuição normal; distribuição normal (representada pelo segmento de recta)

7
Variância constante das variáveis aleatórias residuais:

Considerar-se-á que existe homocedasticidade


(homogeneidade de variâncias) se os resíduos
mantiverem uma distância aproximadamente constante
relativamente ao eixo horizontal. Ou seja, dever-se-á
observar um padrão de variabilidade constante em
torno de 0.

(Análise gráfica da homogeneidade da variância dos resíduos)

Independência das variâncias aleatórias residuais:

- Apesar de se apresentar aqui este pressuposto, importa referir que a sua análise só faz sentido quando está em casa séries
temporais, ou seja, no caso de os dados terem inerente uma ordenação. Para o efeito, deve realizar-se o Teste Durbin-Watson
(terá de ser solicitado e aparece integrado no Quadro Model Summary)

 Modelo de Regressão Linear Múltipla (MRLM):

- Identificar os determinantes do nível de satisfação com o desempenho das instituições em Portugal (VD).

Estes indicadores de satisfação compõem a VD (é uma variável compósita): Aferem o mesmo constructo. O
 Satisfação com a economia portuguesa (B25) investigador saber que as
 Satisfação com o governo (B26) variáveis têm a mesma
consistência (alfa cronbach) e são
 Satisfação com a democracia portuguesa (B27)
agregadas para avaliar o
 Satisfação com o sistema de educação em Portugal (B28)
 Satisfação com os serviços de saúde em Portugal (B29)

8
Variáveis independentes:
Há 6 variáveis, e a relação entre elas é positiva, com intensidade
 Interesse pela política (B1, B2, B3) moderada e aqui está sempre em módulo (positivo), mesmo que as
preditoras sejam negativas.
 Confiança nas instituições democráticas (B4-B10) Na ANOVA, o modelo linear assume, neste caso, 6 rectas (hiperplano),
 Ideologia (B23) cuja relação entre as variáveis é linear (entre as preditoras e a VD).
Para um teste é necessário:
 Satisfação com a vida em geral (B24) - Hipóteses estatísticas (nula e alternativa): H0: O modelo linear não é
adequado; Há: O modelo linear é adequado.
 Idade
- Hipóteses de trabalho (com as duas hipóteses estatísticas)
 Escolaridade

o Objectivos da regressão linear: Usar o α = 0,05 (nível de significância, relacionado com o


erro, isto é, temos 95% de confiança), e a tomada de
- Estudar a relação linear entre as diversas VI e VD; decisão é:
- Se p≤ 0,05, rejeita-se a H0, logo o modelo é adequado
- Quantificar a qualidade do modelo;
em relação a esta amostra (e não ao universo), daí haver
- Aferir o efeito de cada VI sobre a VD; sempre uma margem de erro associada.
- Testar o modelo e o efeito de cada um dos preditores (VI); - O p é < que o α, mede o erro que se comete, tudo o que
estiver abaixo dos 0,05, rejeita-se a H0. Quanto mais perto
- Fazer uma previsão de Y a partir do modelo estimado.
de zero, menor o p (p=0,04; p=0,002  aqui o erro é
menor porque está mais próximo de zero)
Natureza das variáveis input:

- Numa regressão linear a VD é sempre uma variável quantitativa, já as VI podem ser variáveis quantitativas, mas o modelo
pode incluir também algumas qualitativas. No caso de existirem VI qualitativas terão de ser transformadas em variáveis
dummy (define-se K – 1 variáveis dummy (sendo K o nº de categorias da variável qualitativa)
 Admita-se a variável sexo: como existem 2 categorias (K=2), então tem que se definir uma variável dummy (0 –
masculino, 1 – feminino).
 Neste caso, a categoria masculino seria a categoria de referência, sendo estimado um coeficiente de regressão
para o sexo feminino.
- A VD e/ou VI poderão ser variáveis construídas a partir das variáveis originais obtendo-se assim variáveis quantitativas.

9
- A partir dos dados disponíveis na amostra, pretende-se estimar os parâmetros do modelo e é o modelo a estimar para o
exemplo em análise:

- Esta equação representa a associação linear entre X1, X2, X3, X4, X5, X6 e Y. É então necessário estimar os coeficientes de
regressão parciais e a constante (intercept).

- Para calcular, por exemplo, 1 é necessário começar por remover a influência de X2 , X3 , X4 , X5 e X5 em Y e de X2 , X3 ,


X4, X5 e X6 em X1  Só assim se poderá avaliar a influência de X1 em Y, e por isso, são coeficientes de regressão parciais.

o Dimensão mínima de amostra (n) ou de universo (N) para realizar uma Regressão Linear Múltipla (rácio casos/VI):

- N ≥ 50 + 8m (m = nº de VI) para testar a correlação múltipla;


- N ≥ 104 + m para testar individualmente os preditores (VI);
- Quando se pretende testar a correlação múltipla e também o efeito das VI individualmente deve calcular-se os dois valores e
optar-se pelo que indicar o nº mais elevado de casos.

o Pressupostos do MRLM:

1) Linearidade do fenómeno em estudo


2) Independência das variáveis explicativas (inexistência de multicolinearidade)
3) Variáveis aleatórias residuais com valor esperado nulo
4) Variância constante das variáveis aleatórias residuais
5) Independência das variáveis aleatórias residuais
6) Distribuição normal das variáveis aleatórias residuais

Independência das variáveis explicativas (inexistência de multicolinearidade)


- Para a análise deste pressuposto pode interpretar-se uma destas duas medidas: Tolerância e VIF (disponíveis no Quadro
Coefficients)

- A Tolerância é uma medida de multicolinearidade entre as variáveis independentes permitindo saber em que medida cada
variável Xi é explicada pelas outras VI: TOLi = 1 – R21 (coeficiente de determinação múltiplo, mas neste caso está a tornar-se a
variável Xi como dependente e as restantes Xi mantêm-se como independentes). Como pode constatar-se na expressão, a
tolerância corresponde à proporção da variação de cada VI que não é explicada pelas outras VI. A TOL varia entre [0, 1] e
quanto mais perto de 0 maior será a multicolinearidade entre certa variável independente e as outras variáveis independentes.

- Quanto à outra medida de multicolinearidade, o VIF (Variance Inflaction factor), tem-se que
deste modo, quando as VI apresentarem uma tolerância elevada – indicando a inexistência de multicolinearidade –
apresentarão valores de VIF baixos e vice-versa.

10
- Tomada de decisão relativamente à TOL vs VIF, para valores de VIF superiores a 5 já existem problemas de
multicolinearidade, outros autores sugerem valores de VIF superiores a 10. Fazendo a conversão para a leitura da TOL, sendo
:
 Admitindo VIF > 5, existem problemas de multicolinearidade quando a TOL registar valores inferiores a 0,2;
 Outro critério, admitindo que VIF > 10 existem problemas de multicolinearidade quando a TOL registar valores
inferiores a 0,1

Interpretação:
Como pode verificar-se
a Tolerância tem como
valor mínimo 0,643
(muito acima de 0,2) e,
consequentemente,
valores de VIF baixos
(bastante inferiores a 5)

Variáveis aleatórias residuais com valor esperado nulo:

A média dos resíduos é aproximadamente 0 (valor


assinalado), como refere a hipótese do MRLM.

Normalidade das variáveis aleatórias residuais:


- Realização do teste à normalidade e análise gráfica.

Interpretação: Rejeita-se a hipótese da normalidade (K-S (1194) =


0,029, p=0,017). Perante esta tomada de decisão como proceder?
Faz-se a análise gráfica dos resíduos.

Análise gráfica da normalidade via histograma:

A distribuição dos resíduos apresenta uma aderência


muito acentuada à distribuição normal.

11
Análise gráfica da normalidade via P-P Plot:

Análise (simultânea) dos pressupostos da Linearidade, da Normalidade e da homogeneidade de variância dos erros:
- A análise do diagrama que relaciona os valores previstos para Y com os resíduos permite analisar de uma só vez os
pressupostos da normalidade, da linearidade e da homogeneidade de variâncias (homocedasticidade);
- Distribuição normal dos resíduos: É necessário que os resíduos se distribuam de forma simétrica relativamente ao centro,
apresentando ainda maior concentração no centro;
- Distribuição linear dos resíduos: É necessário que a distribuição dos resíduos apresente uma forma rectangular e não curva.
Quando não há linearidade poder-se-á transformar-se as variáveis no sentido de as linearizar.

Homogeneidade da variância dos resíduos:

A distribuição dos resíduos é aleatória em torno de 0. É


como se existisse uma banda, cuja largura se mantém
constante ao longo do eixo do X e que enquadra os
resíduos

Eixo X: ZPred & Eixo Y: ZResid (observação da intensidade dos resíduos):

12
o Condições necessárias para o MRLM:

- Se os resíduos apresentarem distribuição normal, linearidade e homocedasticidade;


- Se não existirem outliers (pode observar-se no diagrama de extremos e quartis);
Assim, existem condições
- Se o número de casos for suficiente; para realizar a regressão.
- Se não existir evidência de multicolinearidade.

o Observe-se a violação de alguns dos pressupostos:

 Moderação & Mediação:

- Modelo integrado de análise (sendo D o


indicador a usar), com várias relações
estabelecidas de acordo com a revisão de literatura.
D30 (VI) – lidar com os problemas, numa escala de 0 a 10,
tratada como quantitativa (é um indicar de resiliência). A VD –
percepção de sentido de vida – tem a mesma escala.
D38 (Z – Moderadora) – auto posicionamento social, segue a
mesma escala e é tratada como quantitativa.

- Mediação: É uma cadeia. O reconhecimento social (D29) tem efeito directo na


percepção de sentido de vida (D35), mas a resiliência (D30) está subjacente e
mexe na cadeira.

- Moderação: A VD (percepção do sentido de vida D35) já não tem uma


cadeira. Assume que a resiliência tem efeito na VD mas essa relação é
condicionada por uma variável externa (auto posicionamento social D38)
com uma escala muito longa (quantitativa). Exemplo de Modelação com
moderadora quantitativa.

13
 Modelação com moderadora categorizada: A VD é a
mesma, isto é, pretende-se perceber como é que a pessoa
com maior ou menos percepção de sentido de vida tem
implicação nas tarefas (D33) para explicar o futuro e as suas
perspectivas (variável moderadora qualitativa – percepção
dos recursos familiares, F42).

o Diagnóstico de efeito de moderação (Testar e Medir o efeito de interacção)

1ª Análise: Modelação com moderadora quantitativa

- Variáveis de input para a modelação com moderadora quantitativa:

VI

VD (variável critério)

Variável Moderadora

Modelo de Moderação:

Variável combinada (chegando à moderação. O efeito da


interacção é multiplicada a X na moderadora

- Para testar uma moderação é necessário que o modelo inclua a interacção (XZ), neste exemplo, é a combinação entre
resiliência (X) e auto posicionamento social (Z);
- O valor do coeficiente de regressão β3 do termo do produto indica o impacto no declive da regressão de Y em X, aquando de
um acréscimo unitário em Z;
- No contexto da regressão, se uma certa variável for moderadora, espera-se que o declive – coeficiente de regressão B – da
relação entre o efeito principal (X) e a variável dependente (Y) se altere em função dos valores da variável moderadora (Z).

14
Temos um modelo com 3 sub-modelos. A moderadora é
uma variável quantitativa (reconhecimento social).
D30 (resiliência) é a variável preditora (X);
D35 (sentido de vida) é a variável critério (Y);
D38 (auto posicionamento social) é a variável
moderadora (Z)
 O objectivo principal é explicar Y em função de X,
mas há um condicionamento da variável moderadora da
relação (Z).
X  Y (main effect), com a Z é o efeito de moderação.
Outro exemplo:

- Essa alteração pode manifestar-se, quer na intensidade da


relação (valor do declive), quer no sentido da relação (sinal do
declive);
- O modelo conceptual de moderação está centrado no efeito de
Z na relação X →Y, mas o modelo estatístico inclui:
1) efeitos directos (efeito A e efeito B) e 2) efeito de interacção
(X*Z).
- Interacção (produto da variável X e da variável
moderadora) e o objectivo é encontrar XY

Cometemos uma multicolinearidade múltipla. Antes


de XY é necessário centro (X - Ẋ e Z - Ẋ), primeiro X
e Z e depois faz-se o produto.

o Valores a interpretar:

Qualidade do Modelo: Analisa-se o R2ajustado (coeficiente de determinação múltiplo


ajustado) é o coeficiente de determinação corrigido segundo o número de VI (k) e a
dimensão da amostra (n). o modelo explica 15,5% da variação da percepção do
sentido de vida (R2ajustado=0,155) e é significativo [F(3, 714) = 44,926; p < 0,001]

Adequabilidade do Modelo:

O modelo é significativo [F(3, 714) = 44,926; p < 0,001]

15
Efeito da Moderação (valores a interpretar):
- Coeficiente B de regressão parcial (coeficiente não estandardizado) associado ao efeito de interacção;
- Quanto à significância do efeito de interacção, a análise é feita via teste t e p-value e/ou via intervalo de confiança. Assim:
 Para que exista efeito de interacção significativo dever-se-á rejeitar a hipótese nula H0 : β3 (XZ) = 0
 Ou para que exista efeito de interacção significativo o intervalo de confiança não poderá incluir o 0

- A dimensão do efeito (effect size) corresponde ao R2 semiparcial (R2 part = R part * R part, disponibilizado pelo software) e
quantifica a proporção da variação total que é exclusivamente explicada pela interacção.

Efeito da Interacção:

- Ler os coeficientes B (se é positivo


ou negativo);
- Ver se o EI é significativo ou não
(não só através do valor de F e p-value,
como pelo intervalo de confiança)

EFEITO PRINCIPAL: O efeito de X (resiliência) em Y (sentido de vida) é positivo, através de B (não estandardizado: 0,259),
isto é, quanto maior a resiliência, maior o sentido de vida, e esse efeito é significativo (p<0,001).
Intervalo de confiança: 0,176 ; 0,342, com um intervalo de confiança de 95% (5% de erro de significância).

Teste t (hipóteses estatísticas), o efeito é significativo e rejeita-se a H0, logo o efeito XY é igual a zero (H0: O efeito linear
de X em Y é igual a zero; Ha: O efeito linear de X em Y é diferente de zero). O zero não está no intervalo de confiança (0,176
; 0,342). Assim, o efeito da resiliência no sentido de vida é positivo e significativo (B=0,259, t=6,145, p<0,001, 95% IC 0,176;
0,342)

EFEITO DE INTERACÇÃO: Quanto maior o posicionamento social, menor o efeito da resiliência no sentido de vida e esse
efeito é de interacção é negativo (B=-0,109) e é significativo (B=-0,109, t=-4,867, p<0,001, com confiança de 95%, com os
seguintes limites -0,152; -0,065). Assim, o efeito da resiliência no sentido de vida depende do autoposicionamento das pessoas.

EFEITO DE MODERAÇÃO: é significativo (t=-4,867, p<0,001, 95% IC -0,152; -0,065)

16
o Exemplo MODGRAPH 

o Representação da Interacção (transformação da VI e da Z) -


exemplificação para a variável Z:

- Quando a variável moderadora (Z) é quantitativa é habitual considerar


3 valores de Z como referência (Cohen & Cohen, 1983, Hayes, 2012)
para gerar 3 níveis:

- Correspondem (respectivamente): a um nível baixo (L: low - corresponde a -1 desvio-padrão); nível médio (M: médium,
corresponde à própria média de Z, considerando a variável Z centrada); nível elevado (H: high - corresponde a +1 desvio-
padrão).

o Pressupostos:
1) Independência das variáveis explicativas (inexistência de multicolinearidade)

- A TOL varia entre [0, 1] e quanto mais perto de 0 maior será a multicolinearidade entre certa variável independente e as
outras variáveis independentes.
- Admitindo VIF (inverso de TOL) > 5 existem problemas de multicolinearidade quando a tolerância registar valores inferiores
a 0,2 (Tol < 0,2); - Outro critério: Admitindo VIF > 10 existem problemas de multicolinearidade quando a tolerância registar
valores inferiores a 0,1 (Tol < 0,1).

2) Normalidade dos erros e 3) Homogeneidade dos erros das variâncias:

O ideal é um rectângulo. Onde o erro


17
(expressão teórica) é diferente de resíduo (são
os erros do nosso problema)
Uma ou mais moderadoras?

Duas moderadoras (two-way interaction):


- O efeito de X em Y depende aditivamente de Z e de W;
- Se os coeficientes estimados para β4 e para β5 forem estatisticamente diferentes de 0, então o efeito condicional de X em Y
depende de Z e de W.

Modelo estatístico com moderação moderada (three-way interaction):


- O efeito de X em Y depende de uma função multiplicativa entre Z e W;
- Existe moderação moderada se o coeficiente estimado para β7 for estatisticamente diferente de 0

2ª Análise: Modelação com moderadora qualitativa


- Estudo realizado em contexto de crise económica;
- Variáveis de input para a modelação com moderadora quantitativa:

VI (implicação nas tarefas)

Moderadora categorizada
(percepção quanto aos recursos familiares)

VD (sentido de vida)

18
Transformação da variável categorizada a fim de ser VI na regressão linear:

- A VI foi retirada, com uma escala de 0 (nunca)


a 10 (sempre).
- A moderadora é uma variável ordinal, quem
responder ao 2,3 e 4 é porque tem pior
percepção do seu aforro familiar. MAS não pode
ser tratada como quantitativa. O objectivo era
contrastar 2012 (altura de crise) e perceber
substantivamente que é difícil viver com o
Categoria 2 (código 0): categoria
rendimento actual (uma variável com 2
de referência (baseline)
categorias para contrastar). Categoria 3 (código 1): variável
dummy (codificação binária) 
como condiciona o efeito de X em
Y
Etapas para testar a moderação com moderadora categorizada
1.Centrar a variável X; corresponde a efectuar X - Ẋ
2. Construir a variável dummy (correspondente à variável Z); ou variáveis dummy caso Z tenha mais
de duas categorias. Neste caso as variáveis dummy não são centradas
3. Construir o produto XY; ou vários produtos XZ se existir mais de uma variável dummy
4. Testar um modelo com X, Z e XZ; várias Z e vários XZ se k-1 > 1 sendo K = nº de categorias da
variável categorizada X  X

o Valores a interpretar:

Qualidade e Adequabilidade do modelo

Quando se testa um modelo com uma moderadora dummy as


estimativas da constante (intercept) e do efeito principal são
interpretadas tomando por referência a categoria baseline
(codificada com 0). O modelo é significativo com 31,3% (é muito
bom)

É fundamental ler a contante. Quanto


à moderadora (dummy) escolhida,
associada aos indivíduos que têm
dificuldades em viver com os seus
rendimentos, é uma escolha
substantiva (tanto da dummy como
da baseline). Quanto mais as pessoas se impliquem, maior é a percepção do sentido de vida.

19
Nota explicativa para a interpretação: Quando se testa um modelo com uma moderadora dummy as estimativas da constante
(intercept) e do efeito principal são interpretadas tomando por referência a categoria baseline (codificada com 0).

- Nas habilitações, onde não quero deixar nada de fora nem recodificar, quantas dummy temos que criar?
K = nº categorias da variável original qualitativa categorizada (+2 categorias) (K-1Dummy) – ficamos com 2 dummy e uma
baseline.

- Quando não há o critério substantivo, escolhemos como baseline aquela que tem mais peso (fazer descritivas).

- Quando assumimos como referência (baseline) as habilitações primárias, e fazemos 1º a dummy para secundário (de código 2
para código 1); superior (de código 3 para código 1)  Fazer duas dummy (no secundário com código 1, o superior fica com
código zero, tal como a baseline).

Lê-se obrigatoriamente os quatro valores B, t-test e p-


value.

F42 (Dummy – 1 «é muito difícil») e a baseline (0 «o


rendimento actual dá para viver”).

Constante: 6,945 (valor médio estimado para a baseline)


aproximadamente 7, isto é, a média da percepção de
sentido de vida das pessoas que estão classificadas na
baseline, assumiram que o rendimento dá para viver
(categoria 0).

As pessoas em 2012, não obstante da crise, estão acima


da média e os seus rendimentos familiares dão para viver.

Dummy: (é a diferença da média do valor do desvio, que


pode ser positivo ou negativo) 6,945 – 1,902 = 5,043, isto
é, é a diferença na média dos dois grupos na VD e é
significativa, notando-se um decréscimo de dois pontos
na escala.

Implicação nas tarefas, valor positivo estimado de


0,527; e o efeito de interacção também é significativo
mas negativo.

20
- Gráfico já com a interacção. A recta de cima é mais acentuada
(efeito de X em Y) e há dois declives. Mas no quadro, a implicação
só aparece uma vez, logo só há um valor (0,527), portanto, no
gráfico é só para um dos grupos.

- Ambos os declives são positivos (a implicação tem efeito positivo


em ambos os casos).

- Declive baseline: 0,527, representa o efeito de X em Y quando o


rendimento dá para viver (na baseline) e é significativamente
diferente de 0.

- Declive dummy: 0,527 – 0,323 = 0,204, a interacção é negativa e


o declive diminui. É o efeito de X em Y na baseline, e a diferença é
o valor estimado da interacção e para saber se é significativamente
diferente de 0 temos que fazer o reverse scoring para ter o t-tes 
A diferença entre declives é a interacção.
o Testes Post-Hoc

Procedimentos:
1. Testar o declive do efeito XY em cada uma das categorias da variável moderadora. Como já existem os resultados do
efeito XY em uma das categorias da moderadora será então necessário testar na outra.
2. Fazer reverse scoring e a categoria de referência passará (neste exemplo) a ser «o rendimento actual dá para viver» .Testar o
declive do efeito XY nessa categoria;
3. As componentes do modelo a incluir são: a variável preditora, a (nova) variável dummy e a interação com a nova variável
dummy.

Leitura em contexto de reverse scoring:

- B2 = 1,902 representa a distância entre as médias da VD para as duas categorias da variável moderadora (5,043 + 1,902 =
6,945).

- Se se efectuar a diferença entre os dois declives estimados para o efeito XY (0,527  0,203  0,324) OU simetricamente
(resultados do reverse scoring 0,203 0,527  0,324):
 Obter-se-á o valor que corresponde à estimativa do declive do efeito de interacção;
 Então, estar-se-á também a testar a diferença entre os dois declives, a partir do coeficiente de regressão associado ao
termo do produto (interacção)

21
o Pressupostos:
1) Independência das variáveis explicativas (inexistência de multicolinearidade)

- A TOL varia entre [0, 1] e quanto mais perto de 0 maior será a


multicolinearidade entre certa variável independente e as outras
variáveis independentes.
- Admitindo VIF > 5 existem problemas de multicolinearidade quando a
tolerância registar valores inferiores a 0,2 (Tol < 0,2); - Outro critério:
Admitindo VIF > 10 existem problemas de multicolinearidade quando a
tolerância registar valores inferiores a 0,1 (Tol < 0,1).

3) Normalidade dos erros e 3) Homogeneidade dos erros das variâncias:

 Mediação:

- Modelo
- Z (mediadora) é a resiliência; VD o sentido de vida; VI o
reconhecimento social (tem efeito no sentido de vida, mas a
maior ou menor capacidade em resolver problemas que
surjam, sendo a resiliência a mediadora).
- Quando sente que a pessoa é valorizada por outros, acaba
por ser mais optimista e sente-se bem no meio dos pares.
- Será que nesta relação x  y a resiliência é um reforço? A
Z tem existência individual e é explicada pela VI mas
também tem efeito jusante na VD.

Enquanto no primeiro M medeia a relação entre X e Y (cadeia de efeitos), isto é, a M tem um


estatuto diferente, ela é influenciada e vai influenciar outra (NOTA: Há moderação quando o efeito
de interacção é significativo). Já no modelo de moderação, Z condiciona/afecta o efeito/relação de
X em Y.

22
- Ao contrário do que acontece com a mediação, as moderadoras e preditoras estão no mesmo nível na análise. As variáveis
moderadoras são sempre variáveis independentes;

- Num modelo de mediação – o qual pressupõe uma cadeia de efeitos – a situação é diferente. Neste caso, a variável mediadora
pode ter o estatuto de dependente (a) ou de independente (b); No modelo de mediação podem medir-se dois efeitos sobre a
variável critério (variável dependente):
1. Efeito directo (c’) de X em Y. Nota: Referir o efeito directo pressupõe que a mediadora já integrou o modelo
2. Efeito indirecto (ab), através do qual X afecta indirectamente Y por via de M.

o Testar o Efeito Indirecto:

- Hipóteses estatísticas: H0: ab = 0; Ha: ab ≠ 0;


- Quando se rejeita H0, aceita-se que existe mediação (exemplo: X tem efeito em Y através de
M). Para testar ab é preciso estimar a e estimar b.

23
- Realizam-se as regressões necessárias e pode implementar-se o método proposto por Baron & Kenny e testar c e c’ 
Decisão sobre mediação parcial VS mediação completa.

o Estimar (e testar) os coeficientes c; a; b; c’ segundo Baron & Kenny (1986), os seus steps («causal chain») são:

- Na sua proposta (um método clássico e paramétrico) existem 4 passos e que implicam estimar três modelos de regressão
Nota: O método de Baron & Kenny não permite testar directamente o efeito indirecto  Trata-se de uma fragilidade da
proposta de Baron & Kenny.

o Teste ao efeito indirecto (intervalo de confiança para o efeito indirecto e dimensão do efeito indirecto): Cálculos via
software medgraph:

Vantagens do medgraph: Existem outros sites que podem calcular o z de Sobel para a mediação (o applet on-line de Preacher e
Leonardelli é um excelente exemplo: http://quantpsy.org/sobel/sobel.htm). Estes sites oferecem capacidades que são úteis, no
entanto, não podem dar ao usuário todas as informações necessárias. Por exemplo, os pesquisadores confiam inteiramente num
valor Z significativo de Sobel, em vez de usar intervalos de confiança para determinar o significado dos efeitos mediados.
Além disso, muitas vezes desejamos saber o tamanho do efeito mediado e alguns sites não fornecem essas informações.

24
25
o Diagrama (output do medgraph):

o Mediação completa VS Mediação parcial:

- Será que os dados são consistentes com uma mediação completa?


- Se o efeito da variável independente na variável critério (VD) (c’) não difere de 0, na presença da variável mediadora, tem-se
uma mediação completa. O efeito indirecto ab é igual a c (efeito total).
- Se o efeito indirecto ab não é igual a c mas menor então está-se perante uma mediação parcial. Neste caso c’ < c mas ≠ 0. O
efeito de X em Y é parcialmente mediado por M.

o Pressupostos mais importantes da Regressão Linear Múltipla:

- A Normalidade dos erros e a Homocedasticidade (homogeneidade de variâncias) dos erros  A análise é feita via resíduos;
- Independência das variáveis explicativas (inexistência de multicolinearidade);
- Critério de leitura do VIF ou da Tolerância (objectivo: análise da Multicolinearidade):
 Admitindo VIF > 5 ou tolerância inferior a 0,2 (Tol < 0,2) existem problemas de multicolinearidade;
 Ou ainda, Admitindo VIF > 10 ou tolerância inferior a 0,1 (Tol < 0,1) existem problemas de multicolinearidade.

26
o Resultados das 3 regressões relativas à estimação dos coeficientes a, b, c e c’:

27
 Modelação com regressão Logística Binária:

VD: Dummy (1 e 0)

o Objectivos da regressão logística:

- A regressão logística é usada com o objectivo de analisar uma VD categorizada em função de uma ou de diversas VI’S, isto
é, pretende estimar a probabilidade do sucesso, tendo em conta as variáveis de abaixo transcritas (sexo etc)..
- Pretende-se estimar a probabilidade: de ter uma característica de ocorrência de um acontecimento, pelo que as estimativas
variam entre 0 e 1.

o Natureza da VD e das VI’S:

- VD: Por relação aos cenários de investigação nos quais é adequada a regressão linear (VD quantitativas), neste caso admite-
se uma VD categorizada: ou dicotómica (Binary Logistic), ou com três ou mais categorias (Multinomial Logistic). Ou seja, a
VD (dummy) já não é quantitativa, está dicotomizada (K: nº de categorias = 3, K-1= 2)
- VI: As variáveis independentes podem ser variáveis quantitativas e/ou variáveis categorizadas (sendo estas transformadas em
variáveis dummy).

o Contextualização da aplicação a analisar:

- Admita-se que se pretende implementar medidas educativas tendo em vista o sucesso a matemática (PISA 2003. Portugal) 
A VD é binária: sucesso VS insucesso na disciplina.
- Tomando por referência a categoria ter sucesso a matemática é possível calcular a probabilidade de um aluno vir a ter sucesso
a matemática, a partir da combinação dos valores observados num conjunto de variáveis preditoras (VI’S) do sucesso a
matemática, designadamente:
 Sexo (dummy)
 ISEI (Estatuto socioeconómico dos alunos)
 Dificuldade na aprendizagem da Matemática (*)
 Empenho na aprendizagem da Matemática (*)

(*) Índices (variáveis compósitas). São variáveis quantitativas discretas com mínimo em 1: discordo completamente e máximo em 4:
concordo completamente.

- Quais os factores responsáveis pelos alunos terem ou não sucesso a matemática? A nota de matemática vai de 0 a 20: até 10 é
insucesso, que é a nossa baseline; igual ou superior a 10 é sucesso e significa que tem positiva a matemática (dummy).
- Uma das razões invocadas para a
inadequabilidade do modelo de regressão linear,
prende-se com a não verificação dos pressupostos
de linearidade: Veja-se o diagrama da relação entre
duas variáveis (VI e VD) quantitativas e o
diagrama da relação entre uma VI quantitativa e a
actual VD (dummy). No primeiro caso, faz sentido
ajustar uma recta, mas não no segundo. Aqui
ajusta-se uma função não linear com forma S. Está
então em causa uma transformação logit.
28
o Logged Odds:

- No caso da Regressão Linear, a modelização é feita através de uma função linear, estimando Y através da seguinte equação:

- A Regressão Logística assume uma relação linear entre as preditoras contínuas e a transformação logit da VD.
Exemplificando para uma VI

- A transformação logit pode assim ser vista como a linearização de relação entre X e a probabilidade de Y. O logit transforma
uma VD que tenha relação não-linear com um conjunto de VIs, numa VD com relação linear com as Vis

 Neste caso a equação da regressão linear é o logaritmo (log) natural (ln) da probabilidade de pertencer a um grupo a
dividir pela probabilidade de pertencer a outro grupo (odds – probabilidade do sucesso e do insucesso, ou índice de
probabilidade).

o Interpretação dos coeficientes do modelo de regressão logística usando logged odds:

- O odds de um acontecimento ocorrer é igual à probabilidade do acontecimento ocorrer a dividir pela probabilidade do mesmo
não ocorrer. Os odds indicam quanto mais possível é uma observação pertencer a um grupo alvo do que pertencer a outro
grupo;
A interpretação dos coeficientes é análoga à que é
feita na Regressão Linear, excepto no que se refere
ao facto das unidades da VD virem expressas em
logged odds. NOTA: A probabilidade varia entre 0 e
1 e os valores de odds podem variar de 0 a infinito

o Como relacionar VIS e VD Dummy?

Interpretação dos coeficientes de regressão B: logged odds

Exemplificando:
- Coeficiente -1,776 para a VI dificuldade (VI quantitativa): o acréscimo de uma unidade no score do nível de concordância
com a dificuldade na aprendizagem da matemática implica que o logged odds do sucesso a matemática diminua em -1,776;
- Coeficiente 0,614 para as raparigas (VI dummy). O logged odds do sucesso a matemática aumenta em 0,614 nos alunos do
sexo feminino.
- No caso das variáveis dummy a mudança de uma unidade implica comparar a categoria codificada com 1 com a categoria de
referência.

29
o Função logarítmica e função exponencial:

- Repare-se que na passagem das estimativas dos


logged odds (coeficiente B) para os odds, as
estimativas com sinal negativo têm associados odds.
Exemplificando para uma preditora quantitativa:
- Relativamente ao coeficiente 0,169 da dificuldade a
matemática: o aumento de um score no índice de
concordância com a dificuldade a matemática, diminui em 0,169 o odds de ter sucesso a matemática, isto é, diminui a
possibilidade de sucesso a matemática
- Ou 0,169 indica que o aumento de um score no índice de concordância com a dificuldade a matemática multiplica (num
modelo linear tem-se uma equação aditiva -soma ou diminui, aqui está-se perante uma equação multiplicativa) o odds de ter
sucesso a matemática em 0,169.
- Exemplificando para uma preditora dummy: o coeficiente 1,847 indica que o odds do sucesso a matemático das raparigas é
1,847 vezes maior que o dos rapazes.

30
o Qualidade e inferência sobre o modelo

- Avaliação da qualidade do modelo (effect size of the model): Na regressão linear interpreta-se o R2. Já na regressão
logística existem várias medidas análogas, mas com uma interpretação diferente. Os Pseudo R2 baseiam-se na comparação do
modelo ajustado com o modelo nulo, não sendo propriamente uma medida da variabilidade explicada pelo modelo.
- No quadro Model Summary pode privilegiar-se o Nagelkerke R Square, varia entre 0 e 1

o Inferências sobre o modelo - Teste Chi-Square:

o Inferências sobre o modelo – Teste ao ajustamento do modelo:

Interpretação: Os valores estimados estão próximos dos


valores observados logo o modelo ajusta-se aos dados (χ2 (8)
= 14,844, p= 0,062).

31
o Inferência a partir dos preditores:

- À semelhança do que acontece com o teste t na regressão linear, o teste Wald permite concluir se o coeficiente B para cada
preditor é estatisticamente diferente de zero. Se se rejeitar essa hipótese, então pode concluir-se que a VI tem efeito
significativo sobre Y.
- Exemplificando para a variável grau de dificuldade:

o Reportar dados (exemplo de um quadro-síntese com logged odds):

o Reportar dados (exemplo de um quadro-síntese com odds ratio  Exp B):

o Considerações sobre a adequabilidade da regressão logística:

- Ausência de multicolinearidade: Na existência de várias VIs poderá existir multicolinearidade. A Regressão Logística
também é sensível à existência de correlações muito elevadas entre as VIs, mas o SPSS não integra nenhuma opção na
Regressão Logística para proceder a essa análise;  Em alternativa, sugere-se o uso prévio da opção Collinearity diagnostics no

32
menu da Regressão Linear (como é indicado no slide seguinte). Pelo quadro seguinte pode concluir-se que não existem
problemas de multicolinearidade:

- Independência dos erros: A Regressão Logística assume que as respostas dos diferentes casos são independentes. Num
cenário de medidas repetidas a regressão logística não será a melhor opção.

- Ausência de outliers na solução: Pode detectar-se a existência de casos mal estimados pela solução: um caso que está numa
categoria mas que evidencia uma elevada probabilidade de estar na outra categoria. Serão os casos outliers e podem ser
detectados através da examinação dos resíduos.
Numa regressão logística o resíduo é a diferença (corresponde ao insucesso: )  Importa analisar os resíduos
estandardizados e avaliar se não existem mais de 5% dos casos com resíduos (em valor absoluto) acima de 2 e que não existe
mais de 1% com resíduos (em valor absoluto) acima de 2,5.

Cook’s distance: valores acima de 1 referem-se a


casos que podem estar a influenciar o modelo; 
Leverage values: deve calcular-se a média (nº de
preditores + 1 a dividir pela dimensão n) e depois
identificar valores 2 a 3 vezes superiores a esse
valor médio. Como pode verificar-se os valores
calculados pertencem ao intervalo
DfBeta(s): procurar valores (absolutos) maior que 1.

o Identificação de potenciais outliers (representação das probabilidades previstas (x) e dos resíduos studentizados (y):

33

Você também pode gostar