Você está na página 1de 15

Regressão Logística Binária Múltipla

Licenciatura em Ensino de Matemática com habilitação em Estatística

4°Ano, 1°Semestre Pós-Laboral, Econometria Básica

Universidade Pedagógica de Maputo

Maputo

2023
2
3

Regressão Logística Binária Múltipla

Trabalho a ser apresentado na Faculdade de Ciências


Naturais e Matemática no Departamento de
Matemática, como avaliação na cadeira de Analise de
Dados I, sob orientação de:
Mestre Alexandrina Uache

Universidade Pedagógica de Maputo


Maputo
2023
4

Lista de tabelas

Tabela 1: Resumo de processamento do caso..............................................................................................5


Tabela 2: Codificação de variável dependente............................................................................................6
Tabela 3: Tabela de Classificação................................................................................................................6
Tabela 4: Variáveis na equação....................................................................................................................7
Tabela 5: Variáveis não presentes na equação..............................................................................................8
Tabela 6: Testes de Omnibus do Modelo de Coeficientes............................................................................8
Tabela 7: Resumo do modelo......................................................................................................................9
Tabela 8: Teste de Hosmer e Lemeshow......................................................................................................9
Tabela 9: Tabela de Classificação..............................................................................................................10
Tabela 10: coeficientes..............................................................................................................................12
5

Índice
Lista de tabelas................................................................................................................................3
1. Introdução.................................................................................................................................5
2. Apresentação dos resultados....................................................................................................6
2.1. Resumo de processamento do caso...................................................................................6
2.2. Codificação de variável dependente.................................................................................6
3. Referencias Bibliográficas.....................................................................................................14
6

1. Introdução
O presente trabalho feito na cadeira de Analise de Dados I, é um relatório que visa a realização
de sequências de análises, testes, interpretações e sua devida apresentação dos resultados na Com
base na Base de Dados 10102019_1.sav, com objectivo de encontrar as variáveis que
influenciem na variável resposta Group (Frequenta regularmente e Não Frequenta Regularmente
ou Desistiu), com as seguintes variáveis explicativas:

1. Idade do aluno (age_child);

2. Género do aluno (gender_child);

3. Região do aluno (urban);

4. Província do aluno (Province)

5. Riqueza familiar (Riqueza_familiar);

6. Educação do Chefe da Família (Educacao_Chefe);

7. O aluno tem livro? (Liv_Escolares);

8. Os alunos têm carteiras? (Carteiras);

9. Quantas vezes a escola é supervisionada (Supervisao);

10. A escola têm casas de banho (Casa_banho);

11. Experiência do Professor (Exp_Professor).


7

2. Apresentação dos resultados


Estatísticas de resíduos
Mínim Máxim Erro
o o Média Desvio N
-
Valor previsto 0.0389 0.4779 0.087 0.06954 4633
Erro Valor previsto -1.81 5.622 0 1 4633
Erro padrão do valor previsto 0.008 0.03 0.014 0.003 4633
Valor previsto ajustado -0.039 0.4789 0.087 0.0695 4633
- 1.0223
Resíduo 0.4746 4 0 0.27313 4633
Erro Resíduo -1.736 3.739 0 0.999 4633
Resíduos Resíduo -1.744 3.745 0 1 4633
1.0257 0.0000
de Estud. -0.479 5 1 0.2739 4633
Resíduos de Estud. -1.744 3.75 0 1.001 4633
Mahal. Distância 3.369 56.033 10.998 5.801 4633
Distância de Cook 0 0.01 0 0.001 4633
Valor de ponto alavanca
centralizado 0.001 0.012 0.002 0.001 4633
a Variável Dependente: Frequency

Olhando a distância de Mahalanobis, a sua média corresponde a 10.998, isto significa que não
temos resίduos pois a média não atingiu a 30. Nota-se também que o tamanho da amostra é
razoável, no caso 4633.

2.1. Resumo de processamento do caso


Tabela 1: Resumo de processamento do caso

Casos não ponderados N Percentagem


Casos Incluído na análise 4633 82.2
selecionados
Casos omissos 1002 17.8

Total 5635 100.0


Casos não selecionados 0 0.0
Total 5635 100.0
a. Se a ponderação estiver em vigor, veja a tabela de classificação para
8

o número total de casos.

A tabela acima apresenta o número de casos seleccionados 5635 que corresponde a 100% e 2os
casos não seleccionados, sendo que para este estudo não há nenhum caso não seleccionado. É
notório que dos casos seleccionados 4633 correspondente a 82,2% casos foram incluídos na
análise e 1002 correspondente a 17,8% são casos omissos. Conclui-se que todas as observações
foram aproveitadas

2.2. Codificação de variável dependente


Valor original Valor interno
Frequenta Regularmente 0
Não frequenta regularmente ou desistiu 1
Tabela 2: Codificação de variável dependente

A tabela acima, apresenta a codificação da variável dependente, sendo que o zero (0) indica
fracasso e 1 indica o sucesso da variável para o estudo. Zero indica frequência regular e 1 não
frequenta regularmente ou desistiu. Neste caso, a nossa variável resposta é não frequenta
regularmente ou desistiu.

Tabela de Classificaçãoa,b
Previsto
Frequency
Não frequenta
Frequenta reularmente ou Porcentagem
Observado Regularmente desistiu correta
Passo Frequency Frequenta 4230 0 100.0
0 Regularmente
Não frequenta 403 0 0.0
reularmente ou
desistiu
9

Percentagem global 91.3


a. A constante está incluída no modelo.
b. O valor de recorte é .500
Tabela 3: Tabela de Classificação

A partir da tabela 3 verificamos

Variáveis na equação
B S.E. Wald Df Sig. Exp(B)
Pass Constant -2.351 0.052 2033.74 1 0.000 0.095
o0 e 3
Tabela 4: Variáveis na equação
Hipóteses

H 0 : os coeficientes são iguais a 0.

H 1: os coeficientes não são iguais a 0

De acordo com o p valor que é aproximadamente a 0,000 e consequentemente menor que o nível
de significância de 0,05, os coeficientes não são iguais a zero.

Variáveis não presentes na equação


Escore df Sig.
Passo 0 Variáveis age_child 24.296 1 0.000
gender_child 4.076 1 0.043
Urban 49.036 1 0.000
Province 1.031 1 0.310
Riqueza Familiar 48.825 1 0.000
Educação do chefe da família 10.032 1 0.002
A criança tem livros escolares? 190.970 1 0.000
Os alunos tem carteiras? 16.210 1 0.000
10

Quantas vezes a escola foi 63.137 1 0.000


supervisionada?
A escola tem casa de banho 1.996 1 0.158
Experiência do professor 13.262 1 0.000
Estatísticas globais 282.024 11 0.000
Tabela 5: Variáveis não presentes na equação
O quadro apresentado acima evidencia o score de cada variável. Neste caso, nem todos os scores
são significativos de acordo com o p valor, isto é, nem todas as variáveis são fiáveis para a nossa
análise. As variáveis não fiáveis para o nosso estudo são província (com score igual a 1,031 e o p
valor igual a 0,310) e o facto da escola ter casa de banho ou não (com score igual a 1,996 e o p
valor igual a 0.158) porque tem o score muito baixo e o p valor maior que 0,05. E as restantes
são significativas, isto é, as restantes são credíveis.

Testes de Omnibus do Modelo de Coeficientes


Qui-quadrado df Sig.
Passo 1 Passo 447.965 51 0.000
Bloco 447.965 51 0.000
Modelo 447.965 51 0.000
Tabela 6: Testes de Omnibus do Modelo de Coeficientes
Hipóteses

H 0 : O ajuste do modelo actual é igual ao ajuste do modelo anterior sem nenhum regressor.

H 1: O ajuste do modelo actual não é igual ao ajuste do modelo anterior sem nenhum regressor.

A tabela acima apresenta os coeficientes do modelo, e, é notório que todos os coeficientes têm o
p valor próximo a 0,000, que é menor que 0,05, o que indica que o ajuste do modelo actual não é
igual ao ajuste do modelo anterior sem nenhum regressor. Assim sendo, todos os três testes têm a
mesma finalidade. O que significa que podemos continuar com as análises porque as variáveis
independentes influenciam na desistência dos alunos.
11

Resumo do modelo
R quadrado R quadrado
Passo Verossimilhança de log -2 Cox & Snell Nagelkerke
1 2290.188a 0.092 0.207
a. Estimação finalizada no número de iteração 20 porque o máximo de
iterações foi atingido. Não é possível encontrar a solução final.
Tabela 7: Resumo do modelo
A partir do teste de R quadrado Cox & Snell, podemos concluir que 9,2% das variações ocorridas
na desistência dos alunos são explicadas pelo conjunto das variáveis independentes. Portanto,
vamos reparar o valor R quadrado Nagelkerke que é o mais compreensível, concluímos que o
modelo é capaz de explicar cerca de 20,7% das variações registadas na desistência dos alunos.

Teste de Hosmer e Lemeshow

Passo Qui-quadrado df Sig.


1 11.269 8 0.187

Tabela 8: Teste de Hosmer e Lemeshow


H0: não há diferenças significativas entre os resultados os preditos pelo modelo e os observados.
H1: há diferenças significativas entre os resultados os preditos pelo modelo e os observados.

Como o teste de Hosmer e Lesmeshow apresenta para o valor de Qui-quadrado igual a 11,269 e
o p valor igual a 0,187 não podemos rejeitar a hipótese nula, ao nível de significância de 5%.
Desse modo, conclui-se que não há diferenças significativas entre os resultados os preditos e os
observados, ou seja, os valores esperados e observados não diferem significativamente,
conferindo ao modelo um bom ajuste aos dados.

Tabela de Classificaçãoa
Observado Previsto
Frequency Porcentagem
Frequenta Não frequenta correta
12

Regularmente reularmente ou desistiu


Passo Frequency Frequenta 4210 20 99.5
1 Regularmente
Não frequenta 373 30 7.4
reularmente ou
desistiu
Porcentagem global 91.5
a. O valor de recorte é .500
Tabela 9: Tabela de Classificação
13

95% C.I. para


EXP(B)
B S.E. Wald Df Sig. Exp(B) Inferior Superior
Passo age_child 37.907 19 0.006
1
province 107.01 10 0.000
3
province(1) -1.926 0.390 24.368 1 0.000 0.146 0.068 0.313

province(2) -2.517 0.463 29.535 1 0.000 0.081 0.033 0.200

province(3) -1.440 0.299 23.133 1 0.000 0.237 0.132 0.426

province(5) -2.590 0.584 19.669 1 0.000 0.075 0.024 0.236

province(8) -1.215 0.301 16.241 1 0.000 0.297 0.164 0.536

province(9) -1.617 0.328 24.289 1 0.000 0.199 0.104 0.378

province(10) -0.639 0.191 11.254 1 0.001 0.528 0.363 0.767

Riqueza Familiar 10.137 4 0.038

Riqueza Familiar(4) -0.590 0.296 3.959 1 0.047 0.555 0.310 0.991

A criança tem livros 121.90 3 0.000


escolares? 4

A criança tem livros 0.881 0.142 38.653 1 0.000 2.413 1.828 3.186
escolares?(1)
A criança tem livros 3.522 1.248 7.960 1 0.005 33.863 2.931 391.212
escolares?(2)
A criança tem livros 2.744 0.290 89.534 1 0.000 15.554 8.810 27.461
escolares?(3)
Os alunos tem 7.479 2 0.024
14

Tabela 10: coeficientes

Considerando a variável província do aluno, observamos que em relação à categoria de


referência, passando da província de referência para outra 1 a probabilidade da desistência dos
alunos diminui em 85,4%, da província 1 para província 2 diminui em 91,9%, da província 2
para 3 diminuí em 76,3%, da província 3 para 5 diminuí em 92,5%, da província 5 para 8
diminuí em 70,3%, da província 8 para 9 diminuí em 80,1%, da província 9 para 10 diminuí em
47,2%. Tomando a riqueza familiar a variável referência é notório que ao passar para a riqueza
familiar (4) também diminuí a probabilidade dos alunos desistirem em 45,5% mas a partir da
variável de referência os alunos possuírem ou não uma carteira para 2 a probabilidade deles
desistirem aumenta 49,2%. Tomando também como referência a variável supervisão ao passar
para 1 a probabilidade dos alunos desistirem aumenta em 79,5%, de 1 para 2 aumenta em 66,8%
e também de 2 para 3 aumenta a probabilidade em 62,5%.
15

3. Referencias Bibliográficas

BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 5. ed. São Paulo: Saraiva, 2002.
COSTA NETO, P. L. da O. Estatística. 2. ed. São Paulo: Edgard Blücher, 2002.
LOPES, P. A. Probabilidades e Estatística. Rio de Janeiro: Reichmann e Affonso Editores, 1999.
LAKATOS, E. M.; MARCONI, M. de A. Técnicas de Pesquisa. 5. ed. São Paulo: Atlas, 2003.
MONTGOMERY, D. C. Introdução ao Controle Estatístico da Qualidade. 4. ed. Rio de Janeiro:
LTC, 2004.
MOORE, D. S.; et al. A prática da Estatística Empresarial: como usar dados para tomar decisões.
Rio de Janeiro: LTC, 2006.
STEVENSON, Willian J. Estatística Aplicada à Administração. São Paulo: Harbra, 2001.
TRIOLA, M. Introdução à Estatística. Rio de Janeiro: LTC, 1999. VIRGILITTO, S. B.
Estatística Aplicada: técnicas básicas e avançadas para todas
as áreas do conhecimento. São Paulo: AlfaOmega, 2003.

Você também pode gostar