Você está na página 1de 8

Modelo de regressão linear múltipla para avaliação do valor de

mercado de apartamentos residenciais.

Introdução

A análise realizada visa avaliar o valor do mercado de apartamentos residenciais, por


meio de um modelo de regressão linear múltiplo. Utilizando dados que incluem características
como tamanho, idade, andar, número de quartos, vagas de garagem, presença de piscina e o
bairro em que estão localizados, o objetivo é entender como esses fatores influenciam o preço
dos imóveis.

O processo de construção do modelo incluiu etapas fundamentais, como a verificação


de pressupostos essenciais da regressão linear, a análise gráfica para identificação de padrões
e outliers, testes de normalidade e independência dos resíduos, bem como a avaliação da
homocedasticidade e multicolinearidade. Uma comparação de dois modelos foi realizada para
determinar o mais adequado à explicação da variabilidade dos preços dos apartamentos.

Construção do modelo

Vamos analisar passo a passo os resultados do modelo de regressão linear múltipla


para avaliação do valor do mercado de apartamentos residenciais.

O modelo inclui variáveis como Tamanho, Idade, Andar, Número_Quartos,


Vagas_Garagem, Piscina e Bairro para prever o preço dos apartamentos.

Análise gráfica

Os gráficos são uma matriz de dispersão que mostra a relação entre as variáveis
independentes e os resíduos. Eles são úteis para identificar padrões, não linearidades ou
outliers.
No 1° gráfico, vemos os resíduos pelos valores ajustado e se houver linearidade, a
linha vermelha tem que tá aproximadamente horizontal.

No 2° gráfico conseguimos analisar se os resíduos apresentam distribuição normal, e


se eles apresentarem distribuição normal eles têm que tá na linha pontilhada.

No 3° gráfico iremos ver a homoscedasticidade, se houver tem que está disperso em


padrão retangular, não pode está em um padrão triangular.

No 4° gráfico conseguimos ver se existe outlier ou pontos influentes, caso exista irá
ter uma linha pontilhada vermelha e os pontos estarão para fora, e o esperado é que os
resíduos estejam entre -3 e +3.

Análise Numérica

Nos 5 pontos a seguir veremos as análises gráficas acima de forma numérica.

 Normalidade dos resíduos


A normalidade dos resíduos leva em conta a distribuição dos dados que para ser considerado
normal tem o p tem que ser maior que 0,05
 Outliers dos resíduos
Outliers são pontos de dados que se desviam significativamente do padrão geral de um conjunto
de dados.
Para os resíduos estarem dentro do esperado o intervalo tem que tá entre -3 e +3

 Independência dos resíduos


A independência dos resíduos significa que os valores residuais não estão correlacionados entre
si. Não há autocorrelação estando próximo de 2, e p maior que 0,05.

 Homoscedasticidade
A homoscedasticidade indica que a variabilidade dos erros de um modelo é constante em todos
os diferentes níveis da variável independente. Ela é representada pelo p, que maior que 0,05
indica que há homoscedasticidade.

 Ausência de multicolinearidade
A multicolinearidade ocorre quando duas ou mais variáveis independentes em um modelo estão
altamente correlacionadas entre si. A correlação entre as variáveis tem que ser <0,9.
Outra forma de ver a multicolinearidade é pelo vif, que é uma medida estatística que quantifica
a extensão da multicolinearidade em um modelo. Valores de VIF maiores que 5 ou 10 são
frequentemente considerados indicativos de multicolinearidade significativa.

Criação de um segundo modelo para comparação

Um segundo modelo é adicionado excluindo a variável idade para comparação.

Análise do modelo

Ambos os modelos mostram coeficientes estimados para cada variável independente,


decrescendo a magnitude e a direção da relação.
Abaixo vemos através do Asjusted R-squared a explicação do modelo através das
variáveis escolhidas. Sendo assim, vemos que o modelo 1 é explicado 84,51% pelas variáveis
escolhidas, já o modelo 2 é apenas 82,11%. Portanto, o modelo 1 é melhor que o modelo 2.

Modelo 1:
Modelo 2:

Coeficientes padronizados
Os coeficientes padronizados são úteis para comparar o efeito relativo das diferentes
variáveis independentes no modelo, especialmente quando as variáveis têm escalas diferentes.
Eles representam uma mudança no resultado (variável dependente) em termos de desvios
padrão quando uma variável independente correspondente aumenta em um desvio padrão.

Vemos que o tamanho tem um impacto maior em ambos modelos conforme


observado abaixo.

Intervalo de confiança

O intervalo de confiança é uma estatística que fornece uma faixa de valores plausíveis
para um parâmetro desconhecido. Ele é construído a partir de observações amostrais e fornece
uma medida de incerteza associada a uma estimativa. O intervalo de confiança expressa a
confiança de que o parâmetro real está contido nessa faixa.

AIC e BIC

É a explicação da variância não explicada pelo modelo, então quanto menor, melhor.
Modelos com AIC ou BIC mais baixos são geralmente considerados mais protegidos. Os
critérios AIC e BIC são usados para comparar modelos, buscando o equilíbrio entre o ajuste
do modelo e a penalização por complexidade.

Analisando os valores de AIC e BIC abaixo, vemos que o primeiro modelo é o


melhor.

Comparação entre os modelos


Comparando os modelos e analisando os dados abaixo, vemos através do p<0,05 que
não há diferenças significantes entre os modelos.

Análise do problema

A análise feita através da regressão linear múltipla mostrou um comparativo entre dois
modelos, e realizada as analises verificamos que os dois modelos são muito parecidos, mas o
modelo 1 acaba sendo melhor explica a variabilidade dos preços dos apartamentos.

Conclusão

A análise estatística revelou que o modelo inicial, que inclui todas as variáveis
consideradas, é estatisticamente superior ao segundo modelo, que exclui a variável “Idade”.
Os coeficientes estimados sugerem que o tamanho do apartamento, a quantidade de vagas de
garagem e o bairro em que está localizado têm impactos significativos no preço. A análise dos
resíduos não indicados abertamente nas premissas da regressão linear, reforçando a robustez
do modelo.

Ao considerar a normalidade, independência, homocedasticidade e ausência de


multicolinearidade, o modelo apresenta resultados confiáveis. No entanto, é importante notar
que a interpretação dos resultados deve ser feita com cuidado, uma vez que a
multicolinearidade entre as variáveis pode influenciar as estimativas dos coeficientes.

Você também pode gostar