Regressão: Modelos, Suposições e Validação

Análise de regressão
A análise de regressão é uma técnica de análise que calcula o

relacionamento estimado entre uma variável dependente e uma ou mais
variáveis explanatórias. Com a análise de regressão, você pode modelar o
relacionamento entre as variáveis escolhidas, como também, prever valores
com base no modelo.
Visão geral da análise de regressão

A análise de regressão utiliza um método de avaliação escolhido, uma variável dependente e
uma ou mais variáveis explanatórias para criar uma equação que estima os valores para a
variável dependente.
O modelo de regressão inclui saídas, como R2 e valores-p, para fornecer informações sobre
como o modelo avalia a variável dependente.
Gráficos, como matrizes do gráfico de dispersão, histogramas, e gráficos de pontos, também

podem ser utilizados na análise de regressão para analisar relacionamentos e suposições de
teste.
A análise de regressão pode ser utilizada para resolver os seguintes tipos de problemas:
 Determinar quais variáveis explanatórias estão relacionadas à variável dependente.

 Entender o relacionamento entre as variáveis dependentes e explanatórias.
 Prever valores desconhecidos da variável dependente.
Exemplos
Um analista de uma pequena cadeia de varejo está estudando o desempenho de diferentes
lojas. O analista deseja saber o motivo de algumas lojas estarem tendo um volume de vendas
inesperadamente baixo. O analista cria um modelo de regressão com variáveis explanatórias
como idade mediana e renda na vizinhança, como também, a distância até centros de varejo e
o transporte público, para determinar quais variáveis estão influenciando as vendas.
Um analista de um departamento de educação está estudando os efeitos dos programas de

café da manhã na escola. O analista cria um modelo de regressão dos resultados de
escolaridade, como a taxa de graduação, utilizando variáveis explanatórias como tamanho da
turma, renda familiar, orçamento escolar per capita e proporção de alunos tomando café da
manhã diariamente. A equação do modelo pode ser utilizada para determinar o efeito relativo
de cada variável nos resultados de escolaridade.
O analista de uma organização não governamental está estudando as emissões globais de

gases de efeito estufa. O analista cria um modelo de regressão para as emissões mais recentes
para cada país utilizando variáveis explanatórias como produto interno bruto (PIB),
população, produção de eletricidade utilizando combustíveis fósseis e uso de veículos. O
modelo pode então ser utilizado para prever futuras emissões de gases de efeito estufa
utilizando o PIB previsto e os valores da população.
Mínimos Quadrados Ordinários

A análise de regressão no ArcGIS Insights é modelada utilizando o método Mínimos
Quadrados Ordinários (OLS).
O método OLS é uma forma de multiplicar a regressão linear, ou seja, o relacionamento entre
as variáveis dependentes e as variáveis independentes deve ser modelado ao ajustar uma
equação linear aos dados observados.
Um modelo OLS utiliza a seguinte equação:
yi=β0+β1x1+β2x2+...+βnxn+ε
Onde:
 yi=o valor observado da variável dependente no ponto i

 β0=o intercepto y (valor constante)
 βn=o coeficiente de regressão ou declividade para a variável explanatória N no ponto i
 xn=o valor da variável N no ponto i
 ε=o erro da equação de regressão
Suposições
Cada método de regressão tem várias suposições que devem ser atendidas para que a equação
seja considerada confiável. As suposições do OLS devem ser validadas ao criar um modelo
de regressão.
As seguintes suposições devem ser testadas e atendidas ao utilizar o método OLS:
 O modelo deve ser linear.

 Os dados devem ser amostrados aleatoriamente.
 As variáveis explanatórias não devem ser colineares.
 As variáveis explanatórias devem ter erro insignificante na medição.
 Os residuais têm uma soma esperada de zero.
 Os residuais têm variação homogênea.
 Os residuais são normalmente distribuídos.
 Residuais adjacentes não devem mostrar autocorrelação.
O modelo deve ser linear
A regressão OLS pode ser utilizada somente para criar um modelo linear. A linearidade pode
ser testada entre a variável dependente e as variáveis explanatórias utilizando um gráfico de
dispersão. Uma matriz do gráfico de dispersão pode testar todas as variáveis, desde que não
haja mais do que cinco variáveis no total.
Os dados devem ser amostrados aleatoriamente

Os dados utilizados na análise de regressão devem ser amostrados de tal forma que as
amostras em si não dependam de nenhum fator externo. A amostragem aleatória pode ser
testada utilizando os residuais do modelo de regressão. Os residuais, que são uma saída do
modelo de regressão, não devem ter correlação quando confrontados com as variáveis
explanatórias em um gráfico de dispersão ou matriz do gráfico de dispersão.
As variáveis explanatórias não devem ser colineares
A colinearidade refere-se a um relacionamento linear entre variáveis explanatórias, o que cria

redundância no modelo. Em alguns casos, o modelo pode ser criado com colinearidade. No
entanto, se uma das variáveis colineares parecer dependente da outra, convém considerar a
eliminação desta variável do modelo. A colinearidade pode ser testada utilizando um gráfico
de dispersão ou matriz do gráfio de dispersão das variáveis explanatórias.
As variáveis explanatórias devem ter erro insignificante na medição
Um modelo de regressão é tão preciso quanto seus dados de entrada. Se as variáveis

explanatórias tiverem grandes margens de erro, o modelo não poderá ser aceito como exato.
Ao executar a análise de regressão, é importante utilizar somente conjuntos de dados de
fontes conhecidas e confiáveis para garantir que o erro seja insignificante.
Os residuais têm uma soma esperada de zero
Residuais são a diferença entre os valores observados e estimados em uma análise de

regressão. Valores observados que caem acima da curva de regressão terão um valor residual
positivo e os valores observados que caírem abaixo da curva de regressão terão um valor
residual negativo. A curva de regressão deve estar ao longo do centro dos pontos de dados;
portanto, a soma dos residuais deve ser zero. A soma de um campo pode ser calculada em
uma tabela de resumo.
Os residuais têm discrepância homogênea
A variação deve ser a mesma para todos os residuais. Esta suposição pode ser testada
utilizando um gráfico de dispersão de residuais (eixo y) e valores estimados (eixo x). O
gráfico de dispersão resultante deve aparecer como uma faixa horizontal de pontos plotados
aleatoriamente no gráfico.
Os residuais são normalmente distribuídos
Uma distribuição normal, também denominada curva de sino, é uma distribuição que ocorre
naturalmente, onde a frequência de um fenômeno é alta perto da média e diminui à medida
que a distância da média aumenta. Uma distribuição normal é frequentemente utilizada como
hipótese nula em uma análise de estatística. Os residuais devem ser normalmente distribuídos
para mostrar que a linha de melhor ajuste é otimizada centralmente dentro dos pontos de
dados observados, não inclinada em direção a alguns e longe de outros. Esta suposição pode
ser testada criando um histograma com os residuais. A curva de distribuição normal pode ser
sobreposta e medidas de assimetria e curtose são relatadas na parte de trás do cartão de
histograma.
Residuais adjacentes não devem mostrar autocorrelação

Esta suposição é baseada em dados ordenados por tempo. Se os dados estiverem ordenados
por tempo, cada ponto de dados deverá ser independente do ponto de dados anterior ou
posterior. Portanto, é importante certificar-se que seus dados ordenados pelo tempo estejam
organizados na ordem correta ao executar uma análise de regressão. Esta suposição pode ser
calculada utilizando um teste de Durbin-Watson.
O teste Durbin-Watson é uma medida de autocorrelação em residuais de um modelo de

regressão. O teste Durbin-Watson utiliza uma escala de 0 a 4, com valores de 0 a 2 indicando
autocorrelação positiva, 2 indicando ausência de autocorrelação e 2 a 4 indicando
autocorrelação negativa. Portanto, valores próximos a 2 são necessários para atender à
hipótese de não haver autocorrelação nos residuais. Em geral, valores entre 1.5 e 2.5 são
considerados aceitáveis, enquanto valores menores que 1.5 ou maiores que 2.5 indicam que o
modelo não se encaixa na suposição de nenhuma autocorrelação.
Validade do modelo
A precisão de uma equação de regressão é uma parte importante da análise de regressão.
Todos os modelos incluirão uma quantidade de erro, mas a compreensão das estatísticas
ajudará você a determinar se o modelo poderá ser utilizado em sua análise ou se será
necessário fazer ajustes.
Há duas técnicas para determinar a validade de um modelo de regressão: análise

exploratória e análise confirmatória.
Análise explanatória
A análise exploratória é um método de entender seus dados utilizando uma variedade de

técnicas visuais e de estatísticas. Ao longo de sua análise exploratória, você testará as
suposições da regressão OLS e comparará a eficácia de diferentes variáveis explanatórias. A
análise exploratória permitirá comparar a eficácia e a precisão de diferentes modelos, mas
não determina se você deve utilizar ou rejeitar seu modelo. A análise exploratória deve ser
realizada antes da análise confirmatória para cada modelo de regressão e reiterada para fazer
comparações entre os modelos.
Os seguintes gráficos e estatísticas podem ser utilizados como parte da análise exploratória:
 Gráfico de dispersão e matriz do gráfico de dispersão

 Histograma e distribuição normal
 Equação de regressão e previsão de novas observações
 Coeficiente de determinação, R2 e R2 Ajustado
 Erro padrão de residual
 Gráfico de pontos
A análise exploratória deve começar enquanto você escolhe variáveis explanatórias e antes de
criar um modelo de regressão. Como o OLS é um método de regressão linear, um das
principais suposições é que o modelo deve ser linear. Um gráfico de dispersão ou matriz do
gráfico de dispersão pode ser utilizado para avaliar a linearidade entre a variável dependente
e as variáveis explanatórias. Uma matriz do gráfico de dispersão pode exibir até quatro
variáveis explanatórias junto com a variável dependente, tornando-a uma ferramenta
importante para comparações em larga escala entre todas as variáveis. Um único gráfico de
dispersão exibe somente duas variáveis: uma dependente e uma independente ou
explanatória. Visualizar um gráfico de dispersão da variável dependente e uma única variável
explanatória permite a você fazer uma avaliação mais aguda da relação entre as variáveis. A
linearidade pode ser testada antes de criar um modelo de regressão para ajudar a determinar
quais variáveis explanatórias criarão um modelo aceitável.
Várias saídas de estatísticas estão disponíveis após a criação de um modelo de regressão,

incluindo a equação de regressão, valor de R2 , e teste de Durbin-Watson. Após criar um
modelo de regressão, você deverá utilizar os resultados e tabelas e gráficos necessários para
testar o restante de suposições da regressão de OLS. Se o seu modelo atender as suposições,
você poderá continuar com a análise exploratória restante.
A equação de regressão fornece informações valiosas sobre a influência de cada variável

explanatória nos valores previstos, incluindo o coeficiente de regressão para cada variável
explanatória. Os valores de declividade podem ser comparados para determinar a influência
relativa de cada variável explanatória na variável dependente; quanto mais longe o valor de
declividade estiver de zero (positivo ou negativo), maior a influência. A equação de regressão
também pode ser utilizada para prever valores para a variável dependente, inserindo valores
para cada variável explanatória.
O coeficiente de determinação, simbolizado como R2, mede quão bem a equação de regressão

modela os pontos de dados reais. O valor R2 é um número entre 0 e 1, com valores mais
próximos de 1, indicando modelos mais precisos. Um valor R2 de 1 indica um modelo perfeito,
o que é altamente improvável em situações do mundo real, dada a complexidade das
interações entre diferentes fatores e variáveis desconhecidas. Portanto, você deve se esforçar
para criar um modelo de regressão com o valor R2 o mais alto possível, ao reconhecer que o
valor poderá não estar próximo de 1.
Ao executar a análise de regressão, há o risco de criar um modelo de regressão que tenha um

valor de R2 aceitável, adicionando variáveis explanatórias que causam um melhor ajuste
baseado somente no acaso. O valor R2 ajustado, que também é um valor entre 0 e 1, representa
variáveis explanatórias adicionais, reduzindo o papel que o acaso desempenha no cálculo.
O R2 ajustado deve ser utilizado para modelos com muitas variáveis explanatórias, ou ao
comparar modelos com diferentes números de variáveis explanatórias.
O erro padrão residual mede a precisão com a qual o modelo de regressão pode prever
valores com novos dados. Valores menores indicam um modelo mais preciso; portanto,
quando vários modelos são comparados, o modelo com o menor valor será o modelo que
minimizará o erro padrão residual.
Gráficos de pontos podem ser utilizados para analisar suas variáveis explanatórias em busca
de padrões como agrupamentos e valores atípicos, que podem afetar a precisão do modelo.
Análise confirmatória
A análise confirmatória é o processo de testar seu modelo contra uma hipótese nula. Na
análise de regressão, a hipótese nula é que não há relação entre a variável dependente e as
variáveis explanatórias. Um modelo sem relacionamento teria valores de declividade 0. Se os
elementos de sua análise confirmatória forem estatisticamente significativos, você poderá
rejeitar a hipótese nula (em outras palavras, a significância estatística indica que existe um
relacionamento entre as variáveis dependentes e explanatórias).
Os seguintes resultados de estatística são utilizados para determinar a significância como

parte da análise confirmatória:
 Estatística F e seu valor p associado

 Estatística t e seus valores p associados
 Intervalos de confiança
A estatística F é uma estatística global retornada de um teste F, que indica a capacidade

preditiva do modelo de regressão, determinando se todos os coeficientes de regressão no
modelo são significativamente diferentes de 0. O teste F analisa a influência combinada das
variáveis explanatórias, em vez de testar as variáveis explanatórias individualmente. A
estatística F tem um valor p associado, o que indica a probabilidade de que os
relacionamentos nos seus dados estejam acontecendo por acaso. Já que os valores p são
baseados em probabilidades, os valores são fornecidos em uma escala de 0.0 a 1.0. Um valor
p pequeno, geralmente 0.05 ou menor, é necessário para determinar que os relacionamentos
no modelo são reais (em outras palavras, não acontecendo por acaso) e para rejeitar a
hipótese nula. Neste caso, a probabilidade dos relacionamentos no modelo estarem
acontecendo por acaso é de 0.05, ou 1 em 20. Alternativamente, a probabilidade de que os
relacionamentos sejam reais é de 0.95, ou 19 em 20.
A estatística t é uma estatística local retornada de um teste t, que indica a capacidade

preditiva de cada variável explanatória individualmente. Como o teste F, o teste t analisa se
os coeficientes de regressão no modelo são significativamente diferentes de zero. No entanto,
como é realizado um teste t em cada variável explanatória, o modelo retornará um valor de
estatística t para cada variável explanatória, em vez de um por modelo. Cada estatística t tem
um valor p associado, o que indica a significância da variável explanatória. Como os valores
p para o teste F, o valor p para cada teste t deve ser 0.05 ou menor para rejeitar a hipótese
nula. Se uma variável explanatória tiver um valor p maior que 0.05, a variável deverá ser
descartada e um novo modelo deverá ser criado, mesmo que o valor p global seja
significativo.
Intervalos de confiança mostram o coeficiente de regressão para cada variável explanatória e

os intervalos de confiança de 90, 95 e 99 por cento associados. Portanto, os intervalos de
confiança podem ser utilizados juntamente com os valores-p dos testes t para avaliar a
hipótese nula para variáveis explanatórias individuais. Os coeficientes de regressão não
devem ser iguais a 0 para rejeitar a hipótese nula e continuar utilizando o modelo. Portanto,
para cada variável explicativa, o coeficiente de regressão e os intervalos de confiança
associados não devem se sobrepor a 0. Se um intervalo de confiança de 99 ou 95 por cento
para uma determinada variável explicativa se sobrepõe a 0, a variável explicativa falhou em
rejeitar a hipótese nula. A inclusão desta variável em seu modelo pode afetar a importância
geral do seu modelo. Se somente o intervalo de confiança de 90 por cento se sobrepuser a 0, a
variável explanatória poderá ser incluída no modelo, desde que as outras estatísticas globais
sejam significativas. Idealmente, os intervalos de confiança para todas as variáveis
explanatórias devem estar longe de 0.
Outras saídas
Outras saídas, como valores estimados e residuais, são importantes para testar as suposições
da regressão de OLS. Nesta seção, você aprenderá mais sobre como estes valores são
calculados.
Valores estimados
Os valores estimados são calculados utilizando a equação de regressão e os valores para cada
variável explanatória. Idealmente, os valores estimados seriam iguais aos valores observados
(em outras palavras, os valores reais da variável dependente).
Os valores estimados são utilizados com os valores observados para calcular residuais.
Residuais
Os valores residuais em uma análise de regressão são as diferenças entre os valores

observados no conjunto de dados e os valores estimados, calculados com a equação de
regressão.
Os residuais A e B para o relacionamento acima seriam calculados da seguinte maneira:
residualsA = observedA - estimatedA residualsA = 595 - 487.62 residualsA = 107.38

residualsB = observedB - estimatedB residualsB = 392 - 527.27 residualsB = -135.27
Residuais podem ser utilizados para calcular erros em uma equação de regressão, como
também, para testar várias suposições.
Regressão Linear Generalizada
A ferramenta executa a Regressão Linear Generalizada (GLR) para gerar

previsões ou para modelar uma variável dependente em termos de sua
relação com um conjunto de variáveis explanatórias. Esta ferramenta pode
ser utilizada para ajustar os modelos contínuos (Gaussiano), binário
(logística) e contagem (Poisson).
Diagrama do fluxo de trabalho

Análise utilizando GeoAnalytics Tools
A análise usando GeoAnalytics Tools é executada usando processamento distribuído através
de múltiplas máquinas e núcleos do ArcGIS GeoAnalytics Server . GeoAnalytics Tools e
ferramentas de análise da feição padrão no ArcGIS Enterprise têm diferentes parâmetros e
recursos. Para aprender mais sobre estas diferenças, consulte Diferenças da ferramenta da
análise de feição.
Exemplos
A seguir estão exemplos de uso da ferramenta:
 Como analista de GIS em uma empresa de serviços públicos, você tem um conjunto
de dados de interrupções de energia, como também, dados meteorológicos extremos.
Você enriquece seus dados de interrupção utilizando as ferramentas Construir Grade
de Múltiplas Variáveis e Enriquecer da Grade de Múltiplas Variáveis para criar um
conjunto de dados com informações meteorológicas extremas para as interrupções.
Você utiliza a Regressão Linear Generalizada para determinar o evento que levou à
falta de energia. Agora que você tem estas informações, é possível prever interrupções
e alocar recursos.
 Como um analista de uma cidade grande, você tem históricos de registros de
chamadas 911, como também, informações demográficas. Você precisa responder as
seguintes perguntas: Quais variáveis efetivamente predizem o volume de chamadas
911? Considerando as projeções futuras, qual é a demanda esperada pelos recursos de
resposta a emergências?
Anotações de uso
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Ajustar um modelo
para avaliar o desempenho do modelo pode ser utilizada para avaliar o desempenho de
diferentes modelos à medida que você explora diferentes variáveis explanatórias e
configurações da ferramenta. Após um bom modelo ser encontrado, você poderá utilizar a
opção Ajustar um modelo e prever valores .
Utilize o parâmetro Escolha uma camada para gerar um modelo com um campo

representando os fenômenos que você está modelando (Escolha o campo para modelar) e
um ou mais campos representando as variáveis explanatórias. Estes campos devem ser
numéricos e ter um intervalo de valores. Feições que contêm valores ausentes na variável
dependente ou explanatória serão excluídas da análise. Se você deseja modificar valores
nulos, utilize a ferramenta Calcular Campo primeiro para criar uma nova camada com valores
atualizados.
A ferramenta Regressão Linear Generalizada também produz feições de saída e diagnósticos.

Camadas de feição de saída são automaticamente adicionadas ao mapa com um esquema de
renderização aplicado ao modelo de residuais. Uma explicação completa de cada saída é
fornecida abaixo.
É importante utilizar o modelo correto (Contínuo, Binário ou Contagem) na sua análise

para obter resultados precisos de sua análise de regressão.
Os resultados de resumo do modelo e os diagnósticos são gravados na janela de mensagens e

os gráficos serão criados abaixo da classe de feição de saída. Os diagnósticos reportados
dependem do Tipo de Modelo. As três opções para tipo de modelo são como segue:
 Utilize o tipo de modelo Contínuo (Gaussian) se a sua variável dependente puder

assumir uma ampla gama de valores, como temperatura ou total de vendas.
Idealmente, sua variável dependente será normalmente distribuída.
 Utilize um tipo de modelo Binário (logística) se a sua variável dependente puder
assumir um dos dois valores possíveis, como sucesso e falha ou presença e ausência.
O campo que contém sua variável dependente deve ser numérico e conter somente
uns e zeros. Deve haver variação de uns e zeros em seus dados.
 Considere utilizar o tipo de modelo Contagem (Poisson) se a sua variável dependente
for discreta e representar o número de ocorrências de um evento, como uma contagem
de crimes. Os modelos de contagem também podem ser utilizados se a sua variável
dependente representar uma taxa e o denominador da taxa for um valor fixo, como
vendas por mês ou número de pessoas com câncer por 10.000 na população. Um
modelo Contagem assume que a média e a variância da variável dependente são
iguais e os valores de sua variável dependente não podem ser negativos ou conter
decimais.
Os parâmetros da variável dependente e da variável explanatória devem ser campos

numéricos contendo um intervalo de valores. Esta ferramenta não pode resolver quando as
variáveis têm os mesmos valores (se todos os valores para um campo forem 9.0, por
exemplo).
Recursos com um ou mais valores nulos ou valores de string vazios em campos de previsão
ou explanatórios serão excluídos da saída. Se necessário, você pode modificar os valores
utilizando Calcular Campo.
Você deve inspecionar visualmente as previsões inferiores e superiores evidentes em seus

resíduos de regressão para verificar se eles fornecem pistas sobre possíveis variáveis ausentes
do seu modelo de regressão.
Você pode utilizar o modelo de regressão que foi criado para fazer previsões para outras
feições. Criar estas previsões exige que cada feição de previsão (Escolha uma camada para
prever valores) tenha valores para cada uma das variáveis explanatórias fornecidas. Se os
nomes de campo das feições de entrada e parâmetros dos locais de previsão não
corresponderem, um parâmetro de correspondência da variável será fornecido. Ao combinar
as variáveis explanatórias, os campos das feições de entrada e parâmetros dos locais de
previsão deverão ser do mesmo tipo (por exemplo, campos duplos devem ser correspondidos
com campos duplos).
Saídas
A ferramenta Regressão Linear Generalizada produz uma variedade de saídas. Um resumo do
modelo GLR e resumos de estatística estão disponíveis na página de item do portal e como
uma feição na sua camada. Para acessar o resumo dos seus resultados, clique em Mostrar
Resultados na sua camada resultante no Map Viewer Classic. A ferramenta gera
pelo menos uma camada de saída e uma saída opcional prevista. As feições de saída são
automaticamente adicionadas no Map Viewer Classic com um esquema de renderização de
ponto ativo e não ativo aplicado ao modelo residual. Os diagnósticos gerados dependem do
tipo de modelo das feições de entrada e são descritos abaixo.
Contínuo (Gaussian)
Interpretar mensagens e diagnósticos
 AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para

comparar modelos de regressão. Levando em conta a complexidade do modelo, o
modelo com o menor valor de AIC fornece um melhor ajuste aos dados observados. O
AIC não é uma medida absoluta do bom ajuste, mas é útil para comparar modelos
com diferentes variáveis explanatórias, desde que se apliquem à mesma variável
dependente. Se os valores de AIC para dois modelos diferirem em mais de 3, o
modelo com o valor de AIC mais baixo será considerado mais preciso.
 AICc—AICc aplica uma correção de polarização ao AIC para amostras pequenas. O
AICc abordará a AIC conforme o número de feições no aumento de entrada. Consulte
a AIC acima.
 R2 Múltiplo—O R2 é uma medida de bom ajuste. Seu valor varia de 0.0 a 1.0, com
valores mais altos sendo preferíveis. Pode ser interpretado como a proporção de
variância da variável dependente contabilizada pelo modelo de regressão. O
denominador para o cálculo R2 é a soma dos valores das variáveis dependentes ao
quadrado. Adicionar uma variável explanatória extra ao modelo não altera o
denominador, mas altera o numerador; isso dá a impressão de melhora no ajuste do
modelo que pode não ser real. Consulte o R2 Ajustado abaixo.
 R2 Ajustado—Por causa do problema descrito acima para o valor de R2, os cálculos
para o valor de R2 ajustado normalizam o numerador e o denominador por seus graus
de liberdade. Isto tem o efeito de compensar o número de variáveis em um modelo e,
consequentemente, o valor de R2 Ajustado é quase sempre menor que o valor de R2.
No entanto, ao fazer este ajuste, você perde a interpretação do valor como uma
proporção da variação explanada. Na Regressão Geograficamente Ponderada (GWR),
o número efetivo de graus de liberdade é uma função de vizinhança utilizada, então o
ajuste pode ser bastante marcado em comparação com um modelo global como GLR.
Por esta razão, a AICc é preferida como um meio de comparar modelos.
Binário (Logística)

a AIC acima.
Contagem (Poisson)

a AIC acima.
Limitações
A implementação do GeoAnalytics da Regressão Linear Generalizada tem as seguintes
limitações:
 É um modelo de regressão global e não leva em conta a distribuição espacial dos

dados.
 A análise não se aplica ao teste de Moran sobre os residuais.
 Conjuntos de dados de feição (pontos, linhas, polígonos e tabelas) são suportados
como entrada; rasters não são suportados.
 Você não pode classificar valores em múltiplas classes.
Exemplo de ArcGIS API for Python

A ferramenta Regressão Linear Generalizada está disponível no ArcGIS API for Python.
Este exemplo ajusta um modelo em um conjunto de dados e aplica a previsão a outro.
# Import the required ArcGIS API for Python modules

import arcgis
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password",
verify_cert=False)
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Search for and list the big data file shares in your portal
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SalesData")
# Look through the big data file share for 2018 sales data to model
model_layer = next(x for x in bdfs_search.layers if x.properties.name == "2018_sales")
# Find the dataset you want to predict

predict_layer_search = portal.content.search("Sales_2025", "Feature Layer")
predict_layer = predict_layer_search[0].layers[0]
# Run the Generalized Linear Regression tool

glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = model_layer,
features_to_predict = predict_layer,
var_explanatory = "salestotal, store_count, advertisingcost",
var_dependent = "chicago_crimes_enriched",
regression_family = "Count",
exp_var_matching = [{"predictionLayerField":"store_count",
"trainingLayerField":
"num_of_stores"}],
output_name = "predicted_customers")
# Visualize the results if you are running Python in a Jupyter Notebook

processed_map = portal.map()
processed_map.add_layer(glr_result)
processed_map
Ferramentas semelhantes
Use a ferramenta Regressão Linear Generalizada do ArcGIS GeoAnalytics Server para gerar
previsões ou modelar uma variável dependente em termos de sua relação com um conjunto de
variáveis explanatórias. Outras ferramentas podem ser úteis para solucionar problemas
semelhantes, mas ligeiramente diferentes.
Ferramentas de análise do Map Viewer Classic
Crie modelos e previsões utilizando a ferramenta Classificação e Regressão baseadas em

Floresta do ArcGIS GeoAnalytics Server.
Ferramentas de análise do ArcGIS Desktop

Para executar a ferramenta do ArcGIS Pro, o portal ativo deve ser Enterprise 10.7 ou
posterior. Você deve registrar no portal utilizando uma conta que tenha privilégios para
executar GeoAnalytics Análise de Feição.
Execute operações de regressão semelhantes no ArcGIS Pro com a ferramenta de

geoprocessamento Regressão Linear Generalizada como parte da caixa de ferramentas
Estatística Espacial.
Crie modelos e previsões utilizando uma adaptação do algoritmo de floresta aleatório de Leo
Breiman no ArcGIS Pro com a ferramenta de geoprocessamento Classificação e Regressão
baseadas em Floresta como parte da caixa de ferramentas Estatística Espacial.
Execute GWR no ArcGIS Pro com a ferramenta de geoprocessamento Regressão

Geograficamente Ponderada como parte da caixa de ferramentas Estatística Espacial.
Classificaçã o e Regressã o baseada em Floresta

ArcGIS 10.7.x | Outras versões| Arquivo de ajuda
A ferramenta Classificação e Regressão baseada em Floresta cria modelos e gera

previsões utilizando uma adaptação do algoritmo de floresta aleatório de Leo Breiman, o qual
é um método de aprendizagem de máquina supervisionada. As previsões podem ser
realizadas para variáveis categóricas (classificação) e contínuas (regressão). As variáveis
explanatórias podem tomar a forma de campos na tabela de atributos das feições de
treinamento. Além da validação da performance do modelo baseado nos dados de
treinamento, as previsões podem ser feitas para as feições.
Análise utilizando Ferramentas de GeoAnalytics

A análise utilizando Ferramentas de GeoAnalytics é executada utilizando o processamento
distribuído em múltiplas máquinas e núcleos do ArcGIS GeoAnalytics Server .
O Ferramentas de GeoAnalytics e ferramentas da análise de feição padrão no ArcGIS
Enterprise têm diferentes parâmetros e recursos. Para aprender mais sobre estas diferenças,
consulte Diferenças da ferramenta da análise de feição.
Exemplos
 Considerando os dados sobre a ocorrência de ervas marinhas, como também, um número
de variáveis ambientais explanatórias, além da distancie para fábricas a montante e
principais portos, futura ocorrência de ervas marinhas pode ser prevista com base em
projeções futuras para estas mesmas variáveis explanatórias ambientais.
 Os valores da habitação podem ser previstos com base nos preços das casas que foram
vendidas no ano em curso. O preço de venda das casas vendidas, juntamente com
informações sobre o número de quartos, a distância das escolas, a proximidade das
principais rodovias, a renda média e a contagem de crimes podem ser utilizados para prever
preços de venda de casas semelhantes.
 As informações fornecidas sobre os níveis de sangue de crianças e o ID de lotes de imposto
de suas casas, combinou com atributos de nível de lotes, como idade da casa, dados de nível
de censo, tais como, renda e níveis de educação, e conjunto de dados nacionais refletindo
lançamento tóxico de combinações principais, o risco de exposição principal dos lotes sem
dados de nível de sangue principais podem ser previstos. Estas previsões de risco podem
informar políticas e programas de educação na área.
Anotações de uso
Esta ferramenta cria centenas de árvores, chamadas de um conjunto de árvores de decisão,
para criar um modelo que pode então ser utilizado para previsão. Cada árvore de decisão é
criada utilizando porções geradas dos dados originais (treinamento) aleatoriamente. Cada
árvore gera sua própria previsão e vota em um resultado. O modelo de floresta considera
votos de todas árvores de decisão para prever ou classificar os resultados de uma amostra
desconhecida. Isto é importante, como árvores individuais podem ter problemas com ajuste
de um modelo; entretanto, combinar árvores múltiplas em uma floresta para endereços de
previsão do problema de ajuste associado com uma árvore única.
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Treinar um modelo
para avaliar o desempenho do modelo pode ser utilizado para avaliar o desempenho de
modelos diferentes ao explorar variáveis explicativas diferentes e configurações de
ferramenta. Após um bom modelo ter sido localizado, você pode utilizar a opção Ajustar um
modelo e prever valores . Esta é uma ferramenta de dados dinâmicos e executa melhor em
conjunto de dados grandes. A ferramenta deve ser treinada em pelo menos cem feições para
melhores resultados. Não é uma ferramenta apropriada para conjunto de dados muito
pequeno.
As Feições de Treinamento de Entrada podem ser feições de tabelas, pontos, linha ou de

área. Esta ferramenta não funciona com dados de partes múltiplas.
Esta ferramenta produz uma variedade de saídas. As saídas produzidas variam dependendo
do modo de operação como seguem:
 Treinar um modelo para avaliar o desempenho do modelo produz as duas saídas seguintes:

o Feições de treinamento de saída—Contém todas as Feições de Treinamento de
Entrada utilizado no modelo criado como também todas as variáveis explicativas no
modelo. Também contém previsões para todas as feições para treinar o modelo, que
pode ser útil ao avaliar o desempenho do modelo criado.
o Mensagens de resumo da ferramenta—Mensagens para ajudar você a entender o
desempenho do modelo criado. As mensagens incluem informações sobre as
características do modelo, erros, importância de variável e diagnósticos de
validação. Para acessar o resumo de seus resultados, clique em Mostrar
Resultados na camada resultante no Map Viewer. As informações

sumárias também estão adicionadas à página de detalhes do item.
 Ajustar um modelo e prever valores produz as três saídas seguintes:
o Feições de treinamento de saída—Contém todas as Feições de Treinamento de
Entrada utilizado no modelo criado como também todas as variáveis explicativas no
modelo. Também contém previsões para todas as feições para treinar o modelo, que
pode ser útil ao avaliar o desempenho do modelo criado.
o Feições previstas de saída—Uma camada de resultados previstos. As previsões são
aplicadas à camada para prever (Escolher a camada para prever valores) utilizando
o modelo gerado a partir da camada de treinamento.
o Mensagens de resumo da ferramenta—Mensagens para ajudar você a entender o
desempenho do modelo criado. As mensagens incluem informações sobre as

Você pode utilizar o parâmetro Tabela de Importância de Variável de Saída para criar uma

tabela para exibir um gráfico de importância de variável para avaliação. Os 20 valores de
importância de variável superiores também são reportados na janela de mensagens. O gráfico
pode ser diretamente acessado abaixo da camada no painel Conteúdo .
As variáveis explicativas podem ser provenientes de campos e devem conter uma variedade
de valores. Se a variável explicativa for categórica, a caixa de seleção Categórica deve ser
marcada (variáveis de tipo string serão marcadas automaticamente). As variáveis explicativas
categóricas são limitadas a 60 valores únicos, entretanto, um número menor de categorias
melhorará o desempenho do modelo. Para um tamanho de dados fornecido, quanto mais
categorias uma variável contiver, mais ela irá dominar o modelo e levar a resultados de
previsão menos efetivos.
Ao combinar variáveis explicativas, o Campo de Treinamento e Campo de Previsão deve

ter campos que sejam do mesmo tipo (um campo duplo no Campo de Treinamento deve ser
combinado com um campo duplo no Campo de Previsão por exemplo).
Os modelos baseados em floresta não extrapolam; eles podem somente classificar ou prever
um valor em que o modelo foi treinado. Treine o modelo com feições de treinamento e
variáveis explicativas que estão dentro da faixa de suas feições de alvo e variáveis. A
ferramenta falhará se houver categorias nas variáveis explicativas de previsão que não foram
apresentas nas feições de treinamento.
O valor padrão deste parâmetro Número de Árvores é 100. O aumento do número de árvores
no modelo de floresta resultará em um previsão do modelo mais precisa, mas o modelo
demorará mais para calcular.
Para saber mais sobre como esta ferramenta funciona e a ArcGIS Pro ferramenta de
geoprocessamento na qual esta implementação é baseada, consulte Como funciona a
ferramenta Classificação e Regressão baseada em Floresta.
Limitações
A implementação de GeoAnalytics da Classificação e Regressão baseada em Floresta tem as
seguintes limitações:
 O conjunto de dados de feição (pontos, linhas, polígonos e tabelas) são suportados como
entrada. Rasters não são suportados.
 Uma camada única para treinamento e uma camada única para previsão são suportadas.
Para combinar conjuntos de dados múltiplos em um, utilize as ferramentas Construir Grade
de Múltiplas Variáveis e Enriquecer de Grade de Múltiplas Variáveis para gerar os dados de
entrada.

A ferramenta Classificação e Regressão baseada em Florestas está disponível no ArcGIS API
for Python.
Este exemplo constrói um modelo e prevê vendas de sorvete.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal =
GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if
not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result =
portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x
for x in search_result if x.title == "bigDataFileShares_IceCreamSales")
# Run the tool Forest-based Classification and Regression to predict forest_model =
arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train", input_layer =
bd_file, var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false}, {"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}], sample_size = 50, output_name =
"ice_cream_prediction")
Utilize a ferramenta Classificação e Regressão baseada em floresta do ArcGIS GeoAnalytics
Server para gerar previsões ou modelar utilizando uma adaptação do algoritmo de floresta
aleatório de Leo Breiman. Outras ferramentas podem ser úteis para solucionar problemas
semelhantes, mas ligeiramente diferentes.
Ferramentas de análise do Map Viewer
Crie modelos e previsões utilizando a ferramenta ArcGIS GeoAnalytics Server Regressão

Linear Generalizada .
Ferramenta de análise do ArcGIS Desktop

Execute as operações de regressão semelhantes no ArcGIS Pro com a ferramenta de

geoprocessamento Classificação e Regressão baseada em floresta como parte da caixa de
ferramentas Estatística Espacial.
Execute Regressão Linear Generalizada (GLR) para gerar previsões ou modela uma variável
dependente em termos de sua relação com um conjunto de variáveis explanatórias no ArcGIS
Pro com a ferramenta de geoprocessamento Regressão Linear Generalizada na caixa de
Execute Regressão Geograficamente Ponderada (GWR) no ArcGIS Pro com a ferramenta de

geoprocessamento Regressão Geograficamente Ponderada na caixa de ferramentas Estatística
Espacial.
Classificação e Regressão baseada em Floresta

A ferramenta Classificação e Regressão baseada em Floresta cria modelos e
gera previsões utilizando uma adaptação do algoritmo de floresta aleatório de
Leo Breiman, o qual é um método de aprendizagem de máquina
supervisionada. As previsões podem ser realizadas para variáveis
categóricas (classificação) e contínuas (regressão). As variáveis
explanatórias podem tomar a forma de campos na tabela de atributos das
feições de treinamento. Além da validação da performance do modelo
baseado nos dados de treinamento, as previsões podem ser feitas para as
feições.
Análise utilizando Ferramentas de GeoAnalytics

A análise utilizando Ferramentas de GeoAnalytics é executada utilizando o processamento
distribuído em múltiplas máquinas e núcleos do ArcGIS GeoAnalytics Server .
O Ferramentas de GeoAnalytics e ferramentas da análise de feição padrão no ArcGIS
Enterprise têm diferentes parâmetros e recursos. Para aprender mais sobre estas diferenças,
consulte Diferenças da ferramenta da análise de feição.
Exemplos
 Considerando os dados sobre a ocorrência de ervas marinhas, como também, um
número de variáveis ambientais explanatórias, além da distancie para fábricas a
montante e principais portos, futura ocorrência de ervas marinhas pode ser prevista
com base em projeções futuras para estas mesmas variáveis explanatórias ambientais.
 Os valores da habitação podem ser previstos com base nos preços das casas que foram
vendidas no ano em curso. O preço de venda das casas vendidas, juntamente com
informações sobre o número de quartos, a distância das escolas, a proximidade das
principais rodovias, a renda média e a contagem de crimes podem ser utilizados para
prever preços de venda de casas semelhantes.
 As informações fornecidas sobre os níveis de sangue de crianças e o ID de lotes de
imposto de suas casas, combinou com atributos de nível de lotes, como idade da casa,
dados de nível de censo, tais como, renda e níveis de educação, e conjunto de dados
nacionais refletindo lançamento tóxico de combinações principais, o risco de
exposição principal dos lotes sem dados de nível de sangue principais podem ser
previstos. Estas previsões de risco podem informar políticas e programas de educação
na área.
Anotações de uso
Esta ferramenta cria centenas de árvores, chamadas de um conjunto de árvores de decisão,
para criar um modelo que pode então ser utilizado para previsão. Cada árvore de decisão é
criada utilizando porções geradas dos dados originais (treinamento) aleatoriamente. Cada
árvore gera sua própria previsão e vota em um resultado. O modelo de floresta considera
votos de todas árvores de decisão para prever ou classificar os resultados de uma amostra
desconhecida. Isto é importante, como árvores individuais podem ter problemas com ajuste
de um modelo; entretanto, combinar árvores múltiplas em uma floresta para endereços de
previsão do problema de ajuste associado com uma árvore única.
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Treinar um modelo
para avaliar o desempenho do modelo pode ser utilizado para avaliar o desempenho de
modelos diferentes ao explorar variáveis explicativas diferentes e configurações de
ferramenta. Após um bom modelo ter sido localizado, você pode utilizar a opção Ajustar um
modelo e prever valores . Esta é uma ferramenta de dados dinâmicos e executa melhor em
conjunto de dados grandes. A ferramenta deve ser treinada em pelo menos cem feições para
melhores resultados. Não é uma ferramenta apropriada para conjunto de dados muito
pequeno.
As Feições de Treinamento de Entrada podem ser feições de tabelas, pontos, linha ou de

área. Esta ferramenta não funciona com dados de partes múltiplas.
Esta ferramenta produz uma variedade de saídas. As saídas produzidas variam dependendo
do modo de operação como seguem:
 Treinar um modelo para avaliar o desempenho do modelo produz as duas saídas

seguintes:
o Feições de treinamento de saída—Contém todas as Feições de Treinamento
de Entrada utilizado no modelo criado como também todas as variáveis
explicativas no modelo. Também contém previsões para todas as feições para
treinar o modelo, que pode ser útil ao avaliar o desempenho do modelo criado.
o Mensagens de resumo da ferramenta—Mensagens para ajudar você a entender
o desempenho do modelo criado. As mensagens incluem informações sobre as

 Ajustar um modelo e prever valores produz as três saídas seguintes:
o Feições de treinamento de saída—Contém todas as Feições de Treinamento
de Entrada utilizado no modelo criado como também todas as variáveis
explicativas no modelo. Também contém previsões para todas as feições para
treinar o modelo, que pode ser útil ao avaliar o desempenho do modelo criado.
o Feições previstas de saída—Uma camada de resultados previstos. As previsões
são aplicadas à camada para prever (Escolher a camada para prever
valores) utilizando o modelo gerado a partir da camada de treinamento.
o Mensagens de resumo da ferramenta—Mensagens para ajudar você a entender
o desempenho do modelo criado. As mensagens incluem informações sobre as

Você pode utilizar o parâmetro Tabela de Importância de Variável de Saída para criar uma

tabela para exibir um gráfico de importância de variável para avaliação. Os 20 valores de
importância de variável superiores também são reportados na janela de mensagens. O gráfico
pode ser diretamente acessado abaixo da camada no painel Conteúdo .
As variáveis explicativas podem ser provenientes de campos e devem conter uma variedade
de valores. Se a variável explicativa for categórica, a caixa de seleção Categórica deve ser
marcada (variáveis de tipo string serão marcadas automaticamente). As variáveis explicativas
categóricas são limitadas a 60 valores únicos, entretanto, um número menor de categorias
melhorará o desempenho do modelo. Para um tamanho de dados fornecido, quanto mais
categorias uma variável contiver, mais ela irá dominar o modelo e levar a resultados de
previsão menos efetivos.
Ao combinar variáveis explicativas, o Campo de Treinamento e Campo de Previsão deve

ter campos que sejam do mesmo tipo (um campo duplo no Campo de Treinamento deve ser
combinado com um campo duplo no Campo de Previsão por exemplo).
Os modelos baseados em floresta não extrapolam; eles podem somente classificar ou prever
um valor em que o modelo foi treinado. Treine o modelo com feições de treinamento e
variáveis explicativas que estão dentro da faixa de suas feições de alvo e variáveis. A
ferramenta falhará se houver categorias nas variáveis explicativas de previsão que não foram
apresentas nas feições de treinamento.
O valor padrão deste parâmetro Número de Árvores é 100. O aumento do número de árvores

no modelo de floresta resultará em um previsão do modelo mais precisa, mas o modelo
demorará mais para calcular.
Para saber mais sobre como esta ferramenta funciona e a ArcGIS Pro ferramenta de
geoprocessamento na qual esta implementação é baseada, consulte Como funciona a
ferramenta Classificação e Regressão baseada em Floresta.
Limitações
A implementação de GeoAnalytics da Classificação e Regressão baseada em Floresta tem as
seguintes limitações:
 O conjunto de dados de feição (pontos, linhas, polígonos e tabelas) são suportados

como entrada. Rasters não são suportados.
 Uma camada única para treinamento e uma camada única para previsão são
suportadas. Para combinar conjuntos de dados múltiplos em um, utilize as
ferramentas Construir Grade de Múltiplas Variáveis e Enriquecer de Grade de
Múltiplas Variáveis para gerar os dados de entrada.

A ferramenta Classificação e Regressão baseada em Florestas está disponível no ArcGIS API
for Python.
Este exemplo constrói um modelo e prevê vendas de sorvete.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal =
GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if
not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result =
portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x
for x in search_result if x.title == "bigDataFileShares_IceCreamSales")
# Run the tool Forest-based Classification and Regression to predict forest_model =
arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train", input_layer =
bd_file, var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false}, {"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}], sample_size = 50, output_name =
"ice_cream_prediction")
Utilize a ferramenta Classificação e Regressão baseada em floresta
do ArcGIS GeoAnalytics Server para gerar previsões ou modelar utilizando
uma adaptação do algoritmo de floresta aleatório de Leo Breiman. Outras
ferramentas podem ser úteis para solucionar problemas semelhantes, mas
ligeiramente diferentes.
Ferramentas de análise do Map Viewer
Crie modelos e previsões utilizando a ferramenta ArcGIS GeoAnalytics Server Regressão

Linear Generalizada .
Ferramenta de análise do ArcGIS Desktop

Execute as operações de regressão semelhantes no ArcGIS Pro com a ferramenta de

geoprocessamento Classificação e Regressão baseada em floresta como parte da caixa de
Execute Regressão Linear Generalizada (GLR) para gerar previsões ou modela uma variável
dependente em termos de sua relação com um conjunto de variáveis explanatórias no ArcGIS
Pro com a ferramenta de geoprocessamento Regressão Linear Generalizada na caixa de
Execute Regressão Geograficamente Ponderada (GWR) no ArcGIS Pro com a ferramenta de

geoprocessamento Regressão Geograficamente Ponderada na caixa de ferramentas Estatística
Espacial.

Regressão: Modelos, Suposições e Validação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão: Modelos, Suposições e Validação

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de regressão

A análise de regressão é uma técnica de análise que calcula o

Visão geral da análise de regressão

Gráficos, como matrizes do gráfico de dispersão, histogramas, e gráficos de pontos, também

 Determinar quais variáveis explanatórias estão relacionadas à variável dependente.

Um analista de um departamento de educação está estudando os efeitos dos programas de

O analista de uma organização não governamental está estudando as emissões globais de

Mínimos Quadrados Ordinários

Um modelo OLS utiliza a seguinte equação:

 yi=o valor observado da variável dependente no ponto i

As seguintes suposições devem ser testadas e atendidas ao utilizar o método OLS:

 O modelo deve ser linear.

O modelo deve ser linear

Os dados devem ser amostrados aleatoriamente

As variáveis explanatórias não devem ser colineares

A colinearidade refere-se a um relacionamento linear entre variáveis explanatórias, o que cria

As variáveis explanatórias devem ter erro insignificante na medição

Um modelo de regressão é tão preciso quanto seus dados de entrada. Se as variáveis

Os residuais têm uma soma esperada de zero

Residuais são a diferença entre os valores observados e estimados em uma análise de

Os residuais têm discrepância homogênea

Os residuais são normalmente distribuídos

Residuais adjacentes não devem mostrar autocorrelação

O teste Durbin-Watson é uma medida de autocorrelação em residuais de um modelo de

Há duas técnicas para determinar a validade de um modelo de regressão: análise

A análise exploratória é um método de entender seus dados utilizando uma variedade de

 Gráfico de dispersão e matriz do gráfico de dispersão

Várias saídas de estatísticas estão disponíveis após a criação de um modelo de regressão,

A equação de regressão fornece informações valiosas sobre a influência de cada variável

O coeficiente de determinação, simbolizado como R2, mede quão bem a equação de regressão

Ao executar a análise de regressão, há o risco de criar um modelo de regressão que tenha um

Os seguintes resultados de estatística são utilizados para determinar a significância como

 Estatística F e seu valor p associado

A estatística F é uma estatística global retornada de um teste F, que indica a capacidade

A estatística t é uma estatística local retornada de um teste t, que indica a capacidade

Intervalos de confiança mostram o coeficiente de regressão para cada variável explanatória e

Os valores residuais em uma análise de regressão são as diferenças entre os valores

Os residuais A e B para o relacionamento acima seriam calculados da seguinte maneira:

residualsA = observedA - estimatedA residualsA = 595 - 487.62 residualsA = 107.38

Regressão Linear Generalizada

A ferramenta executa a Regressão Linear Generalizada (GLR) para gerar

Diagrama do fluxo de trabalho

Utilize o parâmetro Escolha uma camada para gerar um modelo com um campo

A ferramenta Regressão Linear Generalizada também produz feições de saída e diagnósticos.

É importante utilizar o modelo correto (Contínuo, Binário ou Contagem) na sua análise

Os resultados de resumo do modelo e os diagnósticos são gravados na janela de mensagens e

 Utilize o tipo de modelo Contínuo (Gaussian) se a sua variável dependente puder

Os parâmetros da variável dependente e da variável explanatória devem ser campos

Você deve inspecionar visualmente as previsões inferiores e superiores evidentes em seus

 AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para

Interpretar mensagens e diagnósticos

 AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para

Interpretar mensagens e diagnósticos

 AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para

 É um modelo de regressão global e não leva em conta a distribuição espacial dos

Exemplo de ArcGIS API for Python

Este exemplo ajusta um modelo em um conjunto de dados e aplica a previsão a outro.

# Import the required ArcGIS API for Python modules

# Find the dataset you want to predict

# Run the Generalized Linear Regression tool

var_explanatory = "salestotal, store_count, advertisingcost",

# Visualize the results if you are running Python in a Jupyter Notebook

Ferramentas de análise do Map Viewer Classic