Escolar Documentos
Profissional Documentos
Cultura Documentos
O modelo de regressão inclui saídas, como R2 e valores-p, para fornecer informações sobre
como o modelo avalia a variável dependente.
A análise de regressão pode ser utilizada para resolver os seguintes tipos de problemas:
Exemplos
Um analista de uma pequena cadeia de varejo está estudando o desempenho de diferentes
lojas. O analista deseja saber o motivo de algumas lojas estarem tendo um volume de vendas
inesperadamente baixo. O analista cria um modelo de regressão com variáveis explanatórias
como idade mediana e renda na vizinhança, como também, a distância até centros de varejo e
o transporte público, para determinar quais variáveis estão influenciando as vendas.
O método OLS é uma forma de multiplicar a regressão linear, ou seja, o relacionamento entre
as variáveis dependentes e as variáveis independentes deve ser modelado ao ajustar uma
equação linear aos dados observados.
yi=β0+β1x1+β2x2+...+βnxn+ε
Onde:
Suposições
Cada método de regressão tem várias suposições que devem ser atendidas para que a equação
seja considerada confiável. As suposições do OLS devem ser validadas ao criar um modelo
de regressão.
A regressão OLS pode ser utilizada somente para criar um modelo linear. A linearidade pode
ser testada entre a variável dependente e as variáveis explanatórias utilizando um gráfico de
dispersão. Uma matriz do gráfico de dispersão pode testar todas as variáveis, desde que não
haja mais do que cinco variáveis no total.
A variação deve ser a mesma para todos os residuais. Esta suposição pode ser testada
utilizando um gráfico de dispersão de residuais (eixo y) e valores estimados (eixo x). O
gráfico de dispersão resultante deve aparecer como uma faixa horizontal de pontos plotados
aleatoriamente no gráfico.
Uma distribuição normal, também denominada curva de sino, é uma distribuição que ocorre
naturalmente, onde a frequência de um fenômeno é alta perto da média e diminui à medida
que a distância da média aumenta. Uma distribuição normal é frequentemente utilizada como
hipótese nula em uma análise de estatística. Os residuais devem ser normalmente distribuídos
para mostrar que a linha de melhor ajuste é otimizada centralmente dentro dos pontos de
dados observados, não inclinada em direção a alguns e longe de outros. Esta suposição pode
ser testada criando um histograma com os residuais. A curva de distribuição normal pode ser
sobreposta e medidas de assimetria e curtose são relatadas na parte de trás do cartão de
histograma.
Validade do modelo
A precisão de uma equação de regressão é uma parte importante da análise de regressão.
Todos os modelos incluirão uma quantidade de erro, mas a compreensão das estatísticas
ajudará você a determinar se o modelo poderá ser utilizado em sua análise ou se será
necessário fazer ajustes.
Análise explanatória
Os seguintes gráficos e estatísticas podem ser utilizados como parte da análise exploratória:
A análise exploratória deve começar enquanto você escolhe variáveis explanatórias e antes de
criar um modelo de regressão. Como o OLS é um método de regressão linear, um das
principais suposições é que o modelo deve ser linear. Um gráfico de dispersão ou matriz do
gráfico de dispersão pode ser utilizado para avaliar a linearidade entre a variável dependente
e as variáveis explanatórias. Uma matriz do gráfico de dispersão pode exibir até quatro
variáveis explanatórias junto com a variável dependente, tornando-a uma ferramenta
importante para comparações em larga escala entre todas as variáveis. Um único gráfico de
dispersão exibe somente duas variáveis: uma dependente e uma independente ou
explanatória. Visualizar um gráfico de dispersão da variável dependente e uma única variável
explanatória permite a você fazer uma avaliação mais aguda da relação entre as variáveis. A
linearidade pode ser testada antes de criar um modelo de regressão para ajudar a determinar
quais variáveis explanatórias criarão um modelo aceitável.
O erro padrão residual mede a precisão com a qual o modelo de regressão pode prever
valores com novos dados. Valores menores indicam um modelo mais preciso; portanto,
quando vários modelos são comparados, o modelo com o menor valor será o modelo que
minimizará o erro padrão residual.
Gráficos de pontos podem ser utilizados para analisar suas variáveis explanatórias em busca
de padrões como agrupamentos e valores atípicos, que podem afetar a precisão do modelo.
Análise confirmatória
A análise confirmatória é o processo de testar seu modelo contra uma hipótese nula. Na
análise de regressão, a hipótese nula é que não há relação entre a variável dependente e as
variáveis explanatórias. Um modelo sem relacionamento teria valores de declividade 0. Se os
elementos de sua análise confirmatória forem estatisticamente significativos, você poderá
rejeitar a hipótese nula (em outras palavras, a significância estatística indica que existe um
relacionamento entre as variáveis dependentes e explanatórias).
Outras saídas
Outras saídas, como valores estimados e residuais, são importantes para testar as suposições
da regressão de OLS. Nesta seção, você aprenderá mais sobre como estes valores são
calculados.
Valores estimados
Os valores estimados são calculados utilizando a equação de regressão e os valores para cada
variável explanatória. Idealmente, os valores estimados seriam iguais aos valores observados
(em outras palavras, os valores reais da variável dependente).
Os valores estimados são utilizados com os valores observados para calcular residuais.
Residuais
Como analista de GIS em uma empresa de serviços públicos, você tem um conjunto
de dados de interrupções de energia, como também, dados meteorológicos extremos.
Você enriquece seus dados de interrupção utilizando as ferramentas Construir Grade
de Múltiplas Variáveis e Enriquecer da Grade de Múltiplas Variáveis para criar um
conjunto de dados com informações meteorológicas extremas para as interrupções.
Você utiliza a Regressão Linear Generalizada para determinar o evento que levou à
falta de energia. Agora que você tem estas informações, é possível prever interrupções
e alocar recursos.
Como um analista de uma cidade grande, você tem históricos de registros de
chamadas 911, como também, informações demográficas. Você precisa responder as
seguintes perguntas: Quais variáveis efetivamente predizem o volume de chamadas
911? Considerando as projeções futuras, qual é a demanda esperada pelos recursos de
resposta a emergências?
Anotações de uso
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Ajustar um modelo
para avaliar o desempenho do modelo pode ser utilizada para avaliar o desempenho de
diferentes modelos à medida que você explora diferentes variáveis explanatórias e
configurações da ferramenta. Após um bom modelo ser encontrado, você poderá utilizar a
opção Ajustar um modelo e prever valores .
Recursos com um ou mais valores nulos ou valores de string vazios em campos de previsão
ou explanatórios serão excluídos da saída. Se necessário, você pode modificar os valores
utilizando Calcular Campo.
Você pode utilizar o modelo de regressão que foi criado para fazer previsões para outras
feições. Criar estas previsões exige que cada feição de previsão (Escolha uma camada para
prever valores) tenha valores para cada uma das variáveis explanatórias fornecidas. Se os
nomes de campo das feições de entrada e parâmetros dos locais de previsão não
corresponderem, um parâmetro de correspondência da variável será fornecido. Ao combinar
as variáveis explanatórias, os campos das feições de entrada e parâmetros dos locais de
previsão deverão ser do mesmo tipo (por exemplo, campos duplos devem ser correspondidos
com campos duplos).
Saídas
A ferramenta Regressão Linear Generalizada produz uma variedade de saídas. Um resumo do
modelo GLR e resumos de estatística estão disponíveis na página de item do portal e como
uma feição na sua camada. Para acessar o resumo dos seus resultados, clique em Mostrar
Resultados na sua camada resultante no Map Viewer Classic. A ferramenta gera
pelo menos uma camada de saída e uma saída opcional prevista. As feições de saída são
automaticamente adicionadas no Map Viewer Classic com um esquema de renderização de
ponto ativo e não ativo aplicado ao modelo residual. Os diagnósticos gerados dependem do
tipo de modelo das feições de entrada e são descritos abaixo.
Contínuo (Gaussian)
Interpretar mensagens e diagnósticos
Binário (Logística)
Contagem (Poisson)
Limitações
A implementação do GeoAnalytics da Regressão Linear Generalizada tem as seguintes
limitações:
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password",
verify_cert=False)
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Search for and list the big data file shares in your portal
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SalesData")
# Look through the big data file share for 2018 sales data to model
model_layer = next(x for x in bdfs_search.layers if x.properties.name == "2018_sales")
var_dependent = "chicago_crimes_enriched",
regression_family = "Count",
exp_var_matching = [{"predictionLayerField":"store_count",
"trainingLayerField":
"num_of_stores"}],
output_name = "predicted_customers")
Ferramentas semelhantes
Use a ferramenta Regressão Linear Generalizada do ArcGIS GeoAnalytics Server para gerar
previsões ou modelar uma variável dependente em termos de sua relação com um conjunto de
variáveis explanatórias. Outras ferramentas podem ser úteis para solucionar problemas
semelhantes, mas ligeiramente diferentes.
Crie modelos e previsões utilizando uma adaptação do algoritmo de floresta aleatório de Leo
Breiman no ArcGIS Pro com a ferramenta de geoprocessamento Classificação e Regressão
baseadas em Floresta como parte da caixa de ferramentas Estatística Espacial.
Exemplos
Considerando os dados sobre a ocorrência de ervas marinhas, como também, um número
de variáveis ambientais explanatórias, além da distancie para fábricas a montante e
principais portos, futura ocorrência de ervas marinhas pode ser prevista com base em
projeções futuras para estas mesmas variáveis explanatórias ambientais.
Os valores da habitação podem ser previstos com base nos preços das casas que foram
vendidas no ano em curso. O preço de venda das casas vendidas, juntamente com
informações sobre o número de quartos, a distância das escolas, a proximidade das
principais rodovias, a renda média e a contagem de crimes podem ser utilizados para prever
preços de venda de casas semelhantes.
As informações fornecidas sobre os níveis de sangue de crianças e o ID de lotes de imposto
de suas casas, combinou com atributos de nível de lotes, como idade da casa, dados de nível
de censo, tais como, renda e níveis de educação, e conjunto de dados nacionais refletindo
lançamento tóxico de combinações principais, o risco de exposição principal dos lotes sem
dados de nível de sangue principais podem ser previstos. Estas previsões de risco podem
informar políticas e programas de educação na área.
Anotações de uso
Esta ferramenta cria centenas de árvores, chamadas de um conjunto de árvores de decisão,
para criar um modelo que pode então ser utilizado para previsão. Cada árvore de decisão é
criada utilizando porções geradas dos dados originais (treinamento) aleatoriamente. Cada
árvore gera sua própria previsão e vota em um resultado. O modelo de floresta considera
votos de todas árvores de decisão para prever ou classificar os resultados de uma amostra
desconhecida. Isto é importante, como árvores individuais podem ter problemas com ajuste
de um modelo; entretanto, combinar árvores múltiplas em uma floresta para endereços de
previsão do problema de ajuste associado com uma árvore única.
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Treinar um modelo
para avaliar o desempenho do modelo pode ser utilizado para avaliar o desempenho de
modelos diferentes ao explorar variáveis explicativas diferentes e configurações de
ferramenta. Após um bom modelo ter sido localizado, você pode utilizar a opção Ajustar um
modelo e prever valores . Esta é uma ferramenta de dados dinâmicos e executa melhor em
conjunto de dados grandes. A ferramenta deve ser treinada em pelo menos cem feições para
melhores resultados. Não é uma ferramenta apropriada para conjunto de dados muito
pequeno.
Recursos com um ou mais valores nulos ou valores de string vazios em campos de previsão
ou explanatórios serão excluídos da saída. Se necessário, você pode modificar os valores
utilizando Calcular Campo.
Esta ferramenta produz uma variedade de saídas. As saídas produzidas variam dependendo
do modo de operação como seguem:
As variáveis explicativas podem ser provenientes de campos e devem conter uma variedade
de valores. Se a variável explicativa for categórica, a caixa de seleção Categórica deve ser
marcada (variáveis de tipo string serão marcadas automaticamente). As variáveis explicativas
categóricas são limitadas a 60 valores únicos, entretanto, um número menor de categorias
melhorará o desempenho do modelo. Para um tamanho de dados fornecido, quanto mais
categorias uma variável contiver, mais ela irá dominar o modelo e levar a resultados de
previsão menos efetivos.
Os modelos baseados em floresta não extrapolam; eles podem somente classificar ou prever
um valor em que o modelo foi treinado. Treine o modelo com feições de treinamento e
variáveis explicativas que estão dentro da faixa de suas feições de alvo e variáveis. A
ferramenta falhará se houver categorias nas variáveis explicativas de previsão que não foram
apresentas nas feições de treinamento.
O valor padrão deste parâmetro Número de Árvores é 100. O aumento do número de árvores
no modelo de floresta resultará em um previsão do modelo mais precisa, mas o modelo
demorará mais para calcular.
Para saber mais sobre como esta ferramenta funciona e a ArcGIS Pro ferramenta de
geoprocessamento na qual esta implementação é baseada, consulte Como funciona a
ferramenta Classificação e Regressão baseada em Floresta.
Limitações
A implementação de GeoAnalytics da Classificação e Regressão baseada em Floresta tem as
seguintes limitações:
O conjunto de dados de feição (pontos, linhas, polígonos e tabelas) são suportados como
entrada. Rasters não são suportados.
Uma camada única para treinamento e uma camada única para previsão são suportadas.
Para combinar conjuntos de dados múltiplos em um, utilize as ferramentas Construir Grade
de Múltiplas Variáveis e Enriquecer de Grade de Múltiplas Variáveis para gerar os dados de
entrada.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal =
GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if
not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result =
portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x
for x in search_result if x.title == "bigDataFileShares_IceCreamSales")
# Run the tool Forest-based Classification and Regression to predict forest_model =
arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train", input_layer =
bd_file, var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false}, {"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}], sample_size = 50, output_name =
"ice_cream_prediction")
Ferramentas semelhantes
Utilize a ferramenta Classificação e Regressão baseada em floresta do ArcGIS GeoAnalytics
Server para gerar previsões ou modelar utilizando uma adaptação do algoritmo de floresta
aleatório de Leo Breiman. Outras ferramentas podem ser úteis para solucionar problemas
semelhantes, mas ligeiramente diferentes.
Ferramentas de análise do Map Viewer
Execute Regressão Linear Generalizada (GLR) para gerar previsões ou modela uma variável
dependente em termos de sua relação com um conjunto de variáveis explanatórias no ArcGIS
Pro com a ferramenta de geoprocessamento Regressão Linear Generalizada na caixa de
ferramentas Estatística Espacial.
Exemplos
Considerando os dados sobre a ocorrência de ervas marinhas, como também, um
número de variáveis ambientais explanatórias, além da distancie para fábricas a
montante e principais portos, futura ocorrência de ervas marinhas pode ser prevista
com base em projeções futuras para estas mesmas variáveis explanatórias ambientais.
Os valores da habitação podem ser previstos com base nos preços das casas que foram
vendidas no ano em curso. O preço de venda das casas vendidas, juntamente com
informações sobre o número de quartos, a distância das escolas, a proximidade das
principais rodovias, a renda média e a contagem de crimes podem ser utilizados para
prever preços de venda de casas semelhantes.
As informações fornecidas sobre os níveis de sangue de crianças e o ID de lotes de
imposto de suas casas, combinou com atributos de nível de lotes, como idade da casa,
dados de nível de censo, tais como, renda e níveis de educação, e conjunto de dados
nacionais refletindo lançamento tóxico de combinações principais, o risco de
exposição principal dos lotes sem dados de nível de sangue principais podem ser
previstos. Estas previsões de risco podem informar políticas e programas de educação
na área.
Anotações de uso
Esta ferramenta cria centenas de árvores, chamadas de um conjunto de árvores de decisão,
para criar um modelo que pode então ser utilizado para previsão. Cada árvore de decisão é
criada utilizando porções geradas dos dados originais (treinamento) aleatoriamente. Cada
árvore gera sua própria previsão e vota em um resultado. O modelo de floresta considera
votos de todas árvores de decisão para prever ou classificar os resultados de uma amostra
desconhecida. Isto é importante, como árvores individuais podem ter problemas com ajuste
de um modelo; entretanto, combinar árvores múltiplas em uma floresta para endereços de
previsão do problema de ajuste associado com uma árvore única.
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Treinar um modelo
para avaliar o desempenho do modelo pode ser utilizado para avaliar o desempenho de
modelos diferentes ao explorar variáveis explicativas diferentes e configurações de
ferramenta. Após um bom modelo ter sido localizado, você pode utilizar a opção Ajustar um
modelo e prever valores . Esta é uma ferramenta de dados dinâmicos e executa melhor em
conjunto de dados grandes. A ferramenta deve ser treinada em pelo menos cem feições para
melhores resultados. Não é uma ferramenta apropriada para conjunto de dados muito
pequeno.
Recursos com um ou mais valores nulos ou valores de string vazios em campos de previsão
ou explanatórios serão excluídos da saída. Se necessário, você pode modificar os valores
utilizando Calcular Campo.
Esta ferramenta produz uma variedade de saídas. As saídas produzidas variam dependendo
do modo de operação como seguem:
As variáveis explicativas podem ser provenientes de campos e devem conter uma variedade
de valores. Se a variável explicativa for categórica, a caixa de seleção Categórica deve ser
marcada (variáveis de tipo string serão marcadas automaticamente). As variáveis explicativas
categóricas são limitadas a 60 valores únicos, entretanto, um número menor de categorias
melhorará o desempenho do modelo. Para um tamanho de dados fornecido, quanto mais
categorias uma variável contiver, mais ela irá dominar o modelo e levar a resultados de
previsão menos efetivos.
Para saber mais sobre como esta ferramenta funciona e a ArcGIS Pro ferramenta de
geoprocessamento na qual esta implementação é baseada, consulte Como funciona a
ferramenta Classificação e Regressão baseada em Floresta.
Limitações
A implementação de GeoAnalytics da Classificação e Regressão baseada em Floresta tem as
seguintes limitações:
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal =
GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if
not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result =
portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x
for x in search_result if x.title == "bigDataFileShares_IceCreamSales")
# Run the tool Forest-based Classification and Regression to predict forest_model =
arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train", input_layer =
bd_file, var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false}, {"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}], sample_size = 50, output_name =
"ice_cream_prediction")
Ferramentas semelhantes
Utilize a ferramenta Classificação e Regressão baseada em floresta
do ArcGIS GeoAnalytics Server para gerar previsões ou modelar utilizando
uma adaptação do algoritmo de floresta aleatório de Leo Breiman. Outras
ferramentas podem ser úteis para solucionar problemas semelhantes, mas
ligeiramente diferentes.
Execute Regressão Linear Generalizada (GLR) para gerar previsões ou modela uma variável
dependente em termos de sua relação com um conjunto de variáveis explanatórias no ArcGIS
Pro com a ferramenta de geoprocessamento Regressão Linear Generalizada na caixa de
ferramentas Estatística Espacial.