Escolar Documentos
Profissional Documentos
Cultura Documentos
ASSUNTO:
Castanhal
2013
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
MODELAGEM
Para se estimar cenários futuros seja a curto, médio e longo prazo, torna-se necessários um
conhecimento mínimo dos conceitos básicos sobre modelagem de dados. Não importa a amplitude de
sua aplicação, seja simples ou complexa, pois estes conhecimentos prévios evitarão aplicações e
validações viesadas. Evitar estes tipos de aplicações implica em modelos ajustados mais robustos e
eficientes.
Ao se deparar com duas variáveis que proporcionam previsão de comportamentos futuros. Este
tipo de projeções podem ser alcançadas atravpés de um estudo que envolve a equação da reta de
regressão, ajustada com base na relação entre as variáveis independentes (X) e seus efeitos na variável
dependente (Y). Várias são as aplicações em pesquisas envolvendo variáveis do tipo renda, idade, peso,
gastos, volume, comprimento, dosagens, gastos, preço, demanda, etc.
Este assunto é bem extenso, pois além de RLS e RLM ainda tem-se (logística simples e múltipla,
polinomial, cúbica, quadrática, séries temporais (AR, MA, ARMA, ARIMA, SARIMA), Nerlove, Koyck, etc). É
neste sentido que o propósito inicial deste material é fornecer os conceitos básicos sobre modelagem de
regressão linear simples e múltipla de dados.
A correlação é um conceito relacionado usado para medir o grau de dependência linear entre duas
variáveis.
Diagrama de Dispersão
Diagrama de dispersão - gráfico sobre o qual cada medida individual é representada por um ponto (ou
outro símbolo qualquer), sendo que a posição de cada ponto é determinada pelos valores observados em
um indivíduo para as duas características medidas (por exemplo, produção (que é uma variável que
depende de n’s fatores) e Lucro (variável dependente da característica de mercado quanto a preço e
disponibilidade de oferta). Como outros exemplos temos: e lucro/ falhas e usuários/ peso e altura/
tamanho e peso/ consumo e peso, etc.). Denominado também de gráfico XY.
Retas de Regressão - funções resultantes do ajuste de uma função linear entre 2 variáveis y e x. Para
obter a reta de regressão é necessário calcular o Coeficiente angular (Coeficiente de regressão) e o
intercepto da reta com a ordenada.
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Coeficiente Angular (by,x)- É uma medida da variação que ocorre em uma característica quando outra
característica se modifica de uma unidade. Também é chamado de coeficiente angular .
Ou
Com Sy = desvio padrão da base de dados Y, e Sx = correspondente ao desvio padrão da base de dados X.
Intercepto (a) – É o Ponto de intersecção da reta com a ordenada (eixo Y). Equivale ao valor de Y quando
X=0.
Equação de Regressão – É a equação que define a linha reta que descreve a associação entre duas
características e que permite estimar o valor de uma medida pela outra.
Coeficiente de Correlação (r)- É a medida do grau de associação entre duas características a partir de uma
série de observações. O coeficiente de correlação r será definido como a razão entre a covariação entre a
raiz quadrada do produto das variações de X e Y. Dada por:
Observe que ao se dividir o numerador e o denominador por n. Portanto, o coeficiente de correlação será
definido pela razão da covariância e o produto dos desvios padrão de X e Y.
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Onde a covariância ( ) entre duas variáveis aleatórias reais X e Y, definida como uma medida
que espressa como duas variáveis variam conjuntamente. A covariância é por vezes chamada de medida
de dependência linear entre as duas variáveis aleatórias, é definida por:
De forma alternativa podemos partir das seguintes expressões para o cálculo do coeficiente de
correlação r.
Intervalo de Variação de r - Como o coeficiente de correlação é um medida utilizada para avaliar o grau
de associação máximo entre variáveis, onde esta associação pode ser então medida pelo resultado
númérico de r, o qual se estabelece no intervalo -1, +1, ou seja:
-1 1
Ou através do Diagrama desta associação. Onde temos que levar em consideração as seguintes
características:
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Obs: Quanto maior o ajuste do modelo, melhor será o ajuste da reta em relação aos pontos do diagrama
de dispersão, e consequentemente isto indicara o quanto mais próximo dos valores +1 e -1 estará o valor
de r. Mas, observem que em caso de não haver relação linear entre as variáveis em estudo X eY, isto
significará que r=0. No entanto isto só é valido para para r e não é válido para relação linear. Para nosso
exemplo anterior temos o seguinte ajuste linear:
Exemplo 1: Dez porcos foram submetidos a um teste para avaliar a relação de ganho de peso em relação
a idade dos animais, os animais forma submetidos a 6 meses de confinamento, todos os animais foram
condicionados a mesma alimentação e disponibilidade de água. O objetivo do experimento estava em
avaliar se o ganho de peso é influenciado pela idade do animal.
Porcos 1 2 3 4 5 6 7 8 9 10
Idade (X) 6 5 9 10 3 4 8 7 6 2
Peso (Y) 7 6 10 9 2 3 9 5 6 3
a) Determine a Covariância de X e Y
b) Determine a Variância de X e Y
c) Determine o coeficiente de correlação de X e Y.
d) Caso seja ajustada uma reta aos valores X e Y (sendo Y a variável dependente), qual o valor do
coeficiente angular b?
e) Construa o gráfico representativo deste modelo.
SOLUÇÃO
X Y XY X2 Y2
6 7 42 36 49
5 6 30 25 36
9 10 90 81 100
10 9 90 100 81
3 2 6 9 4
4 3 12 16 9
8 9 72 64 81
7 5 35 49 25
6 6 36 36 36
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
2 3 6 4 9
Solução:
Os valores dos valores dos somatórios estão disponíveis nas três primeiras colunas da tabela acima. E
com esses dados, temos:
c) Determine as variâncias de X e Y
c.1) Variâncias de X: S2x
Onde;
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
d) Correlação de X e Y
Para ajustar a reta representativa do modelo ajustado e que estabelece a relação entre as variáveis X e Y,
na qual se adéqua aos pontos do diagrama de dispersão basta utilizar as seguintes equações:
MÉTODO MATEMÁTICO
Y a bX
MÉTODO ESTATÍSTICO
Y X i
Com;
= Intercepto (constante do modelo ajustado);
= Variável independente (onde podem ser n variáveis);
i = erros aleatórios.
Para a tomada de decisão a respeito do teste de hipóteses para validação de existência ou não de
regressão, assim como para o cálculo do coeficiente de correlação ajustado R 2 . Como proceder:
Caso R2=1, implica que todos os observados se situam exatamente sobre a reta de regressão, deste
modo pode-se concluir que o ajuste é perfeito e portanto a variação de Y são 100% explicadas pelas
variações de X através da função especificada não havendo por conseqüência desvios em torno da
função estimada.
TESTE F
Utilizado para avaliar o teste de hipótese assim com para a tomada de decisão sobre a existência
ou não de regressão.
Construção da ANOVA
Total VT=70 9
F=5,32
F= 57,82/1,52=38,03
5º Passo:Conclusão
Observe que o Fcal>F5% (1,9)gl, o que implica em rejeitar Ho e concluir por conseguinte que existe
regressão com um risco de 5%.
Exercício 01: Para os seguintes dados abaixo, referentes a ocorrência de determinada espécie de peixes
em determinada lagoa após amostragem durante 6 anos de pesquisa um biologo quer avaliar a relação
existente entre a quantidade de animais e o período desde 2001.
X(período) 0 1 2 3 4 5 6 7 8
Y(peixes) 34 32 56 54 46 59 61 57 64
Exercício 02: Um técnico aquicultor quer modelar, duas variáveis peso (Y) e a quantida de ração
administrada (X) em quilos, em um tanque com 200 animais. Os abaixo, referentes as variáveis X e Y.
Y 6 8 5 3 9 12 16 3 8
X (dose ração) 2,2 4,0 2,5 3,0 4,0 5,1 6,3 2,7 2,6
Equação de Regressão
Yi 0 1 X 1 2 X 2 3 X 3 ... n X n i
X1, X2, X3 e Xn = São as variáveis Independentes (preditoras), as quais de alguma forma podem ou não
influência a ocorrência de Y no tempo;
Atenção os demais passos seguir de forma equivamente a seguida na aplicação da Regressão Linear Simples.
Com uma úbica diferenção de que agora se tem mais de uma variável independente.
Teste de resíduos
- são independentes.
A verificação das hipóteses é fundamental, visto que toda a inferência estatística no modelo de
regressão linear (testes de hipóteses) se baseia nesses pressupostos. Nesse sentido, se houver violação
dos mesmos, a utilização do modelo deve ser posta em causa.
Estes pressupostos podem ser verificados graficamente, representando os resíduos em função dos
valores estimados da variável dependente yˆi (gráfico residual) ou em função dos valores de uma das
variáveis independentes xi.
Os pontos do gráfico devem distribuir-se de forma aleatória em torno da recta que corresponde ao
resíduo zero, formando uma mancha de largura uniforme. Dessa forma será de esperar que os erros
sejam independentes, de média nula e de variância constante. Quando os resíduos não se comportam de
forma aleatória, ou seja, seguem um padrão, a condição de independência não é satisfeita. Isto pode
traduzir o facto de não existir uma relação linear entre as variáveis ou então, não constam no modelo
uma ou várias variáveis independentes que influenciam significativamente a variável dependente e
portanto também os erros.
Para os três primeiros gráficos, pode-se observar que os resíduos apresentam uma padronização em
seus comportamentos, quebrando por conseqüência o princípio de existência de independência dos
resíduos. Já o último gráfico os resíduos apresentam um comportamento distribuídos de forma aleatória,
sustentando a independência dos erros.
O pressuposto de normalidade pode ser testado recorrendo a testes de ajustamento tais como o
Teste Kolmogorov-Smirnov ou o Teste da Normalidade de Lilliefors. Outra forma é a utilização do gráfico
de probabilidade normal (Normal Probability Plot).
- 1º tipo: representa a probabilidade acumulada que seria de esperar se a distribuição fosse normal, em
função da probabilidade observada acumulada dos erros (Normal P-P Plot);
- 2º tipo: representa o quantil de probabilidade esperado se a distribuição fosse normal em função dos
resíduos (Normal Q-Q Plot).
Para se aceitar a hipótese que os residuos provenientes de uma modelagem. Seguem uma distribuição
normal, ou seja, são erros que se distribuiem Normal, todos os pontos dos gráficos devem posicionarem-
se mais ou menos sobre uma recta.
Análise Gráfica
Gráfico P-P-plot: pontos do gráfico tendem a concentrar-se em torno da reta de declive 1 que passa
na origem, o que dá evidência de que a distribuição dos erros é normal.
Da mesma forma, da observação do Q-Q Plot, verifica-se a presunção de normalidade, pois os resíduos
estão aproximadamente em linha recta.
Heterogeneidade de Variâncias
O gráfico dos resíduos versus variáveis preditoras ou versus os valores ajustados são apropriados
para examinar a suposição de variância constante. Geralmente, a falta de homogeneidade de variâncias
tende a produzir um gráfico com forma de megafone, como na figura a seguir:
Se a dispersão dos resíduos aumentar ou diminuir com os valores das variáveis independentes xi,
ou com os valores estimados da variável dependente yˆi , deve ser posta em causa a hipótese de
variâncias constante dos Ei’S.
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Onde;
1
Residual
-1
-2
-3
-4
0 1 2 3 4 5 6 7 8 9
Fit t e d V a lue
O gráfico dos resíduos versus valores preditos (ajustados) mostra que quanto maiores são os valores
preditos maior é a dispersão dos resíduos. Isto sugere que a variância é maior para os tempos de
estocagem maiores.
Sempre que os dados são obtidos ao longo do tempo (série temporal), ou de algum outro tipo de
seqüência (p.e., a seqüência em que os dados foram coletados, áreas geográficas adjacentes), deve-se
fazer um gráfico dos resíduos versus seqüência (ou ordem das observações).
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Quando os resíduos são independentes, eles devem se distribuir aleatoriamente em torno de zero.
Deve alternar os pontos em torno de zero. Algumas vezes, o problema de falta de independência, é
devido a alguma variável importante (p.e. tempo) que foi omitida do modelo. No gráfico (b) é um
problema de falta de ajuste da função de regressão (ajuste pobre).
1
Residual
-1
-2
-3
-4
2 4 6 8 10 12 14 16 18 20 22 24 26
Obser v at ion Orde r
Muitas das vezes o uso de um gráfico residual, não é o bastante para identificar as violações dos
pressupostos do modelo, apesar dos gráficos parecerem bem comportados.
Nesse sentido, a verificação da independência é usualmente feita através do teste de Durbin-Watson
à correlação entre resíduos sucessivos.
Se houver independência, a magnitude de um resíduo não influencia a magnitude do resíduo
seguinte. Neste caso, a correlação entre resíduos sucessivos é nula (ρ = 0). As hipóteses do teste, para
aferir se a relação entre dois resíduos consecutivos é estatisticamente significativa, são então:
Estatística d de Durbin-Watson:
Tomada de decisão:
Compara-se o valor obtido para a estatística d com os valores críticos da tabela de Durbin-
Watson, dL e dU , e toma-se a decisão recorrendo à seguinte tabela:
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Só quando d ∈ [dU ,4 – dU[ , se pode concluir que os diferentes valores de Ei são independentes.
Análise Gráfica
Teste de Durbin-Watson
Obtém-se:
d = 17,13589612 /7,48305 = 2,28996
dL = 0.7 e dU = 1.64
e,
[ dU ,4 – dU[ = [1.64, 4-1.64[ = [1.64, 2.36[
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Uma vez que d=2.28996 ∈ [1.64, 2.36[, não é rejeitada a hipótese de independência. Podemos,
pois admitir que os erros são independentes, ou seja, que se verifica o pressuposto da independência, o
que vai de encontro ao que verificamos graficamente.
Variâncias heterogêneas e não normalidade dos erros frequentemente aparecem juntas. Necessita-se
fazer uma transformação em Y, pois a forma e a dispersão em Y precisam ser modificadas. A
transformação em Y pode também eliminar o problema de não linearidade do modelo. Outras vezes uma
transformação também em X é necessária para manter ou obter uma relação linear.
Vamos considerar algumas transformações quando a distribuição dos erros é aproximadamente normal e
com variância constante. Deve-se realizar uma transformação apenas na variável X.
X ' 1/ X
X ' log10 X X ' exp( X )
X' X X' X2
X ' exp( X )
Em sistemas produtivos que envolvem populações ou dados ambientais (peixes, florestas, frangos
etc. costuma-se tranformar os dados por logarítimo uma vez que as respostas são as verdadeiras
estimativas.
Exercícios 1
Verificação do ganho de produção com base nas dosagens de ração administrada duas vezes ao dia.
Exercícios 2
Definindo a fecundidade (f) como a relação entre o número de ovos e o peso (p)
individyual, estime os parâmetros do modelo para o Macrobrachium acanthurus.
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
MENDES, 1999.
Exercícios 3
Quantificação do diâmetro de árvores com base nas alturas da base ao fuste. Ajuste um modelo
para que melhor expressa esta relação.
ALTURA DIAMETRO
25 65
27 69
23 60
26 68
28 70
29 72
46 87
50 93
Exercícios 4
Quantificação do número de ovos de camarões do gênero Macrobrachium, em relação ao peso e
comprimento dos animais.(Mendes 1999).
nº de nº de
OVOS Comp.(cm) Peso(g) OVOS Comp.(cm) Peso(g)
1 63580 12.2 27.3 6 83348 13 28.8
2 75830 12.9 28 7 48200 12.4 23.3
3 103125 14.6 31.3 8 95380 13.8 30.4
4 47310 12.4 23.1 9 68310 11.5 27.9
5 65080 11.3 27.9 10 102815 14.7 31
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
ANEXO
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Mestrado Profissional em Desenvolvimento Rural e Gestão de Empreendimentos Agroalimentares
Prof. M.sc Félix Lélis
Referências Bibliográficas
CHARNET, R et al. Análise de Modelos de Regressão Linear: com aplicações. Campinas, SP. Ed. UNICAMP,
2008.
MENDES, P.P. Estatística aplicada à aquicultura. Recife, Bagaço, 1999. 265p.