Escolar Documentos
Profissional Documentos
Cultura Documentos
FACULDADE DE MATEMÁTICA
CURSO DE GRADUAÇÃO EM ESTATÍSTICA
Uberlândia – MG
Dezembro/2016
Thacyo Euqueres De Villa
Uberlândia – MG
Dezembro/2016
Thacyo Euqueres De Villa
__________________________________________
Prof. Dr. Janser Moura Pereira
Orientador
__________________________________________
Prof. Dr. José Waldemar da Silva
Convidado
__________________________________________
Profa. Dr. Lúcio Borges de Araújo
Convidado
Uberlândia – MG
Dezembro/2016
"Aos meus pais Jerson e Elaine, meu irmão
Thyago, meus avós, tios e primos pelo carinho,
educação, confiança, amor, incentivo e pelo
exemplo de pessoas que são."
AGRADECIMENTOS
Este trabalho tem como objetivo verificar por meio de modelos de regressão com
variáveis dummies se há diferença significativa entre os custos totais de produção do milho nas
cidades produtoras, Primavera do Leste – MT e Rio Verde – GO. A pesquisa foi realizada com
base nos dados levantados da CONAB (Companhia Nacional de Abastecimento) dos custos de
produção do milho no período de 1998 a 2013. Analisou-se 15 (quinze) variáveis, no qual
apenas 4 (quatro) foram selecionadas a compor o modelo final. Com base no ajuste do modelo
concluiu-se que o município Rio Verde possui em média um custo de R$ 103,64 a mais do que
Primavera do Leste na produção de milho. O modelo de regressão estimado, apresentou ótimo
ajuste captando cerca de 97,67% da variação total do custo de produção do milho.
This study aims to verify through regression models with dummy variables if there is
significant difference between the total cost of corn production in the producing cities,
Primavera do Leste – MT and Rio Verde – GO. The survey was conducted based on data
collected from Conab (Companhia Nacional de abastecimento) of corn production costs from
1998 to 2013. We analyzed 15 (fifteen) variables, in which only 4 (four) were selected to
compose the final model. Based on the model fit it was concluded that the Rio Verde
municipality has an average cost of R$ 103,64 more than the Primavera do Leste in corn
production. The estimated regression model showed great adjustment capturing approximately
97,67% of the total variation in the cost of maize production.
1 INTRODUÇÃO....................................................................................................................9
2 MATERIAIS E MÉTODOS...............................................................................................11
2.1 FORMULAÇÃO MATEMÁTICA.................................................................................11
2.1.1 Regressão Linear Múltipla.....................................................................................11
2.1.2 Métodos dos Mínimos Quadrados Ordinários......................................................12
2.1.3 Métodos dos Mínimos Quadrados Ponderados....................................................15
2.1.4 Métodos dos Mínimos Quadrados Generalizados................................................17
2.1.5Adequação do modelo..............................................................................................20
2.1.6Multicolinearidade...................................................................................................21
2.1.7Seleção de variáveis..................................................................................................22
2.1.7.1 Método “passo atrás” (backward)......................................................................22
2.1.7.1 Método “passo a frente” (forward).....................................................................23
2.1.7.1 Método “passo a passo” (stepwise).....................................................................24
2.1.8Análise de resíduos...................................................................................................24
3 RESULTADOS E DISCUSSÕES.......................................................................................27
4 CONCLUSÃO......................................................................................................................30
REFERÊNCIAS......................................................................................................................31
9
1 INTRODUÇÃO
custo com defensivos, entre outros custos das cidades produtoras Primavera do Leste e
Rio Verde com a finalidade de encontrar, descrever e predizer o comportamento desses
custos de forma que possa auxiliar gestores ligados ao setor no planejamento de
investimentos. Foram utilizados dados da Companhia Nacional de Abastecimento -
CONAB (CONAB, 2016) dos Custos de Contabilidade das cidades produtoras:
Primavera do Leste – MT e Rio Verde - GO.
11
2 MATERIAIS E MÉTODOS
A análise de regressão múltipla é uma técnica estatística, que pode ser usada para
analisar a relação de causa e efeito entre uma única variável dependente e diversas
variáveis independentes (HAIR et. al., 2005).
A análise de regressão múltipla tem por objetivo estimar o impacto do incremento
de cada variável independente – que se traduz como peso de cada variável independente
– sobre a respectiva variação da variável dependente. Os pesos denotam a contribuição
relativa das variáveis independentes para a previsão geral e facilitam a interpretação sobre
a influência de cada variável explicativa em fazer a previsão. (FÁVERO et. al., 2009;
HAIR et. al., 2005).
O modelo de regressão múltipla é dado por (CHARNET, 2008):
possíveis variáveis que não foram inseridas no modelo, mas que também contribuiriam
para a explicação de Yi , em que (CHARNET, 2008):
ui ~ N 0, 2 .
iid
y X u, (2.1)
em que:
y1 0 u1
y 1 X 11 X 21 X k1 u
2 1 X X 22 X k 2 1 2
y y3 , X
12
, 2 e u u3
yn 1 X 1n X 2n X kn
k un
ˆ0 u1
u
ˆ1 2
ˆ ˆ2 e u u3
un
ˆk
tem-se:
ŷ X ˆ (2.2)
u y X ˆ y yˆ
em que
yˆ1
yˆ
2
yˆ yˆ3
yˆ n
Z u ' u ( y ' ˆ ' X ')( y X ˆ ) y ' y y ' X ˆ ˆ ' X ' y ˆ ' X ' X ˆ
Os produtos das matrizes y ' X ˆ e ˆ ' X ' y resultam em um único elemento, isto
é um escalar. Além disso, essas matrizes são iguais, pois o transposto de um escalar é o
próprio escalar. Então:
dZ
dˆ
2 d ˆ ' X ' y d ˆ ' X ' X ˆ ˆ ' X ' X d ˆ 0 (2.4)
2(d ˆ ') X ' y 2(d ˆ ') X ' X ˆ 0 (d ˆ ')( X ' X ˆ X ' y ) 0. (2.6)
y X u,
v1 0 0
0 v 0
V 2
.
0 0 vn
E u j uh 0 para j h.
V 1 e V 1 1 ,
em que,
1 0 0
0 0
2
0 0 n
com j 1 v j para j 1, 2, , n.
y X u .
De acordo com Hoffmann & Vieira (1998), o Método dos Mínimos Quadrados
Generalizados (MQG) deve ser utilizado quando se têm heterogeneidade de variâncias e
autocorrelação dos resíduos.
Os autores apresentam o seguinte modelo para ilustrar o problema de
autocorrelação:
y X u ,
n, que está diretamente associada com a matriz de variâncias e covariâncias dos erros,
admitindo-se que os erros são autocorrelacionados na forma de um processo
autorregressivo estacionário de primeira ordem AR(1), ut , da seguinte forma:
17
ut ut 1 t (2.9)
E t 0, E t 2 2 , E t t h 0 , se h 0 e 1 1. (2.10)
ut ut 1 t
ut 2 t 1 t
2ut 2 t 1 t
3ut 3 2 t 2 t 1 t
t t 1 2 t 2
Como V ut E ut 2 E ut
2
e E u 0 , tem-se V u E u
t t t
2
. Segue-se que:
E ut 2 E t t 1 2 t 2
2
E t 2 2 ( t 1 ) 2 4 ( t 2 ) 2 (2.11)
E t 2
E (
2
t 1 ) E ( t 2 )
2 4 2
2 2 2 4 2
18
2 E ut 2 2 2 4 2 6 2 .
E ut 2 2 2 2 4 2 6 2
2 E ut 2 2 2 4 2 6 2
1 E u
2
t
2 2
Portanto,
2
E ut 2 u2 . (2.12)
1 2
E ut ut h h E ut 2
2
h
1 2
h u2 Covu .
encontra-se ˆ .
19
em que
1 2 n 1
1 n2
1 2
V 1 n 3 .
1 2
n 1 n 2 n 3 1
De acordo com Morettin & Toloi (1987), pode-se representar o modelo AR(2), ou
seja, se os erros forem autocorrelacionados na forma de um processo autorregressivo
estacionário de segunda ordem, da seguinte forma:
ut 1ut 1 2ut 2 t ,
1 2 1
2 1 1
1 2 1.
2
u2 ,
1 1 1 2 2
k 1k 1 2 k 2 , k 0 ,
com
20
1 12
0 1, 1 e 2 2 .
1 2 1 2
SQ Re g
( yˆi y ) 2
R2 i n1 , 0 R2 1
( y y)
SQTotal 2
i
i 1
QMErro ( yi yˆ ) 2 n p
R 2
ajustado 1 1 i n1 .
( y y ) n 1
QMTotal 2
i
i 1
2.1.5.2 Multicolinearidade
1
VIFi ,
1 Ri2
SQ Re g c
SQ Re g r
~ F , 1, n p (2.13)
ˆ 2
Sendo SQRegc e ˆ 2 calculadas sob o modelo completo e SQRegr calculada sob o modelo
reduzido. A estatística (2.13) testa a contribuição da variável após a inclusão das demais.
A contribuição é significante se o valor da estatística for maior que um quantil
especificado da distribuição F com 1 e (n - p) graus de liberdade, sendo p o número de
parâmetros do modelo completo. Assim, se o valor da estatística for menor que esse
quantil da distribuição F, a contribuição não é considerada significante e o modelo
reduzido deverá ser preferido. Se observarmos várias variáveis não significantes, apenas
uma variável é eliminada em uma etapa (aquela cuja estatística do teste tiver o menor
valor). Quando uma variável é eliminada, passamos para a nova etapa cujo modelo
completo não contém a variável que foi descartada. Se todas as variáveis são significantes,
o processo é concluído, e o modelo completo desta etapa é o modelo final (CHARNET,
2008).
são diferentes para cada variável candidata à inclusão e o valor de SQRegr permanece o
Os resíduos de um modelo de regressão linear têm uma relação muito forte com a
qualidade do ajuste, bem como com a confiabilidade dos testes estatísticos sobre os
parâmetros do modelo. Nesse sentido, a análise de resíduos tem uma importância
fundamental na verificação da qualidade dos ajustes de modelos. Basicamente, essa
análise fornece evidências sobre possíveis violações nas suposições do modelo, tais como
a de normalidade, homocedasticidade, e quando for o caso ainda fornece indícios de falta
de ajuste do modelo proposto (CHARNET, 2008).
A normalidade dos resíduos foi avaliada pelo teste de Shapiro-Wilk, que tem
como hipóteses: H0 - Os resíduos seguem distribuição normal versus H1 - Os resíduos não
seguem distribuição normal.
25
A estatística do teste é:
2
n/2 n
Wc ai (eni 1 ei ) e 2
i
i 1 i 1 ,
em que ai são constantes geradas pelas médias, variâncias e covariâncias das estatísticas
de ordem de uma amostra de tamanho n de uma distribuição Normal. A regra de decisão
é rejeitar H 0 ao nível de significância α se valor p < α (SHAPIRO, 1965).
A independência dos resíduos foi avaliada pelo teste de Durbin-Watson, que tem
como hipóteses: H0 - Os resíduos do modelo não apresentam autocorrelação serial de
ordem 1 versus H1 - Os resíduos do modelo apresentam autocorrelação serial de ordem 1.
A estatística do teste é:
(e ei i 1 )2
d i 2
n
, 0 d 4.
e
i 1
2
i
3. Se di d d s , o teste é inconclusivo.
A homogeneidade de variância dos resíduos foi avaliada pelo teste de Bartlett, que
tem como hipóteses:
26
N k ln S p2 ni 1 ln Si2
k
c2 i 1 ,
1 k
1 1
1
3 k 1 i 1 ni 1 N k
em que:
ni
y yi
k
ni 1 S
2
2
i ij
j 1
S p2 i 1
e Si2 .
N k ni 1
3 RESULTADOS E DISCUSSÕES
Sendo que: ŷ representa o custo estimado da produção total de milho; x2 gastos com mão-
de-obra fixa (MOBfixa); x4 gastos com sementes (Sementes); x5 gastos com fertilizantes
(Fertilizantes); x15 (x15 = 1, se o município for Rio Verde e x15 = 0, se o município for
Primavera do Leste).
A partir do modelo (3.1) pode-se estimar o valor esperado do custo total da
produção dado que o município é Rio Verde (x15 = 1), tem-se:
Por meio da análise de regressão foi possível verificar a variação de custo por
hectares da produção de milho entre os municípios Primavera do Leste e Rio Verde.
Como 15 é positivo, o custo médio da produção de milho na cidade de Rio Verde
é maior que o da cidade de Primavera do Leste.
Na Tabela 4 são apresentados os resultados dos testes de normalidade,
independência e homogeneidade de variâncias dos resíduos a partir dos testes de Shapiro-
Wilk, Durbin-Watson e Bartlett, respectivamente.
4 CONCLUSÃO
Neste trabalho foi possível analisar a variação de custo por hectares (R$/ha) da
produção de milho nas cidades Rio Verde - GO e Primavera do Leste - MT. Verificou-se
que, além da variável dummy para região ser significativa no modelo, os custos com
“mão-de-obra fixa”, “sementes” e “fertilizantes” foram significativos para a predição do
custo total de produção. O uso de uma variável dummy para as cidades Primavera do
Leste e Rio Verde produz duas equações que podem ser utilizadas para prever e comparar
o custo de produção de milho entre os municípios. Os resultados nos mostram que o
município de Rio Verde possui em média um custo de R$ 103,64 a mais do que Primavera
do Leste na produção de milho. O modelo de regressão estimado, equação (3.1),
apresentou ótimo ajuste captando cerca de 97,67% da variação total do custo de produção
do milho.
32
REFERÊNCIAS
CORRAR, S. L.; PAULO, E.; DIAS FILHO, J.M. (Coord.). Análise multivariada
para cursos de administração, ciências contábeis e economia. São Paulo: Atlas,
2007, 539p.
DRAPER, N.R.; SMITH, H. Applied regression analysis. 3. ed. New York: John
Wiley e Sons, 1998. 706p.
KUTNER, M. H. et al. Applied linear models. 5th ed. New York: McGraw-Hill Irwin,
2004.
MARTINS, E.; Contabilidade de custos: Inclui o ABC. 8. Ed. São Paulo: Atlas, 2006.
MORETTIN. P. A.; TOLOI, C. M. C. Séries temporais. 2. Ed., Atual: São Paulo, 1987.
33