Escolar Documentos
Profissional Documentos
Cultura Documentos
Capítulo I..........................................................................................................................4
Introdução..........................................................................................................................4
Objectivos do trabalho.......................................................................................................4
Procedimentos metodológicos...........................................................................................5
Quanto às abordagens........................................................................................................5
Linear simples...................................................................................................................7
Regressão logística..........................................................................................................12
Variáveis aleatórias.........................................................................................................14
Distribuição discreta........................................................................................................14
Distribuição de Bernouli..................................................................................................15
Distribuição Binomial.....................................................................................................15
Análise de decisão Bayesiana..........................................................................................16
Distribuição contínua.......................................................................................................17
Distribuição normal.........................................................................................................17
Distribuição t-student......................................................................................................17
A distribuição Qui-quadrado...........................................................................................18
Capítulo IV.....................................................................................................................19
Conclusão........................................................................................................................19
Referências Bibliográficas...............................................................................................20
3
1. Capítulo I
1.1. Introdução
O termo “regressão” foi usado, pela primeira vez, por Francis Galton num estudo sobre
a relação entre a altura dos pais e dos filhos e verificou que, mesmo havendo uma
tendência para os pais altos terem filhos altos e os pais baixos terem filhos baixos, a
altura média de filhos tendia a deslocar-se, ou a “regredir” (daí ter começado a fazer uso
deste termo) para a altura média da população.
A análise de regressão é uma das técnicas estatísticas mais utilizadas para pesquisar e
modelar a relação existente entre duas ou mais variáveis, procura avaliar a existência e o
grau de dependência estatística entre as variáveis aleatórias, ou seja, aquelas que têm
distribuição de probabilidade. Enquanto a análise de correlação consiste na medição do
grau ou intensidade de associação entre duas variáveis. Quando se pode demonstrar que
a variação de uma variável está de algum modo associada com a variação da outra,
então podemos dizer que as duas variáveis estão correlacionadas.
Objectivo geral
Objectivos específicos
4
1.1.2. Procedimentos metodológicos
A abordagem é caracterizada por ser mais ampla, onde se busca uma aproximação no
conteúdo estudado, que fornece ao pesquisador métodos para esclarecer o tema
proposto, (Lakatos; Marconi, 2001).
Quanto ao método de abordagem foi utilizado o método dedutivo, pois buscou através
de premissas particulares chegar ao objectivo geral e lógico.
Nesta pesquisa quanto aos objectivos, foi utilizado o exploratório pois permite
estabelecer critérios, métodos que visem oferecer informações sobre o objecto da
pesquisa.
5
2. Capítulo II - Análise de Regressão
2.1. Conceitos, objectivos, aplicações
Por que utilizamos a análise de regressão? Pode-se utilizar a regressão linear como um
instrumento estatístico para, simplesmente, resumir dados, informações.
De acordo com Angrist & Pischke (2009), os modelos de regressão podem ser vistos
como um dispositivo computacional para estimação de diferenças entre um grupo de
tratados e um grupo de controlo, com ou sem acovardadas. Para entender melhor o que
seriam esses dois grupos e o problema por trás da comparação de seus resultados,
imagine que um gestor público esteja interessado em avaliar os efeitos de uma política
de financiamento estudantil sobre a decisão de cursar ensino superior, como por
exemplo, do Fundo de Financiamento Estudantil (Fies).
O modelo linear normal, criado no início do século XIX por Legendre e Gauss,
dominou a modelação estatística até meados do século XX, embora vários modelos não
lineares ou não normais tenham entretanto sido desenvolvidos para fazer face a
situações que não eram adequadamente explicadas pelo modelo linear normal.
São exemplo disso, tal como referem Mccullagh & Nelder (1989) e Lindsey (1997), o
modelo complementar log-log para ensaios de diluição (Fisher, 1922), os modelos
probit (Bliss, 1935) e logit (Berkson, 1944; Dyke & Patterson, 1952; Rasch, 1960) para
proporções, os modelos log-lineares para dados de contagens (Birch, 1963), os modelos
de regressão para análise de sobrevivência (Feigl & Zelen, 1965; Zippin & Armitage,
1966; Glasser, 1967).
X =f ( X 1 , X 2 , X 3 , … X n ) + ε
A ideia por trás do modelo de regressão linear é estimar uma reta que melhor descreva a
relação entre variáveis. No exemplo do Gráfico 1, pode-se pensar na recta como uma
forma de se resumir a informação contida na nuvem de pontos, essa é uma recta de
regressão linear.
7
1 N
a) Média de X́ X= ( N
∑ X
i=1 i )
b) Desvio padrão X ¿
c) Média de Y; d) Desvio padrão e) Correlação de X e Y
1 n ( X i−X ) ( Y i −Y )
( r=
N
∑ i=1 S x
.
Sy )
2.1.3. Pressupostos da análise de regressão linear simples
As verificações das suposições supracitadas são feitas através da análise dos resíduos
que, segundo Maroco (2007), consiste em avaliar os pressupostos de:
8
em que a hipótese de amostragem aleatória não estiver presente. Pode-se pensar
no exemplo de retornos salariais do investimento em capital humano.
Hipótese 3: Variação das amostras da variável independente - A terceira
hipótese estabelece que os resultados amostram de X não têm todo o mesmo
valor. Essa hipótese também é conhecida como a hipótese de variabilidade do
regressor. Na maior parte das aplicações, esta hipótese sempre estará presente.
Faz pouco sentido tentar explicar a variação de y por variações em X, se X não
varia.
Hipótese 4: Média condicional do erro igual a zero - O erro tem valor
esperado igual a 0 dado X. A quarta hipótese se refere ao fato de que a
distribuição condicional dos erros, dada a variável independente, apresenta
média zero. Em termos matemáticos, tem-se que:
E ( U i|X i )=0
Como explicam Stock e Watson (2010), esta hipótese é uma afirmação matemática
formal sobre os “outros factores” contidos nos erros (ui) e assevera que esses outros
factores são não correlacionados com Xi, de modo que, dado um valor de Xi, a média da
distribuição desses outros valores é zero. Voltando ao exemplo de retornos à educação,
a hipótese 4 estabelece que numa equação de rendimentos, não há nada no erro que seja
correlacionado com a decisão de investimento em educação e que afecte o rendimento,
como, por exemplo, habilidades inatas.
Como destacam Heij et al. (2004), o objectivo do modelo de regressão linear simples é
explicar a variação em uma variável dependente y em termos de variações em uma
variável explicativa x. Tal proposta só faz sentida se y estiver de fato relacionado a x, ou
seja, voltando ao exemplo da estimação da relação do clima sobre produto agro-
pecuário, se β1, na equação (5), for diferente de zero. Desse modo, queremos aplicar um
teste para a hipótese nula de que β1 = 0, contra a hipótese alternativa que β1 ≠ 0.A
hipótese nula será rejeitada se o coeficiente diferir significativamente de zero.
Nesse sentido, surge a proposta do modelo de regressão linear múltipla. O conceito por
trás desse modelo é o de ceteris paribus. Tal expressão tem suas origens no latim e é
9
muito utilizada nos modelos económicos. A ideia é de que “tudo o mais constante”, ou
mantendo-se outros factores fixos, podemos estimar o efeito de X (variável explicativa)
sobre Y (variável explicada ou dependente).
Logo, no modelo de regressão múltipla, por exemplo, com duas variáveis explicativas,
isto é:
Y i=β 0 + β 1 X 1 i+ β 2 X 2 i +ε i
N
STQ=∑ ¿ ¿
i=1
N
SQE=∑ ¿ ¿
i=1
N
SQR=∑ ε^ 2
i=1 i
10
A variação total em é a soma da variação que foi explicada pela regressão com a
variação que não foi explicada:
STQ=SQE + SQR
SQE
R 2=
STQ
SQR
N−K −1 σ2
Ŕ2=1− =1−
STQ STQ
N −1 N−1
σ x ,Y
ρ x , y=
σ X σY
11
n
∑ ( x i−x ) ( y i− y )
S X ,Y = i=1
n−1
S x ,Y
^ρ =
SX SY
n
Onde: S x =
√ ∑ ¿ ¿ ¿ ¿ são os desvios padrão das amostras.
i=1
ρ́ √n−1
A estatística do teste é: t 0=
1−R 2
Y = β0 + β 1 x 1 + β 2 x 2 … βk X k + ε
n
D=∑ d i2
i=1
Obtêm-se uma medida do desvio total dos pontos observados à recta estimada. A
medida anterior depende da recta considerada, ou seja depende de β 0 e β 1. Assim,
pode-se escrever:
n n
D ( β 0 , β 1 )=∑ d =∑ ( y i ¿− ^y 2i )¿
2
i
i=1 i=1
13
4. Capítulo III - Distribuição de Probabilidades Notáveis
Segundo Moore & McCabe (2002, p.177), “uma variável aleatória é uma variável cujo
valor é um resultado numérico de um fenómeno aleatório”.
Sendo assim, Barbetta et al. (2004, p.117), apresenta uma definição para variável
aleatória, “formalmente, uma variável aleatória é uma função que associa elementos do
espaço amostral ao conjunto de números reais”.
Segundo Barbetta et al. (2004, p.119), se X é uma variável aleatória discreta, com
valores possíveis x1, x2, ..., xn, então a distribuição de probabilidades de X pode ser
dada pela função de probabilidade, que relaciona a cada valor possível xi a sua
probabilidade de ocorrência p(xi), ou seja:
14
Uma forma alternativa de representação da distribuição de probabilidades de uma
variável aleatória é através da sua função de distribuição acumulada. Para as variáveis
aleatórias discretas, a função de distribuição acumulada é definida por:
F ( x )=P ( X ≤ x ) ∀ x , R
Seja um experimento que consiste no lançamento uma única vez de uma moeda. Seja o
evento de interesse o surgimento da face cara. Logo, denominamos o evento de
interesse como sucesso, representado pela letra p e o outro como fracasso, representado
por 1-p.
0
Y = Fracasso P (Y =0 ) =1−ρ ; Sucesso P (Y =1 )=ρ
1
P= (Y = y ) p y . q1− y
Com parâmetros:
E ( Y )= p e VAR ( Y )= pq
15
4.1.3. Distribuição Binomial
Experimentos que consistem em mais de uma tentativa e cujos valores possíveis são
sucesso ou fracasso, podem utilizar esta distribuição para o cálculo de probabilidades.
Perceba-se que uma variável com distribuição binomial consiste de n tentativas
independentes de uma variável com distribuição Bernoulli. Denota-se Y com
distribuição binomial como:
Y ∼B (n , p)
P ( Y = y )= n p y q n− y
y()
Com parâmetros:
P ( H |e ) P (H)
P ( H|e )=
P (e)
Onde:
16
entre as variáveis. Os arcos direccionados representam as relações de causas e
consequências entre as variáveis do domínio, ou seja, A é um nó que está direccionado
em B, assim assume-se que o nó A representa uma causa de B, onde A é um nó pai de B;
e onde B é um nó filho de A. Para representar a dependência, são utilizadas
probabilidades associadas em todos os nós pais-filhos na rede, (Pearl, 1988).
5. Distribuição contínua
A maioria das variáveis atmosféricas pode assumir valores contínuos. Por exemplo: A
temperatura, a precipitação, a altura geopotencial, e a velocidade do vento. Existem
duas funções associadas a cada variável contínua X:
Uma variável aleatória contínua é representada por uma distribuição normal se a sua
distribuição for:
Simétrica
A forma gráfica é similar a um sino.
1
f ( x )= e¿ ¿¿
σ √2 π
17
A distribuição t de student é uma distribuição de probabilidade estatística, publicada
por um autor que se chamou de Student, pseudônimo de William Sealy Gosset, que não
podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a
Cervejaria Guinness.
x−μ
t=
S
¿¿
A média dos desvios e nula, porem a elevação ao quadrado transforma todos os desvios
em valores positivos, tornando possível a soma dos desvios sem haver cancelamento.
O desvio (o - e) entre cada proporção observada e esperada pode ser expressa por d, e
d2
portanto a fórmula também pode ser escrita como
e
18
O teste χ2 é, essencialmente, um mecanismo pelo qual os desvios de uma proporção
hipotética são reduzidos a um único valor, que permite determinar uma probabilidade a
respeito da casualidade ou não dos desvios entre as proporções observadas e esperadas.
5.1.3. Capítulo IV
5.1.4. Conclusão
Após das consultas das várias literaturas, com este trabalho pretende-se concluir que A
teoria da probabilidade é a base da qual toda estatística é desenvolvida, e vem sendo
construída ao longo dos séculos. Tal teoria, fornece meios de modelar fenómenos
aleatórios. Usando teorias probabilísticas é possível modelar a altura, massa corpórea,
renda per capita, quantidade de filhos do sexo masculino, entre outros, de uma
população, isto é, construir um modelo univariado ou multivariado de probabilidade que
forneça informação de quão provável é um determinado evento acontecer.
O intuito principal deste pequeno trabalho foi introduzir o leitor às ferramentas básicas
de econometria, em especial, aos modelos de regressão linear. É apenas um primeiro
passo para adestrar esse imenso universo das ferramentas estatísticas e econométricas
que podem ser de grande utilidade para a avaliação de políticas públicas. Ao invés de
apresentar de todas possibilidades dos modelos de regressão linear, o que se pretendeu
aqui foi simplesmente abrir a tampa de uma imensa caixa de utensílios, e apontar as
limitações e hipóteses subjacentes aos modelos econométricos mais simples.
De outro lado, cabe uma lembrança final de que o instrumental estatístico, seja qual for,
não subsiste sem a teoria e o conhecimento da questão que se busca analisar. Logo, para
se avaliar uma política pública, é preciso, antes de mais nada, conhecer sobre tal
política, o que motivou a sua elaboração, o que se pretende com a mesma, quem é o seu
público-alvo, quais podem ser seus desdobramentos e todas as demais questões a ela
atreladas.
19
5.1.5. Referências Bibliográficas
1. Angrist, J. D; Pischke, J.-S. Mostly harmless econometrics: an empiricist’s
companion. Massachusettts Institute of Technology and The London school of
Economics, 2009. https://doi.org/10.1017/CBO9781107415324.004.
2. Barbetta, P. A.; Reis, M. M.; Bornia, A. C. Estatística Para Cursos de Engenharia e
Informática. São Paulo: Editora Atlas S.A., 2004.
3. Heij, Christiaan et al. Econometric methods with applications in business and
economics. New York: Oxford University Press Inc., 2004. ISBN 0–19–926801–0.
4. Maroco, J. (2007): Análise Estatística com utilização do SPSS. 3ª Ed., Edições
Sílabo.
5. Martins, P. S. (2008). Análise estatística de performance de um conjunto de testes
auditivos. Tese de Mestrado, Universidade de Aveiro.
6. Lakatos, E. M.; Marconi, M. de A. Metodologia do trabalho científico. 6. ed. São
Paulo: Atlas, 2001.
7. Stock, J. H.; Watson, M. W. Introduction to Econometrics. 3. Ed. Addison-Wesley
Series in Economics, v. 1. Addison-Wesley, 2010.
20
21