Mario Estastica

Índice
Capítulo I..........................................................................................................................4
Introdução..........................................................................................................................4
Objectivos do trabalho.......................................................................................................4
Procedimentos metodológicos...........................................................................................5
Quanto às abordagens........................................................................................................5
Quanto aos objectivos........................................................................................................5
Quanto aos procedimentos................................................................................................5
Capítulo II - Análise de Regressão.................................................................................6
Conceitos, objectivos, aplicações......................................................................................6
Modelos de regressão linear..............................................................................................7
Linear simples...................................................................................................................7
Pressupostos da análise de regressão linear simples.........................................................8
Hipóteses do modelo linear simples..................................................................................8
A significância de uma estimativa.....................................................................................9
Modelo de linear múltiplo.................................................................................................9
Pressupostos sobre os erros do modelo de regressão linear múltipla..............................10
Medidas de ajustamento no modelo de regressão linear múltipla...................................10
Regressão e correlação linear..........................................................................................11
Análise de variância aplicada à regressão linear múltipla...............................................12
Regressão logística..........................................................................................................12
Determinação da recta de regressão................................................................................13
Capítulo III - Distribuição de Probabilidades Notáveis.............................................14
Variáveis aleatórias.........................................................................................................14
Distribuição discreta........................................................................................................14
Distribuição de Bernouli..................................................................................................15
Distribuição Binomial.....................................................................................................15
Análise de decisão Bayesiana..........................................................................................16
Construção das redes Bayesianas....................................................................................16
Distribuição contínua.......................................................................................................17
Distribuição normal.........................................................................................................17
Distribuição t-student......................................................................................................17
A distribuição Qui-quadrado...........................................................................................18
Capítulo IV.....................................................................................................................19
Conclusão........................................................................................................................19
Referências Bibliográficas...............................................................................................20
3
1. Capítulo I
1.1. Introdução
O termo “regressão” foi usado, pela primeira vez, por Francis Galton num estudo sobre
a relação entre a altura dos pais e dos filhos e verificou que, mesmo havendo uma
tendência para os pais altos terem filhos altos e os pais baixos terem filhos baixos, a
altura média de filhos tendia a deslocar-se, ou a “regredir” (daí ter começado a fazer uso
deste termo) para a altura média da população.
A análise de regressão é uma das técnicas estatísticas mais utilizadas para pesquisar e
modelar a relação existente entre duas ou mais variáveis, procura avaliar a existência e o
grau de dependência estatística entre as variáveis aleatórias, ou seja, aquelas que têm
distribuição de probabilidade. Enquanto a análise de correlação consiste na medição do
grau ou intensidade de associação entre duas variáveis. Quando se pode demonstrar que
a variação de uma variável está de algum modo associada com a variação da outra,
então podemos dizer que as duas variáveis estão correlacionadas.
As probabilidades fornecem conceitos e métodos para estudar fenómenos aleatórios e

para interpretar previsões baseadas na incerteza. Este estudo, que pode ser em grande
parte experimental, fornece uma base conceptual que capacita para interpretar, de forma
crítica, toda a comunicação que utiliza a linguagem das probabilidades, bem como a
linguagem estatística. As técnicas de contagem que aqui aparecem como auxiliar do
cálculo de probabilidades constituem uma aprendizagem significativa por si só,
especialmente se desenvolverem mais as capacidades do raciocínio combinatório e as
conexões matemáticas e menos a aplicação das fórmulas.
1.1.1. Objectivos do trabalho
Objectivo geral
 Realizar uma pesquisa sobre Análise de Regressão e Probabilidades Notáveis.
Objectivos específicos
 Conceituar os termos acima citados;

 Abordar os modelos de Regressão;
 Abordar questões inerentes à Probabilidades.
4
1.1.2. Procedimentos metodológicos
Refere-se a todas as etapas e procedimentos que serão analisados durante a pesquisa

para que possa ser encontrada a resposta para os problemas identificados.
Segundo Lakatos e Marconi (2001), sobre a pesquisa científica, é um procedimento

sistemático, que são baseados em pensamentos lógicos que faz com que encontra-se
soluções para tais problemas expostos pela pesquisa, tem como caminho conhecer a
realidade e descobrir verdades parciais. A metodologia utilizada pode ser consideradas
quanto ao método de abordagem, aos objectivos e procedimentos quanto a técnica
utilizada.
1.1.3. Quanto às abordagens
A abordagem é caracterizada por ser mais ampla, onde se busca uma aproximação no
conteúdo estudado, que fornece ao pesquisador métodos para esclarecer o tema
proposto, (Lakatos; Marconi, 2001).
Quanto ao método de abordagem foi utilizado o método dedutivo, pois buscou através
de premissas particulares chegar ao objectivo geral e lógico.
1.1.4. Quanto aos objectivos
Os objectivos podem ser definidos como meio de constituir a finalidade da pesquisa,

que objectivo se pretende atingir com todo tema pesquisado, (Lakatos; Marconi, 2001).
Nesta pesquisa quanto aos objectivos, foi utilizado o exploratório pois permite
estabelecer critérios, métodos que visem oferecer informações sobre o objecto da
pesquisa.
1.1.5. Quanto aos procedimentos
Conforme Lakatos (2001), a pesquisa científica é um procedimento sistemático podendo

ser baseados em pensamentos lógicos trazendo assim soluções para os problemas a
serem estudados, traçando assim um caminho de realidades e verdades.
Neste estudo, utilizou-se a pesquisa bibliográfica para a partir de matérias publicadas

sobre o tema, consulta de livros, artigos, podendo assim alcançar os objectivos
descritos.
5
2. Capítulo II - Análise de Regressão
2.1. Conceitos, objectivos, aplicações
Por que utilizamos a análise de regressão? Pode-se utilizar a regressão linear como um
instrumento estatístico para, simplesmente, resumir dados, informações.
Na análise de regressão, a preocupação é sempre com a dependência estatística entre

variáveis. Trabalha-se com variáveis aleatórias, que têm uma distribuição de
probabilidade. Não há nenhum enfoque em relações determinísticas ou funcionais,
típicas em ciências como a química (lei de Boyle, lei de Charles) ou física clássica (as
três leis de movimento de Newton, a lei da gravidade, as leis da termodinâmica, entre
outras).
De acordo com Angrist & Pischke (2009), os modelos de regressão podem ser vistos
como um dispositivo computacional para estimação de diferenças entre um grupo de
tratados e um grupo de controlo, com ou sem acovardadas. Para entender melhor o que
seriam esses dois grupos e o problema por trás da comparação de seus resultados,
imagine que um gestor público esteja interessado em avaliar os efeitos de uma política
de financiamento estudantil sobre a decisão de cursar ensino superior, como por
exemplo, do Fundo de Financiamento Estudantil (Fies).
O modelo linear normal, criado no início do século XIX por Legendre e Gauss,
dominou a modelação estatística até meados do século XX, embora vários modelos não
lineares ou não normais tenham entretanto sido desenvolvidos para fazer face a
situações que não eram adequadamente explicadas pelo modelo linear normal.
São exemplo disso, tal como referem Mccullagh & Nelder (1989) e Lindsey (1997), o
modelo complementar log-log para ensaios de diluição (Fisher, 1922), os modelos
probit (Bliss, 1935) e logit (Berkson, 1944; Dyke & Patterson, 1952; Rasch, 1960) para
proporções, os modelos log-lineares para dados de contagens (Birch, 1963), os modelos
de regressão para análise de sobrevivência (Feigl & Zelen, 1965; Zippin & Armitage,
1966; Glasser, 1967).
Os Modelos Lineares Generalizados introduzidos por Nelder e Wedderburn (1972),

correspondem a uma síntese destes e de outros modelos, vindo assim unificar, tanto do
ponto de vista teórico como conceptual, a teoria da modelação estatística até então
desenvolvida.
6
Análise de regressão é uma técnica de modelação utilizada para analisar a relação entre
uma variável dependente (y) e uma ou mais variáveis independentes X 1 , X 2 , X 3 ,... X n .
O objectivo desta técnica é identificar e estimar uma função que descreva, o mais
próximo possível, a relação entre essas variáveis e que assim irá permitir predizer o
valor que a variável dependente (y) irá assumir para um determinado valor da variável
independente X .
O modelo de regressão poderá ser escrito genericamente como:
X =f ( X 1 , X 2 , X 3 , … X n ) + ε
2.1.1. Modelos de regressão linear

2.1.2. Linear simples
Como destacado no capítulo anterior, o instrumental da econometria é utilizado para

analisar, qualitativamente e quantitativamente, relações entre variáveis. Chama-se de
variável dependente ou variável endógena, y, aquela cujo comportamento será explicado
pela variável x, chamada de variável explicativa, regressor ou variável independente. A
ideia aqui é bastante simples; é, praticamente, estimar a equação de uma recta, como a
do Gráfico 1. Tal equação é descrita como y=a+bx. O ponto central é, portanto,
encontrar valores para a e b. Em outras palavras, queremos estimar a inclinação da recta
utilizando uma amostra aleatória de dados de x e y. A inclinação nos fornece o efeito em
y da mudança de uma unidade em x.
Stock e Watson (2010), trazem o exemplo da estimação do efeito do tamanho da turma,

ou número de alunos por sala de aula, sobre o desempenho académico dos estudantes.
Nos Estados Unidos, em muitos distritos de escolas, o desempenho académico é medido
por testes padronizados. Poder-se-ia perguntar, para um gestor de uma superintendência
regional de ensino, qual seria o efeito de se diminuir o tamanho da turma sobre o
resultado médio nesses testes padronizados.
A ideia por trás do modelo de regressão linear é estimar uma reta que melhor descreva a
relação entre variáveis. No exemplo do Gráfico 1, pode-se pensar na recta como uma
forma de se resumir a informação contida na nuvem de pontos, essa é uma recta de
regressão linear.
A recta de regressão depende de cinco estatísticas básicas:
7
1 N
a) Média de X́ X= ( N
∑ X
i=1 i )
b) Desvio padrão X ¿
c) Média de Y; d) Desvio padrão e) Correlação de X e Y
1 n ( X i−X ) ( Y i −Y )
( r=
N
∑ i=1 S x
.
Sy )
2.1.3. Pressupostos da análise de regressão linear simples
Os pressupostos da análise de regressão linear simples (RLS) são a linearidade, a

normalidade e a homocedasticidade dos resíduos.
A teoria da regressão assenta nas seguintes suposições sobre os erros:
 A sua média é zero e a variância desconhecida.

 São não correlacionados, ou seja, o valor de um erro não depende de qualquer
outro erro.
 Os erros têm distribuição normal.
As verificações das suposições supracitadas são feitas através da análise dos resíduos
que, segundo Maroco (2007), consiste em avaliar os pressupostos de:
 Homogeneidade dos resíduos

 Distribuição normal dos erros
 Independência dos resíduos
2.1.4. Hipóteses do modelo linear simples
O estimador de MQO apresenta um conjunto de quatro hipóteses fundamentais sobre as

quais se sustenta o seu uso como o melhor estimador linear não visado:
 Hipótese 1: Modelo linear nos parâmetros - A primeira hipótese se refere ao

facto de o modelo ser linear nos parâmetros, ou seja, as betas do modelo
populacional (5) entram de forma linear na equação.
 Hipótese 2: A Amostragem é aleatória - A segunda hipótese diz que existe uma
amostra aleatória de tamanho N, f (Xi, Yi), i=1…N, proveniente de um modelo
populacional. Cabe lembrar que, em muitos casos, problemas de selecção
amostras estarão presentes, daí será necessário tratar de forma especial os casos
8
em que a hipótese de amostragem aleatória não estiver presente. Pode-se pensar
no exemplo de retornos salariais do investimento em capital humano.
 Hipótese 3: Variação das amostras da variável independente - A terceira
hipótese estabelece que os resultados amostram de X não têm todo o mesmo
valor. Essa hipótese também é conhecida como a hipótese de variabilidade do
regressor. Na maior parte das aplicações, esta hipótese sempre estará presente.
Faz pouco sentido tentar explicar a variação de y por variações em X, se X não
varia.
 Hipótese 4: Média condicional do erro igual a zero - O erro tem valor
esperado igual a 0 dado X. A quarta hipótese se refere ao fato de que a
distribuição condicional dos erros, dada a variável independente, apresenta
média zero. Em termos matemáticos, tem-se que:
E ( U i|X i )=0
Como explicam Stock e Watson (2010), esta hipótese é uma afirmação matemática
formal sobre os “outros factores” contidos nos erros (ui) e assevera que esses outros
factores são não correlacionados com Xi, de modo que, dado um valor de Xi, a média da
distribuição desses outros valores é zero. Voltando ao exemplo de retornos à educação,
a hipótese 4 estabelece que numa equação de rendimentos, não há nada no erro que seja
correlacionado com a decisão de investimento em educação e que afecte o rendimento,
como, por exemplo, habilidades inatas.
2.1.5. A significância de uma estimativa
Como destacam Heij et al. (2004), o objectivo do modelo de regressão linear simples é
explicar a variação em uma variável dependente y em termos de variações em uma
variável explicativa x. Tal proposta só faz sentida se y estiver de fato relacionado a x, ou
seja, voltando ao exemplo da estimação da relação do clima sobre produto agro-
pecuário, se β1, na equação (5), for diferente de zero. Desse modo, queremos aplicar um
teste para a hipótese nula de que β1 = 0, contra a hipótese alternativa que β1 ≠ 0.A
hipótese nula será rejeitada se o coeficiente diferir significativamente de zero.
3. Modelo de linear múltiplo
Nesse sentido, surge a proposta do modelo de regressão linear múltipla. O conceito por
trás desse modelo é o de ceteris paribus. Tal expressão tem suas origens no latim e é
9
muito utilizada nos modelos económicos. A ideia é de que “tudo o mais constante”, ou
mantendo-se outros factores fixos, podemos estimar o efeito de X (variável explicativa)
sobre Y (variável explicada ou dependente).
Logo, no modelo de regressão múltipla, por exemplo, com duas variáveis explicativas,
isto é:
Y i=β 0 + β 1 X 1 i+ β 2 X 2 i +ε i
Tem -se β1 e β2 como coeficientes parciais de regressão.
3.1. Pressupostos sobre os erros do modelo de regressão linear múltipla

 Têm médias zero e a mesma variância desconhecida.
 São não correlacionados, ou seja, o valor de um erro não depende de qualquer
outro erro.
 Os erros têm distribuição normal.
As verificações das suposições supracitadas são feitas através da Análise Residual.
3.1.1. Medidas de ajustamento no modelo de regressão linear múltipla
Retomando, agora, a definição do coeficiente de ajustamento do modelo de regressão

linear, considerando agora o modelo de regressão linear múltipla. O conceito aqui é
exactamente o mesmo já apresentando no contexto de regressão linear simples. Apenas
para recordar, temos: Soma total dos quadrados:
N
STQ=∑ ¿ ¿
i=1
Soma dos quadrados explicados pela regressão:
N
SQE=∑ ¿ ¿
i=1
Soma do quadrado dos resíduos:
N
SQR=∑ ε^ 2
i=1 i
10
A variação total em é a soma da variação que foi explicada pela regressão com a
variação que não foi explicada:
STQ=SQE + SQR
Daí, tem-se o coeficiente de ajustamento:
SQE
R 2=
STQ
Podemos, então, definir o R2como o quadrado do coeficiente de correlação entre o valor

actual de Y i e o valor predito Y^ i.Verifica-se que o R2 nunca decresce, e, em geral, cresce
quando adicionamos uma outra variável explicativa na regressão. Isso porque a soma do
quadrado dos resíduos nunca aumenta quando adicionamos uma nova variável
explicativa na regressão. Torna-se, portanto, um pouco mais difícil decidir sobre a
inclusão ou não de uma variável adicional no modelo. Na verdade, desejaríamos saber
se essa variável tem um efeito parcial em Y.
Muitas vezes, é interessante utilizar o conceito do R-quadrado ajustado, que irá

considerar o número de variáveis explicativas no modelo, ou seja:
SQR
N−K −1 σ2
Ŕ2=1− =1−
STQ STQ
N −1 N−1
3.1.2. Regressão e correlação linear
A correlação entre duas variáveis é determinada numericamente por meio dos

coeficientes de correlação que representam o grau de associação entre duas variáveis
contínuas e designa-se por ρ.
O coeficiente de correlação linear, também chamado de co-variância normalizada, é

representado por:
σ x ,Y
ρ x , y=
σ X σY
A co-variância entre duas variáveis pode ser estimada pela equação:
11
n
∑ ( x i−x ) ( y i− y )
S X ,Y = i=1
n−1
Admitindo-se que a distribuição conjunta das variáveis é normal bivariada, torna-se

conveniente utilizar, como medida da correlação, o coeficiente de correlação de Pearson
cujo estimador é dado por:
S x ,Y
^ρ =
SX SY
n
Onde: S x =
√ ∑ ¿ ¿ ¿ ¿ são os desvios padrão das amostras.
i=1
Para se decidir sobre a existência de correlação e o sentido da variação da recta de

regressão, calcula-se ρ e o erro de ρ, e seguidamente efectua-se um teste de t-Student,
para as seguintes hipóteses:
H 0 : ρ=0 , a recta de regress ã o em y é paralela ao eixo das abcissas .
H 1 : ρ≠ 0 , a recta de regress ã o em y n ã o é paralela ao eixo das abcissas .
ρ́ √n−1
A estatística do teste é: t 0=
1−R 2
3.1.3. Análise de variância aplicada à regressão linear múltipla
O modelo de regressão linear múltipla representa-se por:
Y = β0 + β 1 x 1 + β 2 x 2 … βk X k + ε
Com uma variável dependente e k variáveis independentes.
Segundo Maroco (2007), após explicarmos a variabilidade total do modelo ( ) como a

soma da variabilidade explicada pelo modelo ( com a variabilidade não explicada pelo
modelo (mas sim pelos erros) ( ), vamos avaliar, a partir de estimativas amostrais, se na
população algumas das variáveis independentes (VI) podem ou não influenciar a
variável dependente (VD), ou seja, se o modelo ajustado é ou não significativo.
A hipótese teórica é avaliada pelo teste que se refere de seguida.
3.1.4. Regressão logística

12
Em muitas situações práticas, no decurso da investigação de fenómenos reais, o
investigador necessita de recorrer a um modelo matemático representativo, que pode ser
definido como uma abstracção dum sistema real que possa ser utilizada com os
propósitos de predição e controle e para aplicável deve ter dois atributos, o realismo e a
simplicidade, (Martins 1988). Se por um lado o modelo deve servir como uma
aproximação razoavelmente precisa do sistema real e conter a maior parte dos aspectos
importantes do mesmo, por outro não deve ser tão complexo que se torne impossível
compreendê-lo e manipulá-lo.
Nas situações multissectoriais reais deparamo-nos com factores que actuam

efectivamente sobre a variável resposta influenciando-a, enquanto outros não, agindo
apenas como factores de confusão. Assim, com o objectivo de se interpretar
correctamente os fenómenos, devemos utilizar modelos que considerem a acção
conjunta de variáveis. Para modelar estes fenómenos, que envolvem uma variável
dependente categórica (nominal) e várias variáveis independentes métricas ou
categóricas, necessitamos de seleccionar um método estatístico apropriado, que nestas
situações são a análise discriminante e a regressão logística.
3.1.5. Determinação da recta de regressão
Consideremos uma recta arbitrária, y= β 0+ β 1x, desenhada no diagrama. A xi

chamamos valor da variável explicativa ou independente e à imagem de xi pela recta y=
β 0+ β 1x chamamos valor predito, que denotamos por i yˆ, yi é o valor da variável
resposta ou dependente. A diferença entre yi e yî, i.e., i i i d = y − yˆ é a distância
vertical do ponto à linha recta. Se consideramos a soma dos quadrados dos desvios
anteriores, i.e:
n
D=∑ d i2
i=1
Obtêm-se uma medida do desvio total dos pontos observados à recta estimada. A
medida anterior depende da recta considerada, ou seja depende de β 0 e β 1. Assim,
pode-se escrever:
n n
D ( β 0 , β 1 )=∑ d =∑ ( y i ¿− ^y 2i )¿
2
i
i=1 i=1
13
4. Capítulo III - Distribuição de Probabilidades Notáveis
A teoria da probabilidade é a base da qual toda estatística é desenvolvida, e vem sendo

construída ao longo dos séculos, (Casella e Berger 2002, Finetti 1979, Barlow e Pros-
chan 1975,Miller, Freund e Johnson 1965,Papoulis e Pillai 2002). Tal teoria, fornece
meios de modelar fenómenos aleatórios. Usando teorias probabilísticas é possível
modelar a altura, massa corpórea, renda percapita, quantidade de filhos do sexo
masculino, entre outros, de uma população, isto é, construir um modelo univariado ou
multivariado de probabilidade que forneça informação de quão provável é um
determinado evento acontecer.
A palavra probabilidade deriva do Latim probare (provar, testar), figurativamente

conhecida por sorte, azar, certeza, incerteza e risco, dependendo do contexto, (Griastead
& Laurie, 2011).
4.1. Variáveis aleatórias
Segundo Moore & McCabe (2002, p.177), “uma variável aleatória é uma variável cujo
valor é um resultado numérico de um fenómeno aleatório”.
Sendo assim, Barbetta et al. (2004, p.117), apresenta uma definição para variável
aleatória, “formalmente, uma variável aleatória é uma função que associa elementos do
espaço amostral ao conjunto de números reais”.
4.1.1. Distribuição discreta
É aquela que assume valores inteiros e finitos.
Segundo Barbetta et al. (2004, p.119), se X é uma variável aleatória discreta, com
valores possíveis x1, x2, ..., xn, então a distribuição de probabilidades de X pode ser
dada pela função de probabilidade, que relaciona a cada valor possível xi a sua
probabilidade de ocorrência p(xi), ou seja:
p(xi) = P(X = xi), onde i = 1, 2, ..., n
14
Uma forma alternativa de representação da distribuição de probabilidades de uma
variável aleatória é através da sua função de distribuição acumulada. Para as variáveis
aleatórias discretas, a função de distribuição acumulada é definida por:
F ( x )=P ( X ≤ x ) ∀ x , R
4.1.2. Distribuição de Bernouli
É uma das distribuição mais simples de probabilidade. Experimentos que consistem em

apenas uma única tentativa e consequentemente tendo sucesso ou fracasso, podem
utilizar esta distribuição para o cálculo de probabilidades.
Seja um experimento que consiste no lançamento uma única vez de uma moeda. Seja o
evento de interesse o surgimento da face cara. Logo, denominamos o evento de
interesse como sucesso, representado pela letra p e o outro como fracasso, representado
por 1-p.
Seja Y o número de sucessos em um única tentativa do experimento. Então Y assume o

valor 0 que corresponde ao fracasso, com probabilidade 1−ρ, ou o valor 1, que
corresponde ao sucesso, com probabilidade. Logo:
0
Y = Fracasso P (Y =0 ) =1−ρ ; Sucesso P (Y =1 )=ρ
1
Portanto, a função de probabilidade é dada por:
P= (Y = y ) p y . q1− y
Com parâmetros:
E ( Y )= p e VAR ( Y )= pq
15
4.1.3. Distribuição Binomial
Experimentos que consistem em mais de uma tentativa e cujos valores possíveis são
sucesso ou fracasso, podem utilizar esta distribuição para o cálculo de probabilidades.
Perceba-se que uma variável com distribuição binomial consiste de n tentativas
independentes de uma variável com distribuição Bernoulli. Denota-se Y com
distribuição binomial como:
Y ∼B (n , p)
A função de probabilidade é dada por:
P ( Y = y )= n p y q n− y
y()
Com parâmetros:
E ( Y )=np e VAR ( Y )=npq
4.1.4. Análise de decisão Bayesiana
O teorema de Bayes calcula a probabilidade inversa, a partir da seguinte formula

apresentada equação:
P ( H |e ) P (H)
P ( H|e )=
P (e)
Onde:
P (H) é a probabilidade a priori do evento H;
P (e|H) é a verosimilhança relativa dada à evidência (e) e dado a hipótese do evento H;
P (e) é um factor de normalização (probabilidade a priori do evento e);
P (H|e) é a probabilidade a posteriori do evento H conhecida à evidência e, (Souza,

2004).
4.1.5. Construção das redes Bayesianas
As Redes Bayesianas são grafos acíclicos direccionados, onde os nós representam

variáveis de determinado domínio e os arcos representam a dependência condicional
16
entre as variáveis. Os arcos direccionados representam as relações de causas e
consequências entre as variáveis do domínio, ou seja, A é um nó que está direccionado
em B, assim assume-se que o nó A representa uma causa de B, onde A é um nó pai de B;
e onde B é um nó filho de A. Para representar a dependência, são utilizadas
probabilidades associadas em todos os nós pais-filhos na rede, (Pearl, 1988).
5. Distribuição contínua
Contínua representa quantidades aleatórias contínuas que podem tomar um número

infinito de valores. Por exemplo: A temperatura, a pressão, a precipitação ou qualquer
elemento medido numa escala contínua é uma variável aleatória contínua.
A maioria das variáveis atmosféricas pode assumir valores contínuos. Por exemplo: A
temperatura, a precipitação, a altura geopotencial, e a velocidade do vento. Existem
duas funções associadas a cada variável contínua X:
 Função densidade de probabilidade, f (X);

 Função cumulativa de probabilidade, ou
 Função de distribuição de probabilidade, F (X).
5.1. Distribuição normal
Uma variável aleatória contínua é representada por uma distribuição normal se a sua
distribuição for:
 Simétrica
 A forma gráfica é similar a um sino.
1
f ( x )= e¿ ¿¿
σ √2 π
5.1.1. Distribuição t-student
17
A distribuição t de student é uma distribuição de probabilidade estatística, publicada
por um autor que se chamou de Student, pseudônimo de William Sealy Gosset, que não
podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a
Cervejaria Guinness.
Padronizar variável aleatória normal requer que o μ e σ sejam conhecidos. Na prática,

porém, não podemos calcular z = (x -μ) / σ porque σ é desconhecido. Em vez disso,
substituímos σ por se calculamos a estatística t.
x−μ
t=
S
5.1.2. A distribuição Qui-quadrado
É um teste de hipóteses que se destina a encontrar um valor da dispersão para duas

variáveis categóricas nominais e avaliar a associação existente entre variáveis
qualitativas.
O princípio básico deste teste é comparar proporções, ou seja, possíveis divergências

entre as frequências observadas e esperadas para um certo evento.
O teste é utilizado para: Verificar se a frequência com que um determinado

acontecimento observado em uma amostra se desvia significativamente ou não da
frequência com que ele é esperado.
Para avaliar as possíveis discrepâncias entre proporções observadas e esperadas:
¿¿
Em que, o = frequência observada para cada classe; e = frequência esperada para

aquela classe,
A média dos desvios e nula, porem a elevação ao quadrado transforma todos os desvios
em valores positivos, tornando possível a soma dos desvios sem haver cancelamento.
O desvio (o - e) entre cada proporção observada e esperada pode ser expressa por d, e
d2
portanto a fórmula também pode ser escrita como
e
18
O teste χ2 é, essencialmente, um mecanismo pelo qual os desvios de uma proporção
hipotética são reduzidos a um único valor, que permite determinar uma probabilidade a
respeito da casualidade ou não dos desvios entre as proporções observadas e esperadas.
5.1.3. Capítulo IV
5.1.4. Conclusão
Após das consultas das várias literaturas, com este trabalho pretende-se concluir que A
teoria da probabilidade é a base da qual toda estatística é desenvolvida, e vem sendo
construída ao longo dos séculos. Tal teoria, fornece meios de modelar fenómenos
aleatórios. Usando teorias probabilísticas é possível modelar a altura, massa corpórea,
renda per capita, quantidade de filhos do sexo masculino, entre outros, de uma
população, isto é, construir um modelo univariado ou multivariado de probabilidade que
forneça informação de quão provável é um determinado evento acontecer.
O intuito principal deste pequeno trabalho foi introduzir o leitor às ferramentas básicas
de econometria, em especial, aos modelos de regressão linear. É apenas um primeiro
passo para adestrar esse imenso universo das ferramentas estatísticas e econométricas
que podem ser de grande utilidade para a avaliação de políticas públicas. Ao invés de
apresentar de todas possibilidades dos modelos de regressão linear, o que se pretendeu
aqui foi simplesmente abrir a tampa de uma imensa caixa de utensílios, e apontar as
limitações e hipóteses subjacentes aos modelos econométricos mais simples.
De outro lado, cabe uma lembrança final de que o instrumental estatístico, seja qual for,
não subsiste sem a teoria e o conhecimento da questão que se busca analisar. Logo, para
se avaliar uma política pública, é preciso, antes de mais nada, conhecer sobre tal
política, o que motivou a sua elaboração, o que se pretende com a mesma, quem é o seu
público-alvo, quais podem ser seus desdobramentos e todas as demais questões a ela
atreladas.
19
5.1.5. Referências Bibliográficas
1. Angrist, J. D; Pischke, J.-S. Mostly harmless econometrics: an empiricist’s
companion. Massachusettts Institute of Technology and The London school of
Economics, 2009. https://doi.org/10.1017/CBO9781107415324.004.
2. Barbetta, P. A.; Reis, M. M.; Bornia, A. C. Estatística Para Cursos de Engenharia e
Informática. São Paulo: Editora Atlas S.A., 2004.
3. Heij, Christiaan et al. Econometric methods with applications in business and
economics. New York: Oxford University Press Inc., 2004. ISBN 0–19–926801–0.
4. Maroco, J. (2007): Análise Estatística com utilização do SPSS. 3ª Ed., Edições
Sílabo.
5. Martins, P. S. (2008). Análise estatística de performance de um conjunto de testes
auditivos. Tese de Mestrado, Universidade de Aveiro.
6. Lakatos, E. M.; Marconi, M. de A. Metodologia do trabalho científico. 6. ed. São
Paulo: Atlas, 2001.
7. Stock, J. H.; Watson, M. W. Introduction to Econometrics. 3. Ed. Addison-Wesley
Series in Economics, v. 1. Addison-Wesley, 2010.
20
21

Mario Estastica

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Mario Estastica

Enviado por

Direitos autorais:

Formatos disponíveis

Índice

Quanto aos objectivos........................................................................................................5

Quanto aos procedimentos................................................................................................5

Capítulo II - Análise de Regressão.................................................................................6

Conceitos, objectivos, aplicações......................................................................................6

Modelos de regressão linear..............................................................................................7

Pressupostos da análise de regressão linear simples.........................................................8

Hipóteses do modelo linear simples..................................................................................8

A significância de uma estimativa.....................................................................................9

Modelo de linear múltiplo.................................................................................................9

Pressupostos sobre os erros do modelo de regressão linear múltipla..............................10

Medidas de ajustamento no modelo de regressão linear múltipla...................................10

Regressão e correlação linear..........................................................................................11

Análise de variância aplicada à regressão linear múltipla...............................................12

Determinação da recta de regressão................................................................................13

Capítulo III - Distribuição de Probabilidades Notáveis.............................................14

Construção das redes Bayesianas....................................................................................16

As probabilidades fornecem conceitos e métodos para estudar fenómenos aleatórios e

1.1.1. Objectivos do trabalho

 Realizar uma pesquisa sobre Análise de Regressão e Probabilidades Notáveis.

 Conceituar os termos acima citados;

Refere-se a todas as etapas e procedimentos que serão analisados durante a pesquisa

Segundo Lakatos e Marconi (2001), sobre a pesquisa científica, é um procedimento

1.1.3. Quanto às abordagens

1.1.4. Quanto aos objectivos

Os objectivos podem ser definidos como meio de constituir a finalidade da pesquisa,

1.1.5. Quanto aos procedimentos

Conforme Lakatos (2001), a pesquisa científica é um procedimento sistemático podendo

Neste estudo, utilizou-se a pesquisa bibliográfica para a partir de matérias publicadas

Na análise de regressão, a preocupação é sempre com a dependência estatística entre

Os Modelos Lineares Generalizados introduzidos por Nelder e Wedderburn (1972),

O modelo de regressão poderá ser escrito genericamente como:

2.1.1. Modelos de regressão linear

Como destacado no capítulo anterior, o instrumental da econometria é utilizado para

Stock e Watson (2010), trazem o exemplo da estimação do efeito do tamanho da turma,

A recta de regressão depende de cinco estatísticas básicas:

Os pressupostos da análise de regressão linear simples (RLS) são a linearidade, a

A teoria da regressão assenta nas seguintes suposições sobre os erros:

 A sua média é zero e a variância desconhecida.

 Homogeneidade dos resíduos

O estimador de MQO apresenta um conjunto de quatro hipóteses fundamentais sobre as

 Hipótese 1: Modelo linear nos parâmetros - A primeira hipótese se refere ao

2.1.5. A significância de uma estimativa

3. Modelo de linear múltiplo

Tem -se β1 e β2 como coeficientes parciais de regressão.

3.1. Pressupostos sobre os erros do modelo de regressão linear múltipla

As verificações das suposições supracitadas são feitas através da Análise Residual.

3.1.1. Medidas de ajustamento no modelo de regressão linear múltipla

Retomando, agora, a definição do coeficiente de ajustamento do modelo de regressão

Soma dos quadrados explicados pela regressão:

Soma do quadrado dos resíduos:

Daí, tem-se o coeficiente de ajustamento:

Podemos, então, definir o R2como o quadrado do coeficiente de correlação entre o valor

Muitas vezes, é interessante utilizar o conceito do R-quadrado ajustado, que irá

3.1.2. Regressão e correlação linear

A correlação entre duas variáveis é determinada numericamente por meio dos

O coeficiente de correlação linear, também chamado de co-variância normalizada, é

A co-variância entre duas variáveis pode ser estimada pela equação:

Admitindo-se que a distribuição conjunta das variáveis é normal bivariada, torna-se

Para se decidir sobre a existência de correlação e o sentido da variação da recta de

H 0 : ρ=0 , a recta de regress ã o em y é paralela ao eixo das abcissas .

H 1 : ρ≠ 0 , a recta de regress ã o em y n ã o é paralela ao eixo das abcissas .

3.1.3. Análise de variância aplicada à regressão linear múltipla

O modelo de regressão linear múltipla representa-se por: