Você está na página 1de 36

qwertyuiopasdfghjklzxcvbnmqwer

tyuiopasdfghjklzxcvbnmqwertyuiopa
sdfghjklzxcvbnmqwertyuiopasdfghjk
lzxcvbnmqwertyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwer
tyuiopasdfghjklzxcvbnmqwertyuiopa
sdfghjklzxcvbnmqwertyuiopasdfghjk
lzxcvbnmqwertyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwer
tyuiopasdfghjklzxcvbnmqwertyuiopa
sdfghjklzxcvbnmqwertyuiopasdfghjk
lzxcvbnmqwertyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwer



Mtodos Estatsticos

Notas de Aula

Junho de 2010

Ana Paula Amazonas Soares


Mtodos Estatsticos Notas de Aula

Sumrio
1 Introduo ........................................................................................................................... 1
2 Estatstica Descritiva ........................................................................................................... 2
3 Distribuies de Probabilidade ........................................................................................... 5
4 Medidas de Tendncia Central e Disperso e a Relao com a Distribuio de
Probabilidade ..................................................................................................................... 12
4.1 Medidas de Tendncia Central ....................................................................... 12
4.2 Medidas de Disperso ..................................................................................... 13
5 Distribuio Normal .......................................................................................................... 14
5.1 Distribuio Normal Padro ........................................................................... 15
6 Inferncia Estatstica ......................................................................................................... 18
6.1 Testes de Hipteses Paramtricos ................................................................... 19
6.1.1 Tipos de Teste de Hipteses ............................................................................... 21
6.2 Teste de Hipteses No-Paramtricos ............................................................ 22
7 Anlise de Regresso ........................................................................................................ 24
7.1 Mtodo dos Mnimos Quadrados. .................................................................. 25
7.1.1 Entendimento do Erro ........................................................................................ 29
7.1.2 Usos de Matriz em Estimativas com Mltiplos Parmetros Regresso
Mltipla ........................................................................................................................ 32



Neste mundo de meu Deus, informao poder!
1 Introduo
Saber administrar a informao nos leva cada vez mais a galgar os degraus da
ambio. Saber coletar a informao e separar o joio do trigo , cada vez mais, uma
necessidade nesse mundo moderno. Apesar do desenvolvimento da Tecnologia da
Informao, da Rede Mundial de Computadores (World Wide Web), de tantos meios de
comunicaes, ainda necessrio saber o que fazer com tantos dados coletados. Pois, a
informao passa a ser informao, no sentido estatstico da palavra, se puder ser utilizada.
Os dados coletados por si s no dizem muito, mas se forem utilizados, traduzidos,
processados e transformados e produzirem algo til e claro, que, ao final, tem-se a
informao que ser utilizada como instrumento de tomada de deciso.
Acessar dados do maior instituto de pesquisa do Brasil, o IBGE Instituto Brasileiro
de Geografia e Estatstica muito fcil. Entretanto, j a informao que se necessita?
Ser que preciso trabalhar os dados e transform-los na informao desejada? E, depois de
recolhidos os dados, o que fazer com os mesmos?
So estes tipos de questionamentos que este curso tem como objetivo principal
esclarecer. Sendo assim, os objetivos especficos desse texto so: explicar noes bsicas de
estatsticas que possam ser utilizadas em qualquer rea de conhecimento; e, proporcionar
noes sobre a obteno da informao, quer seja atravs de simples clculo, quer seja
atravs de testes de hipteses.
As noes bsicas de estatstica necessrias aos pesquisadores da rea so as medidas
de tendncia central, de disperso Estatstica descritiva os Testes de Hipteses
Paramtricos Inferncia Estatstica.
Um tpico extra adicionado recentemente ao programa a Anlise de Regresso.
Onde abordado a relao existente entre uma ou mais variveis independentes que causa
impactos em uma varivel dependente.
Assim, o texto est dividido em Estatstica Descritiva, com explicaes sobre as
medidas de tendncia central e de disperso e uma segunda parte com a Inferncia
Estatstica, onde se explanam os testes de hipteses.
Mtodos Estatsticos Notas de Aula
2 Estatstica Descritiva
A estatstica descritiva a responsvel por descrever uma populao ou um pequeno
conjunto da mesma. A descrio est ligada s caractersticas daquele conjunto. Porm, antes
mesmo de iniciar, importante ter em mente alguns conceitos bsicos.
Populao a totalidade de observaes possveis de ocorrer, que pode ser
classificada como finita (nmero de observaes limitado e todos os eventos podem ser
listados) ou infinita (no se pode listar todas as possveis ocorrncias do evento) (Spiegel,
1984).
A amostra uma parte da populao, e deve ser representativa da populao. E a
partir da mesma que se coletam os dados e se fazem inferncia a cerca da populao. A
amostra dita aleatria ou probabilstica quando todos os eventos tm a mesma chance de
serem selecionados. A amostra dita determinstica quando escolhida pelo pesquisador,
que seleciona a amostra pois, o mesmo detm informaes precisas (dizem que o mesmo
possui assimetria de informao) sobre a populao, o que o torna capaz de diferenciar a
populao e, assim, ter o discernimento para escolher sua amostra (Spiegel, 1984).
A representatividade da amostra est vinculada ao intervalo de confiana imposto,
pelo erro e garantido pela teoria da probabilidade
1
. A teoria da probabilidade garante para a
amostra as mesmas caractersticas da populao.
O tamanho da amostra tambm est intimamente ligado a sua representatividade, mas
tambm grandemente influenciado pela exeqibilidade da mesma. Em se tratando de
pesquisas baseadas em inquritos voluntrios aplicados, os respondentes no so obrigados a
responderem ao questionrio. O entrevistador est em uma posio difcil mas, passvel de
soluo.
Outro caso em que rever o tamanho da amostra necessrio, so os casos extremos
em que os possveis respondentes ou observados no so encontrados. Por exemplo, no caso
de uma pesquisa sobre a vida marinha dos tubares, pode-se passar um determinado perodo

1
Pode ser consultado o teorema do limite central, que afirma que se a populao bsica no normal (qualquer), a
distribuio de mdias amostrais ser aproximadamente normal para grandes amostras, assim garante as mesmas
caractersticas da distribuio normal com mais de 30 observaes (Spigel, 1984)
Ana Paula Amazonas Soares Pgina 3
de tempo buscando um espcime e, no intervalo de tempo e espao estipulados e mesmo
assim no conseguir encontr-lo.
Os motivos que levam pesquisadores a trabalhar com amostras so o menor custo,
eficincia e menor tempo. Menor custo porque no necessrio entrevistar a todos;
eficincia porque se tem um menor nmero de entrevistas e se alcana os mesmos
resultados; e menos tempo porque so aplicados menos inquritos.
O importante saber que populao e amostra so descritas atravs de suas
caractersticas. As caractersticas podem ser numricas ou qualitativas, quando numricas
so chamadas de parmetros. Quando as caractersticas so qualitativas, pode-se usar
utilizar as propores da amostra para caracteriz-la (Gonick e Smith, 1993).
A partir de um conjunto de questionamentos, so obtidos os valores que podem ser
mensurados ou contados atravs de uma varivel ou de um atributo. Diz se Varivel quele
dado que pode ser medido em termos de numricos de grandeza, como, por exemplo, a idade
de uma pessoa, e, chama-se de Atributo quando o dado pode ser nominado ou ordenado, por
exemplo, o nome do indivduo entrevistado ou o nome do Estado de origem (Gonick e
Smith, 1993).
Para entender um pouco mais a respeito do assunto necessrio compreender a
natureza dos dados. Na classificao utilizada por Chu (1981), existem quatro tipos de
dados: (i) nominal - onde os dados so representados por um conjunto de nomes, dos quais
no se pode afirmar quem mais importante que quem; (ii) ordinal - onde possvel ordenar
de acordo com uma determinada regra, ou seja, existe transitividade; (iii) semi-cardinal -
quando plausvel ter a noo do quanto um mais importante que o outro, porm no
possvel expressar uma regra comum para todos os dados; e, finalmente, (iv) cardinal -
quando aceitvel expressar o quanto um dado maior que o outro e h uma regra comum
para todos e existe um ponto de referncia nico, chamado de zero absoluto.
Uma Segunda classificao de Costa (1998) est ligada ao nvel de mensurao. O
primeiro nvel, mais rudimentar, caracteriza-se pela escala de medida Nominal, cuja base
de natureza qualitativa, distintiva. O segundo nvel um mais elaborado e sua escala
ordinal. O terceiro tem escala de medida intervalar caracterizada pela existncia de uma
unidade de medida (arbitrria, porm fixa) e um zero relativo, isto , convencional. O ltimo
nvel tem escala de medida racional, semelhante escala intervalar, porm com zero
Mtodos Estatsticos Notas de Aula
absoluto, isto , a origem de mediada a mesma, o zero de referncia o mesmo. Nos dois
primeiros nveis no so feitas operaes aritmticas, j no terceiro nvel pode-se fazer
adio (nem sempre) e subtrao mas nunca multiplicao ou diviso. J no ltimo nvel,
no h clculo que no possa ser feito.
Um atributo pode ser transformado em varivel, desde que lhe seja imputado valores.
Por exemplo, pode-se lhes atribuir o valor zero para a no ocorrncia e o valor um para a
ocorrncia, dessa forma, utilizada uma varivel binria ou dummy para expressar
determinada caracterstica.
Um exemplo prtico para diferenciar varivel de atributo seria uma pesquisa sobre a
opinio do entrevistado quanto qualidade da gua. Se a resposta for dada em termos de
nota, sua resposta seria um valor numrico, mensurvel e que pertence ao conjunto dos
nmeros reais, ento uma varivel que tem uma base comum de medida, um zero absoluto
dentro da escala padro de medida que as pessoas esto acostumadas na escola. No entanto,
se a resposta dada revelar uma opinio sobre a qualidade da gua, em termos de, por
exemplo, boa, regular ou ruim, nem todos tm o mesmo padro de referncia, pois cada um
tem uma funo de preferncia diferente, o que bom para uns pode no significar bom para
outros, assim os dados coletados so do tipo semi-cardinal e um atributo.
Existem ainda variveis que no variam, quando se observam valores constantes em
toda sua populao ou amostra, afirma-se, ento, que esta varivel uma constante.
Alm da classificao de acordo com a previso de ocorrncia, pode-se classificar a
varivel como contnua ou discreta. Uma varivel dita contnua quando esta pode assumir
qualquer valor ao longo de um eixo numrico (ou segmento do mesmo), como por exemplo
o conjunto dos nmeros Reais ( ). As variveis discretas assumem somente valores
especficos ao longo do eixo numrico, como por exemplo o conjunto dos nmeros Inteiros
( ) (Costa, 2005)
Um exemplo prtico para elucidao. Considere que sero pesquisados os hbitos
alimentares dos pernambucanos sobre o consumo de tomates. O pesquisador foi porta de
um supermercado com a seguinte pergunta: Quantos tomates o Sr(a) comprou agora?.
Neste caso especfico, crvel dizer que a pessoa questionada no ir responder que comprou
meio tomate ou fraes do mesmo, e sim tomates inteiros. Assim sendo, o dado cardinal,
Ana Paula Amazonas Soares Pgina 5
uma varivel discreta. Pois, o zero absoluto existe, todos tm o conhecimento comum de que
zero significa nada e no se compra fraes de tomate.
Ainda, se o inqurito fosse conduzido de maneira diferente, e a questo ainda
correspondesse aos hbitos alimentares, mas fosse posta de uma outra maneira, como por
exemplo, Quantos quilos de tomate o Sr(a) comprou agora?. O respondente consultaria a
etiqueta de peso e responderia a questo com a preciso indicada pela mquina ou que lhe foi
cobrada pelo supermercado. As respostas poderiam variar de supermercado para
supermercado devido preciso da balana, mas, o mais importante, que as pessoas tm a
possibilidade de responder com qualquer nmeros, inclusive haver casos em que a resposta
pode ser dada com a preciso de 3 casas decimais. Sendo assim, os dados so do tipo
cardinal e a varivel contnua.
O importante que, ao se fazer a investigao, a varivel em questo deve, sempre,
est meticulosamente explicada, em todos os seus pormenores. O objetivo por trs de tal
determinao est na obteno dos dados para posterior enquadramento e informaes
retiradas.
3 Distribuies de Probabilidade
Os dados aps a coleta so tabulados de vrias formas e ao serem agrupados, so
apresentados sob a forma de distribuies (Spiegel, 1977). As mesmas podem ser expressas
graficamente, onde o eixo horizontal representa o valor da varivel e o eixo vertical o
nmero de ocorrncias (freqncia) para cada valor da varivel ou a possibilidade (ou
probabilidade) de ocorrncia. Ou em forma de Tabela de Distribuio de Freqncia TDF,
composta por diversas colunas, por exemplo, a primeira coluna expressa os valores coletados
(resultados obtidos) e a segunda coluna quantas vezes cada resultado apareceu (freqncia
simples).
Considere, a exemplo ilustrativo, a quantidade de vezes que uma pessoa pertencente
a um grupo de dez visitantes aleatrios vai ao zoolgico durante o ano. Na Tabela 1 e
Grfico 1 abaixo so apresentados os resultados do questionrio. A amostra tem 10
observaes, onde cada indivduo indicou a sua quantidade de vezes de ida ao zo. Por
exemplo, o nmero um aparece uma vez, isso quer dizer que um dos entrevistados foi apenas
uma vez ao zo. Em termos da tabela, a primeira coluna expe a quantidade de idas ao zo,
que definida como varivel (
i
x ), a segunda conta quantos indivduos responderam aquele
Mtodos Estatsticos Notas de Aula
determinado nmero de vezes, que a freqncia simples ( ) (
i
x f ). Por sua vez, o grfico
tem no eixo vertical a ocorrncia de cada nmero na amostra, expressos pela freqncia
simples ou ( ) (
i
x f )e no eixo horizontal a quantidade de vezes (
i
x ).
Tabela 1 Tabela de Distribuio de Freqncia
de ida ao zoolgico
Idas Zo (
i
x ) Respostas ) (
i
x f
1 1
2 3
3 4
4 2
Total 10
Grfico 1 Distribuio de Freqncia ou
Histograma das idas ao zoolgico
0
1
2
3
4
f(xi)
1 2 3 4
(xi)
Idas ao Zo


Neste exemplo, o nmero de entrevistados dez e deve est localizado na ltima
linha da segunda coluna. H a possibilidade de adicionar mais colunas na TDF, por exemplo,
distribuies de freqncias relativas nmero de vezes que aparece em relao ao nmero
total de eventos; e, acumuladas nmero de casos se acumula em relao ao incio / fim do
valor da varivel.
Outra definio importante a de probabilidade de ocorrncia. semelhante
freqncia relativa, mas difere-se ao ser dita como uma possibilidade de ocorrncia.
Probabilidade a razo entre a quantidade de vezes que o fenmeno ocorre e a quantidade
total de vezes e deve ser vista em uma seqncia muito longa de repeties. Assim, difere da
freqncia relativa porque medida no longo prazo ou em muitas observaes
Observe que, alm de verificar a varivel relativa ao eixo vertical (se freqncia ou
probabilidade), deve-se notar tambm o tipo de varivel que est representado no eixo
horizontal, caso seja discreta ou contnua. Pois, os tratamentos so distintos, enquanto que no
caso de uma varivel discreta haver concentrao em determinados pontos com vazios entre
as variveis; no caso de uma varivel contnua h grandes chances desses vazios serem
preenchidos por acontecimentos ou freqncias de respostas.
Quando so apresentados resultados para uma pequena amostra o eixo vertical
representado por uma distribuio de freqncia e o horizontal por uma varivel discreta.
Mas, a partir do momento que o nmero de observaes aumenta, pode-se pensar em
distribuies de probabilidade com variveis contnuas. Pois, ao aumentar o nmero de
observaes os valores de X tendem a ser cada vez mais prximos um do outro e em grandes
nmeros de observaes, a densidade pode ser ainda maior. Ilustrando graficamente:
Ana Paula Amazonas Soares Pgina 7
Grfico 2 Distribuies de Freqncia ) (x f
i
e Probabilidade ) (x p
i

0
10
20
30
40
50
1 2 3 4 5 6
X
f(x)

0
2
4
6
8
10
Idade
X
P(x)


Continuando a ilustrao grfica, considere o caso onde a varivel X representada
por uma varivel contnua e que h uma quantidade infinita de observaes de tal forma que
temos o seguinte grfico:
Grfico 3 Distribuio de Probabilidade de Varivel Contnua
0
50
100
150
200
250
1 8
1
5
2
2
2
9
3
6
4
3
5
0
5
7
6
4
Idade
f
(
x
)

Note que as linhas esto coladas umas nas outras e que pode-se representar seus
cumes (pontos de maior probabilidade para um dado valor de x) ou os seus contornos por
uma funo do valor de X que seria ) (x f
i
. comum que uma varivel contnua possa ter sua
funo de probabilidade expressa atravs de uma funo matemtica, descrita por uma curva,
por exemplo.
O grfico a seguir o mesmo que o anterior e demonstra a distribuio de
probabilidade de uma varivel X qualquer e no especifica sua forma, ou seja, uma funo
matemtica no plano cartesiano. Entretanto, existem casos especiais, definidos
posteriormente, onde tal funo matemtica assume caractersticas especiais. Mais adiante os
casos sero descritos em pormenores. O importante ter conhecimento de que as
probabilidades podem ser representadas por uma funo matemtica.
Mtodos Estatsticos Notas de Aula
Grfico 4 Funo de Probabilidade de Varivel Contnua
0
50
100
150
200
250
1 8
1
5
2
2
2
9
3
6
4
3
5
0
5
7
6
4
Idade
f
(
x
)

Com a noo das funes de probabilidade, que as mesmas expresso a possibilidade
de ocorrncia de uma determinada varivel, e que podem ser representadas
matematicamente. factvel conhecer a possibilidade de ocorrncia da varivel em um
determinado intervalo, ou melhor, qual seria a probabilidade de ocorrncia da varivel X no
intervalo entre a e b? Graficamente o que buscamos , por exemplo, a probabilidade de
ocorrncia da idade entre 7 e 31 anos, que exemplificado abaixo:
Grfico 5 rea de Probabilidade
0
50
100
150
200
250
1 6
1
1
1
6
2
1
2
6
3
1
3
6
4
1
4
6
5
1
5
6
6
1
6
6
Idade
f
(
x
)

Toda a anlise acima baseia-se na probabilidade unidimencional, onde apenas uma
varivel ou caracterstica observada. Entretanto, pode-se pensar em duas variveis ou mais.
Considerando ento, por simplicidade, apenas duas variveis, teremos anlise bidimencional.
Por exemplo, considerando dados recolhidos aleatoriamente em sala de aula. So
apenas quatro perguntas: Qual o sua altura em centmetros, seu peso, sua idade e sexo.
Imagine que foram entrevistados 30 alunos e os resultados obtidos esto descritos na tabela
abaixo.
Ana Paula Amazonas Soares Pgina 9
Tabela 2 Resultados obtidos
NQ Altura (cm) Idade Peso Sexo
1 172 32 52 Feminino
2 173 25 50 Feminino
3 168 24 53 Feminino
4 173 33 58 Feminino
5 160 25 58 Feminino
6 160 24 62 Feminino
7 176 24 81 Masculino
8 174 26 66 Feminino
9 175 37 90 Masculino
10 164 40 90 Masculino
11 159 47 50 Feminino
12 161 30 62 Feminino
13 165 25 58 Feminino
14 166 38 95 Masculino
15 168 37 64 Feminino
16 167 30 45 Feminino
17 169 32 63 Feminino
18 171 49 65 Masculino
19 171 29 52 Masculino
20 180 35 73 Masculino
21 172 40 53 Feminino
22 172 25 59 Masculino
23 158 29 62 Feminino
24 170 36 85 Masculino
25 168 37 90 Masculino
26 169 43 84 Masculino
27 159 47 60 Feminino
28 168 34 60 Masculino
29 172 32 62 Feminino
30 171 43 92 Feminino
Pode-se fazer todas as tabelas de distribuio de freqncia para cada uma das
variveis acima, porm, escolhemos inicialmente realizar a freqncia simples da idade e do
peso, que podem ser observadas na tabela abaixo.
Mtodos Estatsticos Notas de Aula
Tabela 3 Freqncias Simples da Idade (a) e do Peso (b)
(a)
Idade Fs
24 3
25 4
26 1
29 2
30 2
32 3
33 1
34 1
35 1
36 1
37 3
38 1
40 2
43 2
47 2
49 1
Total 30
(b)
Peso Fs
45 1
50 2
52 2
53 2
58 3
59 1
60 2
62 4
63 1
64 1
65 1
66 1
73 1
81 1
84 1
85 1
90 3
92 1
95 1
Total 30

Considere realizar as tabelas conjuntamente, onde existem duas dimenses: a idade e
o peso. A idade representada pelas linhas e o peso pelas colunas.
Tabela 4 Tabela de Distribuio de Freqncia da Idade e Peso dos Entrevistados
Idade
Peso
Total 45 50 52 53 58 59 60 62 63 64 65 66 73 81 84 85 90 92 95
24
1 1 1 3
25
1 2 1 4
26
1 1
29
1 1 2
30
1 1 2
32
1 1 1 3
33
1 1
34
1 1
35
1 1
36
1 1
37
1 2 3
38
1 1
40
1 1 2
43
1 1 2
47
1 1 2
49
1 1
Total 1 2 2 2 3 1 2 4 1 1 1 1 1 1 1 1 3 1 1 30
Ana Paula Amazonas Soares Pgina 11
Se todas as colunas que se referem ao peso forem retiradas, a ltima coluna indica o
nmero de pessoas com a idade indicada pela linha, igual quela da Tabela 3(a). Da mesma
forma, pode-se excluir todas as linhas da tabela que dizem respeito idade e a ltima linha
ser a freqncia simples do peso que Tabela 3(b) indica. Estas so chamadas de
probabilidades marginais e ditam o evento que se deseja obter a probabilidade, por exemplo,
P(idadeA) ou P(pesoB)
Para encontrar a probabilidade de uma pessoa ao acaso ter idade de 37 anos s
encontrar a freqncia relativa na ltima coluna da linha 37, que seria 3 eventos em um total
de 30. Portanto a probabilidade de ter 37 anos P(idade37)=3/30. Lembrando que sempre
que se questiona sobre a probabilidade ela representada pela razo entre o nmero de
possveis eventos e o nmero total de casos.
Considerando agora o caso em que se deseja encontrar a probabilidade de que uma
pessoa com 37 anos tenha um peso de 90 quilos, como se poderia utilizar a tabela acima para
tanto?
A probabilidade a qual nos referimos a probabilidade conjunta de dois eventos
ocorrerem ao mesmo tempo, ou seja, que ocorra ter peso 37, cuja probabilidade de
P(idade37)=3/30 e de P(peso90)=3/30, das duas ocorrerem simultaneamente de P(idade 37
e peso90)=P(idade37peso90)=2/30, pois existem dois eventos entre um total de 30. Neste
caso, os dois eventos agem ao mesmo tempo.
Entretanto, se um deles ocorrer primeiro no utiliza-se a mesma probabilidade
conjunta mas, sim a probabilidade condicional de duas variveis, que dada pelo teorema de
Bayes. Que seria a razo entre a probabilidade conjunta e a marginal
) (
) (
) / (
B P
B A P
B A P

=
ou
) (
) (
) / (
A P
B A P
A B P

=
.
No caso em questo, considere querer saber a probabilidade de ter idade de 37 dado
que tem 90 quilos, ou seja, se eu escolher uma pessoa ao acaso e ela tem 90 quilos, qual a
probabilidade dela ter 37 anos?
A resposta est no teorema de Bayes, que seria a probabilidade conjunta P(idade 37 e
peso90)=P(idade37peso90)=2/30 dividido pela probabilidade dela ter peso de 90 quilos
P(peso90)=3/30. Assim, a razo pode ser expressa da seguinte forma:
Mtodos Estatsticos Notas de Aula
3
2
30
3
30
2
) 90 (
) 90 37 (
) 90 / 37 ( = =

=
peso P
peso idade P
peso idade P

4 Medidas de Tendncia Central e Disperso e a Relao com a Distribuio de
Probabilidade
A seguir so apresentados os estudos sobre as medidas de tendncia central e das de
disperso. O objetivo da primeira saber qual o meio da populao, ou melhor, procura-se
saber qual a mdia, a moda e a mediana. As medidas de disperso tm o objetivo de
encontrar o quo distantes esto os dados, se bem espalhados ou bem concentrados em torno
da mdia ou de determinado ponto (Spiegel, 1984).
4.1 Medidas de Tendncia Central
Uma das medidas de tendncia central , e a mais conhecida, a Moda. A moda tem
por trs o conceito de valor mais freqente, ou seja, a moda aquele valor que aparece mais
vezes (conhecimento este muito popular, caracterizado pela pergunta "o que est na
moda?"). A moda leva em considerao apenas a freqncia dos dados, sem se importar com
o valor ou sua ordem (Gonick e Smith, 1993).
A segunda medida de tendncia central a Mediana, que separa o conjunto de dados
ao meio. Melhor, metade (50% dos dados) da distribuio est direita e metade esquerda.
Em se tratando de uma varivel contnua a mediana sempre obtida. No entanto, a mediana
pode apresentar alguns problemas quando a varivel discreta, h casos em que a mediana
pode ser no determinvel, o que caracterizaria um problema. A mediana leva, ento, em
considerao a quantidade de dados e se coloca bem no meio daquela quantidade (Gonick e
Smith, 1993).
A Mdia Aritmtica Simples tambm uma medida de tendncia central, de fato,
a mais importante e mais utilizada, chegando a tambm ser utilizada como uma linguagem
corriqueira. A mesma, alm de considerar o valor de cada dado, considera ainda a freqncia
com que cada dado aparece (Gonick e Smith, 1993). Alm da mdia aritmtica simples h a
geomtrica e a harmnica ou ponderada. A mdia ponderada utilizada quando se necessita
dara importncias diferentes ao dados obtidos e a geomtrica quando os dados apresentam
crescimento acumulado durante um perodo, inviabilizando o uso da mdia simples .
Ana Paula Amazonas Soares Pgina 13
A mdia tambm factvel de erro, pois ao considerar o valor do dado em seu
clculo, pode ser tendenciosa por valores extremos. Por exemplo, se ao estudar uma
populao com vrias pessoas jovens e, por um mero acaso, Matusalm ainda fosse vivo e
pesquisado, a sua idade por ventura levaria a um aumento na mdia, o que no seria verdade
para aquela populao. Ou seja, apenas um indivduo elevou a mdia consideravelmente,
causando um vis na mdia.
As frmulas para obteno da mdia aritmtica simples, doravante chamada
simplesmente de mdia so:

=
=

=
=
n
x
Amostral
N
x
al Populacion
n
i
i
N
i
i
x
1
_
1


As frmulas acima expressam a mdia para variveis discretas, respectivamente para
uma populao de tamanho N e uma amostra de tamanho n. No caso de variveis contnuas
necessrio que se utilize o conceito de integral, que no ser nosso objeto de estudo.
As medidas de tendncia central servem para refletir sobre a simetria da distribuio.
Um distribuio dita: (i) assimtrica positiva quando a mdia () maior que a mediana
(
e
) a qual maior que a moda (
o
),
o
<
e
< ; (ii) assimtrica negativa quando a mdia
menor que mediana a qual menor que a moda, <
e
<
o
; (iii) simtrica quando as
medidas de tendncia central se igualam, =
o
=
e
(Spiegel, 1984).
4.2 Medidas de Disperso
As medidas de disperso procuram mostrar o quo distantes esto os pontos entre si,
ou seja, o afastamento, a distncia entre um ponto fixo e o restante dos pontos. A medida de
disperso mais comum a varincia e o seu ponto fixo a mdia (Gonick e Smith, 1993).
Ou seja, o objetivo da medida de disperso somar as distncias entre cada ponto e a mdia
e dividir pelo nmero de pontos, para obter a disperso dos dados. Quanto maior a medida de
disperso, mais afastados estaro os dados. A medida mais comum, que a varincia,
obtida atravs das seguintes frmulas:

=
=
1
) (
) (
1
2
_
1
2
2 `
n
x x
S Amostral
N
x
al Populacion
n
i
i
N
i
i


Mtodos Estatsticos Notas de Aula
Da mesma forma que as medidas de tendncia central observam a simetria da
distribuio de probabilidade, as medidas de disperso indicam a curtose ou o achatamento
da distribuio de probabilidade. Quanto maior a varincia, maior a disperso, mais achatada
estar a distribuio (Spigel, 1984). A distribuio platicrtica aquela cujos dados esto
mais dispersos e a leptocrtica, ao contrrio, aquela cujos dados esto mais concentrados.
A mesocrtica o caso ideal, onde est caracterizada uma distribuio normalm com curtose
trs. Para melhor entendimento veja ilustrao abaixo.
Grfico 6 Distribuies de Probabilidade e Curtose

Em uma distribuio simtrica, a distncia entre o ponto de inflexo da curva e a
mdia tem valor igual ao desvio padro, assim, quanto maior esta distncia, maior a
disperso dos dados, mais achatada fica a distribuio de probabilidade.
5 Distribuio Normal
Depois de compreender a relao existente entre as medidas tendncia central e
disperso com a distribuio de probabilidade, voltamos para a questo anterior das
distribuies de probabilidade, funes de probabilidade e das reas de probabilidade.
Sabe-se que as fistribuies de probabilidade podem ser reperesentadas por uma
funo matemtica e que a rea existente entre a funo e o eixo horizontal representa uma
rea de probabilidade. Para calcular tal rea utiliza-se da integral da funo de dsitribuio
de probabilidade. Entretanto, nem sempre tal funo est disponvel.
Assim, para solucionar tal problema, procura-se saber se os dados existentes so
aproximadamente normais, ou seja, seguem uma distribuio de probabilidade simtrica e
mesocrtica. Se este for o caso, como j visto, a mdia, moda e mediana so iguais e a
disperso mesocrtica, cuja curtose se aproxima de trs. A Distribuio Normal de uma
varivel X caracterizada por sua mdia () e varincia (
2
) cuja representao matemtica
Leptocrtica
Mesocrtica
Platicrtica
Ana Paula Amazonas Soares Pgina 15
( )
2
, ~ N X , leia-se a varivel X est normalmente distribuda com mdia e
varincia
2
(Siegel, 1977).
Como para cada varivel ( )
2
, ~ N X tem-se diferentes funes, os livros
trazem algumas tabelas, a exemplos das tbuas de logaritmos de antigamente ou das
combinaes de taxas de juros e tempo para o clculo dos fatores de atualizao ou valores
futuros para as sries de tempo em matemtica financeira. Programas como o Excel pode
calcular a rea para uma distribuio de probabilidade especfica. Entretanto, o mais comum
utilizarmos a transformao da distribuio normal em uma distribuio normal padro.
5.1 Distribuio Normal Padro
A Distribuio Normal Padro, descrita por ( ) 1 , 0 ~ N Z , um caso especial da
distribuio normal no qual aplicada uma transformao linear da varivel X em Z que
preserva a rea entre a curva normal e o eixo horizontal. A vantagem desta transformao
que sua rea entre a mdia e cada ponto tabulada.
Para se transformar qualquer distribuio normal em uma distribuio normal padro
so necessrias apenas duas informaes: a mdia e o desvio padro da distribuio normal
que se deseja transformar (Martins, 2005, Levin e Fox, 2004, Spiegel, 1977). O Grfico 7
ilustra a transformao.
Mtodos Estatsticos Notas de Aula
Grfico 7 Transformao de uma funo qualquer X em uma Normal Padro Z

Em termos matemticos temos que a transformao linear dada por bX a Z + = ,
onde a o intercepto e b o coeficiente angular. Para efetuar a transformao a e b devem
assumir valores tais que ) 1 , 0 ( ~ N Z , que so

1
= = b e a
2
, dessa forma a
transformao linear ser


=
X
Z .
A utilizao dessa transformao serve para, por exemplo, encontrar mais facilmente
a rea entre a curva e um intervalo de valores ou para a probabilidade de ocorrncia de um
intervalo para a varivel X sem que seja necessrio utilizar a integral. De forma que as
probabilidades so as mesmas, ) ( ) (
2 1
2 1
x x x P z z z P
x x
= .
Para entender como funciona a transformao de X em Z, considere que foi realizada
uma pesquisa sobre a extrativa vegetal no Estado de Pernambuco
3
. A mdia anual em
toneladas de extrao de carvo vegetal por municpio de 121,90 toneladas e desvio padro
de 492,31. Ento se um municpio produz 250
1
= x toneladas e outro 48
2
= x , qual seria a

2
um sistema de equaes em que a esperana zero e a varincia unitria. Assim, E(z)=0 e Var(z)=1.
E(z) = E(a+bx)= E(a)+bE(x)=a+b=0a=-b e Var(z) = Var(a+bx) = 0 + bVar(x) = b = 0b = 1/.
Assim, a = / e b = 1/
3
Fonte: IBGE, Produo Extrativa Vegetal.
Ana Paula Amazonas Soares Pgina 17
probabilidade de um municpio encontra-se nesse intervalo? Ou seja, desejado encontrar a
) ( ) (
1 2
1 2 x x
z z z P x x x P = . Para encontrar
1 2
x x
z e z aplicam-se as frmulas
150 , 0
31 , 492
90 , 121 48
2
2
=

x
z
x
e 26 , 0
31 , 492
90 , 121 250
1
1
=

x
z
x
. A
1622 , 0 1026 , 0 0596 , 0 ) 26 , 0 0 ( ) 0 15 , 0 ( ) 26 , 0 15 , 0 ( ) (
1 2
= + = + = = P P z P z z z P
x x

Para uma melhor compreenso do resultado e o porque da escolha de zero como a
referncia, interessante ver como funciona graficamente. Considerando que Z uma
distribuio mesocrtica, centrada no zero e com desvio padro um.
Observe que a rea entre a funo e os valores da mdia mais o desvio padro e da
mdia menos desvio padro de 0,68,26. Ou seja, a probabilidade de acontecimento entre
6826 , 0 ) 1 1 ( ) ( = = + z P z P , como pode ser observada no Grfico 8,
abaixo.
Grfico 8 Funo de Distribuio de Probabilidade da varivel Z, Normal Padro

O que se deseja o valor da rea entre a curva e os valores -0,15 e 0,26 de z. porque
tal rea equivale a probabilidade de acontecimento de z entre os valores desejados, que seria:
) 26 , 0 15 , 0 ( ) (
1 2
= z P z z z P
x x
. Ou seja, deseja-se toda a rea hachurada no grfico
acima.
Para verificar a rea equivalente aos valores z=0,15 e z=0,26, deve-se recorrer
Tabela Z. O procedimento para se encontrar a rea entre o valor de z e o centro da
distribuio (z=0) sempre procurar o valor da primeira decimal na linha e o valor da
segunda decimal na coluna, o cruzamento das duas indica o valor da rea entre zero e o valor
de z desejado. Observe a Tabela 5 abaixo. Para o valor z=0,15 tem-se o valor 0,0596 para o
encontro da linha 0,10 e coluna 0,05. Portanto, entre 0 e -0,15 a probabilidade de 5,96% de
ocorrer.
Mtodos Estatsticos Notas de Aula
Tabela 5 rea da Distribuio Normal Padro

Deve-se observar que a Tabela Z s apresenta valores positivos pois, deve-se lembrar
que a distribuio simtrica e a rea sempre positiva, portanto a rea entre zero e um a
mesma entre zero e menos um.
6 Inferncia Estatstica
A inferncia estatstica divide-se em: Estimao e Teste de Hiptese. Ambas
referem-se a julgamentos sobre desconhecido aspecto de determinada populao. O aspecto
desconhecido pode ser um ou mais parmetros ou, em certos casos a forma funcional da
populao. No caso da estimao pergunta-se sobre o valor em especial.
No teste de hiptese, inicialmente feita uma afirmao e o problema consiste em
verificar se a mesma verdadeira ou falsa. Em ambos os casos procura-se a verdade sobre a
populao, combinando-se conhecimentos e pressupostos sobre a populao com a evidncia
fornecida pela amostra, utilizando-se do conceito de distribuio amostral.
A diferena est no fato de que, na estimao, diferentemente do que ocorre no teste
de hiptese, no se faz afirmaes a priori cuja credibilidade deve ser disputada. Na
estimao, tem-se uma informao a priori mas o valor do parmetro pode variar. No teste
de hipteses, entretanto, faz-se uma afirmao e testa-se se a mesma aceitvel ou no com
determinado nvel de significncia.
A seguir so apresentados os Testes de Hipteses, porque considera-se que sero
mais teis no dia a dia, j que mais fcil obter informao sobre os parmetros
populacionais e inferir sobre as amostras obtidas.
Ana Paula Amazonas Soares Pgina 19
6.1 Testes de Hipteses Paramtricos
Existem vrios tipos de teste de acordo com o conhecimento ou no do parmetro
populacional, bem como o parmetro que deseja-se testar. Os testes mais comuns dizem
respeito a mdia e a proporo (Stevenson, 2001).
Em uma situao normal, ao tentar afirmar alguma coisa a respeito da populao, so
levantadas hipteses subjacentes, que podem ou no ser submetidas a teste. Quanto uma
hiptese subjacente plausvel de teste, ou seja, cr-se que aquela afirmao pode ser
verdadeira ou prxima da correta, esta chamada de hiptese testvel. Por exemplo, pode-se
afirmar se o parmetro (mdia, por exemplo) assume determinado valor
0
(mdia de anos
de vida 65, por exemplo). O que se procura dizer que no h diferena entre esta mdia e
a mdia populacional, que o verdadeiro valor do parmetro. Esta hiptese chamada de
hiptese nula (H
0
). Em termos de teste esta ser a expresso dada hiptese nula
0 0
: = H ou, como no exemplo 65 :
0
= H .
A contraposio a hiptese nula, que deve existir, chamada de hiptese alternativa.
A hiptese nula trata, em sua maioria, de uma igualdade. No entanto, a hiptese alternativa
(H
a
) uma desigualdade da forma: (i) o parmetro assume valor diferente do da hiptese
nula ( ) 65 :
a
H ; (ii) o parmetro assume valor maior ao da hiptese nula ( ) 65 : >
a
H ;
(iii) o parmetro assume valor inferior ao da hiptese nula ( ) 65 : <
a
H .
Os intervalos para aceitao das hipteses esto indicados pela H
a
. Caso H
a
seja
unilateral (menor que ou maior que), a regio de rejeio da hiptese nula (H
0
) ir
concentrar-se em um dos limites da distribuio de probabilidade. Caso H
a
seja bilateral
(diferente de), a regio de rejeio da hiptese nula (H
0
) estar dividida igualmente nas duas
extremidades da distribuio de probabilidade. O Quadro 1 abaixo representa em sua rea
no hachurada a regio de aceitao da hiptese nula e na hachurada a rea em que no se
pode aceitar como verdadeira a afirmao feita.
Mtodos Estatsticos Notas de Aula
Quadro 1 Resumo das regies de aceitao da Hiptese Nula

A determinao do limite da rea hachurada dada por uma probabilidade, conhecida
como nvel de significncia ( ) , que, em geral, 5%, mas pode assumir outro valor, como
1% ou 10%. No caso do teste bicaudal o nvel de significncia estar dividido entre as duas
extremidades.
Para encontrar o valor limite ou estatstica limite e tambm chamada de tabelada,
deve-se buscar o valor da distribuio de probabilidade que faz com que a rea entre o
infinito e o valor especfico seja igual ao nvel de significncia. Tomando como exemplo o
exerccio acima, em que se buscou o valor da distribuio normal padro z=0,15 e obteve-se
que a rea entre este valor e zero de 0,0596, deve-se agora buscar qual o valor de z que
representa uma rea de 0,45 (bicaudal) ou de 0,475 (unicaudal) para um nvel de
significncia de 5%. Neste caso, deve-se procurar o valor 0,4500 ou 0,4750 na rea interna
da tabela e ver qual o valor de z se obtm, que seriam z=1,645 e z=1,96, respectivamente.
importante observar que o teste de hiptese no se restringe apenas distribuio
normal padro, o mesmo tambm pode ser aplicado para uma distribuio t de student, F de
Snedecor, Chi quadrado entre outras.
Antes de seguir adiante, importante que sejam ressaltados como realizar um teste de
hipteses. O procedimento para o teste o seguinte:
a) Definio das hipteses a serem testadas. Hiptese bsica ou nula (H
0
) e a
hiptese alternativa (H
a
). Observe que uma tem que ser o complemento da outra e
que a hiptese nula sempre contm a igualdade;
b) Determina-se o nvel de significncia ao qual a hiptese deve ser testada.
comum adotar o nvel de significncia de 5%. Este nvel de significncia aponta a
estatstica limite para o teste, ou seja, o valor tabelado para o teste servir como
Ana Paula Amazonas Soares Pgina 21
limite mximo que a estatstica do teste deve ter para que a hiptese nula seja
aceita como verdadeira;
c) determina-se a estatstica do teste calculada com base na frmula. Como dito,
existem vrios tipos de teste de hiptese e para cada tipo de teste h uma frmula
especfica para se calcular a estatstica do teste;
d) comparam-se as estatsticas e verifica-se em qual intervalo se encontra a
estatstica do teste. Se a estatstica do teste estiver no intervalo compreendido
entre as estatsticas limites, a hiptese nula aceita como verdadeira, caso
contrrio, a hiptese nula rejeitada;
e) Depois da comparao concludo o teste em que dada a devida interpretao
dos resultados obtidos.
O que se procura fazer no teste de hipteses verificar se h indcios para provar que
a afirmativa acerca da populao verdadeira. Sob esta tica, so assumidas duas hipteses,
uma em que a afirmao a desejada e outra no. Existir um procedimento de teste em que
se est tentando provar a veracidade da hiptese nula (afirmao). Caso no se consiga,
deve-se concluir sempre que no h indcios que provem a sua veracidade, no que aceito
que ela falsa, mas sim que no se pode afirmar sua veracidade.
6.1.1 Tipos de Teste de Hipteses
Alm de saber qual o parmetro populacional que se deseja testar, como mdia ou
proporo por exemplo, necessrio que se saiba se so conhecidas as caractersticas da
distribuio populacional, no caso, a varincia populacional (Stevenson, 2001 e Spigel,
1984).
Se o que se deseja testar a mdia, com mais de 30 observaes (n>30) e a varincia
populacional ( ) conhecida, utiliza-se a distribuio normal padro e a estatstica do teste

n
x
z


=
_
. No caso da varincia populacional ser desconhecida, aplica-se a distribuio de
probabilidade t de student e a estatstica do teste
n
S
x
t

=
_
e para se conseguir a estatstica
Mtodos Estatsticos Notas de Aula
limite tem que se admitir tambm n-1 graus de liberdade (n>30). Onde S a varincia
amostral e n o nmero de observaes.
No caso dos teste para a proporo, utiliza-se a distribuio normal padro e a
estatstica do teste
n p p
p p
z
) 1 (
^

= , onde p a proporo de ocorrncia.


Existem ainda os testes para as diferenas entre mdias e o teste para a diferena
entre propores. Porm, sero apenas apresentados os testes para diferenas entre mdias.
Pois so mais utilizados.
Com varincias conhecidas, o teste de hipteses para a diferena entre mdias de
observaes independentes tem como estatstica do teste
( )
2
2
2
1
2
1
2 1
_
2
_
1
n n
x x
z


+
|

\
|

= . Para
diferena entre mdias, de observaes independentes, com 40
2 1
> + n n e varincias
populacionais distintas e desconhecidas, a estatstica do teste
( )
2
2
2
1
2
1
2 1
_
2
_
1
n
s
n
s
x x
t
+
|

\
|

=

com
graus de liberdade sendo { } 1 , min
2 1
= n n gl . No caso das varincias populacionais iguais e
desconhecidas, a estatstica do teste ser
( )
2 1
2 1
_
2
_
1
1 1
n n
S
x x
t
p
+
|

\
|

=

,
( ) ( )
( ) 2
1 1
2 1
2
2 2
2
1 1
+
+
=
n n
s n s n
S
p
e graus de liberdade ) 2 (
2 1
+ n n .
6.2 Teste de Hipteses No-Paramtricos
Os mtodos paramtricos so utilizados quando os dados que se faz referncia so
cardinais ou, em alguns casos semi-cardinais. J quando se trata de observaes qualitativas,
os mesmos testes no podem ser aplicados. Pois, no se pode obter, por exemplo, a mdia de
um nome, ou se somar o primeiro com o ltimo, dividir por dois e dizer que a mediana um
Ana Paula Amazonas Soares Pgina 23
terceiro. Como vimos, os dados qualitativos so ou ordinais ou nominais e, com estes, no se
podem realizar operaes matemticas.
Se os dados em questo forem cardinais ou semi-cardinais, a utilizao de testes no
paramtricos no ser inviabilizada, ou seja, o pesquisador ter a opo de escolha entre um
teste paramtrico ou no paramtrico.
Os testes no paramtricos so bastante utilizados nas cincias do comportamento,
tais como Sociologia e Educao, bem como em algumas cincias que procuram saber de
opinies, como a Economia e Administrao. Mas, claro que seu uso no est restrito a
apenas estas, qualquer uma que utilize variveis qualitativas se enquadram.
Outra diferena que no se encontra apenas na natureza dos dados, mas sim no poder
do teste, est em sua utilizao quando as amostras so reduzidas. Os teste no paramtricos
podem ser utilizados em amostras com tamanho inferior a trinta. Esta tcnica no
paramtrica no exige hipteses numerosas para se identificar um parmetros, as mesmas
podem ser alcanadas com um nmero reduzido de dados, porque exigem menos
qualificao e esto intimamente ligadas a forma da distribuio de freqncia.
A seguir encontra-se um grande quadro ilustrativo das provas estatsticas no
paramtricas mais utilizadas.
Nvel de
Mesurao
Caso de 1
Amostra
Caso de 2 Amostras Caso de K amostras
Amostras
Relacionadas
Amostras
Independentes
Amostras
Relacionadas
Amostras
Independentes
Nominal
Prova Binomial
Prova de uma
amostra
Prova de
McNemar para
significncia das
mudanas
Prova de Fisher
Prova para 2
amostras
independentes
Prova de Q
de Cochran
Prova para K
amostras
independentes
Ordinal
Prova de
Kolmogorov-
Smirnov para uma
amostra
Prova de iteraes
para uma amostra
Prova de Sinais
Prova de
Wilcoxon
Prova de Mediana
Prova de U de Mann-
Withney
Prova de 2 amostras de
olmogorov-Smirnov
Prova de iteraes de
Wald-Wolfowitz
Prova de Moses para
reaes externas
Prova de
Friedman
Prova de estenso
da mediana
Prova de
Kruskal-Wallis
Intervalar
Prova de Walsh
Prova de
Aleatoriedade
para pares
Prova de
Aleatoriedade para 2
amostras
independentes


Mtodos Estatsticos Notas de Aula
7 Anlise de Regresso
O objetivo principal da regresso linear mostrar que as variveis detm uma relao
entre si e que podemos express-la em termos de uma funo linear. Como citado
anteriormente, buscamos provar a veracidade de uma teoria econmica que mostra a inter-
relao entre as diversas variveis.
Quando espera-se que uma varivel (y) seja funo de outra (x) dizemos que esta
varivel dependente e a outra independente. Nesse caso temos que apenas uma relao
simples, que pode ser representada por uma reta em um plano cartesiano. Como ilustrado a
seguir. Ainda, este caso visto na literatura como o Modelo Clssico de Regresso Linear
Simples, pois uma funo de apenas uma varivel e o mais simples que se pode pensar.
Grfico 9 Identificao do coeficiente angular e da declividade de uma reta
Y
Y = b
0
+ b
1
X
tg()=b
1

b
o
X

Em casos onde temos a varivel dependente em funo de um conjunto de outras
variveis, X
1
, X
2
, ..., X
K
, dizemos que o modelo de Regresso Linear Mltipla. O mesmo
no pode ser visto em plano cartesiano e sim em um espao
K+1
.
Os mtodos mais conhecidos de estimao da regresso linear so:
Mtodo dos Mnimos Quadrados - MMQ - onde o que se procura obter
estimadores de tal forma que a soma dos quadrados dos erros de cada
observao seja mnima;
Mxima Verossimilhana - MMV - cujo objetivo maximizar a funo de
verossimilhana, que, para obt-la temos que assumir uma distribuio de
probabilidade para os erros e obter a funo de densidade para cada um deles
e encontrar a funo de densidade conjunta de todos eles, esta funo
Ana Paula Amazonas Soares Pgina 25
chamada de funo de verossimilhana. O resultado da maximizao indica
quais os melhores parmetros segundo esta tcnica;
Mtodo dos Momentos - quando desejamos obter estimadores consistentes e
eficincia colocada em segundo plano. A tcnica tem por traz a idia de que
em uma amostra aleatria, uma estatstica converge em probabilidade para
uma constante e esta constante transforma-se em uma funo de
probabilidade cujos parmetros da distribuio so desconhecidos. O mtodo
para estimar K parmetros,
1
,
2
, ...,
K
, consiste em calcular as estatstica
m
1
, m
2
, ..., m
K
, cujas probabilidades limites so funes conhecidas dos
parmetros que se deseja estimar. Estes momentos (m
k
) so equacionados
com as funes e as funes so invertidas para se obter os parmetros em
funo dos momentos. Os estimadores so consistentes em virtude do
teorema de Slutsky.
O teorema de Gauss-Markov mostra que, em se tratando de regresso linear simples
os estimadores so eficientes e consistentes. No modelo de regresso mltipla os estimadores
obtidos no MMQ so no tendenciosos e tm a menor varincia.
Por simplicidade, vamos estudar o MMQ j que o mesmo produz estimadores
consistentes em ambos os casos. Porm, para os alunos interessados em aprender os demais
mtodos sugerimos o livro de Kmenta.
7.1 Mtodo dos Mnimos Quadrados.
As hipteses bsicas do mtodo so:
a forma funcional da relao entre a varivel dependente e as variveis
independentes linear, ou seja:
+ + + + =
K K
X X Y L
2 2 1
;
o erro tem mdia zero: E(
i
)=0 para qualquer que seja i = 1, 2, ..., n; onde n
representa o nmero de observaes;
a varincia do erro seja constante para todas as observaes: Var(
i
) =
2
;
Mtodos Estatsticos Notas de Aula
os erros so independentes e distribudos normalmente: ~N(0,
2
);
no autocorrelao dos erros: Cov(
i

j
) = 0 para qualquer que seja ij;
as variveis independentes so no estocsticas. Implica no correlao entre
as variveis independentes e os erros: Cov(X
ki
,
i
) = 0 i,j. Uma outra forma
de expressar dizer que as variveis so exgenas e que independem uma das
outras.
Admitir que a forma funcional seja linear no constitui limitaes para a anlise
econmica pois, na maioria dos casos em que temos relaes no lineares podemos aplicar o
princpio da transformao linear e as mesmas passam a ser lineares. Por exemplo:

i i
X e Y = que expressa uma relao linear. Podemos reformular essa funo com base
em uma transformao logartmica para:
i i
X Y ln ln + = e que expressa
linearmente. Um outro exemplo de formas gerais :
i i i
x g y f + + = ) ( ) ( .
claro que existem casos em que a transformao linear no pode ser aplicada
porm, existem modelos de Regresso No Linear que podem ser aplicados, onde podem
existir tanto transformaes nas variveis dependentes, quanto nas variveis independentes,
quanto em ambas. bvio que esses modelos no sero apresentados a nvel de graduao.
Quanto as hipteses acerca do erro, devemos levar em considerao que:
supor que os distrbios tem esperana nula o caso normal pois, quando so
feitas qualquer expectativa de se esperar que no ocorram erros, ou seja, que
a estimativa seja precisa a ponto de no gerar nenhum distrbio. Caso exista a
possibilidade de que os desvios tenham vis, os mesmos podem ser retirados
aplicando-se uma transformao nos dados;
assumir que os erros tem varincia constante assumir que eles pertencem a
uma nica populao, ou seja, que so HOMOCEDSTICOS. Alm disso,
afirmar que no existe nenhuma informao nesses erros que possa ser
adicionada ao modelo que desejamos estimar. Ainda, que os valores dos erros
esto correlacionados com alguma informao que ainda no se encontra no
modelo. No caso em que exista HETEROCEDSTICIDADE, o MMQ pode
Ana Paula Amazonas Soares Pgina 27
ser deixado de lado e o Mtodo dos Mnimos Quadrados Generalizado pode
ser aplicado;
afirmar que distribudos normalmente simplifica a anlise dos teste. Da
mesma forma que nas outras hipteses, essa tambm pode ser retirada e
aplicarmos diferentes testes estatsticos;
por fim, dizer que os desvios no esto correlacionados entre si afirmar, por
exemplo, que choques econmicos no se perpetuam na economia, ou seja,
acontecem e depois as tendncias de longo prazo no se afastam do estado
estacionrio, volta-se para o caminho de equilbrio;
Para entender o procedimento importante saber o que se busca, ou seja, de
fundamental importncia para os alunos que fique claro o que se deseja saber com esse
mtodo. Para tanto vamos ilustrar a regresso simples e depois ampli-la para a regresso
mltipla.
Imagine que temos um plano cartesiano onde a varivel Y representada pela
quantidade de produto e a varivel X a quantidade de insumo. Sem nos atermos muito a
teoria microeconmica, vamos admitir que temos uma funo de produo do tipo COBB-
DOUGLAS representada por:
i
e X e Y
i i
2 1
= (1)
onde Y
i
a quantidade produzida; e representa a base do logaritmo neperiano; X
i
a
quantidade de insumos utilizados na produo;
1
,
2
so os parmetros que se deseja
estimar;
i
o erro da observao em relao a melhor estimativa da reta.
O subscrito i determina a observao, que vai de 1 at N (o tamanho da populao),
ou de 1 at n (tamanho da amostra).
Observe que a relao entre Y e X no expressa linearmente, dessa forma temos
que aplicar logaritmo e obter a seguinte expresso:
i i i
X Y + + = ln ln
2 1
(2)
Mtodos Estatsticos Notas de Aula
Para cada firma (observao) temos que saber qual o seu produto e qual a quantidade
de insumo utilizada e, com base nas informaes de toda a populao, podemos visualizar
graficamente as firmas no plano cartesiano abaixo.
Grfico 10 Anlise de Regresso Simples
Y

X

O que se busca traar uma reta populacional cuja soma dos quadrados dos erros
seja mnima. Fazer isso dizer que a reta tem os parmetros estimados com as propriedades
desejadas. Vamos imaginar, por pura simplicidade, que a reta vermelha tenha esse papel.
Esta reta tem como inclinao a tangente do ngulo em relao horizontal(
2
) e o
intercepto (
1
) que seria a quantidade mnima de produto que a firma deve produzir dado que
utiliza zero de insumo. Note que essa quantidade nula pois no podemos produzir algo do
nada.
Entretanto, no necessrio pesquisar em todas as empresas da populao pois, dado
a teoria da probabilidade podemos trabalhar com amostras que representam a populao e
seus estimadores sero to bons quanto os populacionais. Assim, o nosso conjunto de pontos
ser reduzido consideravelmente. Ainda no plano cartesiano, temos:
Grfico 11 Estimativa da reta que melhor representa a amostra
Y

X
Onde a reta azul representa a estimativa amostral e a reta vermelha a estimativa
populacional.
Ana Paula Amazonas Soares Pgina 29
7.1.1 Entendimento do Erro
Tomemos como base apenas um ponto da amostra que pertence tambm populao
e tracemos ambas as retas. O erro aquela dist6ancia entre o ponto e as retas, sejam elas a
populacional ou a amostral. Observe o Grfico 11 a seguir:
Grfico 12 Entendimento do Erro
X
2 1
+ =
^
Y

i
Y
X b b Y
2 1
^
+ =
e
i

^
i
Y
^
i
Y


i
X X
Note que a reta da populao est escrita com letras gregas enquanto que a amostral
com letras latinas. Para diferenciar a estimativa populacional (
^
i
Y )da estimativa amostral
(
^
i
Y )utilizamos o negrito.
O erro populacional
i
definido pela distncia (em laranja) entre
i
Y que seria a
observao e a estimativa populacional
^
i
Y , ou

i
= (
i
Y -
^
i
Y ) (3)
o erro amostral e
i
a distncia (em azul claro) entre a observao e a estimativa
amostral ou:
e
i
= (
^
i i
Y Y ) (4)
Resta sabermos como calcular as estimativas amostrais.
Mtodos Estatsticos Notas de Aula
Procedimento de Clculo dos Parmetros
O procedimento simples, definimos os erros como sendo:
i i i
X b b Y e
2 1
= (5)
elevando ao quadrado e somando para todas as observaes temos:
( )
2
1
2 1
1
2

= =
=
n
i
i i
n
i
i
X b b Y e (6)
Derivando e obtendo as condies de primeira ordem, temos
4
:
0 2 ) ( 2 ) 1 )( ( 2
2 1 2 1
1
2
= = = =

i
i
i
i i
i
i i
i
i
e X b b Y X b b Y
b
e
o que prova que a esperana do erro zero, pois 0 ) ( = =

i
i i
e e E ;
0 2 ) ( 2 ) )( ( 2
2 1 2 1
2
2
= = = =

i
i
i i
i
i i
i
i i i
i
i
X e X X b b Y X X b b Y
b
e
que
mostra que a covarincia entre o erro e as observaes nula.
As condies de Segunda ordem so representadas pela matriz Hessiana e cujo
determinante deve ser positivo. As implicaes so que a soma dos desvios de X
i
em torno
da mdia seja positiva ( 0 ) ( >


i
i
X X ).
(
(
(

=
(
(
(
(
(
(





i
i
i
i
i
i
i
i
i
i
i
i
i
i
X X
X n
b
e
b b
e
b b
e
b
e
2
2
2
2
2 1
2
2 1
2
2
1
2
2 2
2 2

depois de provado alguns dos pressupostos podemos utilizar os mesmos somatrios
para obter um sistema linear de duas funes e duas incgnitas para estimar b
1
e b
2
.

4
Por simplicao, fica omitido o incio e o final do somatrio, fica subentendido que vai desde a
primeira at a n-sima observao.
Ana Paula Amazonas Soares Pgina 31
0 ) (
0 ) (
2 1
2 1
=
=

i
i
i i
i
i i
X X b b Y
X b b Y

Com algum esforo matemtico podemos rescrever os somatrios como:


+ =
+ =
i
i
i
i
i
i i
i
i
i
i
X b X b X Y
X b nb Y
2
2 1
2 1

Ainda, pode-se solucionar em funo dos parmetros que se deseja:

= =
|

\
|

=



X b Y
n
X
b
n
Y
b
X X n
Y X X Y n
b
i
i
i
i
i
i
i
i
i
i
i
i
i i
2 2 1
2
2
1
2

A frmula que envolve a soluo de b
2
pode ser escrita de vrias maneiras, tais como:


=
|

\
|

=
i
i
i
i i
i
i
i
i i
X X
X X Y Y
X n X
X Y n X Y
b
2
2
2
2
) (
) )( (


As estimativas de b1 e b2 so normalmente distribudas com:
|
|
|
|
|

\
|
|
|
|
|

\
|

i
i
X X
X
n
N b
2
2
2
1 1
) (
1
, ~ e
|
|
|
|
|

\
|


i
i
X X
N b
2
2
2 2
) (
, ~


Observe que
2
a varincia populacional, e, em verdade, no temos como obt-la.
Assim, faz-se necessrio estima-la.
Considerando-se que a varincia da regresso seja:
Mtodos Estatsticos Notas de Aula
n
e
n
y y
n
i
i
n
i
i
= =
=
|

\
|

=
1
2
1
2
_
2
^


sua estimativa deve ser no tendenciosa e eficiente. Porm, ao analisarmos a no
tendenciosidade, este estimador viciado. Ou seja, sua esperana :
7.1.2 Usos de Matriz em Estimativas com Mltiplos Parmetros Regresso Mltipla
Como citado anteriormente, toda relao entre a varivel dependente, Y, e as
variveis independentes, no estocsticas X
k
, devem ser expressas na forma linear. Caso haja
indcios de que a relao, em sua essncia, no o seja, a mesma pode ser transformada
linearmente para obtermos a relao linear e o mtodo de mnimos quadrados seja, ento
aplicvel.
Assim, podemos descrever a seguinte relao linear entre Y e X
k
para as n
observaes:
n nk k n n n
k k
k k
k k
e X b X b X b b y
e X b X b X b b y
e X b X b X b b y
e X b X b X b b y
+ + + + + =
+ + + + + =
+ + + + + =
+ + + + + =
L
M
L
L
L
3 3 2 2 1
3 3 33 3 32 2 1 3
2 2 23 3 22 2 1 2
1 1 13 3 12 2 1 1

Podemos reescrever o sistema atravs dos erros da seguinte forma:
) (
) (
) (
) (
3 3 2 2 1
3 33 3 32 2 1 3 3
2 23 3 22 2 1 2 2
1 13 3 12 2 1 1 1
nk k n n n n
k k
k k
k k
X b X b X b b y e
X b X b X b b y e
X b X b X b b y e
X b X b X b b y e
+ + + + =
+ + + + =
+ + + + =
+ + + + =
L
M
L
L
L

Para simplificar, este sistema poder ser reescrito na forma matricial, assumindo:
Ana Paula Amazonas Soares Pgina 33
XB Y e
x x x
x x x
x x x
x x x
X
b
b
b
b
B
y
y
y
y
Y
e
e
e
e
e
nxk
nk n n
k
k
k
kx
k
nx
n
nx
n
=
|
|
|
|
|
|

\
|
=
|
|
|
|
|
|

\
|
=
|
|
|
|
|
|

\
|
=
|
|
|
|
|
|

\
|
=
L
M O M M M
L
L
L
M M M
3 2
3 33 32
2 23 22
1 13 12
1
3
2
1
1
3
2
1
1
3
2
1
1
1
1
1
; ; ;


O objetivo do mtodo o de minimizar a soma dos quadrados dos erros, ento,
devemos eleva-los ao quadrado e som-los.
Elevando-se e ao quadrado e somando, temos:
XB X B Y X B Y Y e e ' ' ' ' 2 ' ' + =

Lembrando-se que o sistema est na forma matricial. Derivando-o e igualando-se o
resultado a zero temos:
Y X X X B
Y X XB X
XB X Y X
b
e e
' ) ' (
' '
' 2 ' 2 0
'
1
=
=
+ = =

que soluciona o sistema


A matriz B pode ser escrita na forma:
1
2
1
2 3 2
3
2
3 2 3 3
2 3 2
2
2 2
3 2
1
2
1
kx
ki i
i i
i
kxk
ki
ki i i ki ki
ki i i i i i
ki ii i i i i
ki i i
kx
k
X Y
X Y
Y
X X X X X X
X X X X X X
X X X X X X
X X X n
b
b
b
|
|
|
|
|

\
|
|
|
|
|
|
|

\
|
=
|
|
|
|
|

\
|






M
L
M O M M M
L
L
L
M
Mtodos Estatsticos Notas de Aula

Bibliografia
CHU, Cho-Ho (1981) External Programme Subject Guides: B.Sc.Mathematics,
Statistics and Computing Analysis, University of London, UK.
COSTA, Srgio F. (2005) Introduo Ilustrada Estatstica, Editora Harbra.
GOMES, G. C., J. I. Pinheiro, S. B. Cunha e S. Carvajal (2003) Estatstica Bsica - A
Arte de TrabalharcCom Dados, Editora Campus
GONICK, L. e W. SMITH (1993) Cartoon Guide to Statistics, HarperCollins
Publishers, Inc
GUJARATI, D. N. (2000) Econometria bsica, So Paulo: Makron Books
Instituto Brasileiro de Geografia e Estatstica www.ibge.gov.br
LEVIN, J. e J. FOX (2004) Estatstica para Cincias Humanas. Prentice Hall Brasil
MATOS, O. C. (1997) Econometria Bsica: Teoria e Aplicaes, Ed. Atlas. So
Paulo.
MARTINS, G. (2005) Estatstica Geral e Aplicada, Editora Atlas , So Paulo
SIEGEL, S. (1975) Estatstica No Paramtrica: para cincias do comportamento,
Editora McGraw-Hill.
SPIEGEL M. R. (1977) Probabilidade e Estatstica, Editora McGraw-Hill.
SPIEGEL M. R. (1984) Estatstica, Editora Makron.
STEVENSON, W (2001) Estatstica Aplicada Administrao, Editora Harbra.
STOCK J. e WATSON M. (2004) Econometria, So Paulo: Addison Wesley.

Você também pode gostar