Você está na página 1de 136

Universidade Federal do Piau

Centro de Educao Aberta e a Distncia

Probabilidade e
estatstica II

Juarez Rodrigues Martins


Ministrio da Educao - MEC
Universidade Aberta do Brasil - UAB
Universidade Federal do Piau - UFPI
Centro de Educao Aberta e a Distncia - CEAD

Probilidade e Estatstica II

Juarez Rodrigues Martins


PRESIDENTE DA REPBLICA Dilma Vana Rousseff Linhares
MINISTRO DA EDUCAO Aloizio Mercadante
GOVERNADOR DO ESTADO Wilson Nunes Martins
REITOR DA UNIVERSIDADE FEDERAL DO PIAU Jos Arimatia Dantas Lopes
PRESIDENTE DA CAPES Jorge Almeida Guimares
COORDENADOR GERAL DA UNIVERSIDADE ABERTA DO BRASIL Joo Carlos Teatini de S. Clmaco
DIRETOR DO CENTRO DE EDUCAO ABERTA E A DISTNCIA DA UFPI Gildsio Guedes Fernandes

COORDENADORES DE CURSOS
ADMINISTRAO Antonella Maria das Chagas Sousa
ADMINISTRAO PBLICA Fabiana Rodrigues de Almeida Castro
CINCIAS BIOLGICAS Maria da Conceio Prado de Oliveira
FILOSOFIA Zoraida Maria Lopes Feitosa
FSICA Miguel Arcanjo Costa
LETRAS PORTUGUS Jos Vanderlei Carneiro
LETRAS INGLS Lvia Fernanda Nery da Silva
MATEMTICA Joo Bencio de Melo Neto
PEDAGOGIA Vera Lcia Costa Oliveira
QUMICA Milton Batista da Silva
SISTEMAS DE INFORMAO Leonardo Ramon Nunes de Sousa

EQUIPE DE DESENVOLVIMENTO CONSELHO EDITORIAL DA EDUFPI


TCNICOS EM ASSUNTOS EDUCACIONAIS Zilda Vieira Chaves Prof. Dr. Ricardo Alaggio Ribeiro ( Presidente )
Ubirajara Santana Assuno Des. Tomaz Gomes Campelo
Djane Oliveira de Brito Prof. Dr. Jos Renato de Arajo Sousa
EDIO Roberto Denes Quaresma Rgo Prof. Dr. Teresinha de Jesus Mesquita Queiroz
PROJETO GRFICO Samuel Falco Silva Prof. Francisca Maria Soares Mendes
DIAGRAMAO Everton Oliveira de Arajo Prof. Iracildes Maria de Moura F Lima
REVISO ORTOGRFICA Elizabeth Carvalho Medeiros Prof. Dr. Joo Renr Ferreira de Carvalho
REVISO GRFICA Aurenice Pinheiro Tavares

M386p Martins, Juarez Rodrigues.


Probabilidade e estatstica II / Juarez Rodrigues Martins.
Teresina : CEAD/UFPI, 2011.
136 p.

ISBN: 978-85-7463-493-7

1. Estatstica. 2. Probabilidade. 3. Estatstica


Matemtica.
I. Ttulo.

C.D.D. - 310

2011. Universidade Federal do Piau - UFPI. Todos os direitos reservados.

A responsabilidade pelo contedo e imagens desta obra do autor. O contedo desta obra foi licenciado temporria e
gratuitamente para utilizao no mbito do Sistema Universidade Aberta do Brasil, atravs da UFPI. O leitor se compromete
a utilizar ocontedo desta obra para aprendizado pessoal, sendo que a reproduo e distribuio ficaro limitadas ao mbito
interno dos cursos. A citao desta obra em trabalhos acadmicos e/ou profissionais poder ser feita com indicao da fonte.
A cpia deste obra sem autorizao expressa ou com intuito de lucro constitui crime contra a propriedade intelectual, com
sanses previstas no Cdigo Penal. proibida a venda ou distribuio deste material.
O presente material destinado aos alunos aprendizes que
participam do programa de Educao Distncia da Universidade
Aberta do Piau (UAPI), vinculada ao consrcio formado pela
Universidade Federal do Piau (UFPI), Universidade Estadual do Piau
(UESPI), Cento Federal de Ensino Tecnolgico do Piau (CEFET PI),
com apoio do Governo do Estado do Piau, atravs da Secretaria de
Educao.
Este material est organizado de sete unidades, contendo
subunidades, estruturadas de modo sequencial, as quais discorrem
sobre Amostragem, Distribuies Amostrais, Estimao de Parmetros,
Estatstica Paramtrica Teste de Hipteses, Estatstica No
Paramtrica, Correlao e Regresso Linear e Anlise de Varincia
ou Comparao de Vrias Mdias.
Na unidade 1, apresentamos o conceito de amostragem,
dimensionamento da amostra, amostragem probabilstica e seus tipos,
amostragem no-probabilstica e seus principais tipos, alm de uma
lista de exerccios no final da unidade.
Na unidade 2, apresentamos as distribuies amostrais, com
uma introduo, distribuio normal padro e o uso da tabela de
distribuio normal padro, distribuio amostral das mdias, assim
como seus principais teoremas, distribuio amostral das frequncias
relativas, distribuio amostral de varincias, distribuio t de Student
e a distribuio F de Snedecor, alm de uma lista de exerccios no final
da unidade.
Na unidade 3, apresentamos a estimao de parmetros,
que so intervalos de confiana, os tipos: intervalo de confiana para
a mdia quando a varincia conhecida e quando a varincia for
desconhecida, intervalo de confiana para a varincia, intervalo de
confiana para o desvio padro da populao e intervalo de confiana
para a proporo populacional, alm de uma lista de exerccios no
final da unidade.
Na unidade 4, apresentamos a estatstica paramtrica ou
teste de hipteses, como tambm, os principais conceitos: hiptese
estatstica, teste de hipteses, tipos de hipteses, tipos de erros;
passos para a realizao dos testes de hipteses, teste de hiptese
para a mdia populacional, teste de hipteses para propores, alm
de uma lista de exerccios no final da unidade.
Na unidade 5, apresentamos a estatstica no-paramtrica,
com uma introduo, teste qui-quadrado, teste qui-quadrado para
independncia ou associaes, teste dos sinais, teste de Mann-
Whitney e teste de Kruskal-Wallis, alm de uma lista de exerccios no
final da unidade.
Na unidade 6, apresentamos o estudo da correlao e regresso
linear, com uma introduo, correlao linear simples: medida de
correlao e os tipos de correlao, regresso linear simples e o poder
explicativo do modelo, alm de uma lista de exerccios no final da
unidade.
Na unidade 7, apresentamos a anlise de varincia ou
comparao de vrias mdias: com uma introduo, hiptese do
modelo, classificao nica ou experimento de um fator e estimadores
da varincia comum , fundamentos da anlise da varincia (ANOVA),
quadro de anlise da varincia; classificao de dois critrios ou
experimentos de dois fatores e estimadores de varincia comum 2,
alm de uma lista de exerccios no final da unidade.

BONS ESTUDOS!!!
UNIDADE 1
09 AMOSTRAGEM

Introduo..................................................................................11
Dimensionamento da amostra...................................................12
Amostragem probabilstica.........................................................16
Amostragem no-probalstica.............................................................20

UNIDADE 2
23 DISTRIBUIES AMOSTRAIS

Introduo..................................................................................25
Distribuio normal....................................................................26
Distribuio amostral das mdias..............................................32
Distribuio amostral das frequncias relativas..................................34
Distribuio amostral de varincias.....................................................35
Distribuio t de Student.....................................................................36
Distribuio f de Snedecor...................................................................37

UNIDADE 3
41 ESTIMAO DE PARMETROS

Introduo..................................................................................43
Intervalo de confiana................................................................44
UNIDADE 4
55 ESTIMATIVA PARAMTRICA

Introduo...................................................................................... 57
Principais Conceitos....................................................................... 57
Hiptese estatstica........................................................................ 57
Teste de hiptese.....................................................................................58
Tipos de hipteses...................................................................................58
Tipos de erros.......................................................................................... 58

UNIDADE 5
67 ESTATSTICA NO PARAMTRICA

Introduo...................................................................................... 69
Teste qui-quadrado......................................................................... 69
Teste qui-quadrado para independncia ou associao................ 72
Teste dos sinais................................................................................. 75
Teste de Mann-Whitney.................................................................... 77
Teste de Kruskal-Wallis...................................................................... 80

UNIDADE 6
85 CORRELAO E REGRESSO LINEAR

Introduo...................................................................................... 87
Correlao linear simples............................................................... 87
Regresso linear simples................................................................ 94
Poder explicativo do modelo.......................................................... 98

UNIDADE 7
103 ANLISE DE VARINCIA COMPARAO DE VRIAS MDIAS

Introduo...................................................................................... 105
Hiptese do modelo....................................................................... 106
Classificao de dois critrios ou experimentos de dois fatores.... 115
Estimadores da varincia comum 2.............................................. 116

REFERNCIAS............................................................................127
ANEXO ............................................................................................. 128
UNIDADE 01
Amostragem

Resumindo
Nesta unidade, abordamos o estudo dos elementos que compem uma amostragem extrada de
uma populao. O conceito de populao intuitivo. O estudo de todos os elementos da populao
possibilita o conhecimento preciso das variveis que esto sendo pesquisados. importante ressaltar
que a representatividade da amostra depende do seu tamanho e de outras consideraes de ordem
metodolgica. Na teoria da amostragem, so consideradas duas dimenses: dimensionamento da
amostra e a composio da amostra.
AMOSTRAGEM

Introduo

A amostragem o processo de retirada de amostras de uma


populao*. uma das etapas importantes na tomada de decises nos
diversos nveis gerenciais, pois o pesquisador procurar acercar-se de
cuidados, visando obteno de uma amostra* significativa, ou seja, que de
fato represente o melhor possvel toda populao.
O objetivo principal desta unidade apresentar alguns conceitos e
definies necessrias para conduzir convenientemente uma operao de
amostragem, visando principalmente coleta de dados de uma forma mais
econmica.
Se considerarmos uma populao de clientes, podemos determinar o
tempo mdio em que o cliente fica, por exemplo, utilizando no dia o aparelho
de telefone fixo (mdia populacional ), que corresponde geralmente a
um valor desconhecido, chamado de parmetro*. Como ns no vamos
medir toda a populao, podemos obter uma amostra que represente esta
populao e, estudando esta amostra, ns teremos condies de calcular a
mdia amostral, que corresponde ao estimador*. O resultado obtido (valor
numrico) corresponder estimativa.

Populao* o conjunto de elementos que apresentam uma ou mais


caractersticas em comum.
Amostra* um subconjunto da populao.
Parmetro* um valor desconhecido associado a uma caracterstica da
populao.
Estimador* uma estatstica usada para estimar um parmetro. a frmula
utilizada para o clculo (mdia, proporo e outros).

Amostragem 11
Os problemas de amostragem podem ser mais ou menos complexos
e sutis, dependendo das populaes e das variveis que se deseja estudar.
Na indstria, onde amostras so frequentemente retiradas para efeito de
controle de qualidade dos produtos e materiais, em geral, os problemas de
amostragem so mais simples de resolver. Por outro lado, em pesquisas
sociais, econmicas ou de opinio, a complexidade dos problemas de
amostragem normalmente bastante grande.
Em tais casos, deve ser tomado extremo cuidado quanto
caracterizao da populao e ao processo usado para selecionar a
amostra, a fim de evitar que os elementos desta constituam um conjunto com
caractersticas diferentes das da populao.
Em resumo, a obteno de solues adequadas para o problema de
amostragem exige, em geral, muito bom senso e experincia. Alm disso,
muitas vezes conveniente que o trabalho do estatstico seja complementado
pelo de um especialista no assunto em questo.
Na teoria da amostragem, so consideradas duas dimenses:
a) Dimensionamento da amostra
b) Composio da amostra.

Dimensionamento da Amostra

Como proceder:

1) Analise o questionrio, ou roteiro da entrevista e escolha uma varivel que


julgue mais importante para o estudo. Se possvel, escolha mais do que uma.
2) Verifique o nvel de mensurao da varivel: se nominal, ordinal ou
intervalar.
3) Considere o tamanho da populao: infinita ou finita:
4) Se a varivel escolhida for intervalar e a populao considerada infinita,
voc poder determinar o tamanho da amostra pela frmula:

2
( Zd. ) 1.1

Onde: Z = abscissa da curva normal padro, fixado um nvel de confiana.


Se o nvel for 95,5%, Z = 2
Se o nvel for 95%, Z = 1,96

12 unidade 01
Se o nvel for 99%, Z = 2,57
Geralmente, utiliza-se Z = 2.

= desvio padro da populao, expresso na unidade varivel. Voc poder


determin-lo de pelo menos trs maneiras:
- Especificaes tcnicas;
- Resgatar o valor de estudos semelhantes;
- Fazer conjeturas sobre possveis valores.

d = erro amostral, expresso na unidade da varivel. O erro amostral a


mxima diferena que o investigador admite suportar entre e x, isto : | -
x| < d , onde a verdadeira mdia populacional, que ele no conhece, e x
ser a mdia amostral a ser calculada a partir da amostra.

5) Se a varivel escolhida for intervalar e a populao finita, tm-se:

Z2 . 2 . N
n= 1.2
d2 (N-1) + Z2 . 2

Onde Z = abscissa da normal padro


= desvio padro da populao
N = tamanho da populao
d = erro amostral.

6) Se a varivel escolhida for nominal ou ordinal, e a populao considerada


infinita, voc poder determinar o tamanho da amostra pela frmula:

Z2 . p . q
n= 1.3
d2

Onde: Z = abscissa da normal padro; p .estimativa da verdadeira proporo


de um dos nveis da varivel escolhida. Por exemplo, se a varivel for porte
da empresa, p poder ser a estimativa da verdadeira proporo de grandes
empresas do setor que est sendo estudado. Ser expresso em decimais.
Assim, se p = 30%, teremos:
p = 0,30.
q=1-p
d = erro amostral, expresso em decimais. O erro amostral neste caso ser a
mxima diferena que o investigador admite suportar entre p e q, isto :

Amostragem 13
|p - q| d , em que p a verdadeira proporo, que ele no conhece, e p
ser a proporo (frequncia relativa) do evento a ser calculado a partir da
amostra.

7) Se a varivel escolhida for nominal ou ordinal e a populao finita, tem-se:

Z2 . p . q . N
n=
d2 (N-1) + Z2 . p . q

Onde Z = abscissa da normal padro;


n = tamanho da populao;
p = estimativa da proporo;
q = 1- p
d = erro amostral.

Todas essas frmulas so bsicas para qualquer tipo de composio


da amostra; todavia, existem frmulas especficas segundo o critrio de
composio da amostra. Se o investigador escolher mais de uma varivel,
deve optar pelo maior n obtido.

Aplicaes:

1) Suponha que a varivel escolhida em um estudo seja o peso de certa pea


e que a populao seja infinita. Pelas especificaes do produto, o desvio
padro (disperso em torno da mdia) de 10 kg. Logo se admitindo um nvel
de confiana de 95,5% e um erro amostral de 1,5 kg, determine o tamanho
da amostra n.

Soluo: a varivel intervalar e a populao infinita, logo usaremos a


frmula (1.1) desta unidade.

Z = 2, = 10 e d = 1,5

2 2
N= ( Zd. ) = ( 21,5.10) = 177,77 178.

Logo, o valor de n ser de 178 elementos.

2) Admita os mesmos dados do exemplo anterior e que a populao seja

14 unidade 01
finita de 600 peas, Qual o tamanho da amostra n?

Soluo: Aqui a varivel intervalar e a populao finita, logo usaremos a


frmula (1.2) desta unidade.

Dados: Z = 2, = 10 , N = 600 e d = 1,5

Z2 . 2 . N 22 . 102 . 600
n= 2 2 2
= = 137,31 138
d (N-1) + Z . 1,5 (600-1) + 22 . 102
2

Logo, o tamanho da amostra n ser de 138 elementos.

3) Suponha que a varivel escolhida em um estudo seja a proporo de


eleitores favorveis ao candidato X e que o investigador tenha elementos
para suspeitar que essa porcentagem seja de 30%. Admita a populao
infinita e que se deseja um nvel de confiana de 99% e um erro amostral
de 2% (ou seja, que a diferena entre a verdadeira proporo de eleitores
do candidato X e a estimativa a ser calculada na amostra seja no mximo de
2%). Determine o tamanho da amostra n.

Soluo: A varivel aqui ordinal e a populao infinita, logo usaremos a


frmula (1.3).

Dados: Z = 2,57, p = 30% = 0,30, q =1 - 0.30 = 0,70 e d = 2% = 0,02, ento


n ser:

(2,57)2 . (0,30) . (0,70)


n= = 3.467,57 3468.
(0,02)2
Logo o tamanho da amostra ser de 3468 eleitores.

4) Admita os mesmos dados do exemplo anterior e que a populao de


eleitores seja finita de 20.000 eleitores. Encontre o valor de n.

Soluo: A varivel escolhida ordinal e a populao finita, logo usaremos


a frmula (1.4).

Dados: Z = 2,57, p = 0,30, q = 0,70 e N = 20.000.

Amostragem 15
(2,57)2.0,30).(0,70).(20.000)
n = = 2955,33
(0,0,2)2.(20.000 - 1)+(2,57)2.(0,30).(0,70)
= 2956.

Logo, o tamanho da amostra ser de 2956 eleitores.

Amostragem probabilstica

Distinguimos dois tipos de amostragem: a probabilstica e a no-


probabilstica. A amostragem ser probabilstica se todos os elementos da
populao tiverem probabilidade conhecida, e diferente de zero, de pertencer
a amostra. Caso contrrio, a amostra ser no-probabilstica.
Segundo essa definio, a amostragem
probabilstica implica um sorteio com regras bem
Note que a deciso de
determinadas, cuja realizao s ser possvel se a
abandonar os grupos maiores
que 800 ou repetidos deve populao for finita e totalmente acessvel.
ser tomada antes de iniciado A utilizao de uma amostragem probabilstica
o processo, prevendo-se j a melhor recomendao que se deve fazer no
tais ocorrncias para evitar
sentido de se garantir a representatividade da amostra,
eventuais interferncias do
julgamento pessoal durante a pois o acaso ser o nico responsvel por eventuais
retirada da amostra. discrepncias entre populao e amostra, o que
levado em considerao pelos mtodos de anlise da
estatstica indutiva.
Veremos a seguir algumas das principais tcnicas de amostragem
probabilstica. Outras podero tambm ser usadas, como combinao ou no
das descritas.

Amostragem casual simples

Este tipo de amostragem, tambm chamada de simples ao acaso,


aleatria, casual, simples, etc., equivalente a um sorteio lotrico. Nela,
todos os elementos da populao tm igual probabilidade de pertencer
amostra, e todas as possveis amostras tm tambm igual probabilidade de
ocorrer.
Sendo N o nmero de elementos da populao e n o nmero de
elementos da amostra, cada elemento da populao tem probabilidade n/N de

16 unidade 01
pertencer amostra. A essa relao n/N denomina-se frao de amostragem.
Por outro lado, sendo a amostragem feita sem reposio, o que suporemos
em geral, existem ( Nm ) possveis amostras, todas igualmente provveis.
Na prtica, a amostragem simples ao acaso pode ser realizada
numerando-se a populao de 1 a N, sorteando-se, a seguir, por meio de um
dispositivo aleatrio qualquer, n elementos sorteados para a amostra.

Proporo do estrato h ser igual ao nmero de elementos presente neste estrato


(Nh) dividido pelo tamanho da populao

(N) Nh
/N .

Aps voc obter esta proporo do estrato em relao populao, deve-se


multiplicar o tamanho total da amostra (n) pela proporo de
cada estrato na populao
Nh
/N .
Assim teremos um tamanho de amostra em cada estrato, proporcional ao tamanho
do estrato em relao populao.

Ex: Seja uma populao de 800 elementos, da qual desejamos tirar


uma amostra casual simples de 50 elementos. Consideramos a populao
numerada de 001 a 800, sendo os nmeros tomados sempre com trs
algarismos. A seguir, sorteamos um dgito qualquer na nossa tabela em anexo
(Tabela A1.1), a partir do qual iremos considerar os grupos de trs algarismos
subsequente formados, os quais iro indicar os elementos da amostra. Assim,
se, a partir do ponto sorteado para incio do processo, os dgitos observados
forem 5 3 7 4 1 8 0 2 3 8 5 6 7 0 6 ..., os elementos sorteados para a amostra
sero os de ordem 537, 418, 023, 706, etc. Evidentemente, o grupo 856 foi
desprezado, pois no consta da populao, como seria tambm abandonado
um grupo que j tivesse aparecido (a no ser, claro, que se desejasse
amostragem com reposio). Prosseguindo o processo, obtm-se os 50
elementos desejados.

Amostragem sistemtica

Quando os elementos da populao se apresentam ordenados e


a retirada dos elementos da amostra feita periodicamente, temos uma

Amostragem 17
amostragem sistemtica. Assim, por exemplo, em uma linha de produo,
podemos, a cada dez itens produzidos, retirar um para pertencer a uma
amostra da produo diria.
Voltando ao exemplo anterior com N = 800, n = 50 e a populao j
ordenada, poderamos adotar o seguinte procedimento; sortear um nmero
de 1 a 16 ( note-se que 800/ 50 =16 ), o qual indicaria o primeiro elemento
sorteado para a amostra e os demais elementos seriam periodicamente
retirados de 16 em 16. Equivalentemente, poderamos considerar os nmeros
de 1 a 800 dispostos sequencialmente em uma matriz com 50 linhas e 16
colunas, sorteando-se a seguir uma coluna, cujos nmeros indicariam os
elementos da amostra. Observamos que, nesse caso, cada elemento da
populao ainda teria probabilidade 50/ 800 de pertencer amostra.
A principal vantagem da amostragem sistemtica est na grande
facilidade na determinao dos elementos da amostra. O perigo em adot-la
est na possibilidade de existirem ciclos de variao da varivel de interesse,
especialmente se o perodo desses ciclos coincidir com o perodo de retirada
dos elementos da amostra. Por outro lado, se a ordem dos elementos na
populao no tiver qualquer relacionamento com a varivel de interesse,
ento a amostragem sistemtica ter efeitos equivalentes casual simples,
podendo ser utilizada sem restries.

Amostragem por conglomerados

Quando a populao apresenta uma subdiviso em pequenos grupos,


chamados conglomerados, possvel e muitas vezes conveniente fazer-
se a amostragem por conglomerados, a qual consiste em sortear um nmero
suficiente de conglomerados, cujos elementos constituiro a amostra. Ou
seja, as unidades de amostragem, sobre as quais feito o sorteio, passam
a ser conglomerados e no mais os elementos individuais da populao,
Este tipo de amostragem s vezes adotado por motivos de ordem prtica e
econmica, ou mesmo por razes de viabilidade.
Assim, por exemplo, num levantamento da populao de uma
cidade, podemos dispor do mapa indicando cada quarteiro e no dispor
de uma relao atualizada dos seus moradores. Podemos, ento, colher
uma amostra dos quarteires e fazer a contagem completa de todos os que
residem naqueles quarteires sorteados.

18 unidade 01
Amostragem estratificada

Quando a varivel de interesse apresenta uma heterogeneidade


na populao e esta heterogeneidade permite a identificao de grupos
homogneos, voc pode dividir a populao em grupos (estratos) e fazer uma
amostragem dentro de cada estrato, garantindo, assim, a representatividade
de cada estrato na amostra.
Podemos verificar que pesquisas eleitorais apresentam uma grande
heterogeneidade em relao a inteno de votos, quando consideramos, por
exemplo, a faixa salarial ou o nvel de escolaridade. Ento, se fizssemos
uma amostragem aleatria simples, poderamos incluir na amostra uma
quantidade de elementos de um grupo e, proporcionalmente, este grupo
seria pequeno em relao populao. Desta forma, no teramos uma
amostra representativa da populao a ser estudada. Ento, podemos dividir
a populao em grupos (estratos) que so homogneos para a caracterstica
que estamos avaliando, neste caso, a inteno de votos. Como estamos
dividindo a populao em estratos (grupos) que so homogneos dentro de
si, podemos, ento, caracterizar a amostragem estratificada. Para efetuarmos
a amostragem estratificada de forma proporcional, precisamos primeiramente
definir a proporo do estrato em relao populao.
Exemplos em que uma amostragem estratificada parece ser
recomendvel a estratificao de uma cidade em bairros, quando se deseja
investigar alguma varivel relacionada renda familiar; a estratificao
de uma populao humana em homens e mulheres, ou por faixas
etrias; a estratificao de uma populao de estudantes conforme suas
especializaes, etc.

Amostragem mltipla

Em uma amostragem mltipla, a amostra retirada em diversas


etapas sucessivas. Dependendo dos resultados observados, etapas
suplementares podem ser dispensadas. Esse tipo de amostragem , muitas
vezes, empregado na inspeo por amostragem, sendo particularmente
importante a amostragem dupla. Sua finalidade diminuir o nmero mdio
de itens inspecionados em longo prazo, baixando assim o custo da inspeo.
Um caso extremo de amostragem mltipla a amostragem
sequencial. A amostra vai sendo acrescida item por item, at se chegar a

Amostragem 19
uma concluso no sentido de se aceitar ou rejeitar uma dada hiptese. Com a
amostragem sequencial, pretende-se tornar mnimo o nmero mdio de itens
inspecionados em longo prazo.

Amostragem no-probabilstica

Quando trabalhamos com amostragem no probabilstica, no


conhecemos a priori a probabilidade que um elemento da populao tem de
pertencer amostra. Neste caso,no possvel calcular o erro decorrente
dageneralizao dos resultados das anlises estatsticas da amostra para a
populao de onde a amostra foi retirada.
Utilizamos, geralmente, a amostragem no-probabilstica por
simplicidade ou por impossibilidade de se obter uma amostra probabilstica,
como seria desejvel.
Os principais tipos de amostragem no-probabilstica que temos so
amostragem sem norma ou a esmo, intencional e por cotas.

Amostragem a esmo

Imagine uma caixa de 1000 parafusos. A enumerao destes parafusos


ficaria muito difcil, e a amostragem aleatria simples se torna invivel.
Ento, em situaes deste tipo, supondo que a populao de parafusos
seja homognea, escolhemos a esmo a quantidade relativa ao tamanho da
amostra.Quanto mais homognea for a populao, mais podemos supor a
equivalncia com uma AAS.
Desta forma, os parafusos sero escolhidos para compor a amostra
de um determinado tamanho sem nenhuma norma ou a esmo. Da vem o
nome deste tipo de amostragem.

Amostragem intencional

A amostragem intencional corresponde quela em que o amostrador


deliberadamente escolhe certos elementos para pertencer amostra, por
julgar tais elementos bem representativos da populao. Um exemplo deste
tipo de amostragem corresponde situao em que se deseja saber a
aceitao em relao a uma nova marca de usque a ser inserida no mercado

20 unidade 01
de uma cidade. Somente entraro para a amostra pessoas que faam uso
da bebida e que tenham condies financeiras de comprar essa nova marca
(classe social de maior poder aquisitivo).

Amostragem por cotas

Um dos mtodos de amostragem mais comumente usados em


levantamentos de mercado e em prvias eleitorais o mtodo de amostragem
por quotas. Ele abrange trs fases:

1) Classificao da populao em termos de propriedades que se sabe, ou


presume, serem relevantes para a caracterstica a ser estudada;
2) Determinao da proporo da populao para cada caracterstica, com
base na constituio conhecida, presumida ou estimada da populao;
3) Fixao de quotas para cada observador ou entrevistador que ter a
responsabilidade de selecionar interlocutores ou entrevistados, de modo que
a amostra total observada ou entrevistada contenha a proporo de cada
classe tal como determinada em (2).

Exemplificando: Admite-se que se deseja pesquisar o trabalho das


mulheres. Provavelmente se ter interesse em considerar: a diviso cidade/
campo, a habitao, o nmero de filhos, a idade dos filhos, a renda mdia,
as faixas etrias...
A primeira tarefa descobrir as propores (porcentagens) dessas
caractersticas na populao. Imagine-se que haja 47% de homens e 53%
de mulheres na populao. Logo, uma amostra de 50 pessoas dever ter
23 homens e 27 mulheres. Ento o pesquisador receber uma quota
para entrevistar 27 mulheres. A considerao de vrias categorias exigir
uma composio amostral que atenda ao n determinado e s propores
populacionais estipuladas.

Amostragem 21
Exerccio

1) Dada a seguinte populao (rendas em R$ 1000)

29 6 34 12 15 31 34 20 8 30
8 15 24 22 35 31 25 26 20 10
30 4 16 21 14 21 16 18 20 12
31 20 12 18 12 25 26 13 10 5
13 19 30 17 25 29 25 28 32 15
10 21 18 7 16 14 11 22 21 36
32 17 15 13 8 12 23 25 13 21
5 12 32 21 10 30 30 10 14 17
34 22 30 48 19 12 8 7 15 20
2625 22 30 33 14 17 13 10 9

Fonte: Fonseca, Jairo Simon da. 2006: pg. 184.

a) Calcule o tamanho da amostra para se estimar a mdia, sendo d = R$


2000, R$7000 e 1 - = 95,5%
b) Retire uma amostra aleatria simples, considerando o tamanho amostral
obtido em (a);
c) Agrupe os elementos da amostra em classes;
d) Calcule sua mdia;
e) Calcule o desvio padro amostral;
f) Calcule a mdia da populao e verifique se | - x| d.

2) Sendo p = q = 0,5 populao infinita, d = 0,05 e 1 - = 95,5%, determine


o tamanho amostral.

3) Sendo p = q = 0,5, populao de 200.000, d = 0,05 e 1 - = 95,5%,


determine o tamanho amostral. Compare com o resultado obtido no exerccio
2.

4) Uma populao se encontra dividida em trs estratos, com tamanhos,


respectivamente, de N1 = 80, N2 = 120 e N3 = 60. Ao se realizar uma
amostragem estratificada proporcional, 12 elementos da amostra foram
retirados do primeiro estrato. Qual o nmero total de elementos da amostra?

22 unidade 01
UNIDADE 02
Distribuies Amostrais

Resumindo
As distribuies amostrais, que so objeto de estudo desta unidade, so a base para
aplicao das tcnicas de inferncias estatsticas apresentadas nas unidades seguintes.
Nesta unidade, juntam-se os principais modelos de distribuies contnuas de probabilidade
e as medidas que caracterizam uma amostra (que foram objetos de estudo anteriores),
obtendo-se, assim as distribuies amostrais dos principais estimadores.
distribuies amostrais

Introduo

O captulo que abordaremos agora , de certa forma, uma ponte


entre a Estatstica Descritiva e a Estatstica Indutiva. Sua apresentao
fundamental para a boa compreenso de como se constroem os mtodos
estatsticos de anlise e interpretao dos dados, ou seja, os mtodos da
Estatstica Indutiva. aqui que o clculo de probabilidades vai se apresentar
como a ferramenta bsica de que se vale a Estatstica Indutiva para a
elaborao de sua metodologia.
Portanto, torna-se necessrio um estudo
detalhado das distribuies amostrais, que so base Distribuio amostral
Considere todas as possveis
para intervalos de confiana e testes de hipteses.
amostras de tamanho n
Para que voc tenha condies de fazer afirmaes que podem ser extradas
sobre um determinado parmetro populacional (ex: de determinada populao.
), baseadas na estimativa x, obtido a partir dos Se para cada uma delas se
calcular um valor do estimador,
dados amostrais, necessrio conhecer a relao
tem-se uma distribuio
existente entre x e , isto , o comportamento de x , amostral desse estimador.
quando se extraem todas as amostras possveis da
populao, ou seja, sua distribuio amostral.
Para obtermos a distribuio amostral de um estimador, necessrio
conhecer o processo pelo qual as amostras foram retiradas, isto , se elas
foram retiradas com reposio ou sem reposio.
Veremos a seguir algumas distribuies amostrais que tero grande
utilizao nos captulos seguintes. Outras sero mencionadas e comentadas
em outros pontos do texto, sempre que necessrio.

Distribuies Amostrais 25
Distribuio normal

a mais importante distribuio de probabilidade, sendo aplicada


em inmeros fenmenos e utilizada para o desenvolvimento terico da Zi =
xi -

estatstica. tambm conhecida como distribuio de Gauss, Laplace ou


Laplace-Gauss.
Vejamos uma aplicao desta distribuio:
Seja X uma varivel aleatria contnua. X ter distribuio normal se:
x-
-1( )
1 2
f(x) = e , - < x < 2.1
2

onde: = mdia da distribuio


= desvio padro da distribuio
= 3,1416...
e = 2,7...

Sendo seu grfico:


Para o clculo das probabilidades, surgem dois grandes problemas:
primeiro, para a integrao de f(x), pois para o clculo necessrio o
desenvolvimento em sries; segundo, seria a elaborao de uma tabela de
probabilidades, pois f(x) depende de dois parmetros, o que acarretaria um
grande trabalho para tabelar essas probabilidades considerando-se as vrias
combinaes de e2.
Esses problemas podem ser solucionados por meio de uma mudana
de varivel, obtendo-se, assim, a distribuio normal padronizada (Distribuio
Normal Padro) ou reduzida.

26 unidade 02
Distribuio normal padro

Seja Z uma varivel aleatria tal que:


xi -
Zi =

xi -
Zi = 2.2

xi -
Zi =

Em X a varivel normal de mdia e varincia 2.


Ento a mdia de z ser: E[z] = 0 e sua varincia: var[z] = 1. Logo
a funo densidade ser:

- 1 z2
1 2
(z) = e <z<
2

Sendo o grfico de (z) igual a

Como a mdia de z 0 e a varincia 1, as probabilidades (reas) so


calculadas e tabeladas. Nos exemplos seguintes ser explicado o uso da
tabela da distribuio normal padro.
Para se registrarem distribuies normais usa-se a seguinte notao:
X = N(,2) (l-se a varivel X tem distribuio normal com mdia
e varincia 2. ")
Z = N(0, 1) (l-se a varivel aleatria Z tem distribuio normal com
mdia 0 e varincia 1. Ou, simplesmente distribuio normal padro.)

Uso da tabela de distribuio normal padro

H vrios tipos de tabelas que oferecem as reas (probabilidades)


sob a curva normal padro. O tipo mais frequente a tabela de faixa central.
A tabela de faixa central d a rea sob a curva normal padro entre z
= 0 e qualquer valor positivo de z. A simetria em torno de z = 0 permite obter
a rea entre quaisquer valores de z (positivos ou negativos).

Distribuies Amostrais 27
A tabela oferece a rea entre 0 e z0 ou P(0 z z0).

Exemplo: Desejam-se as probabilidades:

a) P(0 z 1)
b) P(-2,55 < z < 1,2)
c) P(z 1,93)

Soluo:

Tem-se:
a)

Para se obter probabilidade, basta entrar com a abscissa 1,0 (na


primeira coluna) e 0,00 (na primeira linha) da tabela. Assim:

P(0 z 1) = 0,3413

28 unidade 02
b)

Entra-se na tabela com o valor 1,2 na primeira coluna e 0 na primeira


linha, obtendo 0,3849. A propriedade da simetria em relao a z = 0. Entra-
se com 2,5 na primeira coluna e 0,05 na primeira linha, obtendo-se 0,4946.
Portanto,

P(-2,55 < z < 1,2) = 0,3849 + 0,4946 = 0,8795

c)

Entra-se na tabela com 1,9 na primeira coluna e 0,03 na primeira


linha obtendo 0,4732. Porm, essa a rea compreendida entre 0 e 1,93.
Lembrando que a rea embaixo da curva vale 1 e que a funo simtrica
em relao origem z = 0, tem-se:

P(z > 1,93) = 0,5000 0,4732 = 0,0268

Ex: As alturas dos alunos de determinada faculdade so normalmente

Distribuies Amostrais 29
distribudas com mdia 1,60 m e desvio padro 0,30 m. Encontre a
probabilidade de um aluno medir:

a) Entre 1,50 e 1,80 m;


b) Mais de 1,75 m;
c) Menos de 1,48 m;
d) Qual deve ser a mdia mnima para escolhermos 10% dos mais altos?

Soluo: Sabe-se que = 1,60 e =0,30.


Faa X a varivel altura dos alunos. Ento:

a) P(1,50 x 1,80) = P(z1 x z2) =


= P(-0,33 z 0,67) =
= 0,1293 + 0,2486 = X-

=
1,50 - 1,60
0,30

= 0,3779 = 37,79%

X- 1,50 - 1,60
Em que z1= = = - 0,33 e
0,30
X- 1,80 - 1,60
z2 = = = 0,67
0,30

b) P(X > 1,75 ) = P(z > z1) = P(z > 0,5) =


= 0,5000 0,1915 = 0,3085

Em que z1 =
1,75 - 1,60 = 0,5
0,30

30 unidade 02
c) P(X < 1,48) = P(z < z1) = P(z < -0,4) = Mdia aritmtica (x), ou
= 0,5000 0,1554 = 0,3446 mdia de um conjunto de n
observaes, x1, x2, x3,..., xn,
1,48 - 1,50 definida como sendo:
Em que z1 = - 0,4
0,30 x = ni=1 xi/n , onde:
X-

=
1,50 - 1,60
0,30

xi = valor genrico da
observao e n = n de
observaes.

d) o problema inverso dos itens anteriores, pois neste caso, tem-se


a probabilidade e deseja-se a medida:

Para se encontrar o valor de z que deixa 0,10 direita, deve-se entrar

Distribuies Amostrais 31
na tabela com 0,40. Assim, descobrimos que z = 1,28. Logo,

X- X - 1,60
Z= 1,28 = 0,30 X = 1,98 m.

Portanto X = 1,98 m deve ser a medida para se encontrar 10% dos


mais altos.

Distribuio amostral das mdias (x)

Lembrando o conceito de distribuio amostral, visto anteriormente,


busca-se descobrir qual a distribuio da mdia aritmtica x .
Sabe-se que x = xi/n = (mdia aritmtica) um estimador da mdia
populacional . O estimador x uma varivel aleatria, portanto, busca-se
conhecer sua distribuio de probabilidade.

Teorema 1

A mdia da distribuio amostral das mdias, denotada por (x),


igual mdia populacional . Isto :

E[x] = (x) = 2.3

Assim, provado que a mdia das mdias amostrais igual mdia


populacional.

Teorema 2

Se a populao infinita, ou se a amostragem com reposio, ento


a varincia da distribuio amostral das mdias, denotada por dada por:

2
E[(x - )2] = 2(x) = n 2.4

onde 2 a varincia da populao. Isto , pode-se afirmar que, para populaes


infinitas, ou amostragens com reposio, a varincia da distribuio das
mdias igual varincia da populao dividida pelo tamanho da amostra.

32 unidade 02
Teorema 3

Se a populao finita, ou se a amostragem sem reposio, ento


a varincia da distribuio amostral das mdias dada por:

2
2(x) = n ( NN --1n) 2.5

Sendo que: (x) = .

Teorema 4

Se a populao tem ou no distribuio normal com mdia e


varincia 2, ento a distribuio das mdias amostrais ser normalmente
distribuda com mdia e varincia 2/n.
Esses quatro Teoremas provam que a mdia amostral (x) tem
distribuio normal com mdia igual mdia da populao e varincia dada
2
por 2/2 para populaes infinitas, e ( N - n) para populaes finitas.
n N -1
Graficamente:

(fig 2.1)

ou ainda:
2 2
x = N(; n ) ou x = N(; n (N - n ))
N -1

Com distribuies padronizadas dadas por:

xi - xi -
Zi =
ou Zi = 2.6
( N - n)
n n N -1

Distribuies Amostrais 33
Distribuio amostral das frequncias relativas

Seja X uma populao infinita, e p a probabilidade (ou proporo)


e certo evento de X. Logo 1 - p = q ser a probabilidade de o evento no
ocorrer.
Seja (x1, x2, ... , xn ) uma amostra aleatria de n elementos dessa
populao e x o nmero de sucessos na amostra. fcil identificar como uma
varivel aleatria com distribuio Binomial (n de sucessos na amostra), de
mdia np e varincia npq.
Ento, a distribuio amostral da frequncia relativa

p = f = x /n ser dada por:

2.7

npq pq
Var[ f ] = Var [ nx ] = 2 = n 2.8
n

Para n 30 a distribuio amostral de f ser normal:


pq
F = N( p , n )

Assim a sua distribuio padronizada ser:

fi - p
Zi = 2.9
pq
n

Ou graficamente:

(fig 2.2)

34 unidade 02
Distribuio amostral de varincias

Sabe-se que a varincia da populao designada por 2. Seja S


(varincia amostral) o estimador de 2.

varincia ( S ) definida como sendo o quociente entre a soma dos


quadrados dos desvios e o nmero de elementos.
n
i=1 (xi - x)2
Zi =
n -1

Se desejar saber qual a distribuio de S, pode-se demonstrar que:

E[S] = 2 e var[S] = n2- 1 2.10

E que S tem distribuio qui-quadrado com (n 1) graus de liberdade.


Ou seja:
2
(n - 1)S
2
x2n-1 2.11

Lembre-se que (n 1) e 2 so constantes. Graficamente, a relao


entre S e 2 dada por uma distribuio qui-quadrado.

(fig 2.3)

Distribuies Amostrais 35
Distribuio t de Student

Suponhamos que, a partir de uma amostra de n valores retirados de


uma populao normal de mdia e desvio padro /n , fosse definida a
estatstica:

x-
Zi = 2.12
n

Desvio Padro ( S ) igual raiz quadrada da varincia: S= S2

Como a distribuio amostral de x seria precisamente normal,


com mdia e desvio padro /n, segue-se que essa estatstica teria
simplesmente distribuio normal padro, o que justifica o uso do smbolo z
em (2.12).
Entretanto, se usarmos em (2.12) o desvio padro da amostra,
obteremos uma estatstica cuja distribuio no mais normal. De fato,
conforme mostrou Student, a estatstica:
x-
t=
2.13 S
n
distribui-se simetricamente, com mdia 0, porm no normalmente. claro
que, para amostras grandes, S deve ser prximo de , e as correspondentes
distribuies t devem estar prximas da normal padro. Vemos, pois, que
existe uma famlia de distribuies t cuja forma tende distribuio normal
padro quando n cresce. Note-se que a estatstica definida em (2.13) tem n
1 graus de liberdade, o que justifica sua denotao por tn-1.
A fig. 2.4 procura ilustrar comparativamente uma distribuio t e a
distribuio normal padro z. Vemos que uma distribuio t genrica mais
alongada que a normal padro.
Por outro lado, a tabela t de Student fornece valores de t em funo de
diversos valores do nmero de graus de liberdade G.L. e de probabilidades
notveis, correspondentes cauda direita na respectiva distribuio. Assim,
por exemplo, entrando-se na tabela com a probabilidade p = 0,025 e G.L =
50, lemos o valor t50 = 2,009. Isso significa, dada a simetria das distribuies
t, que P(t50> 2,009) = P(t50< -2,009) = 0,025. Note-se que esse valor de t50

36 unidade 02
j muito prximo do correspondente valor t = z = 1,960.

(fig 2.4)

importante notar que a expresso (2.13) pode ser escrita

x-
tn-1 = .S = z S 2.14
n
Ou ainda:
tn-1 = z n-1 2.15
2
xn-1 x = Mdia amostral;
= Mdia populacional;
Ou ainda: S = Desvio padro amostral;
= Desvio padro
tn-1 = z G.L 2.16
populacional;
x2 n = Tamanho da amostra;
N = Tamanho da populao.
Essa expresso nos mostra o relacionamento
existente entre as distribuies t de Student e X2.

Distribuio F de Snedecor

Trata-se de um modelo de distribuio contnua tambm til para


inferncias estatsticas.
A distribuio F a razo entre duas variveis aleatrias independentes
com distribuio qui-quadrado. Assim, a distribuio f com p graus de
liberdade no numerador e q graus de liberdade no denominador expressa
por:

x2p
2
p xp q
F(p,q) =
2.17 x2q x2q p
q

Distribuies Amostrais 37
A distribuio F possui dois parmetros: grau de liberdade do
numerador e grau de liberdade do denominador, que so denominados,
comumente, por e respectivamente.
Quanto mdia, dada por:

2-1
= 2 com 2 > 1 2.18

A varincia expressa por:


2
2 2(1 - 2 - 2)
2 = com 2 > 4 2.19
1 (1 - 4) (2 - 2)

E a mdia:

M0 = ( - 2 ) ( + 2 ) com
1

1 1
1
1
>2 2.20

A distribuio F est tabelada (A2.3). Esta tabela nos d as abscissas


que deixam 5% na cauda direita, dados os parmetros 1 e 2 . Assim:

encontra-se na Tabela 2 (pg. 154).


Na tabela, procede-se assim:

38 unidade 02
Valor da abscissa

Para se encontrar o valor da abscissa F1-(1, 2), utiliza-se a seguinte


frmula:
F1- (1,2) = F (1, ) 2.21
1 2

Exemplo: Sendo 1 = 9, 2 = 5 e = 5%, determine as abscissas


superior e inferior

exerccio

1) Faa Z uma varivel com distribuio normal padronizada e encontre (use


a tabela):
a) P(0 z 1,44)
b) P(-0,85 < z < 0)
c) P(-1,48 < z < 2,05)

2. Os pesos de 600 estudantes so normalmente distribudos com mdia 65,3


kg e desvio padro 5,5 kg. Encontre o nmero de alunos que pesam:
a) Entre 60 e 70 kg;
b) Mais que 63,2 kg.

Distribuies Amostrais 39
3) Determine os valores de xsup e xinf

4) Consulte a tabela para descobrir os valores das abscissas.

5) Admita uma distribuio F com 1 = 8 e 2 = 10. Determine a mdia, a


varincia, o desvio padro e as abscissas para:

40 unidade 02
UNIDADE 03
Estimao de Parmetros

Resumindo
Nesta unidade abordamos uma tcnica para se fazer inferncia estatstica. A partir de um
intervalo de confiana, construdo com elementos amostrais, pode-se inferir sobre um parmetro
populacional. A construo de intervalos de confiana se fundamenta nas distribuies amostrais
vistas na unidade anterior. Esta tcnica se diferencia da estimao por ponto, onde se calcula um
nico valor (estimativa) para o parmetro populacional. No caso do intervalo de confiana, busca-
se um segmento, ou intervalo que contenha o parmetro desconhecido.
Estimao de parmetros

Introduo

Um dos principais objetivos da estatstica inferencial consiste em


estimar os valores de parmetros populacionais desconhecidos (estimao de
parmetros), utilizando dados amostrais. Desta forma, qualquer caracterstica
de uma populao pode ser estimada a partir de uma amostra aleatria,
desde que esta amostra represente bem a populao. Os parmetros
populacionais mais comuns a serem estimados so a mdia, o desvio padro
e a proporo. A estatstica inferencial apresenta uma relevncia alta, j que
a maioria das decises que um gestor ou pesquisador deve tomar esto
associadas utilizao de dados amostrais. Consiste em tirar concluses de
uma populao a partir de amostra representativa dela, tendo uma grande
importncia em muitas reas do conhecimento.

Em resumo, podemos dizer que a estimativa pontual fornece uma


estimativa nica de um parmetro e que a estimativa intervalar nos d um
intervalo de valores possveis, no qual se admite que esteja o parmetro
populacional com uma probabilidade conhecida.

A estimativa pode ser por ponto ou intervalar. A estimativa pontual


infere sobre a populao, considerando apenas o valor da estimativa.
Essas estimativas por ponto no nos do uma ideia sobre confiana e as
margens de erro que deveriam ser aplicadas ao resultado de uma pesquisa,
por exemplo. J a estimativa por intervalos nos fornece uma informao
mais precisa em relao ao parmetro, esta a melhor forma de estimar o
parmetro populacional. Ento, para voc estimar parmetros populacionais
por meios de dados, necessrio o conhecimento da distribuio amostral da

Estimao de Parmetros 43
estatstica que est sento usada como estimador (visto anteriormente). Por
isso, estudaremos a seguir a estimao intervalar.

Intervalo de confiana

Trata-se de uma tcnica para se fazer inferncia estatstica. Ou seja,


a partir de um intervalo de confiana, construdo com os elementos amostrais,
podemos inferir sobre um parmetro populacional.
Ao intervalo que, com probabilidade conhecida, dever conter o
valor real do parmetro chamaremos de intervalo de confiana para esse
parmetro. probabilidade, que designaremos por 1 - , de que um intervalo
de confiana contenha o valor do parmetro chamaremos de nvel ou grau de
confiana do respectivo intervalo. Vemos que ser a probabilidade de erro
na estimao por intervalo, isto , a probabilidade de errarmos ao afirmar que
o valor do parmetro est contido no intervalo de confiana.
Veremos a seguir como construir intervalos de confiana para os
parmetros usuais.

Intervalo de Confiana para a Mdia ( ) quando a Varincia ( 2 )


Conhecida.

Como se sabe, o estimador de x. Tambm conhecida a


distribuio de probabilidade de x.
Devemos construir um intervalo em torno de de forma tal que esse
intervalo contenha o valor do parmetro com confiana 1 ou (1 ) .
100 = %, esse intervalo, sendo simtrico em probabilidade, ser tambm
geometricamente simtrico em relao a x, devido simetria da distribuio
amostral. Observa-se na tabela da distribuio normal padro o valor das
abscissas que deixam /2 em cada uma das caudas. Com os valores de x
(mdia amostral), = desvio padro populacional, que neste caso conhecido
e n (tamanho da amostra), temos:
2
x = N( ; n ) para populaes infinitas.
2
x = N[ ; n ( N - n )] para populaes infinitas.
N-1

Para o caso de populaes infinitas, a varivel padronizada de x :

44 unidade 03
x-
Z= 3.1
n

Fixando-se um nvel de confiana: 1 - , temos:


Ou seja: P( -z zz ) = 1 - .
Substituindo o valor de z , temos:

x-
P( - z z )=1-
2 2
n
Resolvendo-se as duas inequaes para , temos o intervalo de
confiana para a mdia populacional ( ) quando a varinia ( 2 ) conhecida:

P(x - z x z ) = 1 - 3.2
2 n 2 n

Aplicao:

A durao da vida mdia de uma pea de equipamento tal que


= 5 horas. Foram amostradas 100 dessas peas obtendo-se a mdia de
500 horas. Deseja-se construir um intervalo de confiana para a verdadeira
durao mdia da pea com um nvel de 95%.

Soluo: Temos

= 5; n = 100; x = 500 e (1 ).100 = 95%

Observe o grfico da distribuio normal padro:

Estimao de Parmetros 45
Lembrando que para descobrir a abscissa 1,96, entrou-se na tabela
de distribuio normal com 0,475 = (0,5 0,025) = 47,5%, sabendo que a
tabela de faixa central.
Substituindo os dados na frmula, temos:

P(500 1,96 . 5 500 + 1,96 . 5 ) = 95%.


100 100

Efetuando-se os clculos:

P( 499,02 500,98 ) = 95%

Interpretao:

O intervalo [499,02 ; 500,98] contm a verdadeira durao mdia da


pea com 95% de confiana.
Isto significa que se forem construdos intervalos dessa mesma
maneira, para um grande nmero de amostras, em 955 dos casos tais
intervalos incluiriam a mdia populacional .
No caso de populaes finitas, usa-se a seguinte frmula:

P(x - z N - n x z n N - n ) = 1 - 3.3
2 n N-1 2 N-1

Intervalo de Confiana para a Mdia ( ) quando a Varincia ( 2 )


Desconhecida

Vejamos agora como proceder para construir o intervalo de confiana


para a mdia da populao quando o desvio padro populacional tambm

46 unidade 03
desconhecido, o que, em geral, ocorre nos problemas prticos.
Ora, se desconhecemos , devemos estimar seu valor com base na
amostra disponvel. Devemos adotar como estimativa o desvio padro da
amostra, j visto anteriormente.
O processo para se construir o intervalo de confiana semelhante
quele estudado no item anterior. Como no se conhece , porm, preciso
substitu-lo por S (desvio padro amostral) que, contrariamente a uma
varivel aleatria. Portanto, o quociente entre duas variveis aleatrias, x e
S, pois:
x-
S 3.4
n
Pode-se demonstrar que:
x-
t=
S 3.5
n

tem distribuio t de Student com (n - 1) graus de liberdade.


Fixando-se um nvel de confiana: 1 - temse:

Ou seja: P(-t
tt)=1-
2 2

Substituindo-se o valor de t e resolvendo-se as inequaes para ,


obtm-se o intervalo para a mdia quando a varincia ( 2 ) desconhecida.

P(x - t S x + t S ) = 1 - 3.6
2 n 2 n

Onde a varivel t possui (n 1) graus de liberdade.

Estimao de Parmetros 47
Aplicao:

A amostra: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9 foi extrada de uma populao


normal. Construir um intervalo de confiana para a mdia ao nvel de 95%.

Soluo:

Clculo da mdia e do desvio padro:

9 + 8 + 12 + 7 + 9 + 6 + 11 + 6 + 10 + 9 87
x= = 8,7
10 10

x = 8,7

(87)2
S= 1 (793 - ) = 1 (793 - 7569 )
9 10 9 10

S= 1 (793 - 7596,9) = 1 (36,1) = 4,011111 ~


= 2,0
9 9

S=2

Como: 1 = 95% e g.l. = = n 1 = 10 1 = 9, temos:

As abscissas na tabela t de Student ( t0,025 ), logo:

P(8,7 2,2622. 2 8,7 + 2,262 . ) = 95%


10

P(7,27 10,13) = 95%

Interpretao do resultado:

48 unidade 03
O intervalo [7,27; 10,13] contm a verdadeira mdia com 95% de
confiana.
Para o caso de populaes finitas, usa-se a seguinte frmula:

P(x - t N - n x t n N - n ) = 1 - 3.7
2 n N-1 2 N-1

Intervalo de Confiana para a Varincia

Consideremos agora o problema da construo do intervalo de


confiana ao nvel 1 - para a varincia 2 da populao. O conhecimento das
distribuies x, visto anteriormente, ser fundamental para esse propsito.
O estimador de 2 S. Demonstra-se que (n - 1).S / 2 tem distribuio
2

qui-quadrado com (n 1) graus de liberdade. Ou seja:

(n - 1)S2
Xn 1 = 3.8
2

Ento, o intervalo ser:

Substituindo-se o valor de x, e isolando-se 2, obtm-se:

(n - 1)S2 (n - 1)S2
P ( xsup

2

xinf
) =1- 3.9

Com a distribuio qui-quadrado de parmetro: = (n - 1)

Estimao de Parmetros 49
Aplicao:

Admitindo-se n = 10, S = 4, 1 = 90% e = 10 - 1 = 9

Consultando a tabela da distribuio qui-quadrado, temos:

Logo:

P( 1,69 9,4 ) = 90%


2

9,4 3,33

P( 2,13 2 10,81) = 90%

Interpretao:

O intervalo [2,13; 10,81] contm a verdadeira varincia com 90% de


confiana.

Intervalo de Confiana para o Desvio Padro da Populao

Vimos anteriormente que o desvio padro da amostra, S, no um


estimador justo do desvio padro da populao, e que, por essa razo,
deveramos introduzir uma correo, especialmente no caso de amostras
pequenas. Entretanto, se desejarmos um intervalo de confiana ao nvel
de 1 - , para o parmetro no ser necessrio investigar a distribuio
por amostragem do correto estimador de pois decorre imediatamente do
resultado obtido no item anterior que, com probabilidade 1 - , temos:

(n - 1)S2 (n - 1)S2

2

xsup xinf

50 unidade 03
Logo:

(n - 1)S2 (n - 1)S
2

S.
2
P( S. xsup
) =1- 3.10
xinf

Com distribuio qui-quadrado de parmetro: = (n 1).

Intervalo de Confiana para Proporo Populacional ou Probabilidade


(P)

Voc deve considerar que, geralmente, a proporo de sucessos em


uma populao desconhecida. Ento, o que fazemos? Calculamos uma
estimativa da proporo de sucessos na populao a partir de uma amostra
retirada desta.
Para construirmos o intervalo de confiana para p desconhecido,
p.q
determinamos f na amostra e consideramos f =~ . Assim, para o caso de
n
populaes infinitas, a varivel padronizada de f dada por:

f-p
Z= 3.11
p.q
n

Fixando-se um nvel de confiana 1- temos:

Ou seja: P(-z z z ) = 1 -
2 2

Substituindo-se o valor de z:

f-p
P(-z
2
p.q z 2 ) = 1 -
n

Estimao de Parmetros 51
Isolando-se p do denominador, encontraremos:


P(f z 2 . p.q p f + z 2 . p.q ) = 1 -
n n

Para amostras grandes (n > 30), pode-se substituir p e q = 1 p do


radicando por f e (1 f). Assim, o IC para a proporo ser:

f. (1 - f)
P(f z . f. (1 - f) p f + z 2 . )=1- 3.12
2 n n

Para o caso de populaes finitas, o IC ser:

P( f z . f. (1 - f)
. ( N -n ) p f + z 2 . f. (1 - f)
. (N - n ) ) 1 - 3.13
2 n N-1 n N-1

Aplicao:

Ao serem examinadas 500 peas de uma grande produo, foram


encontradas 260 defeituosas. No nvel de 90%, construa um IC para a
verdadeira proporo de peas defeituosas.

Soluo:

x 260
Temos: n = 500, x = 260, 1 - = 90% e f =n =500 = 0,52.

Ento, o intervalo de confiana ser:

P(0,52 - 1,64. 0,52.(1 - 0,52) p 0,52 + 1,64. 0,52.(1 - 0,52) ) = 90%


500 500

52 unidade 03
ou P(0,488 p 0,552 ) = 90%; ou ainda:

P( 48,8% p 55,2% ) = 90%.

Interpretao:

O intervalo [48,8%; 55,2%] contm a verdadeira porcentagem (ou


proporo) de peas defeituosas.

EXERCCIo

1) Foram retiradas 25 peas da produo diria de uma mquina, encontrou-


se para uma medida uma mdia de 5,2 mm. Sabendo-se que as medidas
tm distribuio normal com desvio padro populacional 1,2 mm, construir
intervalo de confiana para a mdia aos nveis de 90% e 95%.

2) De uma distribuio normal com 2 = 1,96, obteve-se a seguinte amostra:


25,2; 26,0; 26,4; 27,1; 28,2; 28,4. Determinar o intervalo de confiana para a
mdia da populao, sendo = 0,05 e = 0,10.

3) Supondo que uma amostra de n = 10 fornecesse s = 2,25. Quais os limites


de confiana a 80% para a verdadeira varincia?

4) Qual o intervalo de confiana que conter com 90% a verdadeira varincia


de uma populao normal que resultou xi = 700,8 e x2i = 23.436,80 de uma
amostra de 30 elementos?

5) Uma centena de componentes foi ensaiada e 93 deles funcionaram mais


de 500 horas. Determinar um intervalo de confiana da proporo de 95%
para a proporo.

6) Uma amostra aleatria de 400 domiclios mostra-nos que 25% deles so


casas de aluguel. Qual o intervalo de confiana da proporo de casas de
aluguel? = 2%.

Estimao de Parmetros 53
54 unidade 03
UNIDADE 04
Estatstica Paramtrica -
Teste de Hipteses

Resumindo
Nesta unidade abordamos uma tcnica muito importante para se fazer inferncia estatstica. Ou
seja, a partir de um teste de hipteses, realizado com os dados amostrais, pode-se tirar concluses
sobre a populao. Na unidade anterior estudamos os ICs, com os quais busca-se cercar o
parmetro populacional e pelos elementos amostrais faz-se um teste que indicar a aceitao ou
rejeio da hiptese formulada.
Estatstica paramtrica -
teste de hipteses

Introduo

Agora abordaremos o segundo tipo de problema de estatstica


indutiva: o dos testes de hipteses referentes populao. Nesta unidade,
trataremos dos testes chamados paramtricos, pois se referem a hipteses
sobre parmetros populacionais.
No caso dos Intervalos de Confiana, busca-se cercar o parmetro
populacional desconhecido. J no teste de hiptese, formula-se uma hiptese
quanto ao valor do parmetro populacional, e pelos elementos amostrais faz-
se um teste que indicar a aceitao ou rejeio da hiptese formulada.

Principais conceitos

Veremos em seguida, os principais conceitos que usaremos no estudo


sobre teste de hipteses: Hiptese Estatstica, Testes de Hipteses, Tipos de
Hipteses e Tipos de Erro.

Hiptese estatstica

uma suposio quanto ao valor de um parmetro populacional,


ou quanto natureza da distribuio de probabilidade de uma varivel
populacional.
Aqui sero apresentados os testes referentes aos parmetros da
populao.
Ex: a) A altura mdia da populao brasileira 1,65 m, ou seja: H: = 1,65m .

Estatstica Paramtrica - Teste de Hipteses 57


a) A proporo de piauienses com a doena y 40%, ou seja: H:p =
0,40.

Teste de hiptese

uma regra de deciso para aceitar ou rejeitar uma hiptese


estatstica com base nos elementos amostrais.

Tipos de hiptese

Hiptese nula a hiptese estatstica a ser testada e ser designada


por H0 e por H1 a hiptese alternativa. A hiptese nula expressa por uma
igualdade, enquanto a hiptese alternativa por uma desigualdade.
Exemplos:
a) H0: = 1,65m. Originar um teste
H1: 1,65m. Bicaudal

b) H0: = 1,65m. Originar um teste


H1: > 1,65m. Unicaudal direita

c) H0: = 1,65m. Originar um teste


H1: < 1,65m. Unicaudal esquerda

Tipos de erros

Ao testar uma hiptese estatstica, podemos cometer dois tipos de


erro. Pode-se rejeitar uma hiptese, quando ela , de fato, verdadeira, ou
aceitar uma hiptese quando ela , de fato, falsa. A rejeio de uma hiptese
verdadeira chamada erro tipo I. A aceitao de uma hiptese falsa constitui
um erro tipo II.
As probabilidades desses dois tipos de erros so designadas,
respectivamente, pela probabilidade do erro tipo I denominada nvel de
significncia do teste. Resumindo, temos:
Erro tipo I: rejeitar H0, sendo H0 verdadeira;
Erro tipo II: aceitar H0, sendo H0 falsa.
A faixa de valores da varivel de teste que leva rejeio de H0

58 unidade 04
denominada de regio crtica (R.C.) do teste. A faixa restante constitui a
regio de aceitao (R.A.)

Passos para realizao dos testes de hipteses (significncia)



O procedimento para realizao dos testes de significncia resumido
nos seguintes passos:

1. Enunciar as hipteses H0 e H1. Primeiramente, vamos estabelecer as


hipteses nula e alternativa.
2. Definir o nvel de significncia ( ) e identificar a varivel do teste; o
nvel de significncia de um teste dado pela probabilidade de se cometer
erro tipo I. Com o valor desta probabilidade fixada, voc pode determinar o
chamado valor crtico, que separa a regio de rejeio da hiptese H0 da
regio de aceitao da hiptese H0.
3. Usando as tabelas estatsticas e considerando e a varivel do teste,
determinar as RC (regio crtica) e RA (regio de aceitao) para H0;

Na figura abaixo, as reas hachuradas correspondem significncia


do teste, ou seja, probabilidade de se cometer o erro tipo I (rejeitar H0 quando
ela verdadeira). Esta probabilidade representada por e o complementer
dela, que chamado de nvel de confiana,por 1 - .

Unilateral direita Unilateral esquerda


H0 : = 0 H0: = 0
H 1: > 0 H1: < 0

Bilateral
H 0: = 0
H 1: 0

Estatstica Paramtrica - Teste de Hipteses 59


4. Com os elementos amostrais, calcular o valor da varivel do teste;
Dependendo da varivel, temos:

x- x-
Zcal = 4.1 ou tcal = 4.2
S
n n
Onde: x a mdia amostral
a mdia populacional
S o desvio padro amostral
o desvio padro populacional
n o tamanho da amostra.

5. A concluso pela aceitao ou rejeio de H0 pela comparao do valor


obtido no passo anterior com RA e RC.
Para tomar a deciso, voc deve observar a estimativa do teste
estatstico j calculado no item anterior, para rejeitar ou no a hiptese H0.
Se o valor da estatstica calculado (zcal ou tcal) estiver na regio crtica
(de rejeio), rejeita-se H0, caso contrrio, aceita-se H0, ou seja, se estiver na
regio de aceitao, aceita-se H0.

Teste de hiptese para a mdia populacional


Quando trabalhamos com
amostras grandes, ou seja,
n > 30, a distribuio de z Quando voc retira uma amostra de uma populao
e t de student apresentam e calcula a mdia desta amostra, possvel verificar se a
comportamentos prximos afirmao sobre a mdia populacional verdadeira. Para
e valores da estatstica
isso, basta verificar se a estatstica do teste estar na regio
prximos tambm.
de aceitao ou de rejeio da hiptese H0.

Aqui voc ver duas situaes diferentes:

1.) Se o desvio padro da populao conhecido ou a amostra considerada


grande (n > 30), a distribuio amostral a ser utilizada ser a normal ou z e a
estatstica teste que voc utilizar ser:
x-
Z= 4.3
n

Onde x : mdia amostral; : mdia populacional; : desvio padro populacional


e n: tamanho da amostra.

60 unidade 04
2.) Agora, se voc no conhece o desvio padro populacional e a amostra
for pequena (n < 30), ento, a distribuio amostral a ser utilizada ser a t de
student, e a estatstica teste ser:

x-
t= 4.4
S
n
Onde x : mdia amostral; : mdia populacional; S: desvio padro amostral
e n: tamanho da amostra.

Aplicaes:

a) O desvio padro de uma populao conhecido e igual a 22


unidades. Se uma amostra de 100 elementos, retirada dessa populao,
forneceu x = 115,8, podemos afirmar que a mdia dessa populao inferior
a 120 unidades, ao nvel de 5% de significncia? Qual a significncia do
resultado obtido, face as hiptese testada?

Soluo:

1) Testando as hipteses
H0: = 120
H1: < 120

2) A varivel do teste ser z e = 0,05

3) z tabelado

4) Clculo de zcal

115,8 - 120 -4,2


Zcal = 22 = 2,2 = -1,91
100

Estatstica Paramtrica - Teste de Hipteses 61


5) Concluso
Como zcal ztab, ou seja, -1,91 RC, ento se rejeita H0. Portanto,
podemos afirmar que, nesse nvel de significncia, que a mdia da populao
inferior a 120 unidades.

b) Os dois registros dos ltimos anos da UAPI atestam para os


calouros admitidos uma nota mdia 115 (teste vocacional). Para testar a
hiptese de que a mdia de uma prova a mesma, tirou-se, ao acaso, uma
amostra de 20 notas, obtendo-se mdia 118 e desvio padro 20. Admitir que
= 5% = 0,05, para efetuar o teste.

Soluo:

1) H0: = 115
H1: 115

2) = 0,05 e a varivel do teste t com


= 20 - 1 = 19 g.l.

3)

118 - 115
4) tcal = 20 = 0,67
20

5) Como tcal RA, ou seja, -2,093 < 0,67 < 2,093 , no se pode rejeitar H0:
= 115cm com esse nvel de significncia, ou seja, se aceita que a verdadeira
mdia populacional igual a 115.

Teste de hiptese para varincias

As mesmas ideias apresentadas no caso do teste resultaram em uma


mdia que pode ser utilizada para se realizar testes envolvendo a varincia
da populao. Assim, iremos testar as hipteses

62 unidade 04
H 0: 2 = 0
H 1: 2 0
2 < 0
2 > 0

A varivel de teste dever ser a varincia da amostra, definida


anteriormente, pois o estimador justo da varincia populacional, conforme
j visto. Sendo normal a distribuio da populao, a quantidade (n - 1).S / 2
2

tem distribuio x com (n 1) graus de liberdade. Logo, supondo verdadeira


a hiptese H0, ou seja, admitindo que a varincia da populao seja igual ao
valor testado S02, podemos escrever:

(n - 1).S2
x2cal = 4.5
20

Onde: n: tamanho da amostra; S: varincia amostral e 2: valor da hiptese


nula.

Aplicao:

Para testar a hiptese de que a varincia de uma populao 25,


tirou-se uma amostra aleatria de 25 elementos, obtendo-se S = 18,3.
Admitindo-se = 0,10, efetuar o teste de significncia unicaudal esquerda.

1) H0: 2 = 25
H1: 2 < 25

2) = 0,10; varivel x com = 25 - 1 = 24 g.l.

3)

Estatstica Paramtrica - Teste de Hipteses 63


(25 - 1).18,3
4) x cal =
2
= 17,56
25

5) Como xcal 15,7, ou seja, xcal RA, no se pode rejeitar H0: 2 = 25 ao


nvel de significncia de 10%, ou seja, se aceita a hiptese de que a varincia
da populao igual a 25.

Teste de hiptese para propores

J sabemos que, ao realizarmos indues sobre uma proporo


populacional p, devemos nos basear na proporo observada na amostra f.
Sabemos, tambm, que podemos aproximar a distribuio amostral de f pela
distribuio normal de mdia p e desvio padro P(1 - P)/p . Isso nos permite
realizar facilmente testes envolvendo propores populacionais, de forma
anloga ao que foi visto para os testes de uma mdia. Para a realizao
desse teste, temos:

1) H0: p = p0
H 1: p p 0
p > p0
p < p0

2) Fixar . Escolher a varivel normal padro z.

3) Com o auxlio da tabela de distribuio normal padro, determina-se RA


e RC.

4) Calcular o valor da varivel:


f - p0
Zcal = p (1 - p ) 4.6
0 0

n
onde: f = frequncia relativa do evento na amostra,
p0 = valor da hiptese nula,
n = tamanho da amostra.

5) Concluses:
Se zcal RA, ento aceita-se H0, ou seja, no se pode rejeitar H0.

64 unidade 04
Se zcal RC, ento rejeita-se H0, ou seja, no se pode aceitar H0.

Aplicao:

As condies de mortalidade de uma regio so tais que a proporo


de nascidos que sobrevivem at 60 anos de 0,6. Testando essa hiptese ao
nvel de 5%, em 1000 nascimentos amostrados aleatoriamente, verificou-se
530 sobreviventes at 60 anos.

Soluo:

1) H0 : p = 0,6
H1 : p 0,6

2) = 0,05 e a varivel escolhida, a normal z.

3) Determinao da RA e RC

4) zcal
f - p0 0,53 - 0,6
Zcal = p (1 - p ) = 0,6(1 - 0,6) = -4,42
0 0

n 1000

5) Como zcal RC, rejeita-se H0, concluindo-se ao nvel de 5%, que a


verdadeira proporo de sobreviventes diferente de 0,6, ou seja, p 0,6.

Estatstica Paramtrica - Teste de Hipteses 65


Exercicio

1) Uma amostra de 25 elementos resultou em mdia de 13,5 com desvio


padro 4,4. Efetue o teste ao nvel de 0,05 para a hiptese que = 16 contra
16.

2) Retirando-se uma amostra de 15 parafusos, obtiveram-se as seguintes


medidas para seus dimetros:

10 10 10 11 11 12 12 12 12
13 13 14 14 14 15

Teste H0 : = 12,5 contra 12,5; > 12,5. Adotando = 0,05.

3) Um laboratrio fez 8 determinaes da quantidade de impurezas em


pores de certo composto. Os valores eram: 12,4; 12,6; 12,0; 12,0 12,1;
12,3 12,5 e 12,7 mg.
a) Estime a varincia de impurezas entre pores.
b) Teste a hiptese de que a varincia 1, ao nvel de = 0,05 Contra H1: 2
< 1.

4) Suponha X = N(,2) em que e 2 so desconhecidos. Uma amostra


de tamanho 15 forneceu xi = 8,7 e x2i = 27,3. Teste a hiptese de que a
varincia da populao 4. Adote = 1%. (Teste uni e bicaudal).

5) Uma amostra de 500 eleitores selecionados ao acaso d 52% ao Partido


Democrtico. Poderia esta amostra ter sido retirada de uma populao que
tivesse 50% de eleitores democratas? Admita = 0,05.

6) Uma pesquisa revelou que das 500 donas de casa consultadas, 300
preferiram o detergente A. Teste a hiptese ao nvel de 0,04 para H0: p = 0,5,
contra H1: p 0,5.

66 unidade 04
UNIDADE 05
Estatstica no Paramtrica

Resumindo
Nesta unidade, vemos as tcnicas da Estatstica No Paramtrica que so, particularmente,
adaptveis aos dados das cincias do comportamento. A aplicao dessas tcnicas no exige
suposies quanto distribuio da populao da qual se tenha retirado amostras para anlise.
Contrariamente ao que ocorre na Estatstica Paramtrica, onde as variveis so, na maioria das
vezes, intervalares, como foi visto nas unidades 3 e 4, os testes no paramtricos so extremamente
interessantes para anlises de dados qualitativos.
Estatstica no paramtrica

Introduo

As tcnicas da estatstica no-paramtrica so, particularmente,


adaptveis aos dados das cincias do comportamento. A aplicao dessas
tcnicas no exige suposies quanto distribuio da populao da qual
se tenha retirado amostras para anlises. Podem ser aplicadas a dados que
se disponham simplesmente em ordem, ou mesmo para estudo de variveis
nominais. Contrariamente ao que acontece na estatstica paramtrica, onde
as variveis so, na maioria, intervalares, como visto nas unidades 3 e 4. Os
testes no - paramtricos so extremamente interessantes para anlises de
dados qualitativos.
Os testes da estatstica noparamtrica exigem poucos clculos e
so aplicveis para anlise de pequenas amostras (n < 30).
Como o prprio nome indica, a estatstica no - paramtrica independe
dos parmetros populacionais (; 2; ; p ...) e de suas respectivas estimativas
( x ; S; S, f ...)

Teste qui-quadrado

O mais popular teste no-paramtrico o teste qui-quadrado, ou


teste de adequao do ajustamento.
Seja um experimento aleatrio. Sejam E1, E2, ..., Ek, K eventos
associados a . Admita que o experimento seja realizado n vezes.
Sejam F01, F02, F0k as frequncias observadas dos k eventos.
Sejam Fe1, Fe2, Fek as frequncias esperadas, ou frequncias tericas
dos k eventos.

Estatstica no Paramtrica 69
Deseja-se realizar um teste estatstico para verificar se h adequao
de ajustamento entre as frequncias observadas e as frequncias esperadas.
Isto , se as discrepncias (Foi Fei), i = 1, 2, ... k, so devidas ao acaso, ou
se de fato existe diferena significativa entre as frequncias.

Passos para efetuar o teste:

1. Enunciar as hipteses H0 e H1.

H0 afirmar no haver discrepncia entre as frequncias observadas e


esperadas, enquanto H1 afirmar que as frequncias observadas e esperadas
so discrepantes.

2. Fixar . Escolher a varivel qui-quadrado com = k - 1. Lembrando que k


igual ao nmero de eventos.

3. Com o auxlio da tabela x, determinam-se RA e RC.

4. Clculo do valor da varivel:


(Fei - Fei)2 (Fe1 - Fe1)2 (Fek - Fek)2
X2cal = ki=1 = + ... +
Fei Fe1 Fek 5.1

5. Concluso

Se xcal< xsup, no se pode rejeitar H0, ou seja, as frequncias


observadas e esperadas no so discrepantes.
Se xcal> xsup, rejeita-se H0, concluindo-se com o risco que a
discrepncia entre as frequncias observadas esperada. Ou seja, no h
adequao do ajustamento.

70 unidade 05
Aplicaes:

1. Em 100 lances de uma moeda, observaram-se 65 coroas e 35 caras. Testar


a hiptese de a moeda ser honesta, adotando-se = 5%.

Soluo:

1. H0: A moeda honesta


H1: A moeda no honesta

2. = 5%. Escolhe-se uma x1, pois


k = 2 1 = 1.

3. Determinao da RC e RA.

4. Clculo do valor da varivel

Eventos Cara Coroa

F. observadas 35 65

F. esperadas 50 50

(F0i - Fei)2 (35 - 50)2 (65 - 50)2


X2cal = 2i=1 = + =9 5.2
Fei 50 50

5. Concluso:

Como xcal 3,84, ou seja, xcal RC, rejeita-se H0, concluindo-se, com
risco de 5%, que a moeda no honesta.

Estatstica no Paramtrica 71
Teste qui-quadrado para independncia ou associao

O teste qui-quadrado tem uma aplicao importante


quando se quer estudar a associao ou independncia,
O teste qui-quadrado de
entre duas variveis. A representao das frequncias
associao aconselhvel
quando o tamanho da observadas dada por uma tabela de dupla entrada ou
amostra razoavelmente tabela de contingncia.
grande e deve ser aplicado
com maior cuidado se
existem frequncias
O clculo das frequncias esperadas fundamenta-
esperadas (Fesp) menores
do que 5. Nestes casos, se na definio de variveis aleatrias independentes,
a soluo juntar classes conforme visto em variveis aleatrias. Isto : diz-se que X
adjacentes, evitando-se e Y so independentes se a distribuio conjunta de (X,Y)
que Fesp< 5.
igual ao produto das distribuies marginais de X e de
Y. Isto :

P(xi, yj) = p(xi) .p(yj) para todo i e j.

Passos para efetuar o teste:

1. H0: as variveis so independentes, ou as variveis no esto associadas.


H1: as variveis so dependentes, ou as variveis esto associadas.

2. Fixar . Escolher a varivel qui-quadrado com = (L 1) (C 1) onde L =


n de linhas da tabela de contingncia, e C = n de colunas.

3. Com o auxlio da tabela x, determinam-se RA e RC.

72 unidade 05
4. Clculo do valor da varivel.
(Foij - Feij)2
X2cal = Li=1 Cj=1 Feij

onde cada Feij determinado por:

(soma da linha i) (soma da coluna j)


Feij =
total de observaes

5. Concluso

Se xcal RA, no se pode rejeitar H0, isto , no se pode dizer que as


variveis sejam dependentes.
Se xcal RC, rejeita-se H0, ou seja, concluindo-se com risco que as
variveis so dependentes, ou esto associadas.

Aplicao:

Testar ao nvel de 5% se h dependncia entre as preferncias por sabor da


pasta de dentes e o bairro.

Sabor da pasta Bairros


A B C
Limo 70 44 86 200
Chocolate 50 30 45 125
Hortel 10 6 34 50
Outros 20 20 85 125
150 100 250 500

Fonte: Fonseca, Jairo Simon da. 2006: pg.231.

Soluo:

1. H0: A preferncia pelo sabor independente do bairro.


H1: A preferncia pelo sabor depende do bairro.

2. = 5%. Escolher um x com:


= (4-1).(3-1) = 6 gl.

Estatstica no Paramtrica 73
3. RA e RC

4. Clculo do valor da varivel.


A tabela das frequncias esperadas dada por:

Sabor Bairros
A(1) B(2) C(3)
(1) Limo 60 40 100
(2) Chocolate 37,5 25 62,5
(3) Hortel 15 10 25
(4) Outros 37,5 25 62,5

Onde, por exemplo,


(soma da linha 1) (soma da coluna 1)
Fe11 =
total de observaes
(150) (200)
Fe11 = = 60
500
(soma da linha 4) (soma da coluna 3)
Fe43 =
total de observaes
(125) (150)
Fe43 = = 62,5
500

Assim:
(70 - 60)2 (50 - 35,5)2 (10 - 15)2 (20 - 37,5)2 (44 - 40)2 (30 - 25)2
X2cal = 60
+ 37,5
+ 15
+ 37,5
+ 40
+ 25
(6 - 10)2 (20 - 25)2 (86 - 100)2 (45 - 62,5)2 (34 - 25)2 (85 - 62,5)2
10 + 25 + 100 + 62,5 + 25 + 62,5 = 37,88

5. Concluso
Como xcal RC, rejeita-se H0, concluindo-se, com risco de 5%, que h
dependncia entre sabor da pasta de dentes e o bairro.

74 unidade 05
Teste dos sinais

utilizado para anlise de dados emparelhados (o mesmo individuo


submetido a duas medidas). aplicado em situaes em que o pesquisador
deseja determinar se duas condies so diferentes.
A varivel em estudo poder ser intervalar ou ordinal. O nome teste
dos sinais se deve ao fato de serem utilizados os sinais mais e menos,
em lugar dos dados numricos. Assim, se houve alterao para maior, usa-se
(+), se para menor, (-). No havendo alterao, atribui-se (0). Para o teste,
desconsideram-se os casos de empates, ou seja, os pares em que foram
atribudos zeros.
A lgica do teste que as condies podem ser consideradas iguais
quando as quantidades de + e - forem aproximadamente iguais. Isto , a
proporo de sinais + equivale a 50%, ou seja: p = 0,5.

Procedimento para realizao do teste:

1. H0: no h diferena entre os grupos, ou seja: P = 0,5.


H1: h diferena, ou seja: uma das alternativas
p (a)
p > (b)
p < (c)

2. Fixar . Escolher a distribuio N(0,1) se n > 25, ou binomial se n 25.

3. Com o auxlio da tabela, determina-se RA e RC (para n > 25), caso n 25


utiliza-se a distribuio binomial.

Estatstica no Paramtrica 75
4. Clculo do valor da varivel (n > 25)
y - n.p
Zcal = n.p.q
5.3

onde: y = nmero de sinais +.


n = tamanho da amostra descontados os empates.
p = 0,5 e q = 1 p = 0,5

5. Concluses:

Se zcal RA, no se pode rejeitar H0. Se zcal RC, rejeita-se H0,


concluindo-se, com risco , que h diferena entre os dois grupos, ou duas
condies.

Aplicaes:

Sessenta alunos se matriculam num curso de ingls. Na primeira


aula, aplica-se um teste que avalia o conhecimento da lngua. Aps seis
meses, aplica-se um segundo teste. Os resultados mostram que 35 alunos
apresentaram melhora (35 +), 20 se conduziram melhor no primeiro teste
(20 -) e 5 no apresentaram modificaes (5 0). Testar, no nvel de 5%, se
o curso alterou o conhecimento de ingls do grupo de 60 alunos.

Soluo:

1. H0: O curso no alterou (p = 0,5).


H1: O curso melhorou o conhecimento de ingls.

2. = 5%, Varivel N(0,1)



3. RA e RC

76 unidade 05
Observe, devido ao enunciado de H1, que se optou pelo teste unicaudal
direita. Caso H1 fosse piorou, o teste seria unicaudal esquerda.

4. Clculo do valor da varivel:


35 - 55.(0,5)
Zcal = = 2,02
55.(0,5).(0,5)

Onde y = 35
n = 60-5 = 55e p = q = 0,5

5. Concluso:
Como zcal RC, rejeita-se H0, concluindo-se com risco de 5%, que o
curso melhorou o conhecimento de ingls.

Teste de MannWhitney

usado para testar se duas amostras independentes foram retiradas


de populaes com mdias iguais. Trata-se de uma interessante alternativa
ao teste paramtrico para igualdade de mdias, pois este teste no exige
nenhuma considerao sobre as distribuies populacionais e suas
varincias. Como j vimos, o teste paramtrico para igualdade de mdias
exige populaes com distribuies normais de mesma varincia. Este teste
poder ser aplicado para variveis intervalares ou ordinais.

Procedimento:

a) Considerar n1 = n de casos do grupo com menor quantidade de


observaes e n2 = n de casos do maior grupo.
b) Considere todos os dados dos dois grupos e coloque-os em ordem
crescente. Atribua primeiro ao escore que algebricamente for menor e
prossiga at N = n1 + n2.
s observaes empatadas, atribuir a mdia dos pontos
correspondentes:
c) Calcular R1 = soma dos postos do grupo n1.
R2 = soma dos postos do grupo n2.
d) Escolher a melhor soma entre R1 e R2.
e) Calcular a estatstica:

n1(n1+1) n2(n2+1)
1 = n1.n2 + - R1 5.4 ou 2 = n1.n2 +
2
- R2 5.5
2

Estatstica no Paramtrica 77
Teste:

1. H0: no h diferena entre os grupos.


H1: h diferena.
Para n1, n2 < 10 h tabela prpria.

2. Fixar . Escolher a varivel N(0,1).

3. Com o auxlio da tabela N(0,1) determinam-se RA e RC.

4. Clculo do valor da varivel.

- (u)
Zcal = (u) 5.6

onde: n1 . n2 5.7
(u) =
2

n1.n2(n1+n2+1) 5.8
(u) =
12

5. Concluso:
Se zcal RA, no se pode rejeitar H0.
Se zcal RC, rejeita-se H0, concluindo, com risco , que h diferena
entre os grupos.

Aplicao:

Determine no nvel de 10%, se as vendas mdias de dois shopping


centers so diferentes.

78 unidade 05
Shopping A Shopping B
(em 10 R$) 6
(em 106 R$)
10 22
18 17
9 15
8 10
2 7
11 7
4 8
3 14
9 15
12 -
10 -

Soluo:

a) n1 = 9 (shopping B) e n2 = 11

b) Postos de todas as vendas.

A B
11 20
19 18
8,5 16,5
6,5 11
1 4,5
13 4,5
3 6,5
2 15
8,5 16,5
14
11
Soma = 97,5 112,5

c) R2 = 97,5 R1 = 112,5

d) Escolher R2 = 97,5

Estatstica no Paramtrica 79
11.(11+1)
e) u2 = 9.(11) + - 97,5 = 67,5
2

Teste:

1. H0: as vendas so iguais.


H1: as vendas so diferentes.

2. = 10%. Escolher N(0,1)

3. Com o auxlio da tabela:

4. Clculo do valor da varivel

(9).(11)
(u) = = 49,5
2

9.(11)(9+11+1)
(u) = = 13,16
12

67,5 - 49,5
Zcal = 13,16
= 1,37

5. Concluso:
Como zcal RA, no se pode rejeitar a hiptese de que as vendas so
iguais.

Teste KruskalWallis

Este teste extremamente til para decidir se k amostras (k > 2)


independentes provm de populaes com mdias iguais. Poder ser
aplicado para variveis intervalares ou ordinais.

80 unidade 05
Procedimento:

a) Dispor, em ordem crescente, as observaes de todos os k grupos,


atribuindo-lhes postos de 1 a n. Caso haja empates, atribuir o posto mdio.
b) Determinar o valor da soma dos postos para cada um dos k grupos:
Ri i = 1, 2, 3, ..., k.
c) Realizar o teste:

1) H0: As mdias so iguais.


H1: H pelo menos um par diferente.

2) Fixar . Escolher uma varivel qui-quadrado com = k - 1.

3) Com auxlio da tabela qui-quadrado, determinam-se RA e RC.

4) Calcula-se a estatstica:

12 (Ri)2
H = n(n+1) . ik=1 n - 3.(n+1) 5.9
i

5) Concluso:
Se H RA, no se pode rejeitar H0.
Se H1 RC, rejeita-se H0, concluindo-se com risco que h diferena
entre as mdias dos k grupos.

Aplicao:

Testar, no nvel de 5%, a hiptese da igualdade das mdias para os


trs grupos de alunos que foram submetidos a esquemas diferenciados de
aulas. Foram registradas as notas obtidas para uma mesma prova.

Estatstica no Paramtrica 81
Aulas expositivas Aulas com recursos Aulas atravs de
audiovisuais ensino programado
65 60 61
62 71 69
68 66 67
70 63 72
60 64 74
- 59 -

Soluo:

Atribuem-se postos s notas:

Postos
Aulas Aulas com recursos Aulas atravs de
Expositivas audiovisuais ensino programado
8 2,5 4
5 14 12
11 9 10
13 6 15
2,5 7 16
- 1 -
= 39,5 = 39,5 = 57

1) H0: as notas mdias so iguais.


H1:as notas mdias so diferentes.

2) = 5%. Escolhe-se uma distribuio qui-quadrado com 2 gl, pois


= k - 1 = 3 - 1 = 2.

3) Com auxlio da tabela da distribuio determinam-se RA e RC.

82 unidade 05
4) Clculo da estatstica H .
2 2
12 (39,5)2 (39,5) (57)
H =16(16+1) . [ 5
+
6
+ 5 ] - 3.(16+1)

H = 2,90

5) Concluso:
Como H RA , no se pode rejeitar H0. Assim, as notas mdias podem
ser consideradas iguais, ao nvel de 5%.

Exerccio

1) Uma moeda lanada 200 vezes e verifica-se 110 caras e 90 coroas. Teste
a honestidade da moeda, sendo = 0,10.

2) O nmero de livros emprestados por uma biblioteca, durante uma


determinada semana, est indicado a seguir. Teste a hiptese de o nmero
de livros emprestados no depender do dia da semana, sendo = 0,01.

Dias da semana Seg Ter Qua Qui Sex


N de livros
110 135 120 146 114
emprestados

3) Teste ( = 5%) se h alguma relao entre as notas escolares e o salrio.

Estatstica no Paramtrica 83
Notas Escolares
S
Alto 18 17 5
A
L
Mdio 26 38 16
R
I Baixo 6 15 9
O

4) Para a situao abaixo, aplique o teste dos sinais. Adote = 2,5%.

Indivduos submetidos a um programa de dieta

Peso (kg) Pr-dieta Peso (kg) Ps-dieta Continuao


48
55 50
50
49
63 65
51
90
78 78
91
93
81 79
85
90
68 70
90
56
58 57
58
66
60 58
64
67
60 62
68

5) Use o teste de Mann-Whitney para determinar se a mdia do grupo X


maior do que a mdia do grupo Y. Adote = 1%

X :63 65 70 48 50 81 88 99 35 47 75 85 61
Y: 90 50 60 70 40 38 89 47 51 65 87.

84 unidade 05
UNIDADE 06
Correlao e Regresso Linear

Resumindo
Nesta unidade, abordamos um contedo muito importante para verificar se existe relao entre
duas ou mais variveis. A verificao da existncia e do grau de relao entre variveis do objeto
de estudo da correlao. Depois de caracterizada, procura-se descrever uma relao de forma
matemtica, atravs de uma funo. A estimao dos parmetros dessa funo objeto de estudo
da regresso.
Correlao e regresso
linear

Introduo

Frequentemente, procura-se verificar se


existe relao entre duas ou mais variveis. O peso, Nota: Para que uma
relao possa ser
por exemplo, pode estar relacionado com a idade
descrita por meio de ,
das pessoas; o consumo das famlias pode estar imprescindvel que
relacionado com sua renda; as vendas de uma ela se aproxime de
empresa e os gastos promocionais podem relacionar- uma funo linear. Uma
se, bem como a demanda de um determinado produto maneira prtica de
verificarmos a linearidade
e seu preo. A verificao da existncia e do grau
da relao a inspeo
de relao entre variveis objeto de estudo da do diagrama de disperso:
correlao. se a elipse apresenta
Uma vez caracterizada, procura-se descrever salincias ou reentrncias
muito acentuadas,
uma relao sob forma matemtica, atravs de uma
provavelmente, trata-se de
funo. A estimao dos parmetros dessa funo correlao curvilnea.
matemtica o objeto da regresso.

Correlao linear simples

O objetivo principal do estudo da correlao medir e avaliar o grau


de relao existente entre duas variveis aleatrias. Assim, por exemplo,
podemos medir se a relao entre o nmero de filhos de uma famlia e sua
renda forte, fraca ou nula.
A correlao linear procura medir a relao entre as variveis X e Y
atravs da disposio dos pontos (X, Y) em torno de uma reta.

Correlao e Regresso Linear 87


Medida de Correlao

O instrumento de medida da correlao linear dado pelo coeficiente


de correlao de Pearson:

XY - X.Y
rXY = n 6.1
2 2
[ X - (X) ] [ Y - (Y) ]
n n
2 2

Onde: n = nmero de observaes.

Smbolos comumente utilizados:

SXY = XY - X.Y = (Y - Y).(X - X)


n
2
SXY = (X - X) = X - (X)
2

n
2

2
SXY = (Y - Y) = Y - (Y)
2

n
2

O campo de variao do coeficiente r situa-se entre -1 e +1.

-1 rXY 1 6.2

Sua interpretao depender do valor numrico e do sinal.

Nota:
Para podermos tirar algumas concluses significativas sobre o
comportamento simultneo das variveis analisadas, necessrio que:

0,6 |rXY| 1

Se 0,3 |rXY| < 0,6, h uma correlao relativamente fraca entre as


variveis.

Se 0 |rXY| < 0,3, a correlao muito fraca e, praticamente, nada podemos


concluir sobre a relao entre as variveis em estudo.

Correlao Linear Positiva

A correlao ser considerada positiva se valores crescentes de X

88 unidade 06
estiverem associados a valores crescentes de Y, ou valores decrescentes de
X estiverem associados a valores decrescentes da varivel Y.

0 rXY 1

Correlao Linear Perfeita Positiva

Essa correlao corresponde ao caso anterior, s que os pontos (X,


Y) esto perfeitamente alinhados.


RXY = 1

Correlao Linear Negativa

Essa correlao considerada negativa quando valores crescentes


da varivel X estiverem associados a valores decrescentes de Y, ou valores
decrescentes de X estiverem associados a valores crescentes da varivel Y.

Correlao e Regresso Linear 89


-1 rXY 0

Correlao Linear Perfeita Negativa

Quando os pontos estiverem perfeitamente alinhados, mas em sentido


contrrio, a correlao denominada perfeita positiva.

rXY = -1

Correlao Nula

Quando no houver relao entre X e Y, ou seja, quando as variaes


de X e Y ocorrerem independentemente, no existe correlao entre elas.

RXY = 0

90 unidade 06
Clculo Prtico do Coeficiente de Correlao Linear

Para o clculo do coeficiente de correlao, conveniente a


construo de uma tabela, onde, a partir dos valores X e Y, so determinadas
todas as somas necessrias.

Y X X Y XY
- - - - -
- - - - -
- - - - -
- - - - -
- - - - -
- - - - -
- - - - -
Y X X 2
Y 2
xY

Exemplo 1:

Calcular o coeficiente de correlao linear entre as variveis X e Y,


usando os dados da tabela abaixo:

Tabela 6.1
Y 10 8 6 10 12
X 2 4 6 8 10
Fonte: Estatstica Bsica: Toledo, Geraldo Luciano, pag. 416.

Soluo:

Tabela 6.2
Y X X Y XY
10 2 4 100 20
8 4 16 64 32
6 6 36 36 36
10 8 64 100 80
12 10 100 144 120
46 30 220 444 288

n=5

Correlao e Regresso Linear 91


(30)(46)
288 - 12
rXY = 5 = = 0,416
[ 200 - (30) 2
] [ 444 - (46) 2
] (40)(20,8)
5 5

O resultado mostra que a correlao linear entre as variveis X e


Y positiva (quando X cresce linearmente, Y tambm cresce linearmente),
porm, baixa.

Exemplo 2:

A tabela seguinte mostra os resultados de uma pesquisa com 10


famlias de determinada regio:

Tabela 6.3
Famlias Renda Poupana Nmero de Mdia de
(R$ 100) (R$ 1000) filhos anos de
estudo da
famlia
A 10 4 8 3
B 15 7 6 4
C 12 5 5 5
D 70 20 1 12
E 80 20 2 16
F 100 30 2 18
G 20 8 3 8
H 30 8 2 8
I 10 3 6 4
J 60 15 1 8
Fonte: Estatstica Bsica: Toledo, Geraldo Luciano, pg. 417

a) Calcular o coeficiente de correlao linear entre renda familiar e a


poupana das dez famlias.

Soluo:

92 unidade 06
Tabela 6. 4
Renda (Y) Poupana (X) X Y XY
10 4 16 100 40
15 7 49 225 105
12 5 25 144 60
70 20 400 4900 1400
80 20 400 6400 1600
100 30 900 10000 3000
20 8 64 400 160
30 8 64 900 240
10 3 9 100 30
60 15 225 3600 900
407 120 2152 26769 7535

7535 - (407)(120)
10
rXY = = 0,9835
2 2
[ 2152- (120) ] [ 26769 - (407) ]
10 10

Este resultado rXY = 0,9835 revela uma forte correlao linear entre
renda e poupana familiar. O sinal do coeficiente mostra que as duas variveis
variam no mesmo sentido.

b) Calcular o coeficiente de correlao linear entre renda e nmero de


filhos para as dez famlias.

Soluo:
Tabela 6.5

Renda (Y) N de filhos (X) X Y XY

10 8 64 100 80
15 6 36 225 90
12 5 25 144 60
70 1 1 4900 70
80 2 4 6400 160
100 2 4 10000 200
20 3 9 400 60
30 2 4 900 60
10 6 36 100 60

Correlao e Regresso Linear 93


60 1 1 3600 60
407 36 184 26769 900

900 - (407)(36)
10
rXY = = 0,7586
2 2
[ 184 (36) ] [ 26769 - (407) ]
-
10 10

Este resultado rXY = -0,758 revela uma correlao forte e inversa


(negativa), ou seja, as famlias com maiores rendas tm menor nmero de
filhos.

Regresso Linear Simples

A anlise de regresso tem como objetivo descrever, atravs de


um modelo matemtico, a relao existente entre duas variveis, a partir
de n observaes dessas variveis. Supondo X a varivel explicativa e Y a
varivel explicada, dizemos que Y = f(x), ou seja, a varivel Y uma funo da
varivel X. Em regresso, considera-se apenas a varivel Y como aleatria e
a varivel X como supostamente sem erro. Ento, a relao entre X e Y no
regida apenas por uma lei matemtica, ou seja, para um dado valor de x, no
observaremos necessariamente o mesmo Y. Portanto, a relao entre X e Y
dever ser escrita como segue: Y = f(x) + e, onde a varivel e captar todas
as influncias sobre Y no devidas a X.
Dado um conjunto de valores observados de X e Y, construir um
modelo de regresso linear de Y sobre X tendo como objetivo obter, a partir
desses valores, uma reta que melhor represente a relao verdadeira entre
essas variveis. A determinao dos parmetros dessa reta denominada
ajustamento.
O processo de ajustamento deve partir da escolha da funo atravs
da qual os valores de X explicaro os de Y. Para tanto, recorre-se a um grfico
conhecido como diagrama de disperso. O mesmo construdo anotando,
em um sistema de coordenadas retangulares, os pontos correspondentes
aos pares de observaes de X e de Y.
A reta ajustada representada por Y = a + bX, onde a e b so os
parmetros do modelo; a o ponto onde a reta ajustada corta o eixo da
varivel Y, e b a tangente do ngulo que a reta forma com uma paralela

94 unidade 06
ao eixo da varivel X. A reta ajustada denominada, tambm, reta de
mnimos quadrados, pois os valores de a e b so obtidos de tal forma que
mnima a soma dos quadrados das diferenas entre os valores observados
de Y e os obtidos a partir da reta ajustada para os mesmos valores de X.
Simbolicamente, temos:

= (Y - Y) = (Y a bX) mnima, onde: = Y - Y.

Para obter os parmetros a e b, aplica-se a condio necessria de


mnimo funo (Y - Y). Para isto, basta deriv-la com relao a esses
parmetros e igualamos as derivadas a zeros. As demonstraes das frmulas
voc ver nas pginas 426 e 427 do livro: Estatstica bsica, de Geraldo
Luciano Toledo. As frmulas para o calculo dos parmetros a e b so:

a = Y - bX 6.3

Onde: Y =
Y e X
n X= n

XY - X.Y 6.4
n
b= 2
X - (Y)
n
2

Costuma-se usar os seguintes smbolos para diminuir o numerador e


denominador da expresso que definir o valor de b:

SYX = XY - X.Y
n
SYX
b=
SXX
2
SXX = X - (X)
n
2

Podemos escrever, ento,

Y = a + bX 6.5

Aplicaes:

1) Os dados abaixo se referem ao volume de precipitao pluviomtrica (mm)

Correlao e Regresso Linear 95


e ao volume de produo de leite tipo C (milhes de litros), em determinada
regio do pas.

Produo de Leite ndice Pluviomtrico


Anos
C(1000.000 l) (mm)
1970 26 23
1971 25 21
1972 31 28
1973 29 27
1974 27 23
1975 31 28
1976 32 27
1977 28 22
1978 30 26
1979 30 25
Fonte: pg. 427, Estatstica Bsica, Geraldo Luciano Toledo.

a) Ajustar os dados atravs de um modelo linear.


b) Admitindo-se, em 1980, um ndice pluviomtrico de 24 mm, qual
dever ser o volume esperado de produo de leite tipo C?

Soluo:

a) Para efetuarmos os clculos necessrios ao ajustamento,


recorremos a uma tabela com 4 colunas, contendo os valores de Y, X, X e
XY em cada uma das colunas, como segue:

Tabela 6.7
Y X X XY
26 23 529 598
25 21 441 525
31 28 784 868
29 27 729 783
27 23 529 621
31 28 784 868
32 27 729 864
28 22 484 616
30 26 676 780

96 unidade 06
30 25 625 750
Y = 289 X = 250 X = 6310
2
XY = 7273

I determinao do valor do parmetro b

XY - X.Y 7273 - (250)(289)


SYX n 10 48
b= = 2 = = = 0,8
SXX ( X)
6310 - (250)2 60
X -
n
2

10

SXY = 48, SXX = 60 e b = 0,8

II determinao do parmetro a
Y X 289 250
a = Y - bX = n - b n = - 0,8. = 8,9
10 10
a = 8,9

III equao da reta ajustada


Y = a + bX = 8,9 + 0,8, logo,
Y = 8,9 + 0,8X

b) Fazendo x = 24 mm, temos:


Y = 8,9 + 0,8.(24) = 28,1

Logo, de acordo com o modelo, podemos esperar 28,1 milhes de


litros produzidos para um ndice pluviomtrico de 24 mm.

2) Uma empresa est estudando a variao da demanda de certo


produto em funo do seu preo de venda. Para isso, levantou as seguintes
informaes:

Correlao e Regresso Linear 97


Tabela 6.8
Unidades vendidas Preo de venda
Meses
(Y) (X) por unidade
J 248 162,00
F 242 167,00
M 234 165,00
A 216 173,00
M 230 170,00
J 220 176,00
J 213 178,00
A 205 180,00
S 198 182,00
O 195 187,00

Com base nestes dados, mostrar que a demanda do produto decresce


linearmente com o acrscimo de preo.

Soluo:

Y = 2201 XY = 381703
Y = 1740 X2 = 303340
X = 174 Y = 220,1
(1740).(2201)
381703 -
b = (
10
) = - 2,19
303340 - 1740
10
a = 220,1 (- 2,19).(174) = 601,4

Y = 601,4 2,19X

O resultado b = -2,19 significa que para cada unidade de variao


positiva de preo (X), a quantidade procurada (Y) decresce 2,19 unidades.

O poder explicativo do modelo

Smbolo: R
Tambm denominado coeficiente de determinao, o poder explicativo
da regresso tem como objetivo avaliar a qualidade do ajuste. Seu valor

98 unidade 06
fornece a proporo da variao total da varivel Y explicada pela varivel X
atravs da funo ajustada. Assim, podemos expressar R por:

b2SXX
R2 = 6.6
SYY

Com 0 R 1
b.SYX 6.7
R2 =
SYY
Com 0 R 100%

2
Onde: SXX = X - (nX)
2

2
SYY = Y - (nY)
2

SYX = XY - X.Y
n

Quando R = 0, a variao explicada de Y zero, ou seja, a reta


ajustada paralela ao eixo da varivel X. Se R for igual a 1, a reta ajustada
explicar toda a variao de Y. Assim sendo, quanto mais prximo da unidade
estiver o valor de R, melhor a qualidadedo ajuste da funo aos pontos do
diagrama de disperso e quanto mais prximo de zero pior ser a qualidade
do ajuste.
Se o poder explicativo for, por exemplo, 98%, isto significa que
98% das variaes de Y so explicadas por X atravs da funo escolhida
para relacionar as duas variaes e 2% so atribudas a causas aleatrias.
Observe o grfico abaixo.

bSYX = SYY

Correlao e Regresso Linear 99


Aplicaes:

01) Calcular o poder explicativo da regresso para os dados da tabela


6.8 do exemplo 2 da pgina 67.

Soluo:

X = 3.915,5 Y = 3.273,4
X = 1.150.349,73 Y = 800.330,16
SXX = 55.268,28 SYY = 34.962,48
b = 0,971
Usando a frmula (6.6), obtemos:

0 R 1

100 unidade 06
O resultado mostra um excelente grau de ajuste da reta aos pontos.
A relao linear obtida explica 98,9% das variaes totais da varivel Y.
Somente 1,1% das variaes de Y so consideradas aleatrias caso seja
adotado o modelo linear.

02) Seja Y uma varivel que representa o valor do frete rodovirio


de determinada mercadoria e X a varivel distncia (em km) ao destino da
mercadoria. Uma amostra de 10 observaes das variveis apresentou os
seguintes resultados:
n = 10 XY = 842.060
X = 1.200 Y = 4.713.304,03
Y = 6.480,50 X = 186.400

a) Determine a regresso: Y = a + bX.


b) Interprete os valores encontrados para a e b.
c) Calcule e interprete o poder explicativo da regresso. Agora tente
resolv-los e depois confira as respostas abaixo:

Respostas:
a) Y = 624,05 + 0,50X.
b) a = 624,05 = parte do frete que no depende da distncia; b = 0,50
= acrscimo no frete por quilmetro rodado.
c) R = 0,311 ou 31,1%. A distncia explica muito pouco das variaes
do frete.

03) Calcule o poder explicativo da regresso usando os dados da


tabela 5.8 do exemplo 2.

Soluo:
Y = 2.201 Y = 487.403
X = 1.740 X = 303.340
n = 10 b = -2,19

(1740)2
(-2,19)2 .[303.340 - ]
10 2781,74
R2 = (2201) 2 = 2962,90 = 0,939
487.403 -
10

ou R = 93,9%. Ou seja, 93,9% das variaes da demanda so

Correlao e Regresso Linear 101


explicadas por variaes de preo.

Exerccio

1) Com os dados da tabela 6.5, calcule o coeficiente de correlao entre


a) Poupana e N de filhos.
b) Mdia dos anos de estudo e N de filhos
c) Renda familiar e Mdia de anos de estudo.

2) A tabela abaixo apresenta informaes sobre o custo de determinada


mercadoria, em reais, e a distncia em km do destino para onde deve ser
enviada.

Custo Distncia
125,8 229
134,8 287
127,0 209
122,8 174
123,4 190
122,2 196
122,5 186
122,8 202
122,4 178
122,0 168
124,1 192
124,7 210
122,3 168

a) Estime, por regresso linear, o custo fixo e o custo por km rodado. Escreva
a equao ajustada.
b) Calcule o poder explicativo do modelo.

102 unidade 06
UNIDADE 07
Anlise de Varincia -
Comparao de Vrias Mdias

Resumindo
Nas unidades anteriores foram apresentados testes paramtricos e no paramtricos para verificar
a igualdade entre duas Mdias: teste T e de Man-Whitney e ainda no captulo 6 e o teste Kruskal
- Wallis foi aplicado para testar a igualdade de k mdias, k>2. Uma alternativa ao teste de kruskal -
Wallis a anlise de varincia, que um mtodo estatstico, desenvolvido por Fisher, o qual atravs
de testes de igualdade de mdias possvel verificar se fatores produzem mudanas sistemticas
em alguma varivel de interesse. Os fatores propostos podem ser variveis quantitativas ou
qualitativas, enquanto a varivel depende deve ser quantitativa (intervalar) e observada dentro
das classes dos fatores os tratamentos. A finalidade desta unidade apresentar os fundamentos
desse mtodo.
anlise de varincia -
comparao de vrias mdias

Introduo

Devido importncia da questo, dedicaremos toda esta unidade ao


estudo dos problemas envolvendo a comparao de vrias mdias.

Importante:
A anlise de varincia um teste de hiptese usado para comparao
de mais de duas populaes. Imagine que voc queira comparar o grande
endividamento de empresas de trs setores (indstria, comrcio e prestao
de servios). Para a comparao, necessrio que voc tenha repeties,
pois so elas que mediro a variao do acaso. Ento, voc deve selecionar
uma amostra de dez empresas de cada setor (repeties).

A principal e mais importante tcnica que utilizamos para a soluo


do problema a anlise de varincia, que foi inicialmente desenvolvida pelo
grande estatstico britnico R. A. Fisher, como instrumento para a anlise
de experimentos agrcolas. Concomitantemente, foram sendo desenvolvidos
diversos modelos de planejamento de experimentos, os quais, entretanto,
sero apenas parcialmente examinados nesta unidade.
A anlise de varincia um mtodo suficientemente poderoso para
identificar diferenas entre as mdias populacionais devidas a vrias causas
atuando simultaneamente sobre os elementos da populao.
Nosso objetivo apresentar a ideia fundamental do mtodo de forma
simplificada, sem grande aprofundamento terico, j que isso demandaria um
vasto espao e fugiria nossa meta.

Anlise de Varincia - Comparo de Vrias Mdias 105


Hipteses do modelo

H trs suposies bsicas que devem ser satisfeitas para que se


possa aplicar a anlise da varincia.
1. As amostras devem ser aleatrias e independentes.
2. As amostras devem ser extradas de populaes normais.
3. As populaes devem ter varincias iguais.

Classificao nica ou experimento de um fator

Admite-se um nico fator (varivel independente) que subdividido


em tratamentos (nveis do fator). A varivel de estudo (varivel dependente)
medida atravs de amostras de cada tratamento. Eis a configurao desse
tipo de experimento:

Tratamentos
Elemento 1 2 3 ... k
da amostra

1 x11 x21 x31 . . . xk1


2 x12 x22 x32 . . . xk2
3 x13 x23 x33 . . . xk3
. . . . .
. . . . .
. . . . .
ni x 1n 1 x 2n 2 x 3n 3 . . . x kn k
Somas Total
Mdias x1 x2 x3 . . . xk X

i = 1, 2, 3, . . . , k
j = 1, 2, 3, . . . , ni

Assim xij, denota o valor da j-sima observao sujeito ao i-simo


tratamento.
A mdia dos valores observados no i-simo grupo ser:
n
i=1
i
xij
xi = ni 7.1

106 unidade 07
i = 1, 2, 3, . . . ,k

A mdia geral dada por:

xij ou X = n i=1 ni xi
1 k
X = n1 i=1
k n
j=1
i
7.2

Em que n = i=1
k
ni o nmero total de observaes.
A hiptese nula de que todos os tratamentos tenham mdias iguais,
isto :
H 0: 1 = 2= 3 = . . . = k
E que todas as k populaes dos tratamentos tenham a mesma
varincia: 2.
A hiptese alternativa de que pelo menos um par de mdias seja
diferente:
H1: p q para p q

A aceitao de H0 revelar que o fator considerado no acarreta


mudanas significativas na varivel de estudo. Por outro lado, a rejeio de
H0 indicar, com risco , que o fator considerado exerce influncia sobre a
varivel de estudo.
A base da anlise da varincia est nas comparaes que podem ser
feitas com os estimadores da varincia comum de todos os tratamentos (2).

Estimadores da varincia comum 2

Admitindo-se H0 como verdadeira, pode-se estimar a varincia comum


de trs maneiras diferentes:
1) No primeiro caso, consideram-se os k tratamentos como uma
nica amostra de tamanho n e a mdia geral X. Se H0 : 1 = 2= 3 = . . . = k
= verdadeira, tem-se que:
k n 2
i=1 j=1
i
(xij - x)
S2t = 7.3
n-1

Ser um estimador justo de 2, isto , E[S2t] = 2. Por outro lado, se


H0 no for verdadeira, St ir superestimar 2.
Ao numerador i=1 (xij - x) , denomina-se variao total (Qt).
k n 2
j=1 i

Anlise de Varincia - Comparo de Vrias Mdias 107


ni 2
(x - x)
Pelo teorema de Fisher: j=1 2 ij , tem distribuio qui-quadrado

com (n - 1) graus de liberdade.
Desenvolvendo-se o quadrado, obtm-se uma frmula prtica para o
clculo da variao total. Assim:

Variao total = Qt = i=1


k n 2
j=1 x ij - C i
7.4

Onde:
k n 2
( i=1 j=1
i
xij ) 7.5
C=
n
2) A segunda forma de se estimar a varincia comum 2 pela
considerao das mdias dos grupos e a mdia geral X . Se H0 for verdadeira,
teremos para cada amostra:

2
E[ x ] = e 2 ( xi ) = n , ou xi = N( ;n ). Ento
2

2
2
k
i=1 (xi - x) 7.6
S =
k-1
2
Ser um estimador justo de n e
2
2 2
k
i=1 ni (xi - x)
Se = niS = 7.7
k-1

Ser um estimador justo de 2, isto : E[ Se2] = 2.


Porm, se H0 no for verdadeira, Se2 ir superestimar 2.
2
Ao numerador i=1
k
ni (xi - x) , denomina-se variao entre tratamentos.
2
k
(x - x) , tem distribuio qui-quadrado com
Pelo Teorema de Fisher: i=1 ni 2 i

(k - 1) graus de liberdade.
Frmula prtica para o clculo de Qe .
2
( j xij )
k
Qe = i=1 [ ni ]-C
7.8

3) A terceira maneira de se estimar a varincia 2 comum ser por


meio de cada uma das k amostras. Assim, para o i-simo tratamento, tem-se:
2
n
i=1 (xij - x)
i

Si =
k-1 7.9

Como i = 1, 2, 3, . . . , k, tem-se k estimadores do tipo Si2 . Ento


o estimador da varincia comum ser dado pela mdia aritmtica dos Si2

108 unidade 07
ponderadas pelos respectivos graus de liberdade (i = n 1), assim:

1Si2 + 2S22 + ... + kSk2


2
Sr = , ou seja:
1 + 2 + ... + k
2
2
k
i=1 n
j=1
i
(xij - xi) 7.10
Sr =
n-k

Sob a condio de H0 ser verdadeira ou no, tem-se E[Sr2] = 2, isto


, Sn2 justo. (Veja configurao frente).
Ao numerador denomina variao dentro dos
2
k
i=1 n
j=1i
(xij - xi)
tratamentos ou variao residual (Qr). Pelo Teorema de Fisher:
2
k
i=1 n
j=1i
(xij - xi)
2
tem distribuio qui-quadrado com (n k) graus de liberdade.
Frmula prtica para o clculo de Qr.
2
x ij i [ ( j xij ) ]
k n 2
Qr = i=1 j=1 i

n i 7.11

Pode-se demonstrar que:

Qt = Qe + Qr 7.12

Isto , a variao total igual soma da variao entre tratamentos


e a variao residual. Ou seja, Qt - Qe - Qr = 0.
Resumindo, as variaes Qt , Qe e Qr tm distribuio x2
respectivamente com (n 1), (k 1) e (n k) graus de liberdade.
Isto : = x2n-1 = x2k-1 + x2n-k.
Nota-se que: (n -1) = (k - 1) + (n - k).
Sendo esta a condio necessria e suficiente para que x2k-1 e x2n-k e
sejam independentes. Assim:

x2k - 1 Qe 2
k-1 k-1 Se
F= = =
x2n - k n-k 2
Sr 7.13
n-k

Ter distribuio F com (k - 1) g.l. no numerador e (n - k) g.l. no


denominador
O quociente F ser utilizado para testar a hiptese H0.
Quanto mais prximo de 1 for o quociente, H0 dever ser aceita; ao
contrrio, quanto maior o valor de F, o teste ir indicar a rejeio de H0, e

Anlise de Varincia - Comparo de Vrias Mdias 109


nesse caso conclui-se com risco que o fator considerado tem influncia
sobre a varivel dependente.

Fundamentos da anlise da varincia (ANOVA)

A configurao seguinte ilustra a base do mtodo e o consequente


uso do quociente f para se testar a hiptese da igualdade das mdias. Para
tanto, vamos supor trs amostras de quatro elementos cada uma, cujos
valores so:
Amostra 1: X1j : 14 16 15 13
Amostra 2: X2j : 7 7 8 9
Amostra 3: X2j : 16 17 18 19

E que esto mostradas no grfico:

V-se claramente um caso em que a hiptese H0 ser rejeitada pela


anlise de varincia. As trs amostras parecem confirmar a hiptese de
homocedasticidade (varincias iguais); todavia, as mdias diferem claramente
de amostra para amostra: ( x1 = 14,4; x2 = 7,75; x3 = 17,5). Calculando-se,
dessa forma, os valores das estimativas da varincia encontraremos:
S2t = 19,30; S2e = 99,75; S2e = 1,42.
Nota-se pela anlise do grfico e dos resultados que, sendo H0
falsa, haver uma tendncia de S2t e S2e superestimarem (19,30 e 99,75,
respectivamente) 2. O que no ocorre com S2r, j que S2r = 1,42 uma boa
estimativa de 2.
Contrariamente, se H0 for verdadeira, S2t, S2e e S2r fornecero boas
estimativas para 2. Imagine, olhando para o grfico da pgina anterior com
os trs grupos alinhados em torno de um eixo vertical ( x ).
Tem-se a, o fundamento lgico da anlise da varincia. Na verdade,

110 unidade 07
o teste de igualdade de mdias substitudo por um teste de igualdade de
varincias: 2e = 2r.
Assim, se a hiptese de igualdade das varincias for aceita, pode-se
concluir que as mdias so iguais, pois neste caso o estimador S2e ter a
mesma dimenso que S2r, ou seja, o quociente entre ambos estar prximo
da unidade. Porm, se a hiptese da igualdade das mdias no verificada,
se ter S2e bem maior do que S2r e, consequentemente, o valor do quociente
ser bem maior do que a unidade.
fcil compreender que o teste da anlise da varincia ser unicaudal
direita, com risco concentrado na cauda direita.

Quadro de anlise da varincia

Os resultados obtidos podero ser reunidos no quadro de Anlise da


Varincia, assim:

Quadro de Anlise da Varincia


Fonte de Soma de Graus de Quadrados
Teste F
Variao Quadrados Liberdade Mdios
Entre Q
Qe K-1 2
S e = k - e1
tratamentos 2
Se
Dentro das Fcal = 2
Qt - Qe Sr
Amostras Qr = Qt - Qe n-k 2
Sr=
n-k
(Residual)
Total Qt n-1 - -
Fonte: Fonseca, Jairo Simon da. 2006: pg.260

Para testar a hiptese H0: 1 = 2 = 3 = ... =k = contra H1: 1 2,


para p q , compara-se o valor Fcal com o valor F tabelado com (n - 1) g.l. no
numerador e (n - k) no denominador, fixando certo nvel de significncia.

Se Fcal < Ftab , ento aceita-se H0 e conclui-se com risco que o fator
considerado no causa efeito sobre a varivel em estudo. Por outro lado,
se Fcal > Ftab , rejeita-se H0, concluindo-se pela diferena das mdias a
consequente influncia do fator sobre a varivel analisada.
Segue procedimento para a realizao do teste:

Anlise de Varincia - Comparo de Vrias Mdias 111


1) Dispor os elementos, segundo a tabela a seguir, obtendo as somas das
colunas e suas respectivas mdias.

Tratamentos
1 2 3 ... k
Elemento da Amostra

1 x11 x21 x31 . . . xk1


2 x12 x22 x32 . . . xk2
. . . . .
. . . . .
ni x1n1 x2n2 x3n3 ... xknk

xi X

2) Calcula-se a constante
k n 2
( i=1 j=1 xij )
i

C= 7.14
n
3) Avalia-se a soma: i=1 j=1 x ij , obtendo a variao total
k n 2 i

k n 2
Qt = i=1 j=1
i
x ij - C
7.15

4) Calcula-se a variao entre tratamentos


2
( j xij )
Qe = [ ]-C
ni 7.16

5) Obtm-se a variao residual por diferena: Qr = Qt Qe.

6) Constri-se o Quadro de Anlise da Varincia, avaliando o Fcal.

7) Determina-se a regio crtica e de aceitao da hiptese H0 por meio da


tabela F.

112 unidade 07
8) Compara-se Fcal com Ftab, obtendo-se a concluso.

Aplicao:

O resultado das vendas efetuadas por 3 vendedores de uma indstria


durante certo perodo dado a seguir. Deseja-se saber, ao nvel de 5%, se
h diferena de eficincia entre os vendedores.

Vendedores
A B C
29 27 30
27 27 30
31 30 31
29 28 27
32 - 29
30 - -
Fonte: Fonseca, Jairo Simon da. 2006: pg.262

Soluo:

Sem efetuar os resultados, pode-se subtrair uma constante, digamos


28, a todos os valores, simplificando dessa forma os clculos.
Assim:

1) Dispor os elementos segundo a tabela abaixo:

Vendedores
A B C
1 -1 2
-1 -1 2
3 2 3
Total
1 0 -1
4 - 1
2 - -
= 10 =0 =7 17

Anlise de Varincia - Comparo de Vrias Mdias 113


(17)2
2) C = = 19,27
15

3) i=1
3 n
j=1 x ij = 1 + (-1) + 3 + 1 + . . . + (-1) + 1 = 57
i
2

Qt = 57 - 19,27 = 37,73
2
( j xij )
4) Qe = i=1[ ]-C
3
ni
(10)2 02 72
= 6 + 4 + 5 - 19,27 = 7,20

5) Qr = Qt - Qe = 37,73 7,20 = 30,53

6) QAV

Fonte de Soma de Graus de Quadrados


Teste F
Variao Quadrados Liberdade Mdios
Entre os K1 7,2
Qe= 7,20 2
S e = 2 = 3,6
Tratamentos 31=2
nk 30,53 3,6
Residual Qr = 30,53 2
Sr= = 2,54 Fcal = 2,54 = 1,44
15 3 = 12 12
n1
Total Qt = 37,73 -
15 - 1 = 14

7)

8) Como Fcal = 1,42 < Ftab = 3,89, aceita-se H0, concluindo-se com nvel de
5% que no h diferena entre os vendedores, isto , aceita-se H0: A = B
= C.

114 unidade 07
Classificao de dois critrios ou experimento de dois
fatores

Admitem-se dois fatores (variveis independentes). Varivel de


estudo (varivel dependente) observada em cada cela, combinao dos
tratamentos do fator 1, e dos blocos do fator 2.
Tem-se uma tabela de k colunas e L linhas. Ou seja, K.L = n
observaes.

Primeiro critrio (colunas) = Tratamento


Segundo critrio x11 x21 ... xk1
(linhas) = Blocos x12 x22 ... xk2
. . .
. . .
. . .
x1L x2L xkL

Considere um experimento de natureza agrcola consistindo no


exame das safras por are de 3 variedades de soja, em que cada variedade
plantada em 4 lotes diferentes de terra. H um total de 3.4 =12 lotes. Em tal
caso conveniente combinar os lotes em blocos, digamos 3 lotes constituindo
um bloco, com uma variedade distinta de soja plantada em cada lote do
bloco. So, ento, necessrios 4 blocos. Neste caso, h duas classificaes
ou fatores, pois pode haver diferena na produo por are devida: ao tipo de
soja; ou ao particular bloco considerado.
Denota-se por xi a mdia de uma coluna i qualquer, por xj a mdia de
uma linha j qualquer por X a mdia geral:

x = L1 j=1
L
xij
7.17

xj = k1 i=1
k
xij
7.18

X = n1 i=1
k L
j=1 xij
7.19

Assim como no caso da classificao nica, admite-se que todas as


amostras provenham de populaes normais com a mesma varincia:
Para a comparao das mdias entre colunas (tratamentos), a
hiptese nula ser: H0c: i = para qualquer i = 1, 2, .., k ser testada contra
a hiptese alternativa H1c : i .

Anlise de Varincia - Comparo de Vrias Mdias 115


Analogamente, para a comparao das mdias entre linhas (blocos),
a hiptese que ser colocada prova ser: H0L : j para qualquer j = 1,
2, ... , L, enquanto H1L: j .

Estimadores da varincia comum 2

Pode-se estimar a varincia de 4 formas diferentes. A estimativa total


St, a estimativa entre linhas S2L, a estimativa entre colunas S2C, e a estimativa
residualSr. Assim:

1) Estimativa total: S2t


2
2
k
i=1 L
j=1 (xij - x) Qt
St= = 7.20
n-1 n-1

O numerador (Qt) representa a variao total. Por outro lado, sabe-se


Q
que 2t tem distribuio x com (k - 1) g.l. A frmula prtica da variao total

dada por:

2
S2t = i=1
k L
j=1 x ij - C 7.21
2
( i jL xij)
C= n 7.22

2) Estimativa entre Colunas: S2C


2
k
i=1 (xi - x) QEC
S2C = L = 7.23
k-1 k-1

O numerador (QEC) representa a variao entre colunas. Demonstra-


QEC
se que 2 tem distribuio x2 com (k - 1)g.l. A frmula prtica para o clculo
de QEC dada por:
2
( i xij ) - C
k
QEC = i=1 [ ]
L 7.24

3) Estimativa entre Linhas: S2L

2
2
L
j=1 (xj - x) QEL 7.25
SL=k =
L-1 L-1

A variao entre linhas dada pelo numerador da expresso. Da


QEL
mesma maneira, tem distribuio x2 com (L 1) g.l. A frmula prtica para
2
seu clculo dada por:

116 unidade 07
2
( i xij ) - C
L
QEL = i=1 [ ] 7.26
k

4) Estimativa Residual: Sr
2
2
k
i=1 L
j=1 [(xij - x) - (xi - x) - (xj - x)]
St= 7.27
(k - 1) (L - 1)
ou
2
k
i=1 (xij - xi - xj + x)
L
j=1 Qr
S2r = =
(k - 1) (L - 1) (k - 1) (L - 1) 7.28

A variao residual dada pelo numerador e tambm neste caso


Qr
em distribuio x com (k 1)(L 1) graus de liberdade. A avaliao de Qr
2
obtida por diferena, j que tambm neste caso vlida a igualdade:

Qt = QEC + QEL + Qr 7.29

Assim:

Qr = Qt + QEC + QEL 7.30

Convm observar tambm neste caso que S2C; S2L sero estimadores
justos se tanto HC0 como HL0 forem verdadeiras, ao passo que S2r ser um
estimador justo sob quaisquer hipteses sobre o comportamento das mdias.
Por outro lado, nota-se que, se

Qt = QEC + QEL + Qr

Ento

2x2n-1 = 2x2k-1 + 2x2L-1 + 2x2(k-1)(L-1)

Nota-se que a soma dos graus de liberdade dos qui-quadrados do


segundo membro igual ao nmero de g.l. do qui-quadrado particionado,
isto :
n - 1 = (k - 1) + (L - 1) + (k - 1)(L - 1)
n - 1 = k - 1 + L - 1 + kL - k - L + 1
n - 1 = kL - 1

Anlise de Varincia - Comparo de Vrias Mdias 117


Lembre-se que k.L = n, logo: x2k-1; x2L-1 e x2(k-1)(L-1) so qui-quadrados
independentes e, dessa maneira, pode-se testar a igualdade das mdias
segundo as colunas e/ou linhas mediante o clculo de:

para colunas:
S2C
Fccal =
S 2r 7.31

para linhas:
L
2
SL 7.32
F cal = 2
Sr

Deve-se, tambm, salientar que o fato de HC0 no ser verdadeira no


impede que se teste HL0 e vice-versa. O quadro da anlise da varincia a
seguir resume ambos os testes:

QAV
Fonte de Soma dos Quadrados
G.L Teste F
variao Quadrados Mdios
Entre 2
( i xij ) - C QEC
k
QEC = i=1 [ ] k-1 SC=
2

colunas L k-1 2
c SC
F cal =
Qr S 2r
( i xij )2 - C
L-1
2

Entre linhas QEL = i=1


L
[ ] Sr=
(k - 1) (L - 1)
k 2
L SL
(K - 1) F =
Residual Qr = Qt - QEC - QEL QEL cal
S 2r
(L - 1) S2L =
L-1
Total n-1
L 2
Qt = ki=1 j=1 x ij - C

Regra de Deciso: Fixando certo nvel de significncia , tem-se:

1. Se FLcal RA, ento, aceita-se H0 ; i = para qualquer i = 1, 2, ..., k, e


C
conclui-se com risco que o fator 1(tratamentos) no causa efeito na varivel
dependente. Por outro lado, se FCcal RC, rejeita-se H0, concluindo-se pela
diferena das mdias das colunas e consequente influncia do fator sobre a
varivel analisada.

2. Se FLcal RA , ento, aceita-se HL0: j = para qualquer j = 1, 2, ..., L,


e conclui-se com risco que o fator 2 (blocos) no causa efeito na varivel
dependente. Por outro lado, se FLcal RC, rejeita-se H0 , concluindo-se pela

118 unidade 07
diferena das mdias das linhas e consequente influncia do fator sobre a
varivel em estudo.
Encontram-se, a seguir, os principais passos para a efetivao do
teste:

1. Dispor os elementos segundo a tabela que segue. Obtendo as somas das


colunas e linhas, bem como suas respectivas mdias:

Fator 1 (i)
1 2 ... k xj
Fator 2 (j)
1 x11 x21 ... xk1
2 x12 x22 ... xk2
. . . .
. . . .
. . . .
. . . .
L x1L x2L ... xkL

xi

2. Avalia-se a constante
2
( i jL xij)
C= n 7.33

Lembre-se de que n = kL

3. Calcula-se a variao total


L 2
Qt = ki=1 j=1 x ij - C
7.34

4. Determina-se a variao entre colunas


2
( i xij ) - C
k
QEC = i=1 [ ] 7.35
L
5. Avalia-se a variao entre linhas
2
( i xij ) - C
L
QEL = i=1 [ ]
k 7.36

6. Obtm-se a variao residual por diferena


Qr = Qt - QEC - QEL 7.37

Anlise de Varincia - Comparo de Vrias Mdias 119


7. Constri-se o quadro de anlise de varincia, avaliando-se FCcal e FLcal .

8. Determina-se RA e RC por meio da tabela F.

9. Efetuam-se as concluses pela comparao dos respectivos valores dos F


calculados e tabelados.

Aplicao:

Em uma experincia agrcola, foram utilizados 5 diferentes fertilizantes


em duas variedades de trigo. A produo est indicada a seguir. Verificar ao
nvel de 5% se: a) h diferena na produo devido ao fertilizante; b) h
diferena na safra devido variedade do trigo.

Fertilizante A B C D E

Variedade 1 54 38 46 50 44

Variedade 2 57 42 45 53 50

Fonte: Fonseca, Jairo Simon da. 2006: pg.271

Soluo: Considerando-se o fator 1 como o tipo de fertilizante e o fator


2 como variedade de trigo, constri-se a tabela, subtraindo 45 a todos os
valores observados. Assim:

120 unidade 07
1.

(i) Fator 1
A B C D E
(j) Fator 2
1 9 -7 1 5 -1 7

2 12 -3 0 8 5 22

21 -10 1 13 4 29

5 2 2
( i=1 L=1 xij) (29)2
2. C = = = 84,1
10 10

3. Qt = 5i=1 j=1 x ij - C
2 2

2 2 2 2
= 9 + 12 + (-7) + ... + 5 - 84,1 = 314,9
2 2
( i=1 xij) - C
QEC = i=1 [
4.
5
]
2
(21)2 (-10)2 (1)2 (13)2 (4)2
= 2 + 2 + 2 + 2 + 2 - 84,1 = 279,4

2
(5i=1 xij ) - C
5. 2
QEL = j=1 [ ]
5
(7)2 (22)2
= 5 + 5 - 84,1 = 22,5

6. Qr = Qt - QEC - QEL
= 314,9 - 279,4 - 22,5 = 13

7. QAV

Fonte de Soma dos Quadrados


G.L. Teste F
Variao Quadrados Mdios
Entre
279,4 4 69,85
Colunas c
F cal =
69,85
3,25
Entre
22,5 1 22,5
Linhas L 22,5
F cal =
3,25
Residual 13 4 3,25

Total 314,9 9

Anlise de Varincia - Comparo de Vrias Mdias 121


8. RC e RA

9. Concluso: Para o primeiro fato, fertilizante, tem-se que FCcal RC ;


portanto, rejeita-se H0 : i = ; i = 1, 2, ..., 5, concluindo-se que o tipo de
fertilizante tem influncia na produo de trigo.
Para o segundo fator, variedade de trigo, tem-se que FLcal RA;
portanto, aceita-se H0 : j = ; j = 1, 2, concluindo-se que a variedade de trigo
no altera a produo.

Exerccio

1.Quatro analistas determinaram o rendimento de dado processo, obtendo:

Analistas
1 2 3 4
26 17 36 20
27 20 33 18
24 22 31 17
25 21 29 22
29 21
28 23

Determine:

As mdias para os diferentes analistas;


a) A mdia total;

122 unidade 07
b) A variao total;

c) A variao entre tratamentos;

d) A variao dentro dos tratamentos (residual);

e) Se h diferena entre as mdias, adotando = 5%.

2. Os dados a seguir representam, em segundos, o tempo gasto por cinco


operrios para realizar certa tarefa, usando trs mquinas diferentes.
Considerando = 5% , verifique se h diferenas entre as mquinas e entre
os operrios.

Mquinas
Operrios
A B C
1 40 59 42
2 39 55 51
3 47 55 45
4 45 50 40
5 52 52 41
Fonte: Fonseca, Jairo Simon da. 2006:, pg. 285

Anlise de Varincia - Comparo de Vrias Mdias 123


Respostas dos exerccios

1 Exerccio

1) a) a = 33,da b) at a f) Resposta pessoal


2) n = 400
3) n = 399. Comparando-se os resultado de 2) e 3) verifica-se que uma
populao de 200.000 d aproximadamente o resultado de uma populao
infinita.
4) n = 39

2 Exerccio

1) a) 0,4251 b) 0,3023 c) 0,9104


2) a) 380 b) 389
3) x2sup = 13,4 e x2inf = 3,49 e
4) -1,1848 e 2,0860
5) = 1,25; 2 = 1,042 ; = 1,021; e abscissas 0,2985 e 3,07

3 Exerccio

1) * O intervalo [4,81; 5,59] contm a mdia populacional com 90% de


confiana.
* O intervalo [4,73; 5,67] contm a mdia populacional com 95% de
confiana.
2) * O intervalo [25,76; 28,00] contm a mdia populacional com 95% de
confiana.
* O intervalo [25,94; 27,82] contm a mdia populacional com 90% de
confiana.
3) Os limites de confiana a 80% para a varincia so [1,38; 4,86].
4) O intervalo com nvel de 90%, ser: [165,86; 399,20].
5) O intervalo [0,88; 0,98] contm a proporo com 95% de confiana.
6) O intervalo [16%; 34%] contm a proporo de casas de aluguel com 98%
de confiana.

124 unidade 07
4 Exerccio

1) Como tcal = -2,84, rejeita-se H0, concluindo-se, com risco de 5%, que a
mdia diferente de 16.
2) Como tcal = -0,72, no se pode rejeitar H0, ao nvel de 5% nos dois testes.
3) a) S2 = 0,07 mg2
b) Como x2cal = 0,49, rejeita-se H0, concluindo-se com risco de 5% que a
varincia menor que 1.
4) Como x2cal = 5,57, no se pode rejeitar a hiptese de que a varincia
populacional 4, ao nvel de 1%.
5) Como zcal = 0,89, no se pode rejeitar a hiptese de que a proporo de
eleitores democratas 50%, ao nvel de 5%.
6) Como zcal = 4,47 ,rejeita-se H0 , concluindo-se, com risco de 4%, que a
proporo diferente de 0,5.

5 Exerccio

1) Como x2cal = 2, No se pode rejeitar a honestidade moeda, ao nvel de 10%.


2) Como x2cal = 7,296 , no se pode rejeitar a hiptese de que o nmero de
livros emprestados independe do dia da semana, ao nvel de 1%.
3) Como x2cal = 6,11, no se pode rejeitar a hiptese de que as variveis
sejam independentes, ao nvel de 5%.
4) Como zcal = -0,75, no de pode rejeitar a hiptese de que no houve
diferena dos pesos, ao nvel de 2,5%.
5) Como zcal = 0,43, no se pode rejeitar a hiptese de igualdade das mdias,
ao nvel de 1%.

6 Exerccio

1) a) rXY = -0,711 b) rXY = -0,736 c) rXY = -0,947


2) a) a = 103,57 b = 0,1048 e Y = 103,57 + 0,1048x
b) R2 = 89,4%

7 Exerccio

1)
a) x1 = 26,50, x2 = 20, x3 = 32,25 e x4 = 20,17

Anlise de Varincia - Comparo de Vrias Mdias 125


b) x = 24,45
c) 542,95
d) 457,37
e) 85,08
f) H diferena. Fcal = 28,99

2) FCcal = 6,43 e FLcal = 0,29; s h entre as mquinas.

126 unidade 07
COSTA NETO, Pedro de Oliveira. Estatstica. 2. ed. So Paulo: Blucher,
2002.

CRESPO, Antonio Aenout. Estatstica fcil. 17. So Paulo: Saraiva, 2002.

FONSECA, Jairo Simon da. Curso de estatstica. 10. ed. Reimp. Martins,
Gilberto de Andrade. So Paulo: Atlas, 2006.

LAPPONI, Juan Carlos. Estatstica usando Excel. 4. ed. Reimpresso.


Rio de Janeiro: Elsevier, 2005.

MEYER, Paul L. Probabilidade: aplicaes Estatstica. 2. ed. Rio de


Janeiro: LTC, 2000.

MORETIN, Pedro Alberto. Estatstica bsica. 5. ed. So Paulo: Saraiva,


2006.

SPIEGEL, M. R. Probabilidade e estatstica. 1. ed. So Paulo: McGraw-Hill,


2001.

TOLEDO, Geraldo Luciano. Estatstica bsica. 2. ed. So Paulo: Atlas, 1985.

Referncia Bibliogrfica 127


Anexos
Tabelas e Estatsticas

128 Anexo
Anexo 129
130 Anexo
Anexo 131
132 Anexo
Anexo 133
Juarez Rodrigues Martins

Especialista em Matemtica (2001) e em


Estatstica (2008) pela Universidade Federal do
Piau. Graduou-se em Biologia pela Universidade
Estadual do Piau (1992) e em Matemtica
pela Universidade Federal do Piau (1995). Foi
professor substituto na Universidade Federal do
Piau, durante quatro anos, nos perodos de maro
de 2003 a maro de 2005, e abril de 2007 a abril de
2009. Atuou como professor do Ensino Mdio da
rede pblica estadual do Piau e foi professor da
rede particular de ensino de Teresina. Atualmente
professor efetivo da Universidade Federal do
Piau.

Contato

Email: martins-juarez@bol.com.br.
Web site: http://www.famat.ufu.br/prof/marcelo/exercicios.htm

134 Minicurriculo