Você está na página 1de 171

Guia de estudos de

Estatstica

Guia de estudos de Estatstica

UNIDADE 1
INTRODUO

1.1. O CONCEITO DE ESTATSTICA

Vamos buscar definir Estatstica, e, para tanto, os dois conceitos a seguir so adequados.
Conceito 1.1. Estatstica. Conjunto de tcnicas que se ocupa com a coleta, organizao, anlise e
interpretao de dados, tendo um modelo por referncia.

Conceito 1.2. Estatstica. Conjunto de mtodos de obteno e utilizao de informaes, para


auxiliar a tomada de decises em uma situao prtica envolvendo incerteza.

Conforme se observa pelo conceito 1.1, para descrever um fenmeno ou um sistema, a


Estatstica faz uso de dados (observaes), os quais contm as informaes relevantes para a
elaborao e a validao de modelos.
Mais alguns conceitos bsicos se fazem necessrios:
Conceito 1.3. Populao. Corresponde ao sistema total, ou ao todo que se quer descrever, sem
generalizaes para um universo maior, ou para o futuro. sempre um conjunto de elementos com
caractersticas em comum.

A populao pode ser um conjunto de peas de um lote, de anos, de pontos no solo de um


talho, de animais, de plantas, entre outros. As populaes podem ser classificadas em:
a) Finitas ou Reais;
b) Infinitas ou Conceituais.

Populaes reais so, por exemplo, todas as rvores de um povoamento florestal, ou todo
o solo de um talho de rea. Por terem existncia real, possuem nmero finito de elementos.
Quanto s populaes conceituais so aquelas sem existncia real, mas de concepo
bem definida, como o conjunto total de frangos que poderiam ser alimentados com uma certa

Guia de estudos de Estatstica


rao, em condio de confinamento; ou ainda, todas as plantas de uma certa cultivar de milho
que foram, so ou podero vir a ser plantadas em condies de cerrado. Pela prpria definio,
tais populaes s podem ser de tamanho infinito, porque nunca se dispor de todos os seus
elementos na prtica.
conveniente observar que, muitas vezes, as populaes reais tm um nmero de
elementos to grande, que so consideradas, sem maiores problemas, como sendo infinitas.
Alguns exemplos so: a populao de todos os ps de eucalipto existentes numa grande fazenda
de reflorestamento ou, ainda, a populao de todas as molculas que compe o volume de ar de
uma sala. Neste texto, o nmero total de elementos de uma populao finita ser simbolizado pela
letra maiscula N.
Nos primrdios do conhecimento estatstico, a descrio era feita apenas para populaes
reais, e por meio da observao de todos os seus elementos, conhecida como censo. Tais
levantamentos eram (e so) em geral dispendiosos, e, portanto, promovidos pelo Estado. A palavra
Estatstica vem de Estado, por causa disso.

Felizmente, com o desenvolvimento da teoria de probabilidades, a partir do sculo XVIII,


verificou-se que as caractersticas populacionais poderiam ser obtidas (com grau varivel de
confiana) a partir da observao de parte dos elementos da populao, conhecida como amostra.

Conceito 1.4. Censo. Atividade de inspecionar (observar) todos os elementos de uma populao
real, objetivando conhecer, com certeza, as suas caractersticas.

Conceito 1.5. Amostra. Um subconjunto ou parte da populao. Ela sempre finita.

O critrio bsico para diferenciar uma populao de uma amostra a seguinte questo:
usarei minhas anlises para extrapolar/generalizar os resultados para um universo maior, ou para
o futuro?. Se a resposta for sim, os dados representam uma amostra, se no, representam
uma populao. O nmero finito dos elementos da amostra ser simbolizado pela letra minscula
n.
O processo de coleta de uma ou mais amostras de uma populao conhecido como
amostragem. Como ser visto ao longo do texto, existem maneiras adequadas de se proceder a
amostragem, de modo a garantir que as amostras guardem caractersticas mais prximas
possveis da populao, o que chamado de representatividade.

Guia de estudos de Estatstica


Conceito 1.6. Amostragem. Processo de obteno ou coleta de amostras de uma populao.

O objetivo ltimo da Estatstica o de descrever e/ou tomar decises a respeito da


populao. Se isto feito por meio de amostras, ao invs de censos, em razo da inviabilidade
destes ltimos, ento deve ficar claro que a descrio da amostra objetiva, em ltima instncia,
descrever a populao. Esse processo chamado de inferncia estatstica, ou inferncia indutiva,
porque induzir consiste em buscar generalizao para um todo (populao) a partir de parte do
todo (amostra).

Conceito 1.7. Inferncia Estatstica. Processo de se tirar concluses ou tomar decises acerca da
populao com base em uma amostra dessa populao.

Assim, didaticamente, o estudo da Estatstica dividido nos seguintes itens:


a) Estatstica Descritiva: objetiva sintetizar a informao contida em um conjunto de dados, seja ele
referente a uma populao finita ou a uma amostra.
b) Teoria de Probabilidades: objetiva descrever e prever as caractersticas de populaes infinitas.
c) Teoria da Amostragem: a formalizao de um conjunto de tcnicas para a coleta de amostras
em uma populao.
d) Inferncia Estatstica: como j definida, trata da obteno de informaes a respeito da
populao a partir de amostras, resultando na tomada de decises a seu respeito. Como ser visto
ao longo do texto, basicamente a inferncia praticada mediante: 1) a estimao de parmetros
associados a modelos probabilsticos; e 2) testes de hiptese de interesse, sobre esses mesmos
modelos.

1.2. VARIVEIS E DADOS

De todas as caractersticas da populao, sua descrio feita por aquelas de maior


interesse do pesquisador. Por exemplo, as plantas de uma cultivar de milho definem uma
populao, a qual descrita por caractersticas de interesse econmico, tais como: produtividade
(t/ha), resistncia a doenas, o ciclo cultural, arquitetura de planta, etc.
As caractersticas que descrevem a populao so chamadas variveis, e um valor
observado com relao a uma varivel chamado dado ou observao, sejam eles provenientes
de censos ou de amostras.

Guia de estudos de Estatstica

Conceito 1.8. Varivel. Caracterstica pela qual deseja-se que a populao seja descrita, ou pela
qual decises acerca da populao so tomadas.

Conceito 1.9. Dado. Observao ou realizao referente a uma varivel. Pode estar contido em um
censo ou em uma amostra.

Uma classificao possvel quanto natureza das variveis est apresentada abaixo.
As variveis qualitativas (tambm denominadas categricas) correspondem a atributos,
categorias, e so oriundas da operao de classificao. Elas so nominais quando no so
passveis de ordenao, como, por exemplo, a cultura predominante em propriedades de uma
regio. As realizaes dessa varivel qualitativa nominal podem ser: milho, cana, soja, etc.
Quando os atributos so passveis de ordenao, a varivel qualitativa dita ordinal; por
exemplo, esse o caso quando usam notas para avaliar uma caracterstica. Por exemplo, em um
laboratrio de cultura de tecidos, esse critrio por vezes utilizado para classificar o grau de
regenerao no processo de micropropagao.
Quanto s variveis quantitativas, estas correspondem a nmeros resultantes das
operaes de contagens ou medies, por isso tambm chamadas de numricas. Quando se trata
de contagens, como o nmero de ovos ovipositados por um inseto, a varivel dita discreta, sendo
possvel a separao em classes distintas (no h realizao intermediria entre 2 e 3 ovos, por
exemplo) normalmente associadas aos nmeros internos. Outros exemplos so: nmero de folhas
atacadas por certa praga; nmero de brotos germinados por tubrculo de batata, etc.
Nas variveis quantitativas contnuas, as realizaes resultam de medio, uma
mensurao, como a altura de ps de algodo ou o peso de novilhas, no havendo assim classes
distintas, mas antes um intervalo de nmeros reais possveis, s limitados pela preciso dos
aparelhos de medida empregados (balana, paqumetro, etc). Alguns autores ainda subdividem as
variveis quantitativas contnuas em graduadas e proporcionais.
As graduadas (ou de razo) so aquelas onde intervalos so definidos (como em toda
varivel quantitativa), mas o ponto de referncia arbitrrio. Por exemplo, considere a escala
Celsius de temperatura. Suponha que um pesquisador descubra que uma tcnica bioqumica
0

mais eficiente a 15 C do que a 10 C. Nestes casos, deve-se tomar cuidado em afirmar que,
aumentando a quantidade de calor em 50%, a eficincia da tcnica aumentou, porque o ponto de
0

referncia (0 C) foi escolhido arbitrariamente, como sendo aquele no ponto de congelamento da


gua, sob uma presso especfica. Se o ponto de referncia fosse deslocado, por exemplo, para o

Guia de estudos de Estatstica


zero absoluto (escala Kelvin), o aumento de temperatura acima seria de apenas 5 / (273+10) =
1,8%.
As proporcionais so aquelas onde intervalos tambm so definidos, mas o ponto de
referncia absoluto. Por exemplo, dizer que o hbrido de milho A produz 10% mais que o hbrido
B (em t/ha) tem sentido, uma vez que o ponto de referncia (a produo zero) natural, absoluta;
no existe produo abaixo desse valor.
Por fim, observe como estamos rodeados de variveis e dados por todos os lados: no
calendrio abaixo, temos variveis categricas (o ms do ano, o dia da semana, a condio
climtica do dia) e variveis numricas (o dia do ms). Poderamos ter, em alguma estao
climatolgica, os dados da varivel numrica precipitao pluviomtrica, temperatuta mdia do dia,
entre muitas outras.

Guia de estudos de Estatstica

1.3. A NOTAO DE SOMATRIO


Apesar de existir vrios tipos de variveis, muito frequente, em Estatstica, trabalhar-se
com variveis quantitativas. Essas variveis so, em geral, simbolizadas por alguma letra latina
maiscula, como X, Y, Z, etc. As observaes ou dados, por sua vez, so representadas pelas
letras minsculas correspondentes. Alm disso, os dados so identificados por um ndice, ou
a

contador, para indicar que trata-se da 1 observao, da 2 e assim por diante. Por exemplo, o
a

smbolo x1 representa a 1 observao do conjunto de dados (seja ele um censo ou uma amostra),
referente varivel quantitativa X.
Como tambm muito comum o interesse no clculo de somas, somas de termos ao
quadrado, clculo de mdias, entre outras, ento usual representar somas por um operador
chamado somatrio, que representado pela letra grega sigma maiscula . Assim, por
exemplo, a soma:
x1 + x2 + x3 + x4 ,
representada em notao de somatrio da seguinte forma:

x
i =1

i ,

ou seja, corresponde soma dos termos xi, onde o ndice i varia de 1 a 4. Esse operador
tambm uma taquigrafia matemtica.
Em funo de sua prpria definio, o operador somatrio possui algumas regras, dadas a
seguir:

1) Se k constante, ento:
n

= k + k + ... + k = n k .

i =1

2) Se k constante e xi valores de uma varivel quantitativa, ento:


n

kx i = k x1 + k x2 + ... + k xn = k (x1 + x2 + ... + xn) = k

i =1

i =1

3) O somatrio de uma soma de variveis igual soma dos somatrios de cada varivel:
n

(x i
i =1

+ y i + zi ) =

i =1

xi +

i =1

yi +

i =1

Em consequncia das regras 1, 2 e 3, se a e b so constantes, ento:

Guia de estudos de Estatstica


n

4)

(a + bx ) = a + bx
i

i =1

i =1

= n.a + b.

i =1

i =1

1.4. EXERCCIOS RESOLVIDOS

1. Expresse as seguintes somas usando notao de somatrio:


15

a. y 1 + y 2 + ... + y 15 =

b. x 12 + x 22 + ... + x n2 =

yi

i =1

c.

x i2

i=1

30

30

z 1 + z 3 + z 5 + ... + z 59 =

z i2i1
i=1

12

d. log x 1 + log x 2 + ... + log x 12 =


2

log x i
i=1

e. ( x 1 - 1 ) + ( x 2 - 2 2 ) 2 + ( x 3 - 3 3 ) 3 + ... + ( x nn - n n ) n =

( x ii ii )i
i =1

2. Sabendo que:
4

x i = 16
i=1

x i2 = 84

x i3

i=1

= 496

i=1

y i = 20
i=1

Determine o valor numrico das expresses:


a)

i=1

i=1

i=1

( x i3 25) = x i3 25 = 496 100 = 396


4

b)

(3 xi 15 )3 =

i =1

(27 x

3
i

405 xi2 + 2025 xi 3375 ) =

i =1

27 x 405 x + 2025 x 3375 =


3
i

i =1

2
i

i =1

27

x
i =1

i =1

3
i

405

x
i =1

i =1

2
i

+ 2025

x
i =1

4(3375 ) =

(27 496 ) ( 405 84 ) + (2025 16) 4 3375 = 1728

x i y i = 100
i=1

Guia de estudos de Estatstica

1.5. EXERCCIOS PROPOSTOS


1. Desenvolva cada uma das seguintes expresses, colocando-as na sua forma mais simples
possvel:
5

a)

b)

i =1
6

e)

z i x i2

c)

i=1

xi yi

d)

i =1

xi x
i=1

( x i x )2
i=1

2. Escreva em notao sigma (somatrio)


a)

x 1 + x 2 + ... + x n

b)

( x 1 + x 2 + ... + x n ) 2

c)

x 1 + x 2 + ... + x 7

d)

x 12 + x 22 + ... + x n2

3. Sejam os conjuntos de dados: x= {4,3,0,1} e y={3,0,1,3}. Obtenha os seguintes somatrios:


4

a)

xi
i =1

b)

x i2

c)

i=1

2
d) ( x i )
i=1

e) b =

x y
i

xi

i =1
n

i =1

yi

i =1

n
n
x i2
xi

i =1
i =1
n

xi yi
i =1

a = y bx

Guia de estudos de Estatstica

UNIDADE 2
ESTATSTICA DESCRITIVA

2.1. INTRODUO
Neste captulo sero abordados os conceitos elementares para a descrio de um conjunto
de dados, objetivando a retirada de informaes que sejam pertinentes, interessantes, e teis.
Duas situaes devem ser ressaltadas: uma, onde os dados provm de observaes de uma
populao finita, a qual toda ela conhecida, sendo, assim, elementos de um censo, e outra,
quando os dados originam-se de uma amostra, recurso utilizado quando impossvel ou invivel
observar todos os elementos individuais da populao. O conjunto de conceitos e mtodos
estatsticos que operam sobre estes dois tipos de situao, populaes finitas e amostras,
denominado Estatstica descritiva.

2.2. DESCRIO DE VARIVEIS CATEGRICAS


O conjunto de dados que se deseja descrever pode se referir a uma varivel categrica
(tambm denominada qualitativa). A ttulo de ilustrao, seja o exemplo hipottico a seguir (Tabela
2.1), representando a atividade agropecuria predominante em 20 propriedades de um municpio.
Este conjunto de dados ser tratado, como informamos, considerando-o como uma amostra,
proveniente de uma populao das muitas propriedades de tal municpio. Como se observa, a
atividade predominante corresponde a uma varivel categrica nominal, pois no passvel de
ordenao.
A maneira como os dados esto apresentados na Tabela 2.1 no deixa de ser uma
representao. No entanto, no difcil perceber que se trata de uma disposio muito limitada
por exemplo, no se visualiza a atividade agropecuria predominante no municpio, e assim por
diante. Uma maneira de realar esse tipo de informao apresentando a frequncia de cada
Tabela 2.1. Atividade predominante em 20 propriedades de um municpio.
Caf

Leite

Leite

Milho

Caf

Milho

Soja

Leite

Leite

Caf

Milho

Caf

Olericultura

Leite

Caf

Laranja

Caf

Milho

Caf

Caf

atividade no municpio.

Guia de estudos de Estatstica

Conceito 2.1. Frequncia (de ocorrncia). Medida que quantifica, contando, a ocorrncia dos
valores de uma varivel em um dado conjunto de dados.

A frequncia associada a uma varivel X pode ser classificada em trs tipos, conforme a
Figura 2.1:

Absoluta (fa)
Frequncia

Relativa (fr)
Percentual (fp)

Figura 2.1. Tipos de frequncia de ocorrncia.

A frequncia absoluta, no caso de variveis qualitativas, nada mais do que o


nmero de observaes ocorridos (contadas) em cada classe da varivel em questo.
representada por fa(x), ou simplesmente fa. A frequncia relativa (fr) obtida pela diviso da
frequncia absoluta pelo nmero total de dados ou observaes. A frequncia percentual (ou
porcentual) (fp) fornecida pela multiplicao da frequncia relativa por 100%.
No exemplo das atividades agropecurias predominantes em propriedades, as frequncias
correspondentes da categoria Caf so:
fa(caf) = 8 ;
fr(caf) =

8
= 0,40 ;
20

fp(caf) = 0,40 100% = 40%.


Assim, de forma geral, uma maneira informativa de descrever o conjunto de dados da Tabela 2.1
a de apresentar as frequncias de cada categoria da varivel atividade agropecuria, ou seja,
mostrar a sua distribuio de frequncia.

Conceito 2.2. Distribuio de Frequncia. Consiste em uma funo que associa os valores que
uma varivel assume com suas frequncias de ocorrncia, podendo ser elas absolutas, relativas
ou percentuais.

Guia de estudos de Estatstica


A distribuio de frequncia de uma varivel observada em populao finitas e amostras,
pode ser apresentada mediante duas maneiras; a representao tabular ou a representao
grfica. A representao tabular consiste em dispor a distribuio de frequncia das categorias da
varivel em tabelas. Para exemplificar, seja a Tabela 2.2 a seguir, representando a distribuio de
frequncia absoluta da atividade agropecuria predominante em 20 propriedades de um municpio.

Tabela 2.2. Distribuio da frequncia absoluta da atividade agropecuria predominante em 20


propriedades de um municpio.
Atividade predominante

Frequncia absoluta

Caf

Milho

Leite

Olericultura

Soja

Laranja

Total

20

Fonte: dados fictcios.

Essa representao tabular poderia ter seu aspecto melhorado pela criao de uma nova
categoria, por exemplo, denominada Outras, que incluiria aquelas classes de menor frequncia, a
saber, Olericultura, Soja e Laranja. Opes como estas so fortemente dependentes dos objetivos
e do bom senso do pesquisador. A nova representao da distribuio de frequncia seria como a
da Tabela 2.3.
Outra observao pertinente a seguinte: nesse exemplo, a varivel qualitativa nominal,
e, portanto, sem ordenao natural. Um critrio sensato de ordenao, que facilita a interpretao
dos dados, a de disp-las de maneira que as frequncias correspondentes estejam ordenadas,
como observado na Tabela 2.3. Alm disso, a classe Outras, quando presente, deve
preferencialmente vir em ltimo lugar, mesmo que sua frequncia seja maior. Outrossim, quando a
varivel for qualitativa ordinal como, por exemplo, o conjunto de notas:
{timo, bom, regular, ruim}
ento, a distribuio de frequncia deve ser disposta respeitando-se a ordem das categorias da
varivel, crescente ou decrescente, mesmo que no seja obedecida a ordem de magnitude das
frequncias.

Guia de estudos de Estatstica


Tabela 2.3. Distribuio da frequncia absoluta da atividade agropecuria predominante em 20
propriedades de um municpio.
Atividade predominante

Frequncia absoluta

Caf

Leite

Milho

Outras

Total

20

Fonte: dados fictcios.

Quanto a sua estrutura, de maneira geral, as tabelas tm os seguintes componentes: ttulo,


cabealho, coluna indicadora, corpo, linha de totais e rodap (Figura 2.2). Estes so definidos
como:
- O ttulo deve conter as informaes relativas ao contedo da tabela, a(s) varivel(eis) dispostas,
podendo ainda conter o local de coleta dos dados, e quando e como foi realizado o estudo. O ttulo
deve responder, no mnimo, a 3 perguntas: o qu?, onde?, e quando?. O cabealho especifica
as variveis e a frequncia (ou outra caracterstica) correspondente aos seus valores.
- O corpo representado por uma srie de colunas e subcolunas, dentro das quais so colocados
os dados apurados. Segundo o corpo, as tabelas podem ser de entrada simples, de dupla entrada,
e de mltipla entrada. A Tabela 2.3 de entrada simples. A cada entrada corresponde uma linha
(ou coluna) de totais. Um exemplo de tabela de dupla entrada seria a classificao das
propriedades tambm segundo o nvel de tecnologia utilizada (Tabela 2.4). Observe que h duas
totalizaes marginais (totais de linhas e totais de colunas), e uma totalizao geral.
- No rodap, so colocadas a legenda e todas as observaes que venham a esclarecer a
interpretao da tabela. Geralmente tambm disposta a fonte dos dados (entidade que os
fornece), embora em alguns casos, seja colocada no ttulo.

Guia de estudos de Estatstica

Figura 2.2. Componentes de uma tabela.

Tabela 2.4. Distibuio de frequncias absolutas das atividades predominantes e do nvel de


tecnologia utilizada em propriedades de um municpio.
Nvel de tecnologia utilizada
Atividade predominante

Baixo

Mdio

Alto

Totais

Caf

Leite

Milho

Olericultura

Soja

Laranja

Totais

20

Fonte: dados fictcios.

Traos horizontais para separar linhas so bastante utilizados. Quanto aos traos verticais, h a
tendncia no meio cientfico de serem evitados, quando no houver prejuzo na qualidade de
apresentao.
Dependendo do contexto, alguns componentes podem estar ausentes. Nota-se que a
Tabela 2.1 de natureza bastante simplificada, no tendo cabealho, coluna indicadora, linha de
totais ou rodap. Pode-se dizer que o ttulo e o corpo so os componentes mnimos de uma tabela.

Guia de estudos de Estatstica


A idia bsica por trs de todas as regras de construo de uma tabela que uma tabela deve ser
autoexplicativa, i., o leitor no deve precisar ter que recorrer ao texto para compreender um
tabela: ela se explica por si mesma (a mesma regra bsica vale para figuras, cujos mtodos de
construo sero vistos em seguida).
Alm da representao tabular, a representao dos dados tambm pode ser feita
mediante grficos. Para a representao de distribuies de frequncia referentes a variveis
qualitativas, existem trs grficos mais utilizados: o grfico de linhas, o grfico de barras, e o
setorgrama. O grfico de linhas consiste em dois eixos, onde a frequncia (absoluta, relativa ou
porcentual) disposta no eixo vertical e as classes da varivel no eixo horizontal, sendo a
identificao de cada par ordenado feita por uma linha vertical ligando o par ordenado ao eixo
horizontal. O grfico de linhas referente ao exemplo das atividades agropecurias predominantes
est apresentado na Figura 2.3.

Conceito 2.3. Grfico. Diagrama ou figura para ilustrao de fenmenos ou tendncias, no qual
existem escalas definidas.

0,5
0,4
0,3
0,2
0,1
0
Caf

Leite

Milho

Outras

Figura 2.3. Grfico de linhas representando a distribuio de frequncia relativa referente


atividade agropecuria predominante em propriedades de um municpio fictcio.

O grfico de barras bastante semelhante ao grfico de linhas, com a diferena de que


barras so utilizadas ao invs de linhas (Figura 2.4).

Guia de estudos de Estatstica

0,5
0,4
0,3
0,2
0,1
0
Caf

Leite

Milho

Outras

Figura 2.4. Grfico de barras verticais representando a distribuio de frequncia relativa referente
atividade agropecuria predominante em propriedades de um municpio fictcio.

importante salientar que, na disposio grfica de variveis qualitativas, devem ser padronizadas
as distncias entre as categorias, bem como a largura das colunas, para que no cause falsas
impresses, em razo da escala desigual. Uma outra opo para o grfico de barras que estas
podem ainda ser horizontais (Figura 2.5). Outros recursos que algumas vezes so empregados em
grficos de barras so a moldura e os traos. Estes ltimos, em geral, so apenas traados
paralelamente ao eixo x, para facilitar a visualizao dos valores referentes s frequncias (Figura
2.6).
O setorgrama (tambm chamado de grfico circular, grfico de setores ou grfico de pizza)
consiste na figura de um crculo, cujos setores correspondem a categorias da varivel em questo,
possuindo reas proporcionais s frequncias relativas ou porcentuais. Para a construo de um
setorgrama, basta obter o ngulo referente ao setor de uma dada categoria, pelo uso de uma regra
de trs. Por exemplo, para a atividade agropecuria Caf, do exemplo anterior, tem-se, para as
frequncias porcentuais:
100%

360

40%

E assim, x = 144 . Os setores correspondentes podem ser ento traados. Hoje em dia, so
disponveis muitos softwares que constroem esse tipo de representao grfica, e outros.

Guia de estudos de Estatstica

Caf

Leite

Milho

Outras
0

0,1

0,2

0,3

0,4

0,5

Figura 2.5. Grfico de barras horizontais representando a distribuio de frequncia relativa


referente atividade agropecuria predominante em propriedades de um municpio fictcio.

0,5
0,4
0,3
0,2
0,1
0
Caf

Leite

Milho

Outras

Figura 2.6. Grfico de barras verticais representando a distribuio de frequncia relativa referente
atividade agropecuria predominante em propriedades de um municpio fictcio, contendo
moldura e traos.

O setorgrama referente ao exemplo das atividades agropecurias est apresentado na Figura 2.7.

Guia de estudos de Estatstica


Caf
40,0%

Leite
25,0%
Outras
15,0%
Milho
20,0%
Figura 2.7. Setorgrama representando a distribuio de frequncia relativa referente atividade
agropecuria predominante em propriedades de um municpio fictcio.
Fonte: dados fictcios, apenas para efeito didtico.

No caso de variveis qualitativas ordinais, a representao grfica muito semelhante a


das nominais. Deve-se cuidar, contudo, para que a ordem das categorias da varivel seja
respeitada ao longo do eixo referente varivel, ou qualquer outra disposio conjunta delas.
Observe tambm o local de colocao de ttulos em tabelas e figuras: em tabelas o ttulo
deve ficar em cima e em figuras o ttulo deve ficar em baixo.

2.3. DESCRIO DE VARIVEIS NUMRICAS


Variveis quantitativas (numricas) podem ser classificadas em dois tipos: discretas e
contnuas. Conjuntos de dados referentes a variveis quantitativas, de um modo geral, podem ser
descritos de trs maneiras:
1) Distribuies de freqncia.
2) Medidas numricas descritivas: medidas de posio (mdia, mediana, moda, e quantis)
e medidas de variabilidade (amplitude total, varincia, desvio-padro, coeficiente de
variao, entre outras).
3) Grficos: histogramas, grfico de barras, entre outros.
Frequentemente, as trs maneiras so empregadas simultaneamente. Veremos o tratamento
destes modos de descrever separadamente, primeiro para distribuies de freqncia de variveis
discretas e contnuas, e seus grficos, e depois para medidas de posio e variabilidade, tanto
para discretas quanto para contnuas tambm.

Guia de estudos de Estatstica

2.3.1. Distribuies de freqncia.


Nesta seo trataremos de mostrar como se faz distribuies de freqncia tanto para
variveis contnuas quanto para variveis discretas. Comeando com as distribuies de
frequncias para variveis discretas, a representao de um conjunto de dados referentes a
realizaes de uma varivel quantitativa discreta , em geral, bastante semelhante das variveis
qualitativas, pois os valores inteiros que a varivel assume podem ser considerados como
categorias, ou classes naturais. Como exemplo, sejam dados referentes a um levantamento
onde observaram-se 91 plantas de caf, numa pequena lavoura, nas quais contou-se o nmero de
folhas atacadas pela praga bicho mineiro, em cada planta. Como estabelecido, vamos considerar
tal massa de dados como uma amostra, proveniente de uma populao constituda de todas as
plantas de caf da lavoura de onde estas 91 plantas vieram (evidentemente a lavoura toda, que a
populao de onde esta amostra veio, possua muito mais do 91 plantas frequentemente
milhares de plantas!). A representao tabular da avaliao desse experimento est apresentada
na Tabela 2.5.
Observa-se que a disposio da varivel nmero de folhas lesionadas semelhante a de
uma varivel qualitativa ordinal com 11 categorias. A representao grfica , assim, igualmente
parecida, embora com a diferena de que a escala referente varivel possui uma interpretao
diferente, representando elementos do conjunto dos nmeros inteiros. Exemplificando, o grfico de
barras horizontais desse experimento est mostrado na Figura 2.8.

Tabela 2.5. Frequncia de plantas de caf em relao ao grau de infestao de bicho mineiro em
amostragem em uma cultura de caf. Lavras, 2005.
Nmero de folhas
Frequncia
lesionadas
absoluta (plantas)
0
3
1
8
2
15
3
22
4
21
5
16
6
4
7
0
8
2
9
0
10 ou mais
0
Total
91
Fonte: levantamento amostral in loco na lavoura.

Frequncia
percentual (%)
3,30
8,79
16,48
24,18
23,08
17,58
4,40
0,00
2,20
0,00
0,00
100,00

Guia de estudos de Estatstica

25
20
15
10
5
0
0

10

Figura 2.8. Grfico de barras verticais representando a frequncia porcentual de plantas de caf
em relao ao grau de infestao de bicho mineiro, em amostragem na cultura do caf. Lavras,
2005.
Fonte: levantamento amostral in loco na lavoura.

Voltando-nos agora para a representao de variveis numricas contnuas, devemos


explicitar que tal representao apresenta uma dificuldade adicional, em relao s discretas, e
mesmo em relao s variveis categricas. No existem aqui, em variveis contnuas, classes
naturais, porque as realizaes (dados) de variveis contnuas so nmeros pertencentes ao
conjunto dos nmeros reais, e, assim, existe um conjunto infinito no-numervel (no-contvel) de
valores que a varivel pode assumir. A ttulo de ilustrao, considere o exemplo a seguir, relativo
produo diria de leite (kg), durante o perodo de lactao, de um rebanho de 201 vacas da raa
holandesa, pertencente a uma fazenda de gado holands do Sul de Minas Gerais (Tabela 2.7).
Vamos considerar estes dados como uma amostra, oriunda de uma populao que poderia ser o
conjunto de todas as vacas holandesas do Sul de Minas Gerais
A soluo para o problema da inexistncia de classes naturais consiste na elaborao de
classes a partir de intervalos, fixando um nmero adequado de classes segundo algum critrio. Um
exemplo de intervalo seria (5,0 ; 10,0), onde 5,0 kg o limite inferior do intervalo, e 10,0 kg seria o
limite superior do intervalo.
A seguir, apresentado um algoritmo (uma sequncia de passos), propondo uma maneira
de obteno de uma distribuio de frequncia relativa a uma varivel numrica contnua, sendo o
conjunto de dados referente a uma amostra. Antes do algoritmo, porm, devemos esclarecer que a

Guia de estudos de Estatstica


Tabela 2.7. Produo diria de leite (kg), durante o perodo de lactao, de 201 vacas da raa
holandesa, de um rebanho pertencente fazenda Itirapuan, Sul de Minas Gerais, 2005.
24,7

25,8

23,6

18,6

20,7

22,4

22,4

21,4

19,2

18,2

21,2

20,0

17,8

17,5

19,7

23,7

15,3

13,6

20,7

17,0

15,7

15,1

13,8

11,1

14,7

17,6

16,2

13,4

13,2

14,1

13,1

20,1

19,8

16,8

12,0

11,9

15,0

14,1

14,4

6,9

26,6

24,6

22,2

22,8

24,0

30,6

33,0

23,0

20,9

19,5

21,2

20,4

23,3

27,1

21,6

20,4

25,5

19,6

26,2

21,6

14,3

17,9

15,4

12,6

13,2

13,3

12,8

10,4

11,5

10,3

10,6

14,1

13,8

27,5

25,4

26,6

28,5

25,9

25,2

26,3

24,7

24,1

23,3

22,7

19,0

22,8

22,3

23,7

21,0

19,3

21,2

19,7

16,7

19,3

18,9

19,7

22,6

25,2

30,4

22,6

15,3

17,9

21,6

21,0

25,1

21,3

26,2

23,8

24,6

27,3

18,9

18,8

14,6

14,1

21,0

23,7

17,3

24,4

17,3

18,6

19,9

19,5

15,3

20,8

18,9

20,3

18,0

16,9

20,5

19,7

12,8

21,1

21,0

22,7

15 ,0

15,1

13,3

17,7

14,1

6,7

14,5

19,3

15,8

16,7

9,7

14,1

19,5

14,3

17,0

27,5

19 ,0

22,9

18,0

16,7

18,5

12,9

18,2

14,3

18,6

17,2

18,6

16,4

18,8

12,6

13,7

10,7

17,5

16,2

15,1

13,9

11,8

17,8

17,0

15,7

15,3

22,4

14,1

20,4

19,6

20,1

26,6

33,0

20,0

22,2

20,4

25,8

17,7

15,0

19,2

12,7

22,7

19,0

13,5

15,4

14,5

18,5

21,0

32,7

21,8

23,6
16,8

elaborao de uma distribuio de frequncia para variveis contnuas requer a apresentao de


alguns conceitos, dados a seguir:

Conceito 2.4. Amplitude ou amplitude total. Corresponde diferena entre o maior valor e o
menor valor de um conjunto de dados. Em geral, simbolizada por A.

Conceito 2.5. Amplitude de Classe. Consiste na diferena entre o limite superior e o limite inferior
de uma classe em uma distribuio de frequncia. Ser aqui simbolizada por c.

Guia de estudos de Estatstica


Tambm, pode ser bastante til, como primeiro procedimento a ser tomado para a elaborao de
uma distribuio de frequncias de uma varivel contnua, proceder a ordenao dos dados, para
permitir melhor manipulao (Tabela 2.8)
.
Tabela 2.8. Dados ordenados relativos produo diria de leite de 201 vacas da raa holandesa,
de um rebanho pertencente fazenda Itirapuan, Sul de Minas Gerais, 2005.
6,7

13,6

15,1

17,5

19,0

20,4

22,4

24,7

6,9

13,7

15,3

17,5

19,0

20,4

22,4

24,7

9,7

13,8

15,3

17,6

19,2

20,5

22,4

25,1

10,3

13,8

15,3

17,7

19,2

20,7

22,6

25,2

10,4

13,9

15,3

17,7

19,3

20,7

22,6

25,2

10,6

14,1

15,4

17,8

19,3

20,8

22,7

25,4

10,7

14,1

15,4

17,8

19,3

20,9

22,7

25,5

11,1

14,1

15,7

17,9

19,5

21,0

22,7

25,8

11,5

14,1

15,7

17,9

19,5

21,0

22,8

25,8

11,8

14,1

15,8

18,0

19,5

21,0

22,8

25,9

11,9

14,1

16,2

18,0

19,6

21,0

22,9

26,2

12,0

14,1

16,2

18,2

19,6

21,0

23,0

26,2

12,6

14,3

16,4

18,2

19,7

21,1

23,3

26,3

12,6

14,3

16,7

18,5

19,7

21,2

23,3

26,6

12,7

14,3

16,7

18,5

19,7

21,2

23,6

26,6

12,8

14,4

16,7

18,6

19,7

21,2

23,6

26,6

12,8

14,5

16,8

18,6

19,8

21,3

23,7

27,1

12,9

14,5

16,8

18,6

19,9

21,4

23,7

27,3

13,1

14,6

16,9

18,6

20,0

21,6

23,7

27,5

13,2

14,7

17,0

18,8

20,0

21,6

23,8

27,5

13,2

15,0

17,0

18,8

20,1

21,6

24,0

28,5

13,3

15,0

17,0

18,9

20,1

21,8

24,1

30,4

13,3

15,0

17,2

18,9

20,3

22,2

24,4

30,6

13,4

15,1

17,3

18,9

20,4

22,2

24,6

32,7

13,5

15,1

17,3

19,0

20,4

22,3

24,6

33,0
33,0

Postas estas consideraes preliminares, vamos ao algoritmo:


Passo 1. Determina-se o nmero k de classes, baseado em um dos critrios apresentados abaixo:
i) Critrio emprico. Escolhe-se k como um nmero entre 5 e 20. Se o nmero n de dados
pequeno, mais perto de 5; se n grande, mais perto de 20. Considera-se que menos de 5 classes
haveria pouca informao na distribuio de freqncias, pois condensaria excessivamente a

Guia de estudos de Estatstica


massa de dados, e que mais de 20 haveria excesso de classes, tornando a distribuio outra vez
pouco informativa. Para estes n = 201 dados, podemos utilizar 11 classes.
ii) Critrio de Sturges. Escolhe-se k = 1 + log2 n = 1 + 3,32 log10 n . Para o exemplo da Tabela 2.8:

k = 1 + 3,32. log10 n = 1 + 3,32. log10 201 9 classes.


iii) Critrio de Scott. Escolhe-se a amplitude de classe c como;

2.3 3 . 6 .s
1

c=

1
3

3,49s
3

Nota. No critrio de Scott, s o desvio-padro da amostra, o qual ser explicado mais adiante.
Para a massa de dados da Tabela 2.8, s = 3,94 kg, portanto, c = 3,73 kg. O nmero de classes k
ser dado por
k = A / c = (33,0 6,7)/3,73 = 7,05, isto , aproximadamente 7 classes.
iv) Critrio prtico. Escolhe-se o nmero k de classes segundo a Tabela 2.6 abaixo (esta tabela
constitui-se numa fuso prtica dos critrios (ii) e (iii) acima):

Tabela 2.6. Critrio para determinao do nmero k de classes na distribuio de frequncia em


funo do tamenho n da amostra.
Tamanho da Amostra (n)
At 100
Mais de 100

Nmero de Classes (k)


Arredondamento de

Arredondamento de 5 log10 n

Para n = 201 dados, por exemplo, teramos k = Arredondamento de 5 log10

201 = 12. Este critrio

(iv) especialmente recomendado, pela sua praticidade e bom desempenho.

Passo 2. Calcula-se a amplitude total A dos dados:


A = Max Min = x(n) x(1)
onde Max = maior valor observado (tambm simbolizado por x(n)) e Min = menor valor observado
(tambm simbolizado por x(1)). Na Estatstica conveno simbolizar dados em ordem crescente
com o ndice da varivel envolto por um parntesis.

Passo 3. Se k foi calculado anteriormente (quando se usa ou o critrio (i) ou (ii) ou (iv)), ento
calcula-se a amplitude de classe c, por meio de:

c=

A
k 1

Guia de estudos de Estatstica


Note que aqui o denominador do clculo da amplitude de classe c corresponde a (k-1), em vez de
simplesmente k. Se em vez de k, foi dado o valor de c (quando se usa o critrio (iii)), ento calculase o valor do nmero k de classes resolvendo-se a frmula acima para k e arredondando-se para o
inteiro mais prximo.
a

Passo 4. O limite inferior LI1 da 1 classe obtido por:


LI1 = Min -

c
2

Observe que a subtrao de c/2 do Passo 4, junto com o divisor k -1 do Passo 3, fazem com que
os limites de classe extremos (LI1 e LSk) fiquem menor e maior, respectivamente, do que o mnimo
e o mximo dos dados, ou seja, a distribuio fica mais espichada. A razo disto a de que
existe uma grande chance de no se ter coletado valores extremos e pouco freqentes, presentes
na populao, fazendo com que a amplitude total A provavelmente tenha sido subestimada. Os
passos 3 e 4 buscam corrigir esta subestimao. Quando os valores calculados de LI1 ou LSk forem
incompatveis com a varivel estudada, pode-se ajustar tais valores. Uma ocorrncia freqente ,
por exemplo, o clculo de LI1 entregar um valor negativo, num cenrio em que a varivel no pode
assumir valores negativos: neste caso, pode-se levar o valor de LI1 para zero.
a

Passo 5. O limite superior da 1 classe obtido por:


LS1 = LI1 + c,
a

sendo que LS1 nada mais que o limite inferior da 2 classe:


LI2 = LS1,
e assim, sucessivamente, as classes vo sendo construdas.
Nota 1. Deve-se observar que, sempre que possvel, h convenincia em que se tenham todas as
classes de um histograma (e respectiva distribuio de freqncias) com mesma amplitude, isto ,
sejam todas de mesmo tamanho. Este algoritmo est construdo para que tal igualdade de
tamanhos seja obtida.
Nota 2. H duas alteraes que podem ser necessrias neste algoritmo, relativamente as
instrues de seus passos:
(i) A primeira, que j foi pr-anunciada parcialmente no passo 4, de que quando a varivel
estudada tem valores mnimos e mximos naturais, como, por exemplo, notas em
avaliaes escolares numa escala de 0 a 100, onde o mnimo naturalmente zero
(no possvel uma nota negativa nesta escala) e o mximo naturalmente 100 (no
possvel uma nota maior do que 100 nesta escala), pode se alterar os valores
calculados de k e/ou c para que LI1 seja igual ao mnimo natural e LSk seja igual ao
mximo natural. Tal alterao no obrigatria, mas costuma fazer grficos e
distribuies mais interpretveis.

Guia de estudos de Estatstica


(ii) A segunda fundir vrias classes numa s, ou alterar suas amplitudes de modo adequado
ao tipo de dados que se tem em mos. Essa necessidade ocorre quando temos dados
com valores discrepantes (os outliers) ou quando a pesquisa transcorreu com
restries no modo e/ou instrumento de coleta de dados. Neste caso, ser quebrada a
conveno de que as classes tenham o mesmo tamanho, porm, este sacrifcio ser
necessrio em favor da possibilidade tanto de construir o grfico e distribuio, quanto
de interpret-los. Um exemplo em que houve restries est na Tabela A: para se
estudar a distribuio de frequncia do consumo semanal Y (kg) de carne de frango,
em Antnio Dias (MG), foram entrevistadas 60 residncias nos dias 20 e 21 de Julho
de 2001. Os resultados obtidos podem ser visualizados no quadro da distribuio de
frequncia abaixo:
(iii)

Tabela A. Distribuio de frequncia do consumo (kg) de carne de frango, em Antnio Dias


(MG), em Julho de 2.001.
Consumo
Praticamente zero
(0, 1]
(1, 2]
(2, 3]
(3, 4]
(4, 5]
(5, 6]
Total

Nmero de residncias
5
7
22
11
6
6
3
60

Fonte: levantamento amostral na cidade, nos dias 20 e 21 de Julho de 2.009.

Um exemplo em que foi necessrio alterar a amplitude das classes por causa de
valores discrepantes est na Tabela B: na implantao de um Sistema de Gesto
Ambiental (SGA) no modelo ISO 14.001 numa Pequena Central Hidreltrica (PCH) a
varivel X: Volume de solo nas encostas marginais erodidos pela ocorrncia de
processos erosivos foi avaliada em vrios pontos nas encostas do lago. Os dados
obtidos mostraram valores baixos para X, mas alguns poucos pontos tiveram valores
muito altos para X (estes so dados discrepantes). Estes outliers acarretaram a
juno de vrias classes, conforme mostra a distribuio de freqncias abaixo.

Guia de estudos de Estatstica


Tabela B. Volume de solo erodido nas encostas. PCH Jardim do Mato Grosso,
MS, Setembro de 2009.
X: Volume de solo erodido/carreado em m3.
(0; 5]
(5; 10]
(10;50]
(50; 100]
Mais de 100
Total

Nmero de ocorrncias
2.419
759
356
27
0
3.561

Fonte: Levantamento amostral in loco na PCH.

Um exemplo que mostra como a alterao da amplitude das classes afeta o histograma
dado abaixo na Figura A:

dfr(x)

0,0100

0,0075

0,0050

0,0025

x
50

100

150

200

250

300

350

400

Figura A. Histograma das reas de 1.412 propriedades agropecurias localizadas na regio Sul do estado de
Minas Gerais, 2006.
Fonte: dados simulados.

Passo 6. Construdas as classes, so contados quantos dados esto contidos em cada classe
(frequncias absolutas de cada classe).
Passo 7. Opcionalmente, so calculadas as frequncias relativas e/ou percentuais de cada classe.
Passo 8. Para a construo de um histograma, que o grfico (ou representao grfica) de uma
distribuio de freqncias de varivel numrica contnua, necessria calcular uma quantidade
denominada densidade de freqncia, definida como:

Guia de estudos de Estatstica


densidade de frequncia = frequncia da classe / amplitude da classe,
df = f / c
Observe que cada classe tem a sua prpria densidade de freqncia, que calculada dividindo-se
a freqncia de ocorrncia (ou absoluta, ou relativa, ou percentual) daquela classe pela amplitude
de classe daquela particular classe.

Como exemplo de aplicao do algoritmo acima, sero utilizados os dados referentes ao


rebanho de gado leiteiro da Tabela 2.8:
Passo 1: Escolhe-se k = 10 classes neste exemplo, apenas porque este valor a mdia de todos
os critrios acima ( claro, voc pode escolher k segundo qualquer um dos 4 critrios
individualmente).
Passo 2: A = 33,0 - 6,7 = 26,3 kg.
Passo 3: c = 26,3 / 9 = 2,92
Passo 4: LI1 = 6,7 -

c = 2,9 kg.

2,9
= 5,25.
2

Passo 5: LS1 = LI2 + c = 5,25 + 2,9 = 8,15;


LS2 = 8,15 + 2,9 = 11,05,

e assim por diante, cumprindo os demais passos.

A representao tabular dessa distribuio de frequncia est apresentada na Tabela 2.9. Para a
elaborao de grficos referentes distribuio de frequncia, necessrio o clculo da densidade
de frequncia de cada classe, j dada como:
densidade de frequncia = frequncia da classe / amplitude da classe
Por essa definio de densidade, pode-se definir trs tipos de densidade, sendo elas referentes
frequncia absoluta, relativa ou percentual. A densidade de frequncia absoluta, por exemplo,
simbolizada por dfa, e dada por:

dfa(x) =

fa (x )
c

E assim, analogamente:

dfr(x) =

fr (x )
c

dfp(x) =

fp (x )
c

Guia de estudos de Estatstica


Tabela 2.9. Distribuio de frequncias, relativa produo diria de leite de 201 vacas da raa
holandesa, de um rebanho pertencente a fazenda Itirapuan, Sul de Minas Gerais, 2005.
Classes

fa

fr

fp

(5,25 ; 8,15]

0,0100

1,00

(8,15 ; 11,05]

0,0249

2,49

(11,05 ; 13,95]

23

0,1144

11,44

(13,95 ; 16,85]

38

0,1891

18,91

(16,85 ; 19,75]

48

0,2388

23,88

(19,75 ; 22,65]

37

0,1841

18,41

(22,65 ; 25,55]

29

0,1443

14,43

(25,55 ; 28,45]

13

0,0646

6,46

(28,45 ; 31,35]

0,0149

1,49

(31,35 ; 34,25]

0,0149

1,49

201

1,0000

100,00

Totais

1. frequncia absoluta; 2. frequncia relativa; 3. frequncia porcentual.


Fonte: dados deste livro.

A densidade de frequncia permite que se obtenham valores para frequncias a partir do clculo
de reas nos grficos. Esse aspecto torna-se importante em casos onde existem classes com
amplitudes desiguais. As densidades de frequncia relativa para o exemplo do rebanho de gado
leiteiro esto apresentadas na Tabela 2.10.
Com o conceito de densidade de frequncia, pode-se agora apresentar a principal
representao grfica de distribuio de frequncia de variveis contnuas, o histograma. O
histograma semelhante ao grfico de barras verticais, utilizado para variveis categricas, com a
diferena de que as barras so dispostas lado a lado, porque suas extremidades so
correspondentes aos limites das classes (Figura 2.9). No eixo vertical, se as classes possuem a
mesma amplitude, podem ser dispostas tanto as frequncias como as densidades de frequncia.
Quando as classes possuem amplitudes diferentes, estas ltimas devem ser utilizadas. De um
modo geral, quando um rigor cientfico desejado, deve-se sempre dar preferncia s densidades
de frequncia, pois, dessa forma, frequncias sempre podero ser calculadas a partir das reas do
histograma, independentemente da amplitude de classe utilizada.
Por exemplo, suponha que se queira determinar a frequncia relativa de animais que
a

produzem entre 19,75 e 22,0 kg de leite. A frequncia relativa da 5 classe (produo entre 19,75 e
22,65) igual a 0,1841 (Tabela 2.11). A frequncia relativa entre 19,75 e 22,0 consiste na rea de

Guia de estudos de Estatstica


Tabela 2.10. Distribuio de frequncias relativa e densidades de frequncia relativa, referentes
produo diria de leite de 201 vacas da raa holandesa.
Classes (kg de leite)

fr

dfr

(5,25 ; 8,15]

0,0100

0,0034

(8,15 ; 11,05]

0,0249

0,0086

(11,05 ; 13,95]

0,1144

0,0395

(13,95 ; 16,85]

0,1891

0,0652

(16,85 ; 19,75]

0,2388

0,0823

(19,75 ; 22,65]

0,1841

0,0635

(22,65 ; 25,55]

0,1443

0,0498

(25,55 ; 28,45]

0,0646

0,0223

(28,45 ; 31,35]

0,0149

0,0051

(31,35 ; 34,25]

0,0149

0,0051

Totais

1,0000

dfr
0,0800

0,0600

0,0400

0,0200

0,0000
5,25

8,15

11,05 13,95 16,85

19,75 22,65 25,55 28,45 31,35 34,25

Produ o de leite
Figura 2.9. Histograma da distribuio de frequncia relativa, referente produo de leite em
rebanho pertencente a fazenda Itirapuan, Sul de Minas Gerais, 2005.
Fonte: levantamento realizado no escritrio da fazenda.

uma nova barra, mais estreita que aquela correspondente 5 classe. Essa nova barra tem altura
a

igual dfr da 5 classe (=0,0635) e base igual a:

Guia de estudos de Estatstica


22,0 - 19,75 = 2,25.
Assim, a rea dessa nova barra calculada multiplicando-se sua base por sua altura, ou seja:
2,25 x 0,0635 = 0,1429 e
esse o valor da frequncia relativa entre 19,75 e 22,0. Podemos ento dizer que h em torno de
14,29% de vacas que produziam entre 19,75 kg de leite e 22,0 kg de leite, na fazenda Itirapuan, no
ano de 2005. Essa porcentagem seria em torno de 29 vacas (0,1429 x 201).

2.3.2. Medidas de posio.


Na tentativa de se descrever um conjunto de dados por meio de grandezas numricas,
talvez a noo mais imediata que ocorra seja a de um nmero que especifique a posio do
conjunto de dados na escala de valores possveis da varivel em questo. Tais grandezas so as
chamadas medidas de posio. As medidas de posio tm por objetivo definir o centro de uma
distribuio de frequncias, o valor em torno da qual todos os dados gravitam, ou ainda, definir
posies de valores da varivel sob estudo dentro da distribuio de frequncias. Medidas de
posio s fazem sentido para variveis numricas. Dentre elas, sero abordadas primeiramente a
mdia, a mediana e a moda, as quais so as trs principais medidas de posio. Existem outras,
conhecidas como quantis, que so consideradas medidas de posio por alguns autores, mas que
no tm por objetivo determinar o centro das distribuies de freqncias, mas apenas posies
dentro da distribuio de frequncias. Oportunamente abordaremos os quantis.

Conceito 2.7. Medida de Posio. Grandeza numrica que descreve um conjunto de dados, pela
indicao da posio do conjunto na escala de valores possveis que a varivel em questo pode
assumir.

Mdia
A mdia aritmtica (ou simplesmente mdia) amostral, calculada a partir de uma amostra,
e referente caracterstica (varivel) X, simbolizada por x e definida como:
n

x
x =

i =1

1 n
xi
n i =1

Para os dados de produo de leite da Tabela 2.8:

Guia de estudos de Estatstica


1
(5,3 + 6,9 + ... + 33,8) = 19,04 kg leite/dia
201

x=

Recorde que n refere-se ao nmero de elementos da amostra.


Muitas vezes, entretanto, h o interesse de associar a descrio por meio da distribuio
de frequncias com a descrio por meio de medidas de posio. Quando se dispe das
frequncias relativas nas classes, a mdia aritmtica pode ser obtida por:

fr .x
i =1

onde fri a frequncia relativa da classe i, e

xi o ponto mdio da classe i . Para a distribuio de

frequncia da Tabela 2.10 temos a seguinte tabelinha auxiliar:

xi

Produo (kg)

fri

dfri

(5,25 ; 8,15]

6,70

0,0100

0,0034

(8,15 ; 11,05]

9,60

0,0249

0,0086

(11,05 ; 13,95] 12,50

0,1144

0,0395

(13,95 ; 16,85] 15,40

0,1891

0,0652

(16,85 ; 19,75] 18,30

0,2388

0,0823

(19,75 ; 22,65] 21,20

0,1841

0,0635

(22,65 ; 25,55] 24,10

0,1443

0,0498

(25,55 ; 28,45] 27,00

0,0646

0,0223

(28,45 ; 31,35] 29,90

0,0149

0,0051

(31,35 ; 34,25] 32,80

0,0149

0,0051

Totais

1,0000

x = 6,70 x 0,0100 + 9,60 x 0,0249 + ... + 32,80 x 0,0149 = 19,08 kg leite/dia


Outra tabelinha que pormenoriza estes clculos apresenta abaixo:

6,70

0,0100

9,60
12,50

0,0249
0,1144

15,40

0,1891

18,30
21,20

0,2388
0,1841

24,10

0,1443

27,00
29,90

0,0646
0,0149

32,80

0,0149

0,0670
0,2390
1,4300
2,9121
4,3700
3,9029
3,4776
1,7442
0,4455
0,4887

Guia de estudos de Estatstica


19,0772 19,08
Convm observar que o valor obtido por essa expresso (19,08) no coincide com o valor da
expresso que define a mdia (19,04). Esta diferena (19,08 19,04 = 0,04 kg leite/dia)
chamada de erro de agrupamento. Apesar de que este erro quase sempre pequeno, a expresso
da definio da mdia deve ser preferida, fazendo-se o clculo diretamente sobre os dados
originais, apesar de ser mais trabalhoso. Atualmente, com a grande disponibilidade de softwares
especficos para Estatstica, e mesmo planilhas de clculos com poderes estatsticos, esse
trabalho deixou de ser um problema. O uso da expresso aproximada, que calcula a mdia
utilizando-se das frequncias relativas das classes e de seus respectivos pontos mdios, s deve
se utilizada quando no se dispe dos dados originais.
A mdia possui algumas propriedades notveis, como:
i) Somando-se a todas as observaes uma constante k, a nova mdia fica acrescida de k.
ii) Multiplicando-se todas as observaes por uma constante k, a mdia fica multiplicada por k.
iii) A soma dos desvios de cada observao em relao mdia igual a zero. O desvio da
observao i dado por:
di = x i - x
e assim:

[x - x ] = d
n

i =1

i =1

=0

iv) A mdia minimiza a soma dos quadrados dos desvios. Ou seja, a quantidade

[x
n

-x ,

i =1

seria aumentada (ficaria maior) se colocssemos no lugar de x qualquer outro valor que no seja

x.

Mais duas observaes so pertinentes:


i) A mdia muito afetada por valores discrepantes, extremos.
ii) Trata-se da medida de posio mais amplamente utilizada.

Guia de estudos de Estatstica


Mediana
A mediana o valor que, no conjunto de dados ordenados, precedido e seguido pelo
~
mesmo nmero de observaes. simbolizada por x . Por exemplo, considere o seguinte conjunto
de dados, com n = 5, referente a uma certa varivel X:
x1

x2

x3

x4

x5

48

x = 14,0
Note que o valor da mdia, 14,0, influenciada pelo valor extremo 48, no corresponde a uma
medida de posio conveniente, uma vez que a maioria das observaes possuem valores abaixo
~
de 10. A mediana x desses dados corresponde ao valor 6, pois a observao, nos dados
ordenados, que possui um igual nmero de observaes abaixo e acima dela, ou seja, 2 dados (3
e 5) so menores do que 6 e 2 dados (8 e 48) so maiores do que 6. Podemos considerar que 6,0
representaria os dados melhor do que 14,0, no sentido de no ser to sensvel a valores
discrepantes.
Quando o nmero de observaes n par, a mediana definida como a mdia aritmtica
dos dois valores centrais. Por exemplo, se no mesmo conjunto de dados eliminssemos a ltima
observao, a nova mediana seria dada por:

5+6
x~ =
= 5,5.
2

Podemos ento propor as seguintes frmulas para o clculo da mediana:

, se n mpar
x n +1
2

x~ = x
+ x n
n
+1
2
2
, se n par

2
Nota. x(i) o i-simo valor da massa de dados em ordem crescente.
~
Observe que, se n par, a mediana x um valor que pode no aparecer na massa de dados.
~
Para a produo de leite apresentada na tabela 2.9, com n = 201 dados, n mpar e x = x(101) =
19,0 kg leite/dia pela frmula acima, um valor que aparece na massa de dados. Para os dados da
durao das lmpadas (tabela abaixo)

Guia de estudos de Estatstica


Tabela. Dados ordenados para uma amostra de 50 lmpadas (tempo de vida em horas).
712,7

714,1

715,1

716,7

718,2

719,8

720,5

721,8

723,0

724,6

712,8

714,3

715,3

717,3

718,5

719,9

720,8

722,2

723,6

725,1

713,8

714,4

715,7

717,5

718,6

720,1

721,0

722,4

723,6

725,2

713,9

714,6

715,7

717,7

718,8

720,4

721,2

722,7

723,7

725,9

714,1

715,0

716,2

717,8

719,0

720,4

721,6

722,8

723,8

728,5

a mediana seria a mdia de x(25) e de x(26):

x~ =

717,8 + 718,2
= 718,0 horas
2

Este valor (718,0 horas) no aparece na massa de dados.


Em dados agrupados em uma distribuio de frequncias, a mediana obtida pelo valor
que divide o conjunto dos dados em dois grupos com igual frequncia (50%). Para tanto, divide-se
o nmero de observaes por dois (independente de ser par ou mpar), e a seguir faz-se uma
interpolao na classe que contiver o resultado dessa diviso. No exemplo da produo de leite,
tem-se 201 observaes organizadas numa distribuio de frequncias (Tabela 2.9), obtendo-se
assim 201/2 = 100,5. Observando a distribuio de frequncia absoluta nessa mesma Tabela 2.9,
verifica-se que esse valor (mesmo que no exista a posio 100,5) se encontra entre 16,85 e
19,75, ou seja, est contido na classe (16,85 , 19,75]. A interpolao feita da seguinte maneira:
sabe-se que a amplitude de classe c corresponde a 2,9 , e que essa classe contm 48
a

observaes (Tabela 2.9), a partir da 68 observao. A diferena entre 100,5 e 68 igual a 32,5 ,
e assim:
48

2,9

32,5

x = 1,96

Somando-se x ao limite inferior dessa classe, obtm-se a mediana, qual seja,


x~ = LIMd + x = 16,85 + 1,96 = 18,81;

onde LiMd o limite inferior da classe que contem a mediana, isto , a classe que acumula o dado
da posio n/2 em ordem cescente.
Esse raciocnio pode ser posto na forma de uma frmula, a saber:

x = LI Md
onde:

n
FMd
+2
c Md ,
f Md

Guia de estudos de Estatstica


FMd a frequncia absoluta acumulada at a classe imediatamente anterior classe mediana;
fMd a frequncia absoluta da classe mediana;
cMd a amplitude da classe mediana.
Se utilizamos frequncia relativa nos clculos, ento a frmula dada por:
~

x = LI Md +

0,5 FrMd
c Md ;
frMd

onde:

FrMd a frequncia relativa acumulada at a classe imediatamente anterior classe mediana;


frMd

a frequncia relativa da classe mediana;

cMd a amplitude da classe mediana.


Nota. Observe que essas frmulas so aplicveis apenas para variveis contnuas, isto , a
princpio, essas frmulas so aplicveis somente em variveis numricas oriundas de medies.
Lembre-se que no utilizamos, a principio, histogramas para representar variveis discretas, e,
portanto, tais frmulas (que precisam de quantidades tais como amplitude de classe e limite de
classe) no podem ser aplicadas no clculos de mediana de variveis discretas organizadas em
tabela de distribuio de freqncia.
A mediana uma medida de posio apropriada para distribuies assimtricas. Nas
distribuies simtricas, mediana e mdia so iguais. Ela possui ainda as seguintes propriedades:
i) Somando-se a todas as observaes uma constante k, a nova mediana fica acrescida de k.
ii) Multiplicando-se todas as observaes por uma constante k, a mediana fica multiplicada por k.
iii) A mediana o valor que minimiza a soma dos valores absolutos (mdulos) dos desvios, isto :
n

~
- a mnima se a = x

i =1

Moda
A moda tambm foi idealizada visando descrever melhor aqueles conjuntos de dados com
distribuio assimtrica. Ela busca apresentar como medida de posio dos dados o valor tpico de
ocorrncia, isto , por definio a moda o valor mais frequente na massa de dados. Seu smbolo
x * e no temos uma frmula matemtica para defini-la. Sua definio simplesmente :

Guia de estudos de Estatstica


x * : valor da varivel que tem a maior frequncia de ocorrncia.
Assim como foi para mdia e mediana, apresentaremos seu clculo para dados no-agrupados e
para dados agrupados.
Comeando pelos dados no agrupados, a moda, sendo definida como sendo o valor mais
frequente, calculada apenas buscando o valor que mais se repete na massa de dados. Por
exemplo, no conjunto de dados.
x1

x2

x3

x4

x5

a moda x * corresponde ao valor 2, que o mais frequente, isto , a moda calculada como
sendo 2, pois o valor 2 para X ocorre com frequncia absoluta 2, maior do que todos os outros
valores. Logo:

x * = 2.
Para os dados da produo leiteira do rebanho de n = 201 vacas:

x * = 14,1 kg leite/dia,

Observe que o valor 14,1 ocorreu 7 vezes, isto , frequncia absoluta de ocorrncia igual 7, maior
que a frequncia de ocorrncia de todos os demais valores. Porm, imediata a observao da
inconvenincia de seu uso dessa maneira para o caso de variveis contnuas, onde, na maioria
das vezes, praticamente nula a chance de se encontrar valores exatamente iguais que se
repitam vrias vezes. Esta caracterstica de probabilidades infinitesimais para variveis contnuas
leva alguns autores a declarar que massa de dados brutos de variveis contnuas no tem moda,
porm, a rigor, mesmo tais massas de dados podem ter moda, e sua definio como estamos
dando aqui.
Para contornar este imbrglio, convm-nos ento, para variveis contnuas, estimar a
moda como o valor que possui a maior densidade de frequncia na distribuio de frequncias,
obtida a partir do agrupamento dos dados. Para tanto, procede-se a construo de uma tabela de
distribuio de freqncia para os dados, buscando-se, ento, em tal distribuio, o valor de maior
densidade de freqncia. Mais de um mtodo poderia ser utilizado para este clculo. Aqui
apresentarmos dois mtodos:
(i) Mtodo do ponto mdio da classe de maior densidade de frequencia.
Neste mtodo, considera-se a moda como sendo o ponto mdio da classe de maior densidade
de freqncia, isto , o ponto mdio do retngulo de maior altura do histograma.
(ii) Mtodo de Czuber.
Este mtodo deriva-se de um raciocnio geomtrico, que baseia-se no fato de que as classes
imediatamente anterior e posterior influenciam o comportamento modal. A moda obtida pela

Guia de estudos de Estatstica


identificao da classe com maior densidade de frequncia (absoluta, relativa ou porcentual), e
utilizando a frmula:

x * = LI Mo +
onde

1
c Mo
1 + 2

LI Mo : limite inferior da classe de maior densidade de frequncia;


1 : diferena entre a densidade de frequncia da classe que contm a moda e a

densidade da classe anterior;


2 : diferena entre a densidade de frequncia da classe que contm a moda e a
densidade da classe posterior;

c Mo : amplitude da classe de maior densidade de frequncia.


A moda possui as seguintes propriedades:
i) Somando-se a todas as observaes uma constante k, a nova moda fica acrescida de k.
ii) Multiplicando-se todas as observaes por uma constante k, a moda fica multiplicada por k.
Considerando um conjunto de dados com distribuio assimtrica direita, as medidas de
posio apresentam a tendncia relativa mostrada na Figura 2.10. Em uma distribuio assimtrica
esquerda, a ordem seria invertida. Nas distribuies simtricas, a moda igual a mediana que
tambm igual a mdia. A medida mais usada, e mais importante e informativa, a mdia.
Mediana e moda s devem ser usadas quando a mdia falha em informar a tendncia central dos
dados.

Figura 2.10. Posicionamento da mdia, mediana e moda em uma distribuio assimtrica direita.
Mo abreviatura de moda, Md de mediana, e Me de mdia.

Guia de estudos de Estatstica


2.3.3. Medidas de variabilidade.
Na descrio de uma massa de dados, apenas a utilizao de medidas de posio
insuficiente para explicitar o comportamento dos dados, pois tais medidas nada indicam a respeito
de sua variabilidade. Para ver isto, considere, por exemplo, os trs conjuntos de dados na Tabela
2.11. Observa-se que as trs regies, apesar de apresentarem as mesmas medidas de posio,
so visivelmente diferentes, uma vez que a uniformidade dos dados decresce da regio A para a
regio C. Por isso, se faz necessria a elaborao de uma grandeza que quantifique a distribuio
dos dados (tambm chamada de disperso ou variabilidade), as chamadas medidas de disperso
ou de variabilidade. Estas medidas, do modo como apresentado aqui, s fazem sentido para
variveis numricas. Essas medidas constituem, junto com as medidas de posio, as medidas
estatsticas mais importantes. As principais so: varincia, desvio-padro, e coeficiente de
variao. Estudaremos essas principais mais a amplitude total.

Conceito 2.8. Medida de Disperso. Grandeza numrica que descreve um conjunto de dados,
pela quantificao da variabilidade ou heterogeneidade neles presente.

Tabela 2.11. Estrutura fundiria como rea (varivel X) em 3 regies agrcolas (medidas em ha).
i

Regio A

Regio B

Regio C

100

80

10

100

90

50

100

100

100

100

100

100

100

100

100

100

110

150

100

120

190

100

100

100

x~

100

100

100

x*

100

100

100

Amplitude ou Amplitude total (A)


Anteriormente empregada na elaborao de distribuies de frequncias, a amplitude total
corresponde diferena do maior valor (mximo) para o menor valor (mnimo) do conjunto. Assim,
temos:
Regio A: A = 0

Guia de estudos de Estatstica


Regio B: A = 40
Regio C: A = 180
fornecendo-nos diferentes graus de variabilidade, como esperado.
A amplitude possui alguns inconvenientes. Trata-se de uma medida muito influenciada por
valores extremos, uma vez que calculada somente a partir deles. Assim, sua interpretao
independe at certo ponto do nmero de observaes do conjunto. Para ilustrar esse aspecto, no
exemplo do rebanho de gado holands da fazenda Itirapuan, foram tomados subconjuntos de
diferentes nmeros de animais, do total de 201 observaes, sempre a partir dos primeiros dados
da Tabela 2.7 que esto fora de ordem, e, portanto, guardando uma certa casualidade. Foram
obtidos os seguintes valores para a amplitude:

Nmero de animais

Min

Max

16

13,2

26,6

13,4

32

9,7

26,6

16,9

64

9,7

30,4

20,7

128

5,3

30,4

25,1

O primeiro conjunto de animais, possuindo um nmero relativamente satisfatrio de


observaes, deveria representar razoavelmente bem a disperso total de todo o rebanho. No
entanto, observa-se que medida que o nmero de observaes aumenta, a chance do
aparecimento de valores extremos, acima ou abaixo da mdia, tambm aumenta, fazendo com que
os respectivos valores de amplitude aumentem, chegando quase a dobrar. Portanto, torna-se
evidente a necessidade de uma medida de disperso que baseie-se em todas as observaes, de
maneira a tornar-se menos sensvel ao aparecimento de valores discrepantes. Isso pode ser
igualmente visto no exemplo:

Conjunto A

15

15

15

40

Conjunto B

10

20

30

40

Tais conjuntos possuem a mesma amplitude, 35, mas apresentam claramente diferentes
magnitudes de variabilidade, sendo esta magnitude inferior no conjunto A, pois este ter maior
uniformidade. Para resolver esse problema, foram concebidas duas medidas a partir de todas as
observaes: a varincia e o desvio padro. So estas que estudaremos a seguir.

Guia de estudos de Estatstica


Varincia e Desvio-padro
Trata-se de medidas de disperso baseadas nos desvios dos dados em relao mdia:
di = x i - x
Como quantificar a variabilidade de um conjunto de dados a partir dos desvios em relao
mdia? J que se sabe que o valor mdio dos desvios em relao a mdia zero, poder-se-ia
pensar ento em se tomar a mdia dos mdulos dos desvios:

di
i =1

x
i =1

Apesar desta medida ser uma possvel medida de variabilidade, ela no tem boas propriedades
nem estatsticas e nem matemticas. Por causa disso, razes estatsticas levam considerar o
quadrado das diferenas (e no o mdulo), e a diviso da soma dos quadrados dos desvios por n1 e no por n, definindo ento a medida de variabilidade denominada varincia:
n

(x
2

s =

x)

i =1

n 1

(x1 x )2 + (x 2 x )2 + ...(x n x )2
n 1

O desvio padro definido como a raiz quadrada da varincia:


n

(x
s=

x)

i =1

s2 =

n 1

O denominador (n - 1) chamado de graus de liberdade. Para a amostra da Tabela 2.9, s=3,94 kg,
e s2 = 15,5442 kg2. Apesar do divisor n-1, a varincia tambm pode ser denominada de quadrado
mdio, visto ser uma espcie de mdia dos desvios ao quadrado. Algumas vezes autores de
textos sobre Estatstica usam outra frmula para a varincia amostral, a saber,

(x
2

s =

i =1

x)

e, consequentemente, tambm outra para desvio-padro amostral,

Guia de estudos de Estatstica


n

s=

s2 =

(x
i =1

x)

porm, devemos salientar que estas frmulas levam a uma subestimao (isto , apresenta um
vis) do valor real da variabilidade da varivel em estudo, devendo serem, portanto, evitadas. As
frmulas com divisor n-1 devem ser a utilizadas, pois permitem uma estimao exata (isto , no
viesada) da variabilidade da varivel de interesse.

Voltando ao exemplo dado para mostrar a insuficincia da amplitude, vamos calcular a


varincia e o desvio-padro dos conjuntos A e B:

Conjunto A

15

15

15

40

Conjunto B

10

20

30

40

onde sA = 13,04 e sB = 14,32

No conjunto de dados B do exemplo acima, tem-se:

Observao

xi

di

di

-16

256

10

-11

121

20

-1

30

81

40

19

361

105 =>

820

Total

=> x =21,00

E assim:

x = 105 / 5 = 21,00
s = 820 / 4 = 205,0000
s = 14,32

Guia de estudos de Estatstica


O conjunto A do exemplo possui uma varincia igual a 170,0000, refletindo assim a menor
variabilidade nele existente, em relao ao conjunto B, que tem varincia 205,0000.
O desvio padro, ao tomar a raiz quadrada da varincia, tem a vantagem de retornar
escala original (por exemplo, passando de kg2 para kg), melhorando a compreenso do quanto os
dados se desviam em relao mdia.
Para os dados da produo leiteira da Tabela 2.8:

1
(5,3 19,04 )2 + (6,9 19,04 )2 + ... + (33,8 19,04 )2 = 24,0007
200

s =

s = 24,0007 kg de leite/dia = 4,90 kg de leite/dia

Ns podemos nos aproveitar do fato de que a soma de quadrados de desvios pode ser
expressada em uma forma simplificada, para criarmos uma frmula alternativa para a varincia (e
desvio-padro), que mais fcil para o clculo, mesmo que parea mais complicada para
escrever, qual seja:

(x
i =1

x)

n 1

n
xi
n
2
xi i =1

n
= i =1
n 1

Demonstrao:
n

[x
i =1

2
x] =

[x
n

i =1

2
i

2 x i x + [x ]

]=
n

x
i =1

2
i

2 x x i + [x ] =
i =1
i =1
2

x
i =1

n
n
x

xi

i
n
i =1

2
= xi 2
+ n i =1
n
n
i =1

n
xi
n
i =1
2
= xi
n
i =1

2
i

x
i =1

x
i =1

+ n[x ] =
2

n
n
x
xi

i
n
i =1

2
xi 2
+ i =1

n
n
i =1

Guia de estudos de Estatstica

Para dados agrupados, a varincia tambm pode ser calculada da seguinte forma
facilitada:
k

s 2 x j - x .fr j
2

j=1

onde x j o ponto mdio da classe j. Essa expresso no fornece, na maioria das vezes, o
mesmo valor da expresso dada anteriormente, em razo do chamado erro de agrupamento,
2

sendo, portanto, uma frmula aproximada para o verdadeiro valor de s .


Demonstrao:

fa (x

s2 =

( x i x )2
i =1

n 1

x)

j =1

n 1

= (x j x )
k

j =1

fa j
n 1

(x j x ) . fr j
k

j =1

Nota. A aproximao final tanto mais exata quanto maior for o valor de n, isto :

lim

fa j
n 1

= lim
n

fa j
n

= lim fr j = fr j
n

A varincia e o desvio padro possuem as seguintes propriedades:


i) Somando-se uma constante k a todas observaes, nem a varincia nem o desvio padro se
alteram.
2

ii) Multiplicando-se uma constante k a todas as observaes, a varincia fica multiplicada por k e o
desvio padro por k.
iii) O desvio padro, em relao mdia, ao invs de em relao a outro valor qualquer, mnimo,
em razo do fato de a mdia ser o valor que torna mnima a soma de quadrados dos desvios.

Coeficiente de variao (cv)


Quando se deseja a comparao entre diferentes conjuntos de dados, mesmo a varincia
e o desvio padro podem no quantificar adequadamente, em certas situaes, a variabilidade
presente em um conjunto de dados. Para ver isto, considere, a ttulo de ilustrao, os pesos dos
animais de dois rebanhos diferentes, dados a seguir:

Guia de estudos de Estatstica

Rebanho A

Rebanho B

50

470

70

490

60

460

80

480

65

475

11,18

11,18

Obviamente, trata-se de rebanhos com animais em idades diferentes. Apesar de possurem o


mesmo desvio padro, evidente que diferenas da ordem de 10 kg, por exemplo, possuem um
peso relativo muito maior no rebanho A do que no rebanho B. Assim, razovel afirmar que a
variabilidade no rebanho A bem superior; tornando-se necessria a elaborao de uma medida
apropriada nessas situaes onde se deseja comparar conjuntos de dados com mdias bem
discrepantes. Uma medida que rene essas caractersticas o chamado coeficiente de variao,
definido por:
cv =

s
100%
x

Para os dados da produo diria de leite da Tabela 2.9:

cv =

4,89
100% = 25,7%
19,04

Essa medida nos d a magnitude da variabilidade, em relao magnitude da mdia. No exemplo


acima, tem-se:
Rebanho A: cv = 17,2%
Rebanho B: cv = 2,4%
evidenciando que o rebanho A tem uma variabilidade maior que o rebanho B.
A necessidade da elaborao de uma medida apropriada nas situaes onde se deseja
comparar conjuntos de dados com mdias bem discrepantes no a nica demanda que justifica o
cv: tambm verificada sua necessidade se o desejo comparar variveis medidas em unidades
diferentes. Observa-se que o coeficiente de variao uma medida relativa, porcentual, sendo,
assim, adimensional, fazendo com que o cv seja til no apenas na comparao entre conjuntos
de dados de mesma unidade, mas ainda til na comparao da variabilidade entre conjuntos de
dados referentes a diferentes caractersticas, que so medidas em unidades diferentes.

Guia de estudos de Estatstica

2.4. EXERCCIOS RESOLVIDOS


1) Em um estudo da atividade predominante nas 20 propriedades de um municpio observaram-se
os seguintes resultados:

Caf

Feijo

Caf

Soja

Soja

Caf

Milho

Feijo

Milho

Soja

Milho

Milho

Soja

Soja

Leite

Leite

Leite

Milho

Caf

Leite

a) Classifique a varivel.
Varivel qualitativa nominal, pois ela separa as diferentes culturas em categorias pelos respectivos
nomes.
b) Faa a representao tabular por meio das frequncias absoluta (fi), relativa (fri) e percentual
(fpi).

ATIVIDADES

fa

fr

fp

MILHO

0,25

25

SOJA

0,25

25

CAF

0,20

20

LEITE

0,20

20

FEIJO

0,10

10

TOTAL

20

1,00

100

c) Faa a representao grfica por meio do grfico de colunas.

Guia de estudos de Estatstica


2) Os dados abaixo referem-se s reas (em ha) de 25 propriedades rurais que receberam
financiamento para pecuria de leite. Lavras, MG, de 1977 a 1982:

42

40

45

46

48

51

50

53

58

62

73

66

73

82

89

106

100

130

150

175

231

181

252

267

268

a) Rena os dados em uma tabela de distribuio de frequncias (use k =

n)

1- Calcula-se o nmero de classes (k) que comporo a distribuio:

k = n = 25 = 5 classes , sendo n o nmero de propriedades que recebero


financiamento;
2- Calcula-se a amplitude de classe (c):

c=

A
268 40
=
= 57 ha , onde A a amplitude total, ou seja, o maior valor
k 1
5 1

observado menos o menor;


3- Calcula-se o limite inferior (LI) da primeira classe que ir compor a distribuio:

LI = Min

c
57
= 40
= 11,5 ha , onde Min o menor valor observado.
2
2

4- A tabela de distribuio de frequncia:


xi

fa i

fri

fp i %

(11,5;68,5]

40

11

0,44

44

(68,5;125,5]

97

0,24

24

(125,5;182,5]

154

0,16

16

(182,5;239,5]

211

0,04

(239,5;296,5]

268

0,12

12

25

1,00

100

Classes

Total

b) Quantas propriedades na amostra tm rea superior a 125,5 ha?


Nesta amostra, 8 propriedades possuem rea superior a 125,5 ha.
c) Pode-se esperar encontrar propriedades com rea entre 70,0 e 100,0 ha? Se sim, qual a sua
porcentagem de ocorrncia?

Guia de estudos de Estatstica


Sim, possvel encontrar propriedades com rea entre 70,0 e 100,0 ha e para encontrar a
porcentagem de ocorrncia, pode-se utilizar uma regra de trs simples:
125,5 68,5 = 57,0 ha --------------------------------- 6 propriedades
110,0 70,0 = 40,0 ha --------------------------------- x
x = 4,2 propriedades => 4,2 / 25 = 16,8%
Assim, podemos inferir que 16,8% destas propriedades possuem rea entre 70,0 e 110,0 ha.

3)Os pesos em Kg, de 6 sunos submetidos a uma rao de engorda foram:


184

193

204

204

196

207

a) Qual foi o desvio do 2 animal em relao mdia? Explique o que ele significa.
x

x
Calculando a mdia:

x=

i=1

184 + 193 + ... + 207


= 198 Kg
6

O desvio do 2 animal em relao mdia: di = xi x = 193 198 = 5 Kg

A mdia uma medida de tendncia central, ou seja, em torno dela se congregam valores abaixo
e acima da mesma. Assim, esse desvio negativo do 2 animal com relao mdia se deve ao fato
de que ele esta 5 kg abaixo dela.
b) Mostre que a soma dos desvios com relao mdia nula.
n

(x i x ) = (184 198) + (193 198) + ... + (207 198) = 0


i=1

c) Transforme os dados em arrobas. Qual a constante de transformao? Encontre a mdia em


arrobas partindo daquela obtida no item a.
Como 1 arroba = 15 Kg, para transformar Kg em arrobas utilizamos:
Peso @ =

xi
15

Assim:
6

x
x=

i=1

12,27 + 12,87 + 13,60 + 13,60 + 13,07 + 13,80


= 13,20 arrobas
6

d) Adicione 20 Kg a cada dado e encontre a mdia. Confronte o resultado com o obtido no item a.
Qual a propriedade esta envolvida?
Adicionando 20 Kg a cada dado, temos:
204

213

224

224

216

227

Calculando a nova mdia:

Guia de estudos de Estatstica


6

x
x=

i=1

204 + 213 + ... + 227


= 218 kg
6

Confrontando a mdia obtida no item a com a obtida no item d:

x a = 198 kg

x d = 218 kg

podemos perceber que a mdia se alterou na mesma proporo que cada observao foi
aumentada. A propriedade envolvida a propriedade da soma, que diz que se somarmos a cada
observao uma constante k a mdia fica acrescida desta mesma constante k.
e) Calcule a Soma de Quadrados dos Desvios SQD em relao mdia e em relao
constante k = 196. Discuta os resultados.
Vejamos a SQD em relao mdia:
6

SQD =

(x

x ) 2 = (184 198) 2 + (193 198) 2 + ... + (207 198) 2 = 378

i=1

E a SQD em relao constante k = 196:


6

SQD =

(x

k) = (184 196) 2 + (193 196) 2 + ... + (207 196) 2 = 402

i=1

Comparando os dois resultados podemos perceber que a SQD em relao mdia menor que a
SQD da constante k = 196. Confirma-se assim que a SQD em relao mdia o valor que torna
mnimo o valor dos desvios.

4) Para comparar 4 variedades de alfafa (A, B, C, D) foi conduzido um experimento em blocos


completos casualizados com seis repeties, usando parcelas de 32 m 2 (4m x 8m). Os
-1

rendimentos em massa verde em Kg.parcela foram os seguintes:


Blocos
Tratamento
A
B
C
D

56,8

57,2

57,5

55,4

56,0

57,9

53,5

54,3

53,8

54,7

53,3

52,6

54,0

53,5

52,8

54,2

53,6

54,1

54,5

54,5

54,5

54,5

54,5

54,5

a) Qual a amplitude total do tratamento A? Que inconveniente tem esta medida para expressar
a variabilidade de uma amostra?
Amplitude Total(AT):
AT = Mvo mvo
Assim:

sendo: Mvo = Maior valor observado e mvo = menor valor observado

Guia de estudos de Estatstica


AT = 57,9 55,4 = 2,5 Kg
O inconveniente de se usar a amplitude total para expressar a variabilidade de uma amostra de
que utilizam-se apenas dois dados para fornecer esta estimativa.
b) Qual a varincia do tratamento D?
6

s2 =

SQD
=
n 1

(x i x ) 2
i=1

n 1

(54,5 54,5) 2 + (54,5 54,5) 2 + ...(54,5 54,5) 2


= 0 Kg 2
6 1

c) Qual tratamento mais varivel: o B ou o C? Que medida estatstica voc usou para comparar
a variabilidade? Justifique.
Calculemos primeiro o desvio padro para o tratamento B:
6

(x
i=1

s B2 =
sB =

x)2
=

n 1

(53,5 53,7) 2 + (54,3 53,7) 2 + ... + (52,6 53,7) 2


= 0,56 Kg 2
6 1

= 0,55 = 0,74 Kg

s B2

Agora para o tratamento C:


6

(x i x) 2
i=1

s C2 =

n 1

sC =

(54,0 53,7) 2 + (53,5 53,7) 2 + ... + (54,1 53,7) 2


= 0,27 Kg 2
6 1

= 0,27 = 0,52 Kg

s C2

Como o desvio padro do tratamento B maior do que o do tratamento C, podemos afirmar que o
B apresenta maior variabilidade entre seus dados. Neste foi possvel utilizarmo-nos principalmente
do desvio padro para comparar a variabilidade entre os tratamentos, pelo fato de os dois
tratamentos possurem a mesma unidade de grandeza e a mesma mdia.
d) Calcule o desvio padro do tratamento A . Interprete.
6

(x
i=1

s 2A =
sA =

x)2

n 1

s 2A

(56,8 56,8) 2 + (57,2 56,8) 2 + ... + (57,9 56,8) 2


= 0,89 Kg 2
6 1

= 0,88 = 0,94446 Kg

A variabilidade do tratamento A medido pelo desvio padro maior do que a variabilidade dos
tratamentos B e C.
e) Multiplique os dados do tratamento A por 1000 e calcule o desvio padro.
Multiplicando os dados do tratamento A por 1000 temos:
56800

57200

57500

55400

Calculando a nova mdia:


6

xi
x=

i =1

56800 + 57200 + ... + 57900


= 56800 Kg
6

Calculando o novo desvio padro:

56000

57900

Guia de estudos de Estatstica


6

(x i x ) 2
s 2A =
sA =

i=1

n 1
s 2A

(56800 56800) 2 + (57200 56800) 2 + ... + (57900 56800) 2


= 892000 Kg 2
6 1

= 892000 = 944,46 Kg

f) Confronte o resultado do item d com o item e. Discuta.


Resultado item d:

Resultado item e:

s A = 0,94446 Kg

s A = 944,46 Kg

Essa diferena justifica-se por uma das propriedades do desvio padro: Multiplicando-se ou
dividindo-se cada observao por uma mesma constante k 0, o desvio padro fica multiplicado
ou dividido por esta mesma constante.

5) Temos, abaixo, informaes climticas mensais de uma determinada regio:

Mdia

Desvio padro

Temperatura (C)

18

2,0

Precipitao (mm)

100

15,5

a) Qual das medidas (temperatura ou precipitao) possui maior variabilidade? Justifique.


Como as medidas esto em grandezas diferentes, para podermos comparar suas variabilidades
utilizaremos o coeficiente de variao (CV).
1 para a temperatura: CV =

2 para a precipitao: CV =

100 =

2
100 = 11,11%
18

100 =

15,5
100 = 15,5 %
100

Quanto menor o CV, mais preciso o experimento. A medida tem grande aplicao na
experimentao para avaliar a preciso dos ensaios. Nesse caso, a precipitao possui maior
variabilidade.
b) Se a temperatura fosse avaliada em F (

C F 32
=
), como ficaria a concluso do item a?
5
9

Justifique.
Para a temperatura em F: CV =

s
x

100 =

3,6
100 = 5,59 %
64,4

Assim, a concluso do item 3.1. seria que a temperatura apresentaria menor variabilidade.

Guia de estudos de Estatstica

2.5. EXERCCIOS PROPOSTOS


1) Um pesquisador necessita obter informaes a respeito de uma determinada cultura no sul de
Minas Gerais. Para tanto, visita 50 propriedades e faz uma avaliao referente ao tamanho da rea
plantada com a cultura (ha), a produo obtida (Kg), e as principais pragas e doenas.
Pergunta-se:
a) Qual a populao em estudo?
b) Utilizou-se de uma amostra para realizar o estudo? Por qu?
c) Quais foram as variveis estudadas em cada caso?
d) Classifique as variveis quanto a sua natureza.

2) Os ganhos de peso, em kg, de 80 novilhos nelore mantidos numa pastagem em determinado


perodo foram os seguintes:
36

45

60

39

57

32

39

40

63

37

42

42

44

30

47

39

15

39

25

39

57

48

44

37

44

38

21

56

52

50

41

37

39

28

43

39

29

45

48

46

31

34

36

38

43

24

38

41

46

42

33

30

36

23

39

35

33

35

47

39

28

31

32

49

39

19

49

39

42

43

20

58

34

56

35

50

27

36

40

37

a) Construa uma distribuio de frequncia com as frequncias absoluta, relativa e percentual;


b) Construa o histograma;
c) Calcule a mdia, mediana, moda, varincia, desvio-padro, e cv.

3) So contadas o nmero de lagartas tipo rosca(Agrotis ipisilon) em 25 canteiros de mudas de


eucalipto da Fazenda Experimental da UFLA. Encontrou-se o seguinte resultado:
1

a) Classifique a varivel em questo;


b) Construa uma distribuio de frequncia com as frequncias absoluta, relativa e percentual;
c) Calcule a mdia, mediana, moda, varincia, desvio-padro, e cv.

Guia de estudos de Estatstica


4) Resuma os pesos de 50 espigas de milho (expressos em gramas) amostradas de um paiol
na tabela de distribuio de frequncia abaixo:
Dados brutos, ordenados:
184

184

185

186

187

188

189

190

190

191

192

193

193

193

194

194

195

195

195

195

195

195

195

195

195

196

197

197

198

198

199

199

200

200

200

201

201

203

203

204

204

205

205

206

206

207

207

208

210

211

Tabela de Distribuio de Frequncia


Classe (gramas)

Ponto Mdio

Frequncia

(182,5 ; 185,5]
(185,5 ; 188,5]
(188,5 ; 191,5]
(191,5 ; 194,5]
(194,5 ; 197,5]
(197,5 ; 200,5]
(200,5 ; 203,5]
(203,5 ; 206,5]
(206,5 ; 209,5]
(209,5 ; 212,5]
a) Calcule a mdia, a mediana e a moda para os dados brutos.
b) Repita os clculos a partir da tabela de distribuio de frequncia e compare os resultados com
os item (a). Discuta as diferenas, caso ocorram.
c) A partir das relaes entre mdia, mediana e moda, como se classifica a distribuio quanto
simetria?
5) Um pesquisador da rea de Cincia de Alimentos examinou juntamente com sua equipe um lote
de 150 caixas de bananas-ma escolhidas aleatoriamente de um carregamento de 10.000 caixas,
anotando o nmero de pencas com empedramento. Foram obtidos os seguintes resultados:
N Pencas Emp.( XI )

7ou +

N Caixas ( f i )

38

37

25

20

16

10

Guia de estudos de Estatstica


a) Qual o nmero mdio de pencas empedradas por caixa?
b) Qual o nmero mediano de pencas empedradas por caixa?
c) Qual o nmero modal de pencas empedradas por caixa?
d) Qual o desvio-padro do nmero de pencas empedradas por caixa?
e) Qual dever ser a estimativa do nmero total de pencas empedradas no carregamento?

6) No Posto Agrometeorolgico da seo de Climatologia Agrcola da EMBRAPA em Itagua, RJ,


foram registrados a evaporao e a insolao, durante o perodo de 1961 1996. As mdias
mensais encontradas durante o perodo foram as seguintes:
Evaporao (mm)
97,9

94,1

77,4

71,3

73,4

75,5

86,2

105,9

99,2

93,6

79,6

87,3

199,1

184,3

190,6

190,9

201,6

200,6

211,1

208,1

141,1

141,1

151,1

164,4

Insolao (horas)

Qual atributo meteorolgico mais varivel? Indique e justifique a medida estatstica utilizada na
comparao.

Guia de estudos de Estatstica

UNIDADE 3
CLCULO DE PROBABILIDADES
3.1. O CONCEITO DE PROBABILIDADE
princpio, poderamos definir probabilidade como o limite de uma freqncia relativa:

P[A] = lim

fa (A)
,
N
N

onde P[A] a probabilidade de ocorrncia do evento A. Essa definio, porm, padece de


dificuldades matemticas, pois no se adequa definio matemtica de limite, baseada em
epsilons e deltas. Por causa disso, buscaremos uma definio de probabilidade alternativa que
seja, simplesmente, de que probabilidade a frequncia relativa em infinitas repeties.
Consideremos esta definio como sendo uma definio estatstica, para diferenciar da definio
matemtica, que usa uma teorizao mais avanada que no ser objeto deste curso.

Em outras palavras, podemos dizer que, estatisticamente, as frequncias relativas em


populaes infinitas so chamadas de probabilidades. Num exemplo ilustrativo, que considera a
segregao gentica de gnero em seres humanos, se o interesse descrever (prever) a taxa de
nascimento de homens ou mulheres, um modelo no-determinstico que explica o fato de um ser
humano nascer macho ou fmea aquele que estabelece que tanto um sexo quanto o outro
possuem chances iguais de acontecer. Ele procura explicar a frequncia relativa de nascimentos
de infinitos seres humanos que existiram ou viro a existir, e da se falar em probabilidade de
nascimento de machos ou fmeas, que segundo esse modelo igual a 1/2, 0,5, ou 50%.

Conceito 3.1. Probabilidade. Frequncia relativa associada a uma varivel descritora em infinitas
repeties.

Guia de estudos de Estatstica


Portanto, pode-se denominar a distribuio de frequncias relativas de uma populao
infinita (o conjunto das infinitas repeties) como uma distribuio de probabilidade.

Conceito 3.2. Distribuio de Probabilidade. Distribuio de frequncias relativas de uma


populao infinita.

As variveis descritoras de uma populao infinita podem ser, qualitativas ou quantitativas.


Quando tais variveis operam descrevendo valores de probabilidade, elas so chamadas de
variveis aleatrias.

Conceito 3.3. Varivel Aleatria. Varivel a cujos valores so associadas probabilidades de


ocorrncia.

Por conveno, as variveis aleatrias so sempre quantitativas, mesmo se referindo a


qualidades. No exemplo do nascimento em mamferos, s categorias fmea e macho podem ser
associados os valores 0 e 1, respectivamente. Pode-se entender que X = 0 seja zero macho, e X
= 1 seja um macho, tornando a varivel aleatria X realmente uma quantidade, e no apenas um
rtulo. Sendo assim, as variveis aleatrias podem ser discretas ou contnuas.

3.2. DISTRIBUIES DE PROBABILIDADE


Uma distribuio de probabilidade corresponde a uma funo que associa as realizaes
de uma varivel aleatria com suas respectivas probabilidades de ocorrncia. As

variveis

aleatrias so denotadas por letras maisculas e suas realizaes por letras minsculas.
A probabilidade de que uma varivel aleatria X assuma determinado valor denotada por
P[X = x]. As variveis aleatrias quantitativas podem ser discretas ou contnuas, sendo que para
cada qual podem ser construdos modelos matemticos no-determinsticos que expressem as
distribuies de probabilidade correspondentes.
Alm disso, sendo elas quantitativas, faz sentido falar-se em medidas de posio e
disperso. Neste captulo sero concentradas as atenes apenas na mdia, varincia e desvio
padro de uma varivel aleatria quantitativa.

Guia de estudos de Estatstica


A mdia de uma varivel aleatria X tambm chamada de esperana matemtica da
varivel aleatria X, ou valor esperado da varivel aleatria X, e denotada por E(X), ou ainda
Me(x).
H dois tipos de distribuies de probabilidade: as discretas e as contnuas. Distribuies
discretas tratam da distribuio de probabilidade associada a variveis aleatrias discretas. Por
exemplo, a funo seguinte corresponde a uma distribuio de probabilidade discreta:
X

P[X = xi]

1/10

2/10

5/10

1/10

1/10

Observa-se que a soma de todas as probabilidades um:


P[S] = P[X = 0] + P[X = 1] + P[X = 2] + P[X = 3] + P[X = 4] =
= 1/10 + 2/10 + 5/10 + 1/10 + 1/10 = 10/10 = 1
Essa caracterstica vlida para toda distribuio de probabilidade discreta, assim como tambm
toda probabilidade um nmero positivo. Ou seja, se a varivel aleatria discreta assume k
valores, ento:
k

P [X = x ] = 1
i

e P[X=x] > 0.

i =1

O valor mdio que uma varivel aleatria assume chamado, como j dito, alm de mdia,
tambm de esperana matemtica e de valor esperado. Para a obteno do valor mdio que uma
varivel aleatria discreta assume, ou seja, sua esperana ou valor esperado, faz-se da mesma
maneira como foi feito para o clculo da mdia para dados agrupados, substituindo fri por P[X = xi]:
E(X) = Me(X) =

x P [X = x ]

X = =

i =1

No exemplo acima tem-se:


E(X) =

X = 0

1
2
5
1
1
+1
+2
+3
+4
= 1,9
10
10
10
10
10

O conceito de varincia de uma varivel aleatria tambm semelhante quele


apresentado para dados agrupados, trocando-se fri por P[X= xi]:

Var(X) = 2x = 2 =

[x
i =1

No exemplo tem-se:

Me(x )] P [X = x i ]
2

Guia de estudos de Estatstica


= (0 - 1,9)
2

1
2 2
2 5
2 1
2 1
= 1,09
+ (1 - 1,9)
+ (2 - 1,9)
+ (3 - 1,9)
+ (4 - 1,9)
10
10
10
10
10

Existe uma srie de distribuies de probabilidades discretas em Estatstica. Duas das mais
importantes sero vistas a seguir. A distribuio contnua mais importante a distribuio Normal,
e a estudaremos logo em seguida as discretas.

3.3. DISTRIBUIO BINOMIAL


Uma situao relativamente comum em pesquisas cientficas ou levantamentos aquela
onde apenas dois tipos de resultados so possveis, como, por exemplo:
S = {macho, fmea}.
S = {rvore doente, rvore no doente}.
S = {grande produtor, pequeno produtor}.
S = {talho irrigado, talho no irrigado}.

Uma distribuio de probabilidades que lida com tais situaes a chamada distribuio Binomial.

Em geral existe interesse maior em um dos 2 resultados possveis, o qual denominado


de sucesso, e o outro de insucesso ou fracasso. Para o desenvolvimento de seu modelo, considere
o exemplo de um suno fmea dando a luz a 5 leites. Os eventos possveis so ou o nascimento
de machos ou de fmeas. Considere a varivel aleatria nmero de machos, que obviamente
discreta, podendo variar de 0 a 5. A probabilidade de que sejam 5 machos igual probabilidade
de que o primeiro leito seja macho, e de que o segundo seja macho, e de que o terceiro tambm
o seja e assim por diante. Como os eventos so independentes, tem-se que:
P[X = 5] = (0,5).(0,5).(0,5).(0,5).(0,5) = (0,5)

Considere agora o nascimento de 3 machos e 2 fmeas. A probabilidade de uma


determinada combinao, por exemplo, a de que os 3 primeiros leites, L1, L2, L3, sejam machos, e
os dois ltimos, L4, L5, sejam fmeas, igual a:
P[M] P[M] P[M] P[F] P[F] = (0,5)

No entanto, esta no a nica combinao possvel para o nascimento de 3 machos,


existem vrias, conforme mostrado abaixo:

Guia de estudos de Estatstica


L1

L2

L3

L4

L5

Probabilidade

(0,5)

(0,5)

(0,5)

(0,5)

(0,5)

(0,5)

(0,5)

(0,5)

(0,5)5

(0,5)

Na realidade, em vez de listar todas as possibilidades, como feito acima, pode-se calcular
diretamente o nmero total de combinaes possveis por meio de:
C5,3 =

5!
= 10
3! (5 3)!

Dessa forma, para calcular a probabilidade de nascimento de 3 machos, sem importar com
5

a ordem, tem-se que somar o valor (0,5) 10 vezes. Portanto:


5

P[X = 3] = 10.(0,5) = 0,3125


Considerando agora qualquer nmero x de machos nascidos, em um total de 5 leites,
tem-se que a probabilidade desse evento :
P[X = x] = C5,x [P (M )] [P (F )]
x

5 x

Esse exemplo, justamente, ilustrou o desenvolvimento da distribuio binomial. O modelo geral


fornece a probabilidade de ocorrncia de x sucessos, na observao de n eventos:
x

P[X = x] = Cn,x p q

(n-x)

onde p a probabilidade de sucesso (no exemplo, de nascimento de machos), e q a probabilidade


insucesso, igual a (1-p).
Observe, ento, que a distribuio binomial definida por dois nmeros, ou parmetros,
que diferenciam as mais diferentes situaes, sem os quais no calculamos P[X = x]: p e n.

Guia de estudos de Estatstica


Conceito 3.3. Parmetro de uma Distribuio de Probabilidades. Uma Constante (conhecida ou
desconhecida) que define uma determinada distribuio de probabilidades.

Assim, uma notao comumente empregada para denotar que determinada varivel aleatria
possui distribuio binomial com parmetros p e n, :
X B (n, p)
Pode-se demonstrar que a esperana e a varincia de uma varivel aleatria que segue
uma distribuio binomial so dadas por:
Me(X) = E(X) = =

X = = np

Var(X) = 2x = 2 = npq
Ou seja, se avalissemos todas as possveis leitegadas de 5 leites de infinitas porcas teramos
um valor mdio de 5.(0,5) = 2,5 machos, com varincia entre leitegadas igual a 5.(0,5).(0,5) = 1,25
machos ao quadrado.

3.4. DISTRIBUIO DE POISSON


A distribuio de Poisson refere-se a uma varivel tambm discreta, mas que pode assumir
qualquer nmero inteiro positivo, ou seja:
X = 0, 1, 2, ...
Essa distribuio importante para descrever fenmenos de ocorrncia rara, como certos
fenmenos meteorolgicos e climticos, ecloso de ovos de insetos submetidos a um inseticida,
porcentagem de plantas doentes em campos de produo de sementes, n de chamadas
telefnicas num certo intervalo de tempo numa central telefnica, n de pontos com defeito em
chapas de ao e em peas de tecido, entre muitos outros.
A distribuio de probabilidade dada por:
P[X = x] =

e x
x!

onde e = 2,718... (nmero de Euler), e o parmetro da distribuio, e que corresponde ao valor


mdio que X assume.
Como exemplo, considere o nmero de chuvas por ano com intensidade acima de 50mm/h
que ocorrem em uma regio. Essa varivel pode ser importante no dimensionamento de drenos ou

Guia de estudos de Estatstica


barragens. A populao constituda por todos os anos da regio, e infinita, pois abrange os
infinitos anos que ainda esto por vir. A varivel aleatria discreta, porque conta o nmero de
-1

chuvas acima de 50 mm.h . Suponha que o nmero mdio de chuvas por ano com essa
intensidade seja 1,5. Ento, se o modelo de Poisson for um bom descritor, tem-se que:

e 1,5 1,5 0
= 0,2231
0!

P[X = 0] =

E assim, para outros valores de X:


X

etc.

P[X = xi]

0,2231

0,3347

0,2510

etc.

A probabilidade de que X seja maior do que 2 pode ser obtida pelo teorema 1 de
probabilidades:
P[X > 2] = 1 - P[X 2]
pois o evento (X 2) o complemento do evento (X > 2). Como
P[X 2] = P[X = 0] + P[X = 1] + P[X = 2] = 0,8088
tem-se que:
P[X > 2] = 1 - 0,8088 = 0,1912

A distribuio de Poisson tem a particularidade de que sua mdia e sua varincia so


ambas iguais a :
E(X) =

X =

=
2

tambm.

Assim, no exemplo das chuvas, a varincia associada ao nmero de precipitaes com intensidade
-1

acima de 50 mm.h tambm igual a 1,5.


A distribuio de Poisson pode tambm ser usada como uma aproximao da distribuio
Binomial, fazendo ser np. Esta aproximao tanto melhor quanto mais n e p 0. Na
prtica, quando n > 50 e p < 0,10, tal aproximao j pode ser usada. Como um exemplo, se no
caso dos leites da seo anterior o nmero de leites fosse n = 500 e estivssemos interessados
em pesquisar uma doena com probabilidade de ocorrncia de 8,2 %, ento a probabilidade de
que encontremos pelo menos 1 leito doente poderia ser calculada no somente pela Binomial
mas tambm pela Poisson:
N = 500 > 50 e p = 0,082 < 0,10, logo as condies para aproximar a Binomial pela Poisson esto
atendidas:

Guia de estudos de Estatstica


X: nmero de leites doentes entre os 500.
P (X 1 ) = 1 P (X = 0) = 1 e

-500 x 0,082

. (500 x 0,082) 1
0

3.5. DISTRIBUIO NORMAL


A distribuio Normal corresponde a mais importante distribuio de variveis aleatrias
contnuas, em razo da sua enorme aplicao nos mais variados campos do conhecimento, a
includa as cincias agrrias.
Sua funo densidade de probabilidade dada por:

f(x) =

(x a )2
exp
,
2b 2
2b 2

- < x <

sendo = 3,1416... Trata-se de um modelo que procura explicar o comportamento de uma varivel
aleatria contnua X que pode variar desde - at , sem explicar as causas desse
comportamento. Por isso que se trata de um modelo no-determinstico.
Conforme se observa, so necessrios dois parmetros para definir uma distribuio
normal, as constantes a e b. Na realidade, o primeiro corresponde mdia (ou esperana) da
varivel aleatria X, e o segundo corresponde varincia. Em outras palavras, a = e b = . Logo,
podemos escrever:
f(x) =

1
2 2

(x )2
exp
, - < x <
2 2

A aparncia dessa distribuio pode ser vista na Figura 3.1

A distribuio Normal tambm conhecida por distribuio gaussiana, curva normal ou


curva de Gauss, e possui as seguintes propriedades:
1) Ela simtrica em relao a x = ;
2) Forma campanular;
3) As medidas de posio Me(X), Md(X), Mo(X) confundem-se no mesmo ponto, e so
todas iguais a ;
4) definida simplesmente a partir dos parmetros e ;
2

5) Possui dois pontos de inflexo correspondentes aos pontos x - e x + ;


6) Assinttica em relao ao eixo da abscissa, ou seja, ela nunca corta o eixo X, mas cada
vez se aproxima mais dele;

Guia de estudos de Estatstica


7) A rea total sob a curva, como em qualquer funo densidade de probabilidade, igual
a 1.

A probabilidade de uma varivel aleatria contnua assumir exatamente um certo valor


praticamente zero e, portanto, nesse caso, o enfoque mais apropriado obter probabilidades da
varivel pertencer a classes ou a intervalos. Esse clculo de probabilidades, para variveis
contnuas, obtido por meio de reas relativas a grficos com funes densidade de
probabilidade.

Figura 3.1. Aspecto de uma distribuio Normal.

Para ilustrar de que maneira isso pode ser feito, considere um exemplo referente ao tempo
de vida dos aspersores da marca hipottica Agro-1000. Trata-se de uma populao infinita, pois
abrange todos os aspersores dessa marca que existiram, existem ou viro a ser fabricados um dia.
A varivel descritora o tempo de vida, expresso em horas de funcionamento at a quebra.
Suponha que essa varivel aleatria possa ter seu comportamento descrito por uma distribuio
normal, com mdia = 500h e = 2500h . Um produtor deseja saber qual a probabilidade de que
2

um aspersor tenha um tempo de vida entre 480 e 520 horas. Nesse caso, tem-se uma situao
como a da Figura 3.2.

Guia de estudos de Estatstica

Figura 3.2. Distribuio normal relativa ao tempo de vida dos aspersores da marca Agro-1000.

Para obter a probabilidade de que um aspersor dure entre 480 e 520 horas, necessrio
calcular a rea hachurada na Figura 3.2. O procedimento para se fazer isso corresponde ao
clculo da integral:

P[480 < X < 520] =

520

480

(x 500)2
exp
dx
250 2
250 2

sendo f(x) a funo densidade de probabilidade. No caso da curva normal, essa integral no tem
uma soluo explcita e, por causa disso, necessrio fazer uso de um procedimento alternativo,
como ser visto no prximo item.

3.6. DISTRIBUIO NORMAL REDUZIDA OU PADRONIZADA


A distribuio Normal com mdia = 0 e varincia = 1 conhecida como distribuio
2

Normal reduzida ou padronizada. Uma varivel aleatria com essa distribuio geralmente
simbolizada pela letra Z.
Uma propriedade interessante de uma varivel aleatria X que segue qualquer distribuio
normal a de que ela pode sempre ser transformada em uma varivel Z, pela expresso:

Guia de estudos de Estatstica

z=

A vantagem dessa transformao a de que o valor de reas (ou seja, probabilidades)


relativo varivel Z pode ser tabelado e, com isso, valores de reas referentes a variveis X com
quaisquer distribuies normais tambm podem ser calculadas.
As reas referentes varivel Z que so geralmente tabeladas so do tipo:
P[ 0 < Z < z]
Existem tabelas prprias que contm os valores das reas da distribuio Z. Para exemplificar seu
uso, considere que se queira calcular:
P[ 0 < Z < 0,46]
Na Tabela 1.1 do Apndice, existe uma coluna indicadora e uma linha indicadora. Na coluna
existem valores de Z at a primeira casa decimal, e na linha a segunda casa decimal. Dessa
forma, para achar a probabilidade acima, basta buscar o valor 0,4 na coluna, e o valor 6 na linha.
Dessa forma, encontra-se o valor para a probabilidade como sendo igual a 0,1772. Essa rea est
representada na Figura 3.3.
Agora possvel calcular a probabilidade de que um aspersor da marca Agro-1000 dure
entre 480 e 520 horas. Para tanto, sero calculadas:
P[500 < X < 520]
P[480 < X < 500]
as quais, somadas, fornecero a probabilidade total P[480 < X < 520].
Como visto, a varivel X pode ser transformada na Z. A distribuio de X uma normal
com mdia 500 e varincia 2500, ou seja:
= 500

= 2500
2

= 50

Guia de estudos de Estatstica

Figura 3.3. Curva normal padronizada (Z).

Quando x = 500, isso corresponde ao valor de z = 0, pois:


z=

500

500 500
=0
50

E quando X = 520 tem-se:

z=

520 500
= 0,40
50

Portanto, pode-se escrever:

P[500 < X < 520] = P[0 < Z < 0,40]

Consultando a tabela de Z, tem-se que esta probabilidade vale 0,1554.

Falta agora calcular P[480 < X < 500]. No ponto X = 480, tem-se:

Guia de estudos de Estatstica

z=

480 500
= -0,40
50

Na tabela de Z, no constam os valores negativos. Mas, como trata-se de uma distribuio


simtrica em torno do 0, tem-se que:

P[-0,40 < Z < 0] = P[0 < Z < 0,40]

E assim:
P[480 < X < 500] = P[0 < Z < 0,40] = 0,1554

Portanto, a probabilidade total P[480 < X < 520] vale:

P[480 < X < 520] = P[480 < X < 500] + P[500 < X < 520] = 0,1554 + 0,1554 = 0,3108

Outro aspecto importante da distribuio Normal padronizada o de que, como se trata de


uma distribuio simtrica em torno de 0, e cuja rea abaixo dela totaliza 1, ento P[Z > 0] =
0,5000. Dessa forma, possvel calcular probabilidades de Z estar acima de quaisquer valores.
Por exemplo, suponha que se queira obter P[Z > 0,40]. Uma vez que P[Z > 0] = P[0 < Z < 0,40] +
P[Z > 0,40], tem-se:
0,5000 = 0,1554 + P[Z > 0,40]
E assim, P[Z > 0,40] = 0,3446.
Um aspecto interessante da distribuio Normal o efeito que diferentes valores para a
varincia provocam na aparncia da curva (Figura 3.4).

Guia de estudos de Estatstica

Figura 3.4. Trs curvas normais referentes a diferentes variveis aleatrias X1, X2 e X3, com
mesma mdia, mas com 1 > 2 > 3 (a mais alta tem 3 e a mais achatada 1 e a intermediria
2

2 ).
2

3.7. APROXIMAO NORMAL DISTRIBUIO BINOMIAL E


POISSON
O clculo de probabilidades em algumas distribuies binomiais pode ser extremamente
laborioso, em onde a varivel aleatria pode assumir muitos valores. Por exemplo, considere n =
135 e p = 0,6. Qual a probabilidade de que X 98, por exemplo? Para essa determinao ter-se-ia
que calcular as probabilidades de que X = 98, X = 99,..., at X = 135, para depois som-las.
Na realidade, se considerssemos que a varivel aleatria X pudesse, apesar de discreta,
ser razoavelmente bem descrita por uma distribuio normal, esse clculo se tornaria bem mais
simples, atravs da varivel Z.

Guia de estudos de Estatstica


Como exemplo, considere um administrador que seja responsvel por executar um plano
de ao na empresa em que trabalha, liderando uma equipe onde o perfil do integrante bem
definido, aptos para executar uma determinada funo. Para tanto, ele ter que avaliar candidatos
na cidade e contratar 40 pessoas. Suponha que a probabilidade de que um candidato seja
qualificado ao trabalho (evento de sucesso) seja de 60% (ou seja, p = 0,6). Durante uma semana,
ele vai avaliar os 60 candidatos inscritos, e deseja saber qual a probabilidade de encontrar nestes
inscritos pelo menos 40 pessoas aptas para integrar a equipe. O nmero X de pessoas aptas
uma varivel aleatria discreta com distribuio Binomial, com n = 60 e p = 0,6. A distribuio de
probabilidade dessa varivel est apresentada na Figura 3.8.
Nota-se a grande semelhana entre o aspecto desse grfico e uma curva Normal.
Portanto, essa distribuio pode ser aproximada para uma Normal, poupando esforos no clculo
de probabilidades. Para tanto, deve-se observar que a esperana e a varincia dessa varivel
aleatria so dadas por:
E(X) = np = 60.0,6 = 36
2 = npq = 60.0,6.0,4 = 14,4
Agora basta considerar uma curva normal com = 36 e = 14,4 , e ter-se- uma aproximao
2

Normal (Figura 3.5 e 3.6).

12
10
8
6
4
2
0
20

25

30

35

40

45

50

Figura 3.5. Grfico de barras verticais representando a distribuio de probabilidade da varivel


aleatria nmero de trabalhadores aptos, em um total de 60 candidatos.

Guia de estudos de Estatstica

Figura 3.6. Aproximao normal a uma distribuio Binomial com parmetros n = 60 e p = 0,6.

Para calcular a probabilidade de que entre esses 60 candidatos, haver pelo menos 40
aptos ao servio, basta agora utilizar a tabela de Z, com apenas a seguinte modificao. Como se
trata de uma aproximao, alguns autores apontam que o valor de 40, por exemplo, por se tratar
de uma varivel discreta, equivale ao intervalo [39,5 ; 40,5] quando feita a correspondncia para
o caso contnuo. Dessa forma, deve-se calcular a probabilidade de X ser maior do que 39,5 , ao
invs de 40. Ou seja:
P[X 40] equivalente a P[X > 39,5] no caso contnuo.
Assim, quando X vale 39,5 , Z vale:
z=

39,5 36
= 0,92
3,79

Consultando a tabela, verifica-se que:


P[0 < Z < 0,92] = 0,3212
E assim:
P[X > 39,5] = P[Z > 0,92] = P[Z > 0] - P[0 < Z < 0,92] = 0,5000 - 0,3212 = 0,1788
Ou seja, existe uma chance de 17,88% de se encontrar 40 pessoas, ou mais, aptas para o servio,
em um total de 60 candidatos.

Guia de estudos de Estatstica


Essa probabilidade, quando calculada da maneira exata e no pela aproximao normal,
fornece o valor 0,1786, evidenciando assim a qualidade da aproximao. Alguns autores observam
que so esperados bons resultados quando os produtos np e nq sejam ambos maiores que 5.
Caso contrrio, o clculo exato de probabilidades recomendado.
Com argumentao semelhante, podemos justificar a aproximao da Poisson pela
Normal. Como exemplo, consideremos o cenrio em que o n de bactrias de uma certa espcie
2

por cm em uma lmina est para ser contado. Este nmero de bactrias uma varivel aleatria
X, que assume valores 0,1,2,3,4.... O parmetro desta Poisson a mdia de bactrias
2

encontrada em lminas semelhantes. Digamos que esta mdia estimada como sendo 27,6 / cm .
2

A probabilidade de que sejam encontradas mais de 35 bactrias por cm calculada


exatamente como:
P(X > 35) = P(X = 36) + P(X = 37) + P(X = 38) + ... =

e 27,6

27,6 36
27,6 37
27,6 38
+ e 27,6
+ e 27,6
+ ...
36!
37!
38!

ou como
1 - P(X > 35) = 1- P(X 35) = 1- [P(X = 0) + P(X = 1) + ... +P(X = 35)] =

27,6 0
27,6 1
27,6 35
1- e 27,6
+ e 27,6
+ ... + e 27,6
= 0,9292
0!
1!
35!

A distribuio Normal pode ser usada para o clculo aproximado de uma Poisson, trazendo

= e = , desde que, segundo estudos que analisam a quantidade da aproximao,


>15. O valor aproximado da mesma probabilidade 0,4% (calcule voc mesmo). Este erro

diminui medida que aumenta.

3.8. EXERCCIOS RESOLVIDOS

1) Sabe-se que 5% de um rebanho bovino est com febre aftosa. Qual a probabilidade de que num
lote de 6 animais retirados deste rebanho, tenha-se:
Esse um caso clssico de uma Distribuio Binomial, ou seja, os resultados esto condicionados
a sucesso ou insucesso. Como p = 0,05 e q = 1 - p, portanto q = 0,95. Observe que n = 6.
Sendo:
P(X = x) = C n,x p x q n x

sendo: C n,x =

a) Nenhum animal com febre aftosa.

n!
x! (n x)!

Guia de estudos de Estatstica


Para encontrar a probabilidade de que nenhum animal esteja infectado, teremos que achar esta
funo.
Utilizamos ento:

P ( X = 0) =

6!
0,05 0 0,95 6 = 0,735
0!6!

Portanto, a probabilidade de no encontrar nenhum animal infectado neste lote de seis animais
de 73,5%.
b) Dois animais com febre aftosa

P ( X = 2) =

6!
0,052 0,95 4 = 0,0304
2!4!

Assim, a probabilidade de encontrarmos dois animais infectados neste lote de 6 animais de


3,04%.
c) Mais de um animal com febre aftosa
Para facilitar o volume de clculos, utilizamos o conceito de funo acumulada, mas para isto
necessrio primeiro calcularmos a funo para um animal infectado para o lote de seis animais.

P ( X = 1) =

6!
0,05 1 0,95 5 = 0,232
1!5!

Como j se tem a probabilidade para nenhum animal e para um animal infectado para este lote,
podemos, enfim, calcular a probabilidade para mais de um animal infectado (P(X >1)).

P ( X > 1) = P ( X = 2) + P ( X = 3) + ... + P ( X = 6)
P ( X > 1) = 1 [P ( X = 0) + P ( X = 1)] = 1 [0,735 + 0,232] = 0,033
Portanto, a probabilidade de que, neste lote de 6 animais, tenha-se mais de um animal infectado
de 3,7%.

2) Um jogador de basquete converte 90% dos lances livres. Qual a probabilidade de que este
jogador converta 4 de 6 lances livres de uma partida.
Este um outro exemplo clssico da Distribuio Binomial. Temos p = 0,9 e q = 0,1 pois p + q = 1.
Sendo n = 6 e x = 4.

P ( X = 4) =

6!
0,94 0,12 = 0,0984
4!2!

Portanto, a probabilidade de que o jogador converta 4 de 6 lances livres de 9,84%.

3) A probabilidade de que um indivduo apresente reao alrgica aps a aplicao de soro de


0,2%. Esse mesmo soro foi aplicado a um grupo de 1800 pessoas. Qual a probabilidade de que:
a) Duas pessoas tenham reao alrgica?
Este exerccio um caso onde se aplica a Distribuio de Poisson como aproximao da Binomial.
Os dados:
n = 1800
n

p = 0,002

50 e p 0,10

q = 0,998

Guia de estudos de Estatstica


Ento sua mdia ser:

= np = 1800 .0,002 = 3,6 alrgicos


E a funo de Poisson:
P ( X = x ) = e

x
x!

Assim, utilizando a funo de Poisson:

3,62
= 0,1770
2!

P ( X = 2) = e 3,6

Assim, a probabilidade de que duas pessoas apresentem reao alrgica ao soro de 17,70%.
b) No mximo quatro pessoas tenham reao alrgica?
No mximo quatro pessoas significa dizer que podem ser: nenhuma pessoa tendo reao alrgica
ou uma ou duas ou trs ou quatro pessoas apresentando a reao. Dessa forma, para encontrar a
probabilidade de no mximo quatro pessoas apresentar a reao, tem-se que calcular a
probabilidade para cada uma delas e posteriormente soma-las.

P ( X = 0) = e 3,6

3,60
= 0,0273
0!

P ( X = 1) = e 3,6

3,61
= 0,0984
1!

P ( X = 3) = e 3,6

3,6 3
= 0,2125
3!

P ( X = 4) = e 3,6

3,6 4
= 0,1912
4!

P ( X = 2) = 0,1770

Portanto:

P ( X 4) = [P ( X = 0) + P ( X = 1) + ... + P ( X = 4)] = 0,7064


Assim, a probabilidade de que no mximo quatro pessoas apresentem reao alrgica 70,64%.
c) Pelo menos duas pessoas apresentem reao alrgica?
Como j calculamos, as probabilidades para nenhuma e para uma pessoa apresentar reao
alrgica, podemos utilizar o conceito de funo acumulada.

P ( X 2) = 1 [P ( X = 0) + P ( X = 1)] = 1 [0,0273 + 0,0984 ] = 0,8743


Assim, a probabilidade de que pelo menos duas pessoas apresentem reao alrgica de
87,43%.
-2

4) Numa lmina verificou-se que existiam em mdia 3 bactrias.cm . A lmina foi subdividida em
2

300 quadrados de 1 cm .
a) Em quantos desses quadrados voc espera encontrar no mximo 1 bactria?
Este exerccio um caso onde se aplica a Distribuio de Poisson diretamente.
P ( X = 0) = e
P ( X = 1) = e

x
x!

x
x!

= 2,718 3

30
= 0,0498 = 4,98%
0!

= 2,718 3

31
= 0,1494 = 14,94%
1!

Assim, a probabilidade de se encontrar uma bactria em qualquer um destes quadrados de


14,94%.

Guia de estudos de Estatstica


Para os 300 quadrados:
300 .( 4 ,98 % + 14 ,94 % ) = 59 ,76 60

Assim, espera-se encontrar no mximo 1 bactria em cerca de 60 quadrados.


-2

b) Qual a probabilidade de se encontrar mais de 4 bactrias.cm ?


Aqui utiliza-se o conceito de funo acumulada, onde:

P ( X > 4) = 1 [P ( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3) + P ( X = 4)]
Como as probabilidades para 0 e para 1 foram calculadas no item anterior, calcula-se para 2, 3 e 4.
P ( X = 2) = e
P ( X = 3) = e

P ( X = 4) = e

x
x!

x
x!

x
x!

= 2,718 3

32
= 0,224
2!

= 2,718 3

33
= 0,224
3!

= 2,718 3

34
= 0,168
4!

P ( X > 4) = 1 [0,0498 + 0,1494 + 0,224 + 0,224 + 0,168 ] = 0,1848 ou 18,48%

5) Usando a curva normal padronizada, determine as seguintes reas com representao grfica:
a) Entre 0,0 e 1,32:
Correspondendo rea de interesse a parte hachurada de azul. Assim, o valor correspondente na
tabela de z compreendido entre estes valores de 0,4066.

0,4066

b) Entre 0,17 e 1,28:


Assim, a probabilidade compreendida entre estes valores ser obtida pela diferena obtida de
0,397 0,0675 = 0,3322, pois, como sabemos, a probabilidade fornecida na tabela de z est
compreendida entre zero e o valor de interesse.

Guia de estudos de Estatstica


0,3322

c) Entre 0,92 e 1,64


Somando as probabilidades para estes valores obteremos: 0,3212 + 0,4495 = 0,7707

d) Abaixo de 1,20.
A probabilidade ser a soma de: 0,5 + 0,3849 = 0,8849

Guia de estudos de Estatstica


e) esquerda de -0,84:
Assim a probabilidade ser dada por: 0,5 0,2995 = 0,2005

6) Uma distribuio normal tem mdia 50 e varincia 36. Encontre as seguintes reas em %:
a) Abaixo de 43.
Calculando z:

z=

43 50
= 1,17
6

Assim, a probabilidade ser: 0,5 0,379 = 0,121.

b) Acima de 46.

z=

46 50
= 0,667
6

Assim, a probabilidade ser: 0,50 + 0,2486 = 0,7486.

Guia de estudos de Estatstica


c) Entre 40 e 60.

z=

x 60 50
=
= 1,67
6

Como a distncia dos dois extremos para a mdia so iguais, a probabilidade ser:
0,4525 x 2 = 0,905.

d) Entre 55 e 65.
Temos que calcular o z para cada um destes valores:
z1 =

x 55 50
=
= 0,83

z2 =

x 65 50
=
= 2,5

Assim, temos que a probabilidade ser: 0,4938 0,2967 = 0,1971.

7) Num povoamento florestal os dimetros altura do peito (DAP) apresentam distribuio normal
com mdia 18,2 cm e desvio padro 3,4 cm.
a) Foram cortadas 1200 rvores que tinham DAP acima de 20,0 cm. Quantas rvores existiam no
povoamento?
Considerando x > 20,0 cm

z=

x 20,0 18,2
=
= 0,53

3,4

Ento, a probabilidade de existir no povoamento 1200 rvores acima de 20,0 cm :


0,5 - 0,2019 = 0,2981.
Para encontrar o nmero de rvores no povoamento, basta utilizarmos uma regra de trs:

Guia de estudos de Estatstica


X --------------------------- 100%
1200 ----------------------- 29,81%
x = 4025 rvores. Portanto, o povoamento total de 4025 rvores.

b) Quantas rvores tem DAP menor que 16 cm?

z=

x 16,0 18,2
=
= 0,65

3,4

Ento, a probabilidade de existir rvores com DAP abaixo de 16 cm ser 0,5 0,2422 = 0,2578.
Utilizando a regra de trs:
w --------------------------

25,78%

4025 ----------------------- 100,00%


w = 1038 rvores. Portanto, 1038 rvores possuem DAP abaixo de 16 cm.

8) Acredita-se que as notas de Estatstica referentes disciplina de nivelamento de ps-graduao


de 2004 tem distribuio aproximadamente Normal, com mdia 70 e desvio padro em torno de 4.
Nesse caso, devero ser atribudos conceitos A, B e C de acordo com o seguinte critrio: conceito
A, 30% maiores notas; conceito B, 40% intermedirias; conceito C, as restantes. Pede-se
encontrar os limites para os conceitos A, B e C.

Guia de estudos de Estatstica

Calculando os valores de Z que determinam 30% das probabilidades abaixo e acima:

xA
x 70
0,524 = A
x A = 72,1

4
x
x 70
Abaixo Z = C
0,524 = C
x C = 67,9

Acima

Z=

Assim, as notas acima de 72,1 tero conceito A, as notas abaixo de 72,1 e acima de 67,9 tero
conceito B, e aquelas abaixo de 67,9 tero conceito C.

3.9. EXERCCIOS PROPOSTOS


1) Numa leitegada de 5 leites, pergunta-se:
a) Qual a probabilidade de no haver fmeas?
b) Qual a probabilidade de haver duas fmeas?
c) Qual a probabilidade de haver pelo menos duas fmeas?

2) Numa grande criao de coelhos 40% so machos. Entre 20 coelhos retirados aleatoriamente,
qual a probabilidade de:
a) Retirar 5 coelhos machos.
b) Retirar pelo menos 2 coelhos machos.
c) Retirar no mximo 2 coelhos machos.

3) Uma vacina apresenta eficincia de 99,98% na imunizao dos indivduos contra determinado
vrus. Toda a populao de uma cidade de 10000 habitantes foi vacinada. Qual a
probabilidade de que nesta cidade:
a) Uma pessoa seja infectada?
b) Pelo menos trs pessoas sejam infectadas?
c) No mnimo uma pessoa seja infectada?

Guia de estudos de Estatstica


4) Um livro de 300 pginas tem 630 erros de impresso, distribudos ao acaso por todas as
pginas do livro. Qual a probabilidade de que, abrindo o livro ao acaso em uma pgina, esta
pgina apresente 5 erros de impresso?

5) Uma certa viga de ao tem resistncia mdia de 7.500 psi. Suponha que essa resistncia tenha
distribuio normal com desvio padro de 650 psi. Determine as probabilidades para as seguintes
capacidades de resistncia:
a) Menor que 6.900 psi.
b) Maior que 7.000 psi.
c) Maior que 10.000 psi.

6) Na populao humana sabido que 30% das pessoas apresentam algum tipo de problema de
viso. Numa classe de 40 estudantes, qual a probabilidade de encontrar:
a) 8 alunos com problemas visuais.
b) Mais de 13 alunos com problemas visuais.
c) De 11 a 15 alunos com problemas visuais.
Obs: Neste exerccio utilize a aproximao da Distribuio Binomial pela Normal.

UNIDADE 4
AMOSTRAGEM
4.1. INTRODUO

Frequentemente no possvel ou vivel a observao de todos os elementos de uma


populao (ou seja, censos), e nesses casos tem-se que fazer uso de amostras.
A finalidade de uma amostra a de descrever, indiretamente, a populao. Portanto,
necessrio que as amostras coletadas guardem caractersticas as mais prximas possveis da
populao. Esta qualidade denominada representatividade.

Conceito 4.1. Representatividade. Qualidade das amostras em possuirem ou reproduzirem as


mesmas propriedades da populao.

Assim, necessria a observao de alguns cuidados no momento da coleta de amostras,


caso contrrio, problemas quanto representatividade podem ocorrer. Por exemplo, se na
amostragem de um povoamento florestal forem observadas apenas rvores de um dos quadrantes
do talho, pode acontecer de nesse quadrante ocorrer uma fertilidade de solo mais alta do que no
restante do talho. Dessa forma, a quantidade de madeira no povoamento todo seria
superestimada.
O procedimento bsico para garantir representatividade nas amostras o sorteio.
Conceito 4.2. Sorteio. Procedimento pelo qual conferida a todos os elementos de um conjunto a
mesma probabilidade de serem tomados.

O sorteio tambm chamado de aleatorizao ou casualizao. Quando a obteno de


uma amostra sofreu algum mecanismo de sorteio, ela chamada de amostra aleatria. A coleta de
amostras aleatrias chamada de amostragem aleatria.
Conceito 4.3. Amostra Aleatria. Amostra retirada por algum mecanismo de sorteio.

Guia de estudos de Estatstica


O sorteio garante representatividade porque evita tendenciosidades no momento da coleta. A
amostragem pode ser classificada conforme a Figura 4.1.

Simples (AAS)
Amostragem
aleatria

Estratificada (AAE)
Por Conglomerado (AAC)
Sistemtica (AS)

Figura 4.1. Classificao da amostragem aleatria.

Independente da natureza da amostragem (AAS, AAE, AAC ou AS), ela pode ainda ser
com reposio ou sem reposio:

Amostragem

Sem reposio
Com reposio

Figura 4.2. Classificao da amostragem quanto reposio.

Na amostragem com reposio, os elementos da populao, medida que so sorteados,


so devolvidos populao, e podem, eventualmente, ser sorteados de novo. Esse o caso, por
exemplo, quando tilpias so amostradas em tanques de piscicultura, pesadas, e devolvidas aos
tanques. Quando a amostragem sem reposio, os elementos so sorteados apenas uma nica
vez. Tal o caso onde, por exemplo, 50 animais so sorteados do rebanho com um total de 201
vacas.
Apesar de que a representatividade de uma amostra construda utilizando-se do
expediente sorteio, que torna as amostras aleatrias, algumas vezes, na prtica, procedimentos de
amostragem no aleatria so utilizados, admitindo-os como aproximadamente aleatrias.
Algumas destes procedimentos de amostragem noprobabilstica so:
1. Amostragem a esmo: escolhem-se os elementos da populao que foram parte da amostra
por algum mecanismo ou expediente sem lgica, ou desgovernado, ou esforando-se
para emular (imitar) um sorteio.
2. Amostragem por conveninia: escolhem-se os elementos da populao para os quais se
tem maiores possibilidades de acesso.
Esses procedimentos no-probabilsticos, a rigor, no deveriam ser utilizados na Estatstica,
portanto, seu uso, se necessrio (como s vezes ) deve ser feito com cautela, procedendo

Guia de estudos de Estatstica


sempre o expurgo de qualquer tendncia ou vis na escolha dos elementos e composio da
amostra. Quando se forado a utilizar amostragem no-aleatria, no se pode proibir de se
aplicar mtodos estatsticos como se a amostra fosse aleatria, porm, caso algum queira fazer
este desvio da teoria, deve fazer com toda cautela. Neste guia daremos enfoque apenas aos
procedimenos aleatrios.

4.2. AMOSTRAGEM ALEATRIA SIMPLES (AAS)


Este mtodo de amostragem aleatria o mais simples, e basicamente tal que
todos os elementos da populao tenham a mesma probabilidade de serem coletados. Assim, se a
populao for finita com N elementos, cada um ter a probabilidade de 1/N de ser sorteado.
A amostra tem, como foi visto, n elementos. Se a AAS for feita com reposio em uma
populao finita com N elementos, ento o nmero total de amostras possveis dado por:
o

N de amostras possveis = N

Por outro lado, se ela for feita sem reposio, ento o nmero de amostras possveis :
o

N de amostras possveis = AN,n


Obs. AN,n arranjo de N elementos tomados n-a-n, dado por N! / (N n)! .
Na prtica, a realizao do sorteio no processo de AAS feita mediante vrias
possibilidades. Pode-se, por exemplo, escrever em papeizinhos os N elementos da populao,
coloc-los em uma caixa e sorte-los. Pode-se ainda identificar os elementos com um nmero e
sorte-los mediante tabelas de nmeros aleatrios, ou funes randmicas na calculadora ou
computador. Ou ainda proceder mtodos com apoio computacional. A figura abaixo um exemplo.

Guia de estudos de Estatstica


Ser apresentado um exemplo, a seguir, para ilustrar o uso de tabelas aleatrias. Uma
tabela aleatria nada mais que uma coleo de nmeros contidos em um intervalo,
bagunados, e com igual probabilidade de ocorrncia. A Tabela 4.1 foi gerada a partir da funo
randmica de uma calculadora eletrnica.
Tabela 4.1. 50 nmeros aleatrios (x1000) entre 0 e 1000 gerados a partir da funo randmica de
uma calculadora eletrnica.
237

464

533

282

623

592

074

481

613

874

602

269

678

269

273

346

355

110

211

113

200

417

046

914

201

628

549

704

707

295

847

615

452

454

129

643

552

975

441

091

486

197

153

541

802

980

798

603

373

156

Agora, suponha que se queira coletar uma amostra de tamanho n = 5, de uma populao
com N = 10 elementos. Um procedimento de sorteio pode ser: associando um nmero que vai de 0
a 9, a todos os elementos da populao, pode-se sorte-los olhando-se o ltimo algarismo dos
nmeros da Tabela 4.1, a partir, por exemplo, do primeiro valor. Procedendo-se dessa forma, terse-ia o seguinte sorteio:
o

1 elemento da amostra:
o

1 nmero aleatrio = 237

toma-se o elemento 7 da populao

toma-se o elemento 2 da populao

toma-se o elemento 0 da populao

2 elemento da amostra:
o

2 nmero aleatrio = 602


o

3 elemento da amostra:
o

3 nmero aleatrio = 200


4o elemento da amostra:
o

4 nmero aleatrio = 847. Como o elemento 7 da populao j foi sorteado, passa-se para
o

o 5 nmero aleatrio = 486 toma-se o elemento 6 da populao.


o

5 nmero aleatrio = 486 toma-se o elemento 6 da populao.


6o nmero aleatrio = 464

toma-se o elemento 4 da populao

Assim, a amostra coletada fica sendo o conjunto {7, 2, 0, 6, 4}.


Quando a populao for infinita, no possvel identificar seus infinitos elementos com um
nmero. Nesse caso, pode-se proceder o mecanismo de sorteio com aqueles elementos que
estejam disponveis. Por exemplo, em estudos sobre o nmero de chuvas com certa intensidade
em uma regio, uma vez que se est querendo fazer previses para anos futuros, trata-se de uma

Guia de estudos de Estatstica


populao de infinitos anos, compreendendo aqueles que passaram e os que ainda esto por vir.
Assim, suponha que se disponha de apenas dados de 80 anos passados. Uma amostra poderia
ser sorteada dentre esses dados. Alis, mesmo que todos os 80 dados fossem analisados, este
conjunto continuaria sendo uma amostra com n = 80, da populao infinita, porm, no aleatria,
mas, sim, por convenincia.
Mesmo quando o procedimento de sorteio for pouco vivel, por exemplo, em uma
populao finita com N muito grande, pode-se coletar a amostra a esmo, evitando ao mximo
qualquer favorecimento no processo. Tal o caso, por exemplo, quando folhas de seringueira so
amostradas para verificao de ocorrncia da doena Mal das Folhas. Obviamente, no teria
sentido dar-se ao enorme trabalho de numerar todas as folhas de cada rvore e sorte-las em
seguida.

4.3. AMOSTRAGEM ALEATRIA ESTRATIFICADA (AAE)


Por vezes, a informao disponvel sobre a estrutura da populao a ser amostrada tal
que permite melhorar a representatividade da amostra. Um caso onde isso ocorre quando se
sabe que a populao dividida em estratos, isto , quando a populao se caracteriza por
subdivises com caractersticas distintas. A figura abaixo mais um exemplo.

Guia de estudos de Estatstica


A ttulo de ilustrao, seja a Cooperativa dos Agricultores da Regio de Orlndia Ltda
(CAROL), que representa cerca de 1500 agropecuaristas de 48 municpios do Norte de So Paulo
e 44 do Tringulo Mineiro. Suponha que a CAROL necessite de dados e informaes atualizadas
sobre a sua rea de atuao e sobre os seus associados para que possa atend-los
convenientemente. A populao de cooperados poderia ser dividida em 5 estratos, segundo o
tamanho da propriedade (Tabela 4.2).
Uma AAS desenvolvida sobre esta populao pode produzir uma amostra norepresentativa. Por exemplo, se decidimos coletar uma amostra com n=156 propriedades,
poderemos ter uma AAS quase totalmente concentrada, ou totalmente concentrada nos estratos 1
e 2. Podemos at t-la concentrada em um s estrato, o que, sem dvida, comprometer sua
representatividade, pois as caractersticas tecnolgicas, capitalizao, mo-de-obra, etc, devem
variar de estrato para estrato.
A soluo consiste na realizao de uma AAS dentro de cada estrato, de tal maneira que
todos os estratos fiquem representados. Tal delineamento amostral chamado de amostragem
aleatria estratificada (AAE). desejvel para maximizar a representatividade da amostra, que os
estratos tenham a maior homogeneidade possvel dentro de si.
Tabela 4.2. Estratificao dos cooperados da CAROL.
Estrato

rea (alqueires) Nmero de Propriedades

1 a 34 873

873

34 a 73 386

386

73 a 126 246

246

126 a 282186

186

282 ou mais
112

112

Tanto possvel estratificar populaes finitas como infinitas. Um exemplo de estratificao


em populaes infinitas so os experimentos montados para comparar caractersticas fitotcnicas
de certas variedades de uma cultura. Cada uma dessas variedades constitui um estrato da
populao (infinita) formada pelo conjunto de todas estas variedades avaliadas.
Uma vez fixado um tamanho n para a amostra a ser coletada, via AAE, um critrio de
ponderao (ou de proporcionalidade), para a determinao do tamanho da amostra em cada
estrato. Por este mtodo, o nmero de elementos ni a serem observados no estrato i proporcional
ao nmero de elementos Ni do estrato, de maneira que a preciso da avaliao em cada um deles
no seja desigual. Este critrio particularmente adequado quando a variabilidade presente em
cada estrato relativamente homognea. Determina-se, ento ni por:

Guia de estudos de Estatstica

ni =

Ni
N n

No exemplo da CAROL, se uma amostra de n = 100 elementos fosse coletada, ter-se-ia


uma situao como a da Tabela 4.3.
Tabela 4.3. Critrio ponderado para dimensionamento do nmero de elementos a serem
amostrados em cada estrato dos cooperados da CAROL.

Estrato i

rea da Propriedade

(i = 1, 2, ... 5)

Nmero de

Nmero de

Propriedades (Ni)

Elementos (ni)

1 a 34

873

48

34 a 73

386

21

73 a 126

246

14

126 a 282

186

10

282 ou mais

112

1803

100

Total

4.4. AMOSTRAGEM ALEATRIA POR CONGLOMERADO (AAC)


No apenas por causa da representatividade pode se buscar delineamentos amostrais
alternativos a AAS. Tambm, a limitao de recursos para realizar a amostragem pode ser um
fator importante. Tal a situao quando, por exemplo, uma agroindstria contrata um profissional
de marketing rural para analisar a viabilidade de lanamento de um novo produto, e para isso este
profissional tem que pesquisar caractersticas de agricultores da regio sul de Minas Gerais, mas
deseja evitar percorrer municpios espalhados por toda a regio (que poderia ser o caso se a
amostra fosse gerada por uma AAS).
Em vez disso, para diminuir os custos de locomoo (transporte), o profissional pode
concentrar suas entrevistas sobre um nmero limitado de sub-regies ou municpios e us-las
como uma amostra da populao de agricultores do sul de Minas Gerais. Para no perder o
carter aleatrio que a amostragem deve ter, ele poderia enumerar os municpios da regio e
sortear alguns deles (isto , formar uma AAS de municpios) e em seguida sortear agricultores
dentro desses municpios.
O processo de subdividir a populao em componentes (de mesmas caractersticas, ao
contrrio dos estratos) com o objetivo nico de facilitar o processo de coleta dos elementos da
amostra denominado de amostragem aleatria por conglomerado.

Guia de estudos de Estatstica


Deve-se observar que essa prtica de amostragem no deve comprometer a
representatividade, em razo da no-observao dos outros conglomerados. Para tanto,
necessrio que cada conglomerado reproduza bem as caractersticas da populao, sendo quase
que uma miniatura desta.
Se forem sorteados m conglomerados de uma populao, dentro dos quais todos os
elementos so observados, esse processo chamado de amostragem aleatria por conglomerado
em um estgio. Por outro lado, se dentro de cada conglomerado so sorteados outros tantos subconglomerados, ento a AAC em dois estgios, trs, etc. Essa hierarquizao de sorteios de
amostragens aleatrias uma dentro da outra, pode ser desenvolvida em mltiplos estgios, tantos
quanto a necessidade exigir e a populao suportar. A figura abaixo mostra uma amostragem por
conglomerado.

Guia de estudos de Estatstica

4.5. AMOSTRAGEM ALEATRIA SISTEMTICA (AS)


Ainda objetivando facilitar o processo de amostragem, alguns autores tambm propem
outro mtodo, denominado de amostragem aleatria sistemtica (AS), que pode vir a aumentar a
representatividade da amostra em algumas situaes. Por esse sistema, os elementos da
populao so considerados como dispostos em uma linha (como por exemplo, uma fileira de
rvores), e o primeiro elemento da amostra sorteado. Em seguida, salta-se um determinado
nmero k de elementos (chamados Passos de Amostragem), e o segundo elemento observado.
Salta-se novamente k passos, e esse processo continuado at a coleta do ltimo elemento da
amostra.

No caso de a populao ser finita, a determinao do nmero k de passos feita pela


seguinte razo, tomando-se o inteiro mais prximo:
k=

N
n

Por exemplo, se em um povoamento florestal existem 10.000 rvores, das quais sero amostradas
50, ento k = 10.000 / 50 = 200. Em seguida, sorteia-se a primeira rvore dentre as 10.000.

Guia de estudos de Estatstica


a

Supondo que a 1 rvore sorteada seja a de nmero 1.080, ento somaremos e diminuiremos a
este valor a constante k=200. Assim, as rvores amostradas seriam:

80, 280, 480, 680, 880, 1080, 1280, 1480, 1680, 1880, 2080, 2280, ...., 9.880

Esse um processo bastante simples de se implementar, e que pode aumentar a


representatividade da amostra pela melhor cobertura que o processo de amostragem faz da
populao. Ou seja, na amostragem aleatria pode acontecer que, por puro acaso, os elementos
sorteados, em conjunto, no representem bem a populao.

No

entanto,

amostragem

sistemtica debve ser realizada com cuidado em situaes onde os elementos sorteados podem
guardar algum tipo de relao entre si, ou periodicidade, decorrente do fato de serem coletados
sistematicamente.
Os enfoques da inferncia estatstica mais comumente utilizados pressupem que a
amostragem seja aleatria simples, para validar, como ser visto, os mtodos de construo de
intervalos de confiana e testes de hipteses. Apesar desta exigncia, a utilizao de
procedimentos de amostragem AAE, AAC, e AS so utilizados para gerar amostrasque, na prtica,
sejam consideradas aleatrias.

4.6. EXERCCIOS RESOLVIDOS

1) O que amostragem? Qual a principal caracterstica da amostragem probabilstica? Quando


possvel empregar amostragem no probabilstica?
Pode-se dizer que amostragem o estudo das relaes existentes entre a amostra (subconjunto
do universo em estudo) e a populao (conjunto universo) de onde ela foi extrada. O principal
objetivo da amostra estimar os parmetros populacionais (mdia, varincia, desvio padro,
proporo, entre outros).
A principal caracterstica de uma amostra probabilstica de que todos os indivduos que
compem a populao tm a mesma probabilidade, diferente de zero, de pertencer amostra.
Basicamente, pode-se utilizar uma amostragem no probabilstica quando algum indivduo que
pertence populao tem probabilidade zero de pertencer amostra.

2) Deseja-se testar durante um ms um novo tipo de rao alimentcia em vacas leiteiras. O


objetivo conhecer o incremento mdio de produo de leite por vaca, quando aplicada a nova
rao. Para isto, planejou-se determinar a diferena entre a produo do leite do ms em que foi

Guia de estudos de Estatstica


fornecida a nova rao e a produo do ms anterior de cada vaca. Sabe-se que em qualquer
caso, antes e depois da rao, a produo de leite de vacas jovens superior (ou pelo menos
diferente) produo de vacas adultas, sendo esta diferena significativa. A granja conta
atualmente com 1000 vacas leiteiras e, aps anlise matemtica e de custos, determinou-se
aplicar a rao em 30 animais.
a) Qual a populao em estudo?
As 1000 vacas leiteiras da granja em questo.
b) Qual o tamanho da populao e qual o tamanho da amostra?
Populao = 1000 vacas leiteiras
Amostra = 30 vacas
c) A populao finita ou infinita? Por qu?
Finita, pois podemos enumerar cada um dos elementos que compem a populao.
d) Qual seria o parmetro que se deseja conhecer? possvel conhecer o valor exato daquele
parmetro?
O que deseja se conhecer o aumento mdio da produo de leite depois de aplicada nova
rao.
Como estamos trabalhando com uma amostra no possvel saber exatamente o valor do
parmetro.
e) Qual o estimador que voc utilizaria para estimar o parmetro do item d?
n

x
O melhor estimador seria a mdia:
f)

x=

i =1

Para esse tipo de estudo, voc recomendaria utilizar um processo de amostragem


probabilstico? Por qu? Qual seria este processo? Por qu?

Sem dvida, o processo de amostragem probabilstico seria o mais indicado. Principalmente


porque todos os indivduos tm uma mesma chance diferente de zero de pertencer amostra.
O processo de amostragem mais indicado seria o proporcional estratificado, pois na populao em
estudo percebe-se, claramente, dois subconjuntos, vacas jovens e vacas mais velhas que
apresentam diferenas significativas na produo de leite.

3) Para se obter a opinio dos brasileiros sobre a reforma agrria, entrevistaram-se 90% dos
associados de uma sociedade ruralista. Pergunta-se:
a) Qual o tipo de amostragem empregado?
Basicamente poderamos dizer que esta uma amostra no probabilstica, pois todos os
brasileiros, nesse caso, no possuem a mesma probabilidade de pertencer amostra, uma vez
que somente 90% dos associados de uma sociedade ruralista sero os entrevistados.
b) Tal procedimento de amostragem confivel? Justifique.

Guia de estudos de Estatstica


No, se o objetivo da pesquisa saber a opinio de todos os brasileiros sobre a reforma agrria,
no entre pessoas com interesse direto no fato que se ter a verdadeira opinio da populao.
Esta amostra ser realizada com um srio problema de vis ou tendenciosidade.

4) Uma empresa cafeeira do sul de Minas Gerais dispe de 3200 funcionrios distribudos nas
diversas atividades, conforme o quadro abaixo. Deseja-se sortear uma amostra de 20 empregados
desta empresa, com o objetivo de conhecer alguns de seus aspectos scioeconmicos e culturais.
A populao em estudo se distribui dentro das seguintes categorias:

Atividade

N Empregados

Campo

1600

Armazm

720

Indstria

480

Administrao

240

Gerncia

160

a) Na sua opinio, seria razovel levantar as informaes desejadas por meio de uma
amostragem aleatria simples de n = 160 funcionrios? Justifique.
Nessa situao a amostra aleatria simples no seria a mais indicada, pois ela no mostraria o
verdadeiro perfil dos empregados da empresa. O ideal seria utilizar uma amostra proporcional
estratificada.
b)

Planeje uma amostragem proporcional estratificada n = 160 determinando o tamanho da


amostra para cada atividade.

A amostra proporcional estratificada deve ser composta de forma que o nmero de empregados de
cada setor seja proporcionalmente representado na amostra. Assim, pode-se calcular essa
amostra, usando inmeros recursos matemticos, como por exemplo:
Para os empregados do campo:
3200 --------------------- 100%
1600 ------------------------ x
x=

160000
= 50%
3200

Assim, os trabalhadores do campo compem 50% do total de empregados da empresa de forma


que, 50% dos trabalhadores que comporo a amostra proporcional estratificada devero pertencer
a esse grupo. Ento, a amostra dever ser de tamanho n = 160, 50% destes sero de
trabalhadores do campo, portanto 80 trabalhadores. Assim, dever ser feito para todos os outros
setores, conforme resultados que podem ser melhor visualizados no quadro abaixo:

Guia de estudos de Estatstica


Atividade

Nmero de
empregados
1600
720
480
240
160
3200

Campo
Armazm
Indstria
Administrao
Gerncia
Total

Amostra proporcional
estratificadas
80
36
24
12
8
160

c) Usando a calculadora, ou a tabela de nmeros aleatrios, sorteie os componentes da amostra


para os empregados que trabalham na gerncia. Explique com detalhes como voc realizaria o
sorteio.
Os empregados da gerncia foram numerados de 1 a 160, ordenados quanto data de admisso
na empresa, comeando pelos mais velhos de casa. Utilizando o recurso de gerao de nmeros
aleatrios da calculadora, sortearemos os 8 trabalhadores que comporo a amostra. Com o auxlio
da calculadora obtemos os nmeros:
47

153

144

27

102

125

121

61

Portanto, os trabalhadores que correspondem a esses nmeros que comporo a amostra.

5) Faa o sorteio de uma amostra sistemtica n = 10, para estimar o volume de madeira de um
povoamento florestal de eucalipto com 2500 rvores dispostas em 25 fileiras com 100 plantas
em cada uma delas. Apresente um croqui identificando as plantas sortedas.
N = 2500 rvores

n = 10 rvores

Para a amostra sistemtica:

K=

N 2500
=
= 250 possveis amostras.
n
10

Assim, sorteamos um nmero raiz ou ponto de partida e, a partir dele, conforme nossa escolha,
dependendo da sua grandeza, adicionamos ou retiramos dele 250. Por exemplo, para este caso, o
nmero raiz sorteado no gerador de nmeros aleatrios da calculadora foi o nmero 3, assim, a
nossa amostra ser composta pelas rvores correspondentes aos nmeros:
3

253

503

753

1003

No croqui, teremos a seguinte distribuio:

1253

1503

1753

2003

2253

Guia de estudos de Estatstica

Fileiras

Plantas
1 2 3 . . . . . . . . . . . . . . . . . . . . . . .50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .100

1
2

.
.

6
.
.

11

.
.
.
16

.
.

.
21

.
.
.

25

4.7. EXERCCIOS PROPOSTOS


1) Responda:
a) O que populao e o que amostra?
b) O que censo e processo de amostragem?
c) Em que condies feito um censo e em quais feita a amostragem?
d) Qual o objetivo da amostragem?

2) Critique os seguintes planos amostrais:


a) Para levantar a opinio dos brasileiros sobre a importncia e necessidade da reforma agrria,
decidiu-se entrevistar os membros do MST de Campo do Meio, Minas Gerais.
b) Para diagnosticar a situao econmica da agropecuria mineira foram entrevistados os
produtores de caf da cidade Lavras, Minas Gerais.

Guia de estudos de Estatstica


c) Para se comparar duas raes de crescimento usam-se dez leites nascidos da mesma me.
d) Para se comparar a percentagem de perda de gros na debulha mecnica de duas variedades
de milho foram utilizadas setenta espigas de cada uma delas, utilizando duas mquinas
diferentes.

3) Como voc selecionaria uma amostra representativa de:


a) Cem fichas com dados da produo de leite de vacas Girolandas, sabendo que as fichas esto
em cinco caixas contendo cada uma cem fichas.
b) Dez forrageiras do painel de forragicultura da UFLA para a avaliao do teor de protena bruta.
c) Sessenta alunos de uma escola com mil alunos, onde setecentos esto na graduao e o
restante na ps-graduao.
d) Vinte folhas de uma laranjeira para avaliar o teor de clcio.

4) Um indivduo retirou trs tomates da superfcie de cada uma das caixas de tomates que
estavam no estoque de um supermercado, para caracteriz-lo quanto qualidade. Isto uma
amostra representativa? Justifique.

5) Proponha um plano de amostragem sistemtica para avaliar a quantidade de alimento


desperdiado nas bandejas devolvidas em um almoo no Refeitrio Universtrio. Para fixar
idias, suponha que uma amostra de tamanho 40 deva ser extrada de uma populao
estimada de 850 usurios nessa refeio. Com a ajuda da tabela de nmeros aleatrios,
calcule inclusive quais bandejas devero ser amostradas.

6)

Desenvolva um planejamento completo para amostrar e avaliar vrias caractersticas


socioeconmicas dos produtores de leite B associados CAARG. A populao tem uma
estrutura estratificada, segundo a produo, conforme quadro abaixo.

Produo em litros (dia)

Nmero de cooperados

0 a 20

368

21 a 50

61

51 a 100

45

101 a 500

71

501 a 1.000

17

1.001 a 3.000

Um plano completo para um levantamento amostral deve conter:


a) Objetivo de pesquisa.
b) Definio da populao a ser amostrada.

Amostra

Guia de estudos de Estatstica


c) Definio das variveis a serem estudadas.
d) Definio do mtodo de amostragem que ser utilizado, em funo das caractersticas da
populao e da disponibilidade de recursos.
e) Dimensione uma amostra proporcional estratificada de tamanho 60 entre os produtores de leite
tipo B.
f)

Orientaes para a execuo do levantamento no campo.

Guia de estudos de Estatstica

UNIDADE 5
ESTIMAO ESTATSTICA
5.1. INTRODUO

Na atividade cientfica, quando tudo que se dispe de uma parte dos elementos de uma
populao que se queira descrever (ou seja, como j definimos, uma amostra), ento a obteno
de concluses a respeito da populao estar presa inerente incompleteza da amostra,
acarretando um certo grau de incerteza nestas concluses. Lidar com esta incerteza, controlando-a
e medindo-a, a tarefa da inferncia estatstica. Convm ressaltar que, sendo assim, deve ficar
claro que s tem sentido falar-se em inferncia estatstica quando no se conhece todos os
elementos da populao. Quando temos conhecimento de toda a populao (pois um censo foi
feito), ento devemos falar em estatsticas descritivas.
A inferncia estatstica definida como sendo o processo de obteno de informaes (ou
de descries) sobre uma populao a partir de amostras. A descrio populacional pode se dar,
como tem sido largamente comentado, mediante distribuies de frequncia e por meio de
medidas descritoras, tais como mdia e desvio-padro. Estas ltimas so chamadas de
parmetros populacionais.

Conceito 5.1. Parmetro populacional. Valor que descreve uma populao, em geral
desconhecido.

Alguns exemplos de parmetros de interesse so dados a seguir.


Exemplo 1. Deseja-se ter uma idia acerca da proporo (desconhecida) de produtores de
uma regio que cultivam milho. O parmetro em questo a proporo p desejada.
Exemplo 2. H o interesse no tempo mdio de durabilidade dos aspersores da marca
Agro1000, bem como sua varincia. Parmetros: a mdia e a varincia .
2

Quando se dispe apenas de uma parte dos elementos da populao (uma amostra), o
mximo que se pode conseguir so valores aproximados para os parmetros desconhecidos,
conhecidos como estimativas. Assim, definem-se os conceitos a seguir.

Guia de estudos de Estatstica

Conceito 5.2. Estimativa. Valor aproximado de um parmetro populacional desconhecido


calculado a partir de uma amostra.

Conceito 5.3. Estimao. O ato de obter uma estimativa.

Conceito 5.4. Estimador. Corresponde expresso algbrica que permite obter uma estimativa,
ou, a varivel aleatria que usada no processo de estimao

Exemplificando, considere que se tenha calculado uma mdia amostral x , tendo sido
encontrado o valor 3,5. Esse valor uma estimativa, ou seja, uma aproximao, para o parmetro
populacional . A expresso que permitiu obter essa estimativa:
n

X
X =

i =1

corresponde ao estimador da mdia populacional. Enquanto que para anotar a estimativa x


usamos letra minscula, para o estimador X usamos letra maiscula. Esta uma conveno
universal, porm, pode-se tambm representar o estimador de um parmetro pelo smbolo desse
parmetro, com um chapu. No exemplo do estimador da mdia populacional, ele poderia, alm
da notao X , ser representado por

$ . A estimativa teria tambm o mesmo smbolo $ .

5.2. PROPRIEDADES DESEJADAS DOS ESTIMADORES


Um fato que pode acontecer o de se dispor de dois ou mais estimadores possveis para
um mesmo parmetro populacional. Como exemplo, considere o parmetro de uma populao
com distribuio Normal para uma varivel X dada. Ora, a mdia, a mediana, e a moda da
populao, quando esta Normal, como j vimos. Logo, podemos estimar tanto por X , quanto
:

por X , como tambm por X * , respectivamente a mdia, a mediana, e a moda de uma amostra.
Qual destes trs estimadores melhor?
Nessas situaes, conveniente que haja critrios que permitam selecionar algum deles,
com base em determinadas propriedades. Em Estatstica, um procedimento geral para a gerao
de tais critrios consiste na observao do comportamento dos estimadores, caso infinitas
amostras fossem tomadas da populao. Obviamente, se diferentes amostras so coletadas da

Guia de estudos de Estatstica


populao, em geral as estimativas para os parmetros de interesse variam de amostra para
amostra. Com isso, possvel (na maioria das vezes) prever a distribuio de frequncias dessas
estimativas, ao se tomar infinitas amostras da populao. Esta distribuio de freqncias, que de
fato uma distribuio de probabilidades, j que tomamos infinitas amostras, denominada
distribuio de amostragem. Ento, uma distribuio de amostragem uma distribuio de
probabilidades de um estimador. Exemplificando, imagine uma populao que tenha distribuio
Normal e que, da qual, infinitas amostras so tomadas, sendo que em cada uma dessas amostras
a mdia amostral x calculada (Figura 5.1).

Figura 5.1. Representao da distribuio de amostragem de X .

Deve ser notado que o conjunto de infinitas amostras tomadas de uma populao em si mesmo
uma populao infinita, e assim a distribuio de frequncia de X (ou seja, sua distribuio de
amostragem) corresponde a um modelo probabilstico, ou seja, uma distribuio de probabilidade.
Dentre as vrias propriedades desejadas para um estimador, isto , dentre as vrias
propriedades que uma distribuio de amostragem pode ter, sero vistas aqui apenas duas: a notendenciosidade e a preciso.

5.3. NO-TENDENCIOSIDADE
Para a compreenso dessa propriedade, suponha um parmetro qualquer . Este pode
ser a mdia da populao, a varincia , o desvio-padro , a proporo p, entre outros. Um
2

Guia de estudos de Estatstica


estimador chamado no-tendencioso se, ao se tomar infinitas amostras de uma populao, o
valor mdio de igual a . Ou seja, no-tendencioso se sua esperana matemtica for igual
a :

()

E =
Um estimador no-tendencioso tambm chamado de no-viciado, no-viesado. Todas estas
nomenclaturas so equivalentes.
Este aspecto est ilustrado na Figura 5.2, que apresenta a distribuio de amostragem de
dois estimadores 1 e 2 , que estimam o mesmo parmetro .

Figura 5.2. Distribuio de amostragem de dois estimadores de , 1 e 2 .

Observa-se que, em mdia, o valor de 2 igual a , ao contrrio de 1 , cujo valor mdio


menor que . Assim, diz-se que 2 no-tendencioso e 1 tendencioso. 2 deve ser preferido,
pois para uma dada amostra, tem-se uma confiana maior dele estar prximo do verdadeiro e
desconhecido valor de , que objetiva-se estimar. Outra maneira de falar seria dizer que um
estimador no-tendencioso no tende nem a subestimar nem superestimar o valor populacional.
No exemplo acima, 1 tende a subestimar o verdadeiro valor de , enquanto 2 nem sub nem
superestima .
Este critrio bom e desejvel, mas pode ainda no permitir discriminar entre estimadores.
:

Outra vez como exemplo, podemos verificar que tanto X , quanto X e X * so no-tendenciosos
para , isto ,

Guia de estudos de Estatstica

E ( X ) = , E ( X ) = , E ( X* ) = .

Ento, como escolher entre eles? Por causa disto, necessrio usar outro critrio, o critrio de
preciso, que ser estudado seguir.

5.4. PRECISO
Para ilustrar esse conceito, considere ainda mais uma vez um estimador qualquer

. Se infinitas amostras forem coletadas, seu valor vai variar de amostra para amostra, ou seja,
esse conjunto de valores do estimador apresentar uma certa varincia, dada por

()

Var = s q2 .
Essa varincia nos fala sobre o conceito de preciso. Esse conceito um conceito relativo, pois, se
a varincia de um estimador 1 menor que a de um outro estimador 2 , ento 1 mais preciso
que 2 , isto , sempre precisamos de pelo menos dois estimadores para dizer qual mais preciso
do que qual. A Figura 5.3 ilustra esse aspecto. Trata-se de dois estimadores no-tendenciosos,
mas 1 deve ser preferido, por ser mais preciso. Observe que poderamos, se quisssemos, definir

preciso como

Figura 5.3. Distribuio de amostragem de dois estimadores no-tendenciosos 1 e 2 , tais que

s q2

< s q2 .
2

Guia de estudos de Estatstica

5.5. ESTIMADORES NO-TENDENCIOSOS E PRECISOS


A juno das duas propriedades, a de no-tenenciosidade e de preciso, o ideal.
Estimadores com E( ) = e Var( ) pequena so os ideais. Estes so estimadores notendenciosos com pequena varincia. Quando encontramos um estimador no-tendencioso que
tem a menor varincia possvel dentre todos os estimadores no-tendenciosos, estes so
chamados MVUE, sigla em ingls para minimum variance unbiased estimator, estimadores notendenciosos de varincia mnima. Dada a mdia populacional , pode-se demonstrar que a mdia
amostral X MVUE para . Em outras palavras, nada melhor do que a mdia amostral X para
se estimar uma mdia populacional , mesmo que existam outros concorrentes (tais como a
mediana ou a moda). Nas prximas pginas, as figuras mostraro de modo ldico (ilustrando com
tiro-ao-alvo) o que seriam tais propriedades dos estimadores:
1. A mosca do alvo o parmetro populacional que se quer estimar, digamos a mdia
da populao.
2. Cada tiro dado uma estimativa feita, no caso o clculo da mdia x . Observe que
estamos dando vrios tiros para tentar acertar a mosca: isto equivale a retirar
muitas amostras de tamanho n de uma mesma populao com mdia , e, em cada
uma, obtermos uma mdia x diferente. Cada uma dessas mdias x sero diferentes
umas das outras (e todas quase certamente sero diferentes da mdia populacional).
Na

prtica,

claro,

retiramos

apenas

uma

amostra

de

tamanho

n,

e,

consequentemente, daremos um tiro somente, mas as figuras nos mostram o que


aconteceria se fizssemos muitas amostragens, e como se comportariam as vrias
estimativas. Obviamente, tambm, na prtica, nunca sabemos onde est a mosca, j
que nunca conhecemos .
3. H 6 figuras, sendo as 3 primeiras as mais desejadas, progressivamente, e as 3
ltimas as indesejadas. Nestas 3 ltimas figuras, v-se como estimadores
tendenciosos podem ser muito inconvenientes, mesmo que sejam precisos.

Guia de estudos de Estatstica

Estimador no-tendencioso,
pouco preciso

Estimador no-tendencioso,
mdio preciso

Estimador no-tendencioso,
muito preciso

Guia de estudos de Estatstica

Estimador tendencioso,
pouco preciso

Estimador tendencioso,
mdio preciso

Estimador tendencioso, muito


preciso

Guia de estudos de Estatstica

5.6. A NATUREZA DA ESTIMAO


A estimao por ponto, mesmo sendo feita por meio de um estimador no-tendencioso de
pequena varincia (isto , no-tendencioso e preciso), no resolve completamente o problema da
estimao. Ainda restam duas questes:
(i) Qual o tamanho da confiana (probabilidade de estarmos certos) que podemos ter no
valor estimado quanto a ele ser igual ao valor do parmetro? 90%? 10%? 95%? 99%?
Quanto?
(ii) Qual o tamanho do erro cometido na estimao? (Este erro medido por - ).

Podemos ajuntar essas duas questes em uma s questo: qual a probabilidade de que
o erro absoluto de estimao | - | seja menor ou igual um dado valor, digamos, c. Em
smbolos:

P (| - | c)

Como exemplo, considere o seguinte problema: uma amostra aleatria de n = 315 clientes
de uma provedora de Internet mostrou, que , em mdia, estes mantm um uso de 118,1 MBytes de
memria ocupada com arquivos em sua caixa postal de emails, com um desvio-padro amostral
igual 189,7 MBytes. Qual seria o valor mdio desta ocupao em todos os seus N = 114.337
clientes? A estimao por ponto d o valor

= x = 118,1 MBytes

para a mdia desejada. Mas, alm dessa estimativa pontual, gostaramos de saber algo do tipo
abaixo:

Guia de estudos de Estatstica

Valor do erro absoluto

Probabilidade do erro no superar

| - |

o valor ao lado

50 Mbytes

40 MBytes

30 MBytes

20 MBytes

10 MBytes

MBytes

MBytes

0,1 MBytes

Esse problema resolvido, na Estatstica, por meio do conceito de intervalos de confiana (IC), ou,
equivalentemente, estimao por intervalo.
Assim posto, vemos que existem, ento, dois tipos de estimao: por ponto e por intervalo.
Quando simplesmente se obtm um s valor de estimativa para um parmetro, diz-se que se trata
de uma estimao por ponto, ou pontual. No entanto, como temos dito, quase sempre a estimao
por ponto, sozinha, pouco informativa, porque ela no fornece uma idia do grau de erro e de
confiana que se comete ao assumir o valor da estimativa como sendo igual ao do parmetro
desconhecido. Esse erro e confiana podem ser quantificados da seguinte forma. A partir da
distribuio de amostragem dos estimadores possvel elaborar um intervalo [a, b], de tal maneira
que a probabilidade de que uma dada amostra contenha o verdadeiro valor do parmetro
desconhecido seja conhecida eestabelecida, ou seja:
P[a < < b] = 1
onde o parmetro sendo estimado. A probabilidade 1 mede o grau de confiana que se tem
na estimao de , e , portanto, chamada de coeficiente de confiana. O intervalo [a, b]
denominado intervalo (IC) de confiana, e a sua elaborao chamada de estimao por intervalo.
Um intervalo de confiana pode ser interpretado segundo os seguintes argumentos:
(i)

Se muitas e muitas amostras fossem coletadas, e, para cada uma dessas amostras
fosse constitudo um IC, ento uma proporo de ( 1 ).100% destes IC conteriam o
verdadeiro valor do parmetro sendo estimado.

Guia de estudos de Estatstica


(ii)

Um dado IC para o parmetro desconhecido tem probabilidade ( 1 ). 100% de


conter o verdadeiro valor de . Em outras palavras, um IC tem ( 1 ). 100% de
probabilidade de estar correto.

Os tpicos que se seguem referem-se estimao dos principais parmetros de interesse.

5.7. ESTIMAO POR PONTO DE E 2


O procedimento para se estimar a mdia e a varincia populacionais varia conforme o tipo
de amostragem empregado. Nesse tpico ser visto como proceder quando a amostragem
aleatria simples. Neste caso, o parmetro pode ser estimado pela mdia amostral, ou seja, pelo
estimador:
n

x
= X =

i =1

Pode-se demonstrar, como j dito, que esse estimador no-tendencioso e, alm disso, dentre os
no tendenciosos possveis, o de maior preciso (mnima varincia). Este o estimador
recomendado tanto para populaes finitas como infinitas.
No tocante a , seu estimador dado por:
2

S =

n
1
. (x i x )2
n 1 i =1

Esse o estimador para 2 que vamos usar, seja a populao finita ou infinita, pois S no2

tendencioso e de varincia mnima. Alguns autores, porm, advogam a possibilidade de uso de um


outro estimador, a saber:
2

D =

1
.
n

(x

x)

i =1

Esse estimador alternativo tem sua existncia justificada pelo argumento de que ele de mxima

verossimilhana, isto , de valor mais provvel. Porm, pode-se demonstrar que D2 tendencioso
(no exato), levando a subestimativas de 2 . Essa deficincia de D que nos faz escolher S
2

para estimar 2 .

Guia de estudos de Estatstica

5.8. ESTIMAO POR INTERVALO PARA A MDIA


Nesta seo ser abordada a estimao por intervalo para , quando a amostra do tipo
aleatria simples tomada em uma populao infinita ou finita muito grande (que equivale, na
prtica, a infinita). Utilizaremos o conceito de distribuio de amostragem, que a distribuio de
probabilidade de uma varivel aleatria definida sobre as amostras retiradas em uma dada
populao.
Para a construo de um intervalo de confiana para conveniente estudar distribuies
de amostragem associadas a seu estimador pontual X . Para tanto, existem alguns teoremas, para
casos onde a populao pode ser descrita por uma distribuio Normal, que so teis. Passemos
conhec-los.

Teorema 5.1
Seja uma populao descrita por uma varivel X com distribuio Normal N(, ). Se infinitas
2

amostras de tamanho n so coletadas nessa populao, ento a mdia X dessas amostras ter
distribuio Normal com mdia e varincia /n. Outra maneira de afirmar esta normalidade de
2

X dizer que a varivel Z =

X
tem distribuio Normal com mdia 0 e varincia 1 (esta a

Normal-padro, vista no Captulo 3).

Observe que, neste teorema acima, a varincia populacional deve ser conhecida,
2

podendo-se ento utilizar diretamente este teorema para calcular probabilidades associadas a X ,
pois, se:

2
X N ,
n

ento, sabe-se que a varivel:

Z=

X
N (0,1) , isto ,

Z tem distribuio Normal com mdia 0 e varincia 1, como j dito.


Entretanto, muito pouco provvel que, em uma situao real, seja conhecida. Assim,
2

faz-se necessrio o uso do prximo teorema:

Guia de estudos de Estatstica

Teorema 5.2
Seja uma populao descrita por uma varivel X com distribuio Normal N(, ). E sejam infinitas
2

amostras de tamanho n coletadas nessa populao, a partir das quais so calculadas X e s .


Ento a varivel T =

X- m
S2
n

tem distribuio conhecida como t de Student, que tem como nico

parmetro a constante = n 1, denominada nmero de graus de liberdade.

A distribuio t, mencionada no Teorema 5.2, uma funo densidade de probabilidade


indexada por um nico parmetro , que nada mais do que o nmero de graus de liberdade das
amostras em questo:
=n1
O grfico da distribuio t de Student :

(t)

t
Observe que ela se parece com a Normal, pois simtrica com forma de sino. Porm,
comparando-a com a Normal-padro (mdia 0 e varincia 1), a t mais achatada, isto , mais
esparramada.

Essa distribuio possui as seguintes propriedades:

Guia de estudos de Estatstica


i) A mdia da varivel T, ou seja, a esperana E(T), igual a zero, da mesma forma que a
varivel Z.
ii) semelhante distribuio Normal, pois simtrica em relao mdia e tem forma
campanular (sino).
iii) A distribuio t definida a partir de um nico parmetro, o nmero de graus de
liberdade.

Na Tabela 2 do Apndice, apresentam-se os valores tabelados para a distribuio t, para


valores fixos de probabilidade (simbolizados por ) e de maneira que:
P[T > t] = a
onde t corresponde a valores tabelados (ver Figura 5.4). Esses valores t so chamados quantis
da distribuio t, e so correspondentes as reas a . Para ficarmos com a notao conforme a
conveno universal, mudaremos a notao de para /2.
Deve-se notar que, da mesma maneira que a varivel Z, a distribuio de t simtrica e
assim teremos
P[T > t] = P[T < - t] =
o que facilita sobremaneira o clculo de probabilidades.
Finalmente, tendo definida a distribuio t, possvel agora construir um intervalo de
confiana para o parmetro que no necessita do desvio-padro
tais intervalos associado um coeficiente de confiana = 1 P[a < < b] = 1 -

populacional. Como visto, a

tal que:

Guia de estudos de Estatstica

/2

/2

/2

/2

Figura 5.4. Distribuio t de Student. A rea hachurada corresponde aos valores de /2, para os
quais

t so tabelados.
2

A distribuio t permite determinar valores para a e para b, pois o valor de t obtido a partir de X
2

e S (as quais podem ser calculadas) e tambm de


T=

X- m
S2
n

ou seja, T uma transformao, semelhante transformao Z. Assim, um intervalo [a, b]


simtrico para a varivel X tem uma equivalncia em probabilidade a um certo intervalo [- t , t ]
2

(ver Figura 5.5).


Fixando um certo valor para , qual deve ser o valor de estipulado? um clculo simples:
sabe-se que a rea total sob a distribuio t (assim como em qualquer funo densidade) igual a
1, ento, se a rea dentro do intervalo igual a 1 - , ento a rea fora do intervalo igual a:

rea fora do intervalo = 1 - = 1 (1 ) =


conveniente que os intervalos de confiana, para a maioria das situaes, sejam simtricos, pois
isso garante intervalos de menor comprimento. Assim, essa rea deve ser a rea que est
sobrando para fora do IC, dividida por 2, de tal maneira que:

Guia de estudos de Estatstica

Figura 5.5. Equivalncia (em probabilidade) entre as distribuies de X e de t.

t ] = P[T < - t ]

P[T >

Na Figura 5.5, ilustram-se essas consideraes para = 1 - = 95%. Assim, dividindo a rea fora
do intervalo por 2, tem-se, de maneira geral:
/2 =

1
2

No exemplo da Figura 5.5, o valor de /2 igual a 0,025.

Pela distribuio t, tem-se assim que:


P

Mas como T=

[ t

< T < t 2 = 1-

X
ento:
S
n
P = 1-

Resolvendo essa inequao para , tem-se:

X
P t
t = 1 -
S
2
2

Guia de estudos de Estatstica

P t

X t

P X t

P X t

S
n

S
=1-
n

X + t
2

X + t
2

S
=1-
n

S
=1-
n

Como os intervalos de confiana para tm a forma geral:


P[a < < b] = 1 -
tem-se ento uma maneira de se determinar a e b, a partir da distribuio t, fazendo:

S2
n

a = X - ta
2

b = X + ta
2

S2
n

Ser apresentado a seguir um exemplo numrico. Suponha-se que um engenheiro agrcola


precisa determinar a velocidade de infiltrao bsica (VIB) de um solo de uma grande vrzea, para
um projeto de irrigao. Para tanto, ele represa gua em sulcos de comprimentos de 1m (este
mtodo conhecido como Infiltrmetro de sulco). Como se trata de uma grande vrzea, para
representar bem a sua VIB, o engenheiro faz essa medio em 10 diferentes pontos de diferentes
sulcos tomados ao acaso na vrzea utilizando uma Amostragem Aleatria Simples. Suponha-se
-1

que os resultados (em cm.h ) tenham sido os seguintes:


x1 = 0,8 x2 = 0,7 x3 = 0,8 x4 = 0,9 x5 = 1,0
x6 = 0,9 x7 = 0,8 x8 = 1,1 x9 = 0,8 x10 = 0,7
Esses dados correspondem a uma amostra com n = 10 elementos da populao formada pelos
infinitos pontos no solo da vrzea. Pressupondo que a VIB, nesses infinitos pontos, possa ser
descrita por uma distribuio Normal N(, 2), onde e 2 so desconhecidos, o objetivo do
engenheiro agrcola o de estimar o parmetro (ou seja, a VIB mdia do solo), para que se
possa determinar fatores importantes do projeto de irrigao, como vazo, turno de rega, entre
outros. Assim, a estimativa por ponto feita pela mdia amostral, que o estimador adequado
para :

$ = x = 0,85 cm.h-1

Guia de estudos de Estatstica


Como foi pressuposta uma distribuio Normal para a VIB, possvel construir um
intervalo de confiana para a partir da distribuio t. Inicialmente, necessrio calcular a
varincia amostral:

-1 2

s = 0,0161 (cm.h ) =

(0,8 0,85 )2 + (0,7 0,85 )2 + ... + (0,7 0,85)2


10 1

E, assim, como:

P x

t 2

s2
s2
< < x + t 2
= 1-
n
n

ento:

0,0161
0,0161
P 0,85 t 2
< < 0,85 + t 2
= 1-
10
10

Utilizando um coeficiente de confiana de 1 - = 0,95, tem-se que:

1 0,95
= 0,025
2

Consultando a tabela de t (ver Tabela 2 do Apndice) para

= 0,025 e com um nmero de graus

de liberdade igual a (10 - 1) = 9, tem-se o valor:


t0,025 = 2,262
e assim:

a = 0,85 2,262

0,0161
= 0,85 - 0,0908 = 0,7592
10

b = 0,85 + 2,262

0,0161
= 0,85 + 0,0908 = 0,9408
10

Portanto, o intervalo de confiana [0,7592 , 0,9408] tal que:


P[0,7592 < < 0,9408] = 0,95 = 95%
A interpretao desse intervalo :
(i) A mdia da VIB na vrzea () um nmero desconhecido, pois no inspecionamos
todos os pontos da vrzea, fazendo a medio em apenas uma amostra de n = 10
pontos, mas, estimamos que essa mdia, apesar de desconhecida, est entre 0,7592

Guia de estudos de Estatstica


cm.h

-1

-1

e 0,9408 cm.h , com uma probabilidade de acerto de 95%, isto , estamos


-1

95% certos de que a VIB mdia no menor do que 0,7592 cm.h e no maior do
-1

que 0,9408 cm.h .


(ii) Se fizermos muitos e muitos intervalos nessa vrzea (cada um baseado numa diferente
amostra de 10 pontos), ento, aproximadamente 95% destes intervalos contero a
verdadeira mdia VIB.

pertinente agora uma observao: a grandeza

s
s2
=
n
n
utilizada na construo de intervalos de confiana para , a partir de amostras de tamanho n, d
uma idia da preciso com que o parmetro estimado. Ou seja, quanto menor essa grandeza,
menor ser o comprimento do intervalo de confiana. Na realidade, ela corresponde a estimativa
do desvio padro da varivel X . Esse desvio padro recebe o nome especial de erro-padro da
mdia.

Conceito 5.5. Erro-padro da Mdia. Desvio-padro da varivel X . O erro-padro o desviopadro da mdia amostral e confere uma idia acerca da preciso com que estimada.

Esse erro-padro da mdia utilizado dentro de um IC como informao para o clculo do


intervalo para a mdia, e fora do IC utilizado como informao a respeito do grau de preciso
com que podemos confiar uma dada estimativa para a mdia.

5.9. ESTIMAO POR INTERVALO DA MDIA PARA


POPULAES NO-NORMAIS
O leitor deve ter percebido a importncia de se assumir que a populao amostrada tenha
distribuio Normal para a construo de intervalos de confiana, principalmente pelo Teorema
5.2, que torna possvel a utilizao da distribuio t. Mas, e se a populao no for Normal? Nesse
caso, sero consideradas duas situaes, a seguir apresentadas:

a) A amostra grande (n elevado, acima de 30, adequado em muitas situaes, ou mais ainda,
acima de 50).
Se a amostra possui um elevado nmero de elementos, ento o seguinte teorema pode ser
utilizado:

Guia de estudos de Estatstica


Teorema 5.3 (Teorema Central do Limite). Seja uma populao qualquer, com mdia e varincia

2. Se infinitas amostras grandes de tamanho n suficientemente grande so coletadas nessa


populao, ento a mdia X dessas amostras ter distribuio aproximadamente Normal, com
mdia e varincia /n, melhorando esta aproximao medida que n tende ao infinito.
2

O teorema 5.3 acima, conhecido como o Teorema Central do Limite, poderia, se fosse
2

conhecido, ser diretamente empregado para a construo de intervalos de confiana, pois sabe-se
que:

Z=

tem distribuio Normal N(0, 1) e com valores tabelados. Dessa maneira, pode-se fazer:

2
2
= 1-
P x z

<
<
x
+
z

2
2
n
n

oriunda de uma manipulao algbrica muito semelhante que foi vista para a distribuio t.
No entanto, quase sempre a varincia populacional desconhecida. Devemos ento
2

substituir z por t, j que substitumos por s . Resta ainda a questo: quando consideraremos n
2

como grande? Para responder a essa questo, consideraremos, aqui, o critrio emprico de n 50.
Com isso, um intervalo de confiana aproximado dado por:

s2
s2
1-
P x t

x
t
<
<
+

2
2
n
n

b) A amostra pequena e a populao no Normal.


Nesses casos, a distribuio t no fornece boa aproximao e, ento, estudos sobre a
distribuio da populao devem ser feitos, para se determinar modelos probabilsticos que
descrevam adequadamente a populao. Em seguida, distribuies de amostragem exatas devem
ser obtidas e os intervalos de confiana devem ser baseados nelas.
Aqui no sero estudados tais casos, que so mais bem colocados em disciplinas
avanadas.

Guia de estudos de Estatstica

5.10. ESTIMAO DE PROPORES


Um parmetro para o qual frequentemente tem-se muito interesse a proporo p dos
indivduos de uma populao que guardam alguma caracterstica de interesse. Como exemplos,
tem-se a proporo de eleitores simpatizantes de um candidato, proporo de agricultores que
comprariam um novo insumo agrcola, de rvores doentes em um povoamento, de peas
defeituosas num pomar de produo, entre outros. Na realidade, a menos que se conhea toda a
populao, em geral p no conhecido. Nesse caso, uma amostra aleatria simples (AAS) poderia
ser coletada, de maneira a possibilitar a estimao de p. Supondo que, dos n indivduos
amostrados, x deles apresentam a caracterstica de interesse, ento, o estimador por ponto de p
igual a:

p =

x
n

E a estimao por intervalo? Uma soluo consiste na construo de um intervalo de


confiana aproximado, utilizando a aproximao da distribuio Normal. Admitindo que a
aproximao Normal satisfatria, intervalos de confiana aproximados podem ser construdos
mediante a distribuio de Z:

p q
p q
P p z / 2
< p < p + z / 2
=1-
n
n

onde z/2 um valor da Tabela de Z tal que:


P[Z > z/2] = /2
Outro motivo pelo qual o intervalo acima seja apenas aproximado o de que o termo:

(p ) =

pq
n

que corresponde ao erro padro da proporo, est sendo estimado por:

(p ) =

p q
n

Como exemplo, considere um exemplo de um administrador que tenha que selecionar


mo-de-obra para a safra de uma cultura cultivada em sua empresa rural e para tanto ele iria
avaliar 60 candidatos na regio. Suponha que ele tenha, dentre os 60 candidatos, encontrado 38
aptos. A estimativa por ponto de verdadeira proporo p depessoas aptas em toda a regio :

p =

38
x
=
= 0,63
n
60

Guia de estudos de Estatstica


e assim q = (1 - p ) = 1 - 0,63 = 0,37
O erro padro da proporo estimado como:

(p ) =

p q
=
n

0,63.0,37
= 0,06
60

E assim o intervalo de confiana com 95% de confiana dado por:


P [0,63 z 0,025 0,06 < p < 0,63 + z 0,025 0,06] = 0,95
O valor de z correspondente igual a z0,025 = 1,960 (valor de z correspondente probabilidade
0,475 na Tabela 1.1 do Apndice). E assim:

P [0,63 0,12 < p < 0,63 + 0,12] = 0,95


P [0,51 < p < 0,75 ] = 0,95
Ou seja, a proporo de candidatos, na regio, aptos ao servio est entre 0,51 e 0,75 , com 95%
de confiana.

5.11. DIMENSIONAMENTO DE AMOSTRAS


No dimensionamento do tamanho de amostras para estimao de propores, utiliza-se o
termo
z / 2

p q
n

Que fornece, no intervalo de confiana, a margem de erro (para cima ou para baixo) em relao ao
verdadeiro valor de p, desconhecido. Note-se que, se p fosse conhecido, a varincia pq/n tambm
seria conhecida, e assim a margem de erro utilizando a varivel Z seria ainda mais apropriada:

z / 2

pq
n

admitindo, claro, a aproximao Normal como satisfatria.


Pode-se facilmente demonstrar, utilizando o conceito de derivada, que o produto pq atinge
o valor mximo quando p = q = 0,5. Nesse caso, a margem de erro ser mxima. Em pesquisas
eleitorais, por exemplo, frequente a necessidade do conhecimento do tamanho da amostra n que
deve ser utilizado para que a margem de erro seja de, por exemplo, 2 pontos percentuais, ou 2% =
0,02. Para tanto, basta considerar a pior situao possvel (quando p = q =0,5). Por exemplo,
utilizando um coeficiente de confiana de 95%, o valor de z0,025 igual 1,96. Estipulando a margem
de erro como sendo 2%, ento:

Guia de estudos de Estatstica

z / 2

pq
= 0,02
n

1,96

0,5.0,5
= 0,02
n

Resolvendo esta equao, tem-se:


(1,96)

0,25
2
= (0,02)
n

E assim:
n=

(1,96)2 0,25
(0,02)2

= 2401

Ou seja, seria necessrio entrevistar 2401 eleitores para uma pesquisa eleitoral com margem de
erro igual a 2%. Em geral, na divulgao dessas pesquisas, no se fala nada a respeito do
coeficiente de confiana, o que deveria ser feito.

No dimensionamento do tamanho de amostras para estimao de mdias, ser


considerado o caso de estimao da mdia por intervalo. Dessa forma:

s2
s2
=1-
P x t / 2
< < x + t / 2
n
n

O termo:

t/2

s2
=d
n
2

a margem de erro da amostragem. Se uma estimativa preliminar s for disponvel (por exemplo,
utilizando uma amostra-piloto), ento o dimensionamento da amostra seria dado por:
n=

t 2 / 2 s 2
d2

A ttulo de ilustrao, considere o exemplo do engenheiro agrcola que deseja estimar a


VIB de um solo de vrzea. Suponha que ele deseja uma margem de erro igual a:
d = 0,07 cm.h-1 , isto , ele no admite errar mais do que 0,07 cm.h-1 nesta estimao.
Tendo ele composto uma amostra-piloto com 5 elementos possvel obter uma estimativa
preliminar da varincia igual a s = 0,0200 (cm.h ) . O tamanho de amostra adequado com 1 - =
2

-1 2

95% de no se ter uma margem de erro maior que 0,07 dado por:

Guia de estudos de Estatstica

n=

t 2 / 2 0,0200

(0,07)2

t 02,025 0,0200

(0,07)2

O valor de t consultado deve ser aquele correspondente amostra-piloto, ou seja, com (5 - 1) = 4


graus de liberdade, e assim obtm-se t0,025 = 2,776. Com isso:
n=

t 02,025 0,0200

(0,07 )2

32 elementos

Isto quer dizer que o engenheiro dever utilizar uma amostragem com 32 pontos na vrzea. Com
-1

estes 32 pontos, sua estimativa de mdia no diferir da verdadeira mdia em mais de 0,07 cm.h :
( x - ) 0,07 cm.h .
-1

5.12. EXERCCIOS RESOLVIDOS


1) Foi feito um levantamento na regio do sul de Minas Gerais por meio de uma amostra aleatria,
anotando-se as propriedades rurais onde os pecuaristas fazem a vacinao do rebanho para
preveno da raiva bovina. Constatou-se que das 213 propriedades visitadas, 129 delas vacinaram
os seus rebanhos nos ltimos dois anos.
a) Estime a proporo dos produtores da regio que vacinam seus rebanhos contra a raiva.
Temos que n = 213 e x = 129, assim:

p =

x 129
=
= 0,6 = 60%
n 213

Portanto, a proporo dos produtores que vacinam seus rebanhos de 60%.


b) Construa o intervalo de confiana de 95% para a proporo p da populao.
IC (95%) p e

sendo que e = Z /2

IC (95%) 0,6 1,96

pq
, portanto:
n

0,6.0,4
213

IC (95%) 0,6 0,07


IC (95%) 0,53 < p < 0,67
c) Qual o erro da estimativa para a estimao de p com 90% de confiana?
Com o valor tabelado de z para 90%(1,645) s calcular o novo erro:

e = z /2

pq
0,6.0,4
= 1,645
= 0,055
n
213

d) Quantas propriedades devero ser visitadas no futuro para se estimar p com um erro de 3% e
confiana de 95%?
Aqui podemos utilizar uma frmula com o n j isolado para facilitar os clculos:

Guia de estudos de Estatstica


0,6.0,4
p q
n = z22 2 = 1,96 2
= 1024,43 1025
2
e
0,03
Portanto, para se estimar a proporo dos produtores rurais que vacinam seus rebanhos com erro
de 3% e nvel de confiana de 95%, deveremos visitar 1025 propriedades.

2) Determine o intervalo com 90% de confiana para a seguinte situao.

s X = 1,5

Dados: x = 20,0

x t /2

n = 25

sX
n
1,5

20,0 1,711

25

20,0 0,5133
Assim:
IC(90%) 19,487 < < 20,5133
3) Determine um intervalo de confiana de 98% para a verdadeira proporo populacional, se x =
50 e n = 200.

p =

x
50
=
= 0,25
n 200

Construindo o intervalo:

p Z /2

pq
n

0,25 2,33

0,25.0,75
200

0,25 0,07
IC(98%) 0,18 < p < 0,32
4) Numa Universidade, foi tomada uma amostra de 40 estudantes, anotando-se as suas alturas em
cm. Os resultados forneceram:

40

40

x i = 6.950

i =1

2
i

= 1.213.463

i =1

a) Encontre as estimativas por ponto de e de .

cm

173,75

40
6.950

xi

x
=

1n
40 i

Calculando a mdia da amostra:

Guia de estudos de Estatstica


Calculando o desvio padro da amostra:

40

xi
40

1
i =1
2
2
s =
xi
n 1 i =1
n

s = 12,30 cm

= 1 1.213.463 6.950 = 151,29 cm 2


40
40 1

b) Construa o intervalo de confiana de 95% para a mdia da populao. Interprete.


IC( )95% x e
Deveramos usar a estatstica t, pois estamos usando s, o desvio-padro da amostra. Alguns
autores propem que, para n>30, a estatstica t pode ser aproximada pela estatstica z. Usando
ento esta aproximao:

x z /2

s
n

173,75 1,96

12,30
40

173,75 3,81
IC( )95% 169,94 < < 177,56
Com confiana de 95%, podemos afirmar que a verdadeira mdia da populao se encontra
inserida entre 169,94 e 177,56.
Obs. Voc mesmo pode fazer este IC com a t para 40-1 = 39 graus de liberdade, e verificar se h
grande diferena. Voc ver que no h.
c) Construa o intervalo de confiana de 99% para a mdia da populao. Interprete.
IC( )99% x e
Usando a aproximao da z:

x z /2

s
n

173,75 2,575

12,30
40

173,75 5,0
IC( )99% 168,75 < < 178,75
Com confiana de 99%, podemos afirmar que a verdadeira mdia da populao se encontra
inserida entre 168,75 e 178,75.
d) Confronte os resultados de (a) e (b) e discuta as diferenas.
Observemos os dois intervalos:
IC( )95% 169,94 < < 177,56 Amplitude intervalar de 7,62
IC( )99% 168,75 < < 178,75 Amplitude intervalar de 10,00

Guia de estudos de Estatstica


Pode-se perceber que quanto maior a confiana exigida, maior a amplitude do intervalo de
confiana. Assim, grau de confiana e amplitude intervalar so diretamente proporcionais.
e) Quantos estudantes seriam necessrios para num prximo estudo estimar a mdia da
populao com 95% de confiana e um erro 10% menor que o do item (b).
O erro no item (b) 3,81%, como queremos um erro 10% menor, temos que:

e = 3,81 (3,81 0,1) = 3,43


Agora com o erro 10% menor j definido, calculamos o tamanho da nova amostra:
2

z s
1,96 12,30
n = /2
=
= 49,40 50
e
3,43

Portanto, para estimarmos a mdia da populao com 95% de confiana e um erro 10% menor, o
tamanho da nova amostra dever ser de 50 estudantes.

5.13. EXERCCIOS PROPOSTOS


1) Uma empresa responsvel pelos pedgios de uma estrada fez recentemente uma pesquisa
sobre as velocidades desenvolvidas no perodo das 22 s 24 horas. No perodo de observao,
100 carros passaram por um aparelho de radar a velocidade mdia de 140 k.h-1, e desvio-padro
-1

de 30 k.h .
a) Estime a verdadeira mdia populacional
b) Construa um intervalo de confiana de 95% para a mdia populacional

2) Num concurso de produtividade de milho realizado na cidade de Lavras MG, foram sorteadas
2

12 parcelas de 40m na lavoura de um produtor local. Aps a colheita, os fiscais pesaram as


produes das parcelas obtendo os seguintes resultados em kg:

24

26

25

27

33

32

27

26

24

23

25

27

a) O produtor em questo afirma que na sua lavoura, o rendimento mdio da ordem de 7,5
-1

t.ha . Voc concorda com a afirmao do produtor? Trabalhe com um coeficiente de confiana
de 95% e justifique sua resposta. Observe que os dados das parcelas esto expressos em
-2

-1

kg.40m e a afirmativa do produtor feita em t.ha . Para compar-las, necessrio que os


dados estejam na mesma grandeza. A sugesto que os dados das produes das parcelas
sejam transformados para t.ha-1, utilizando o fator de correo:

0,001t
= 0,25 t.ha 1
0,004ha

Guia de estudos de Estatstica


b) Qual dever ser o tamanho da amostra para se estimar o rendimento mdio com um erro de
-1

0,1 t.ha com confiana de 95%?


c) Qual dever ser o tamanho da amostra para se estimar o rendimento mdio com um erro de
0,1 t.ha-1 com coeficiente de confiana de 99%?

3) Um pecuarista se entusiasmou por nova rao amplamente divulgada pelos meios de


comunicao. Para verificar a eficincia da rao, ele selecionou uma AAS de 49 bois de seu
rebanho e os alimentou por 30 dias, obtendo um ganho de peso mdio de 31,7 kg com um desviopadro de 2,6 kg.
a) Construa o intervalo de confiana de 95% para a mdia e interprete.
b) Qual dever ser o tamanho da amostra para que o erro no seja superior a 0,7 kg com
probabilidade de 95%.

4) Determine o intervalo de confiana com 95% para a seguinte situao:

s X = 2,0

x = 15,0

n = 16

5) Num levantamento amostral sobre hbitos de higiene e sade envolvendo bairros da periferia da
cidade de Lavras MG, foram obtidas as seguintes respostas pergunta: Com qual frequncia
voc lava sua caixa dgua?
Frequncia
Resposta
Absoluta

Relativa

Percentual

Nunca
De 3 em 3 meses
De 6 em 6 meses
Anual
Raramente

13
11
4
22
18

0,1912
0,1618
0,0588
0,3235
0,2647

19,12
16,18
5,88
32,35
26,47

Total

68

1,0000

100,00

Considerando que o ideal seria que as caixas dgua fossem lavadas exatamente de 6 em 6
meses, construa um intervalo com 95% de confiana para a proporo de residncias que esto
fora da condio ideal de higiene para as caixas dgua.

6) Foi feita uma AAS de tamanho n=30 de um rebanho de Gado Holands do sul de Minas Gerais,
com o objetivo de descrever a produo de leite. Os dados obtidos em kg na amostra foram:

17,7

20,7

19,3

19,3

18,0

16,9

19,7

20,1

21,0

21,2

23,3

15,3

23,7

18,8

25,2

18,0

22,8

21,1

18,8

25,9

19,3

19,6

26,6

14,3

19,7

32,7

14,1

16,8

19,7

19,3

Guia de estudos de Estatstica

30

x i = 608,9
i=1

30

2
i

= 12.787,07

i =1

a) Estime a mdia e varincia da populao


b) Estime a proporo dos animais que produzem menos que 20 kg de leite
c) Construa o intervalo de confiana para a mdia do rebanho com coeficiente de confiana de
95%.

7) Uma pesquisa realizada entre 218 eleitores escolhidos ao acaso indicou que 65 deles eram
favorveis ao candidato A.
a)

Construa um intervalo de confiana de 95% para a proporo de todos os votantes


favorveis ao candidato A. Interprete.

b) Qual deve ser o tamanho da amostra para que o erro de estimao caia pela metade?

Guia de estudos de Estatstica

UNIDADE 6
TESTES ESTATSTICOS
6.1. INTRODUO

Por meio de amostragem, informaes acerca de uma populao de interesse so obtidas,


a partir de uma amostra. O passo seguinte o de generalizar estas informaes para a populao.
Essa generalizao a inferncia. Na unidade anterior foi vista uma maneira pela qual a inferncia
estatstica pode ser feita, qual seja, a estimao de parmetros desconhecidos da populao.
Algumas vezes, no entanto, o interesse do pesquisador reside na verificao da validade, ou no,
de uma determinada hiptese, frequentemente com a finalidade de tomar alguma deciso acerca
da populao estudada.
Como exemplo, considere o cenrio em que o gerente de produo de caf em uma
agroindstria designa algum para vistoriar a populao de plantas de caf com relao ao ataque
de uma praga, como, por exemplo, a broca do cafeeiro. Seu objetivo principal o de saber se a
infestao desse inseto ultrapassa um nvel de controle acima do qual ocorre prejuzo econmico.
Ele deseja, assim, verificar a validade, ou no, da seguinte hiptese:

HIPTESE:

A infestao da broca est abaixo do nvel de controle.

Se ele tiver razes para rejeitar essa hiptese, isso implicar em uma deciso, qual seja, por
exemplo, a de pulverizar a lavoura de caf com algum inseticida. Por outro lado, se ele no rejeitar
essa hiptese, ento sua outra deciso ser a de no pulverizar a lavoura. Poderamos tomar
como hiptese outra afirmao, a saber: A infestao da broca igual ou est acima do nvel de
controle, para a qual seguir-se-iam os mesmos tipos de consideraes.
A verificao de uma hiptese de interesse, acerca da populao, chamada teste de
hiptese, ou, mais apropriadamente, teste estatstico. A teoria de testes faz parte de um conjunto
de conceitos e mtodos chamado de teoria da deciso, pois frequentemente h rejeio, ou no,
de hipteses, alm de serem em si mesmas decises (rejeitar uma deciso e aceitar, isto , no
rejeitar, tambm uma deciso), tais testes de hiptese tambm se desdobram gerencialmente,
implicando em mais algumas outras decises posteriores, como seria o caso anterior de pulverizar
com inseticida.

Guia de estudos de Estatstica

Conceito 6.1. Teste estatstico. Verificao da validade, ou no, de hipteses sobre a populao,
mediante critrios estatsticos.

Conceito 6.2. Teoria da deciso. Em grande medida corresponde teoria de testes, pois a
aceitao ou a rejeio de hipteses frequentemente implica em alguma deciso acerca da
populao.

Os testes podem se referir ao modelo utilizado para descrever a populao de interesse,


ou ainda, admitindo que o modelo seja satisfatrio, podem se referir aos parmetros do modelo.
Como exemplo do primeiro caso, um engenheiro deseja saber se pode utilizar o modelo de
Poisson para descrever o nmero de chuvas por ano acima de determinada intensidade, com fins
de previso, para a construo de um sistema de drenagem em barragem. Se o modelo de
Poisson no for adequado, sua previso poder ser falsa, e, consequentemente, seu projeto estar
errado, levando finalmente ao rompimento da barragem e consequentes perdas e prejuzos. Ento
ele pode querer testar:

HIPTESE:

A distribuio de chuvas tem distribuio de Poisson.

claro que se ele, baseando em critrios estatsticos, rejeitar esta hiptese, ser conveniente
procurar outro modelo probabilstico para descrever a distribuio de chuvas.
Por outro lado, as hipteses podem se referir ao(s) parmetro(s) do modelo probabilstico,
por sua vez tido como satisfatrio. O exemplo da broca do caf anterior mostra essa situao. A
probabilidade (ou a proporo) de frutos brocados um parmetro da distribuio Binomial e o
teste ir se referir a ela, admitindo o modelo probabilstico da distribuio Binomial como
satisfatrio.
Um teste estatstico deve ser construdo e avaliado segundo dois critrios de desempenho:
(i) Riscos (ou probabilidades) de decises erradas.
(ii) Custo para a tomada de deciso.
Um terceiro critrio poderia ser aventado, a saber o da utilidade da deciso tomada, mas tal critrio
carrega uma medida grande de subjetividade, e no ser considerado aqui. Simplesmente ser
admitido aqui que toda e qualquer deciso tomada a partir de um teste estatstico j previamente
considerada til para o analista.

Guia de estudos de Estatstica

6.2. ELEMENTOS DE UM TESTE


Geralmente, os testes tm a seguinte estrutura: existe uma hiptese principal sob
julgamento, chamada de hiptese de nulidade ou hiptese nula, representada pela notao H0. Se
rejeitada, ento uma outra hiptese candidata considerada como verdadeira, a chamada
hiptese alternativa, representada por H1 ou Ha. No exemplo da broca do caf, supondo que o nvel
de controle acima do qual ocorre prejuzo seja a proporo p0 de frutos atacados, o teste
correspondente seria:
H0: a proporo p de frutos brocados igual ou menor a p0
H1: a proporo p de frutos brocados superior a p0
ou, simplesmente:
H0: p p0
H1: p > p0
Nota. Observe que a igualdade (p = p0 ) fica em H0.
Na prtica, a aceitao ou rejeio de H0 (e, consequentemente, a aceitao de H1) so
feitas mediante uma amostra aleatria, da qual estimativas apropriadas so calculadas. Se a
distribuio de amostragem dos estimadores correspondentes for conhecida, ento pode-se
calcular a probabilidade da estimativa observada ter ocorrido, admitindo a hiptese de nulidade H0
como verdadeira. Se esta probabilidade for baixa, ento existem bons motivos para rejeitar essa
hiptese e aceitar H1.
Dessa forma, pode-se estipular um valor crtico para o estimador, de tal maneira que, se a
estimativa calculada na amostra for, por exemplo, maior que determinado valor, ento rejeita-se H0.
Por exemplo, suponha que o nvel de controle para a broca do caf seja de p0 = 5% de frutos
brocados. Assim, o teste acima seria dado por:

H0: p 5%
H1: p > 5%

Uma amostra de n frutos coletada, onde so contados o nmero x de frutos brocados. Em


seguida ento calculado a estimativa da proporo de frutos brocados:

p =

x
n

Guia de estudos de Estatstica

Digamos que, numa amostra de n = 400 frutos, conta-se 48 frutos brocados, totalizando ento

p =

48
= 0,12 = 12%.
400

A princpio, considerando que 12% maior do que 5%, seramos levados rejeitar H0 e aceitar H1 .
Porm, surge a pergunta: sendo estes 12% a proporo da amostra, no deveramos ser
cautelosos em decidir sobre a proporo da populao (5% da populao) ? A resposta ,
obviamente, sim, e a cautela traduz-se por calcular a probabilidade de uma amostra de n = 400
frutos apresentar p = 12% se esta amostra obtida aleatoriamente de uma populao com
p = 5% (ou menos). Ora, na estimao de propores j havamos concludo que p N ( p,

pq
), o
n

que nos leva a calcular esta probabilidade como:


z = (0,12-0,05)/0,010897 = 6,42.

Na tabela da Normal, o valor de rea acima de 6,42 no est nem mesmo indicado (a tabela pra
no valor de 3,99), implicando que, com aproximao de 4 decimais, tal rea acima 0,0000. De
fato, tal rea na exatamente zero, pois a Normal assinttica, e, teoricamente, nunca uma rea
acima zerada. Utilizando o Excel (poderia ser outro software estatstico, como o R, por exemplo,
veja

Captulo

8),

essa

rea

com

mais

decimais

seria

de

aproximadamente

0,00000000006813716258, ainda mais aproximadamente igual a 0,000000007%: um nmero


muito pequeno! Seria de aproximadamente 1 chance em 10.000.000.000 (dez trilhes)!

Guia de estudos de Estatstica

rea muito pequena,


aproximadamente igual a
zero

6,42

Essa probabilidade muito pequena, aproximadamente zero, o que nos leva a concluir que a
probabilidade de uma populao com p = 0,05 gerar aleatoriamente uma amostra que resulte em

p = 0,12 quase zero, levando-nos a no aceitar H0 : p 0,05, e, consequentemente, aceitar H1 =


p > 0,05. Finalmente, a estimativa do valor de p 12%, e no 5%.
Uma outra questo pode vir tona: para qual valor de p poderamos aceitar H0, isto ,
aceitar que p = 5%? Se estabelecermos uma probabilidade de 1%, por exemplo, teramos:

Guia de estudos de Estatstica

z = 2,33 = ( p - 0,05)/0,010897 p = 0,075


Assim, para toda amostra que apresenta p at o valor de 7,5% podemos aceitar que p seja 5%,
com uma probabilidade de erro de apenas 1%. Uma regra como esta chamada regra de deciso.

Conceito 6.3. Regra de Deciso. Procedimento pelo qual opta-se por rejeitar ou aceitar a hiptese
de nulidade.

No exemplo da broca do caf, a regra de deciso seria:

REGRA DE DECISO: Aceitar H0 se p for menor ou igual a 7,5%.

Outros elementos importantes de um teste estatstico so os possveis erros que se pode


cometer, ao se utilizar determinada regra de deciso. So eles:
Conceito 6.4. Erro Tipo I. Consiste no erro que se comete ao rejeitar H0 sendo ela verdadeira.

Conceito 6.5. Erro Tipo II. Consiste no erro que se comete ao aceitar H0, sendo que ela falsa.

Guia de estudos de Estatstica


A probabilidade (ou risco) de se cometer o erro tipo I , em geral, representada pela letra
grega e comumente chamada de nvel de significncia do teste. A probabilidade (ou risco) de
ocorrncia do erro tipo II representada pela letra , e no tem nome especial. Porm, quando se
aceita H0, e ela verdadeira, ou quando se rejeita H0, e ela de fato falsa, ambas consistem em
uma deciso correta. Esta ltima ocorre com probabilidade 1 - , valor esse que por sua vez
recebe o nome de poder do teste. J a probabilidade de se aceitar H0, quando ela verdadeira,
corresponde ao valor 1 - , que por sua vez tambm no recebe um nome especial. Esses
aspectos podem ser sumarizados como na Tabela 6.1.
Conceito 6.6. Nvel de Significncia. Consiste no valor da probabilidade de se cometer o Erro
Tipo I.

Conceito 6.7. Poder do Teste. Consiste na probabilidade de rejeio de H0, quando de fato ela
falsa.

Tabela 6.1. Resultados possveis em um teste estatstico, e suas probabilidades de ocorrncia.

A verdade na populao
Deciso tomada

H0 aceita

H0 verdadeira

H0 falsa

Deciso correta

Deciso errada

Probabilidade = 1 -

(Erro Tipo II)


Probabilidade =

H0 rejeitada

Deciso errada

Deciso correta

(Erro Tipo I)

Probabilidade = 1 -

Probabilidade =

6.3. TESTES SOBRE A VALIDADE DE MODELOS


Comentou-se acima que os testes podem se referir a adequabilidade ou no de modelos
probabilsticos utilizados para descrever populaes.

Alm do exemplo dado na Unidade 3 da

Guia de estudos de Estatstica


distribuio de Poisson para descrever a distribuio de chuvas, deve-se citar tambm a grande
importncia de testar se a populao sob estudo pode ser considerada como tendo distribuio
(pelo menos aproximadamente) Normal, para que seja possvel a utilizao daqueles teoremas
para a construo de intervalos de confiana, utilizando a distribuio t, particularmente quando a
amostra pequena. Se a populao no tem distribuio Normal, e a amostra pequena, ento a
distribuio t no adequada, e outros procedimentos, no abordados nesse curso, devero ser
buscados.
Neste tpico, ser visto como se pode testar se uma populao em questo pode ser
considerada como tendo uma dada distribuio em particular. Esse tipo de teste chamado teste
sobre a validade de modelos ou teste de aderncia. Para exemplificar, imagine que um engenheiro
-1

agrcola observou a ocorrncia de chuvas por ano com intensidade acima de 30 mm.h em uma
regio nos 35 anos anteriores (compondo a sua amostra), tendo encontrado os seguintes valores
(Tabela 6.2):

Tabela 6.2. Nmero de chuvas ocorridas nos 35 anos passados em uma regio com intensidade
acima de 30 mm.h-1.
1961: 2

1966: 1

1971: 0

1976: 2

1981: 3

1986:2

1991: 2

1962: 0

1967: 3

1972: 2

1977: 4

1982: 2

1987:2

1992: 6

1963: 3

1968: 2

1973: 4

1978: 5

1983: 0

1988: 1

1993: 5

1964: 2

1969: 3

1974: 2

1979: 2

1984: 6

1989: 3

1994: 3

1965: 1

1970: 1

1975: 3

1980: 0

1985: 2

1990: 4

1995: 1

A distribuio de frequncia absoluta dessa varivel descritora de natureza discreta est na Tabela
6.3 (a frequncia fe apresentada na tabela a frequncia esperada e ser logo em seguida
explicada).
Suponha que o engenheiro deseje verificar se a distribuio de frequncia pode ser
descrita por uma distribuio de Poisson, para que possa fazer previses futuras. Em outras
palavras, o problema consiste no teste:
H0: a ocorrncia de chuvas acima de 30mm/h tem distribuio Poisson.
H1: a ocorrncia de chuvas acima de 30mm/h no tem distribuio Poisson.

Guia de estudos de Estatstica


Tabela 6.3. Distribuio de frequncia absoluta observada (fo) da ocorrncia de chuvas com
-1

intensidade acima de 30 mm.h .


Nmero de chuvas por ano

fo

fe

0
1
2
3
4
5
6
7 ou mais
Total

4
5
12
7
3
2
2
0
35

3,17
7,62
9,15
7,32
4,39
2,11
0,84
0,40
35,00

Deve-se atentar que em H0 sempre fica a afirmao de tem distribuio e em H1 sempre a de


no tem distribuio.
A distribuio (qui-quadrado) fornece um meio (aproximado) de se testar a hiptese H0.
2

Para tanto, calcula-se, para cada nmero de chuvas, a frequncia absoluta esperada (fe), caso os
dados da amostra tivessem exatamente distribuio de Poisson. Em seguida, so confrontadas
essas frequncias esperadas fe com as observadas (fo). Se as diferenas puderem ser
consideradas como meramente casuais, ento aceita-se H0. Para tanto, determina-se o valor de
qui-quadrado calculado C2 pela expresso:

C2 =

i =1

(fei foi )2 =
fei

(foi fei )2

i =1

fei

onde k o nmero de classes. Este valor comparado com o valor da tabela de qui-quadrado,
para determinado nvel de significncia . Se o valor de

2C for maior que esse valor da tabela,

ento rejeita-se H0, pois ento muito pouco provvel que a amostra em questo tenha acontecido
sob H0 verdadeira, pois a probabilidade das variaes de fo em relao a fe terem acontecido por
puro acaso baixa (igual ou menor que ). Para se saber o nmero de graus de liberdade v para a
consulta tabela deve-se tomar:
v = (nmero de classes) (nmero de parmetros estimados) 1
A distribuio de Poisson , como foi visto, indexada por um nico parmetro , que nada
mais do que a mdia (e tambm a varincia) da populao dos infinitos anos da regio. Sendo
a mdia, tem-se como estimador para este parmetro:

= X

Guia de estudos de Estatstica


Voltando aos clculos, tomando-se os dados da Tabela 6.2 e calculando-se essa mdia
tem-se:

x =

(2 + 0 + 3 + L + 3 + 1)
35

84
= 2,4
35

Esta mdia tambm poderia ser calculada pela distribuio de freqncias (Tabela 6.3):

x =

(0.4 + 1.5 + 2.12 + 3.7 + 4.3 + 5.2 + 6.2) =


35

84
= 2,4
35

Os clculos sero feitos considerando = x = 84/35 = 2,4. Cada fe calculada por P(X = x).35,
veja tabela auxiliar abaixo.

P (X = x)

P (X = x).35

-2,4

0,0907*35 = 3,18

-2,4

0,2177*35 = 7,62

-2,4

0,2613*35 = 9,14

-2,4

7,32

-2,4

4,39

-2,4

2,11

-2,4

0,84

.2,4 /0! = 0,0907


.2,4 /1! = 0,2177
.2,4 /2! = 0,2613
.2,4 /3! = 0,2090
.2,4 /4! = 0,1254
.2,4 /5! = 0,0602
.2,4 /6! = 0,0241

7 ou mais

0,40
1 (0,0907 + 0,2177 + 0,2613
+ 0,2090 + 0,1254 + 0,0602 +
0,0241) = 1-0,9884 = 0,0116

Por que a multiplicao da probabilidade P(X = x) por n = 35? Como comentado no


Captulo 3, probabilidades so definidas como frequncias relativas em populaes infinitas. Assim
sendo, essas probabilidades, uma vez calculadas, se multiplicadas por 35, fornecero as
frequncias absolutas esperadas em cada classe. Isso pode ser entendido mais claramente se
atentarmos para o fato de que uma frequncia relativa uma proporo, e, como tal, obedece a
distribuio Binominal. Logo, a frequncia esperada fe o valor esperado de fo, pela Binominal.
Sabemos que um valor esperado a mdia, e que a mdia na Binominal dada pelo produto n.p:
= n.p = np

Guia de estudos de Estatstica


Mas p estimado pela probabilidade calculada. Logo:
fe = n. p = n.probabilidade estimada,
que fe o nmero de elementos esperado para aquela classe que tem probabilidade calculada p
igual

p . Assim, temos que:


fe (classe) = n.probabilidade (classe).

A frequncia absoluta na classe 0 ser, ento:

P(X = 0) =

2,718 2, 4 2,4 0
= 0,0907
0!

fe = 0,0907 x 35 = 3,18
A frequncia absoluta na classe 1 ser:

P(X = 1) =

2,718 2, 4 2,41
= 0,2177
1!

fe = 0,2177 x 35 = 7,62
Procedendo assim para as outras classes, tem-se:
P(X = 2) =

2,718 2,4 2,4 2


= 0,2613
2!

fe = 9,14

P(X = 3) =

2,718 2,4 2,4 3


= 0,2090
3!

fe = 7,32

e assim por diante, para as demais classes.


Alguns autores apontam que, como a distribuio qui-quadrado um recurso aproximado
para a realizao do teste, necessrio antes de tudo que as classes naturais da Tabela 6.3 (ou
seja, os diferentes nmeros de chuvas) tenham frequncia absoluta terica de pelo menos 1
elemento, para que a aproximao seja satisfatria. Outros preconizam que nenhuma frequncia
deve ser menor do que 5. A razo para isto que freqncias tericas menores do que 1 fariam a
parcela

(fei

fo i )2
fei

explodir para valores muito altos (observe que na frmula do C2 cada parcela do tipo acima),
fazendo o valor final do C2 ficar superestimado. Para alguns autores, aceitar fe < 5 em algumas
classes, mais do que possivelmente inflacionar exageradamente a parcela correspondente,
tambm prejudicaria a aproximao implcita no mtodo. Como todos esses critrios so

Guia de estudos de Estatstica


empricos, usaremos o critrio de frequncias esperadas (tericas) maiores ou iguais 5, que nos
resguarda tanto da exploso do valor do C2 quanto da aproximao ruim do mtodo. Apenas
para comparao, vamos agrupar como se utilizssemos o critrio fe > 1: fazendo assim, a Tabela
6.3 seria completada pelas frequncias esperadas fe iguais :
0

3,18

2,11

7,62

6 ou mais

1,24

9,14

Total

35,00

7,32

4,39

Veja que a tabela permaneceria quase como estava para a operao de teste de C2 (somente as
2 ltimas classes seriam agrupadas, pois tm fo menor do que 1). Porm, utilizando o critrio fe >
5, teremos que agrupar vrias classes. Assim, na Tabela 6.3 necessrio, em primeiro lugar,
agrupar aquelas classes com frequncias esperadas menores do que 5. Isso conduz distribuio
de frequncias apresentadas na Tabela 6.4. Com esse procedimento, o nmero de classes k
diminuiu de 7 para 4 classes.

Tabela 6.4. Distribuio de frequncia absoluta observada (fo) da ocorrncia de chuvas,


agrupando as classes com menos de 5 elementos.
Nmero de chuvas por ano

fo

fe

0 ou 1
2
3
4 ou mais
Total

9
12
7
7
35

10,80 = 3,18+7,62
9,14
7,32
7,74 = 4,39+2,11+0,84+0,40
35,00

Como fizemos, com base na estimativa do parmetro pode-se calcular alternativamente a


frequncia absoluta esperada em cada classe a partir das probabilidades, admitindo que os dados
da amostra tenham distribuio de Poisson. Para tanto, utilizamos a expresso conhecida
P(X = x) =

e x
,
x!

e assim, como j fizemos,


P(X = 0) =

2,718 2,4 2,4 0


= 0,0907
0!

Guia de estudos de Estatstica

e P(X = 1) =

2,718 2, 4 2,41
= 0,2177 , temos que,
1!

portanto:
P(X = 0 ou X = 1) = 0,0907 + 0,2177 = 0,3084 e 0,3084.35 = 10,80, como seria se o valor fosse
calculado direto nas frequncias esperadas (3,18+7,62). Para 4 ou mais o clculo seria:
P(X 4) = 1 - P(X < 4) = 1 - 0,0907 - 0,2177 - 0,2613 - 0,2090 = 0,2213
o que d uma frequncia absoluta esperada de fe = 7,74.
Agora, s resta calcular o valor de qui-quadrado. Para facilitar o uso de sua expresso, os
passos esto apresentados na Tabela 6.5.
O valor de qui-quadrado , portanto:

C2 =

(fei foi )2

i =1

fei

= 1,272

Para verificar se H0 rejeitada ou no, deve-se consultar o valor da tabela de . Para tanto, deve2

se observar que um parmetro () foi estimado, e o nmero de classes igual a 4.

Tabela 6.5. Distribuio de frequncia absoluta (observada e esperada) para a ocorrncia de


chuvas, agrupando as classes com menos de 5 elementos.

Nmero de chuvas por ano

fo

II

fe

( fo fe) 2
fe

0 ou 1

10,80

0,297

12

9,15

0,890

7,32

0,014

4 ou mais

7,74

0,071

Total

35

35,00

1,272

I - frequncia absoluta observada; II - frequncia absoluta esperada.

Assim:
v=4-1-1=2
Adotando-se um nvel de significncia de 0,05 (5%), tem-se que o valor tabelado dado por
(Tabela 3.2 do Apndice):

Guia de estudos de Estatstica


2
c 0,05(2)
= 5,991

Como C2 = 1,272 foi menor que 02,05 = 5,991, ento opta-se por aceitar a hiptese H0, de que a
ocorrncia de chuvas pode ser descrita satisfatoriamente pela distribuio de Poisson. Todo este
arrazoado algbrico pode ser visualizado graficamente na Figura 6.1.

Regio de
Rejeio de
H0

Figura 6.1. Distribuio de qui-quadrado com 2 graus de liberdade, evidenciando os valores de


e

2C

20,05 , do teste.

Observe que no corremos o risco de estarmos cometendo o Erro Tipo I, pois no estamos
rejeitando H0, porm, pelo fato de estarmos aceitando H0, corremos

o risco de estarmos

cometendo o Erro Tipo II, aceitando que a varivel estudada segue uma distribuio de Poisson
quando, na verdade, no segue. A probabilidade desse erro , um valor desconhecido.
O teste de qui-quadrado muito utilizado em situaes onde existem propores
a

esperadas com relao ocorrncia em classes, como em gentica. Por exemplo, a 1 Lei de
Mendel especifica que, se uma caracterstica est associada a dois fentipos possveis e se ela for
controlada por um gene apenas, ento as frequncias desses fentipos ocorrero numa razo de
3:1 em descendncia oriunda do cruzamento entre dois indivduos heterozigotos.

Guia de estudos de Estatstica


Comentou-se, anteriormente, a importncia da verificao se a populao da qual
amostras so coletadas podem ser consideradas como tendo distribuio Normal. Essa verificao
pode ser feita mediante um teste de aderncia, da mesma forma que aquela vista no exemplo da
distribuio de Poisson, tomando-se a distribuio de frequncia correspondente Normal.
Entretanto, alguns autores comentam que o teste de qui-quadrado s eficaz para teste de
normalidade para tamanhos de amostra acima de 100. Abaixo desse valor, outros testes devero
ser utilizados tais como os de Kolmogorov-Smirnov, o de Lilliefors, ou o de Shapiro-Wilk, entre
outros.
2

Outra aplicao do teste de qui-quadrado o teste de qui-quadrado ( ) para


independncia entre fatores. Esse um teste estatstico para testar (julgar) se 2 fatores quaisquer
(denominados de, por exemplo, A e B) so independentes um do outro, ou no. Para ilustrao,
considere o exemplo abaixo. Nesse exerccio, suponhamos que experimentou-se o efeito de uma
certa droga no controle de uma certa bactria, usando ratos. Foram utilizados 111 animais
divididos em 2 grupos, 57 deles recebendo uma dose-padro de bactrias patognicas seguidas
pela droga e um grupo de controle de 54 que receberam apenas a bactria. Depois de um
adequado perodo de tempo, quando a doena poderia provocar a morte, obtiveram-se os
seguintes resultados:
Indivduos
Tratamento

Mortos

Sobreviventes

Total

Bactria + droga

13

44

57

Bactria

25

29

54

Total

38

73

111

H diferena entre os tratamentos? Ou, em outras palavras, o fator sobrevivncia do indivduo


depende do fator uso da droga? Ou ainda: o uso da droga tem efeito na sobrevivncia do
indivduo(ele sobreviver depende do uso da droga)? Este tipo de teste realizado pelo algoritmo
abaixo:
H0: Efeito do fator A independe do efeito do fator B.
H1: Efeito do fator A depende do efeito do fator B.
Nota. Deve-se alertar que em H0 sempre fica a afirmao de independncia, e,
consequentemente, em H1 fica a de dependncia.
= 5% (este a probabilidade de cometer o erro tipo I, aqui foi exemplificado com 5%, mas
voc quem decide o valor deste risco).
Estatstica para teste:

Guia de estudos de Estatstica

2
cal
=

(fei foi )2

i =1

fei

onde foi a frequncia observada na i-sima casela da tabela. Uma casela (ou clula) o
encontro entre uma linha e uma coluna. O nmero k de caselas sempre igual a l.c, l
nmero de linhas e c nmero de colunas. J fei a frequncia esperada na i-sima casela
da tabela. calculada pela frmula:
fe =Total marginal linha x Total marginal coluna
Total geral

Regio de rejeio de H0 (RRH0):

Regio de
Aceitao
de H0

Regio de
Rejeio de
H0

2tab

2
tab

o valor de buscado na tabela de qui-quadrado com nvel de significncia e


2

nmero de graus de liberdade igual a (l-1).(c-1). Esse valor de

2
tab

separa a regio de

aceitao da regio de rejeio de H0.


Concluso: perceber se caiu em RAH0 ou RRH0 e concluir coerentemente.

Aplicando ao exemplo apresentado:


Clculo das frequncias esperadas:

Guia de estudos de Estatstica

fe(Mortes Bac. + Droga ) =


fe(Mortes Bac.) =

TotalM arg.Linha TotalM arg.Coluna 57 38


=
= 19,51
TotalGeral
111

TotalM arg.Linha TotalM arg.Coluna 54 38


=
= 18,49
TotalGeral
111

fe(Sobrev . Bac. + Droga ) =


fe(Sobrev . Bac.) =

TotalM arg.Linha TotalM arg.Coluna 57 73


=
= 37,49
TotalGeral
111

TotalM arg.Linha TotalM arg.Coluna 54 73


=
= 35,51
TotalGeral
111

Agora, passemos ao teste de hiptese:


o

1 ) H0: Os efeitos da droga no influenciam na sobrevivncia.


o

2 ) HA: Os efeitos da droga influenciam na sobrevivncia.


3 ) = 5%
o

4 ) Estatstica de Teste:
2
cal
=

(fe fo )2 (13 19,51) 2 (25 18,49 ) 2 ( 44 37,49) 2 (29 35,51) 2


=
+
+
+
= 6,7882
fe
19,51
18,49
37,49
35,51
i =1

O valor de

2
tab

tem = (2-1) x (2-1) = 1, onde 2 o nmero de linhas, e 2 o nmero de colunas da

tabela acima. Assim

2
tab

5 )Como
o

2
cal

>

2
tab,

= 3,841.

rejeita-se H0

6 ) Concluso: os efeitos da droga influenciam na sobrevivncia dos ratos expostos a essa


bactria, pois no h independncia entre os fatores.

6.4. TESTES SOBRE DIFERENA DE MDIAS 1 - 2


Frequentemente deseja-se comparar duas populaes, com relao s suas mdias, para
verificar simplesmente se so diferentes, sendo que a estimao dessa diferena importante,
mas secundria. Nesse caso, interessante perfazer um teste de hipteses sobre 1 - 2.
A diferena, X 1 - X 2 , tambm relaciona-se com a distribuio t, o que permite compor
critrios de deciso para testes estatsticos. Admitindo que as varincias de ambas as populaes
sejam iguais, ento a varivel:

tc =

(x1 x 2 ) (1 1 )
1
1

s 2
+
n2 n2

Guia de estudos de Estatstica

tem distribuio t com n1 + n2 - 2 graus de liberdade. O leitor deve se lembrar que:


n1

n2

j =1

j =1

(x1j x1 )2 + (x 2 j x 2 )2
s2 =

n1 + n 2 2

(n1 1)s12 + (n 2 1)s 22


n1 + n 2 2

Assim, os critrios de deciso para os testes unilaterais e bilaterais so:


a) Teste Unilateral do Tipo:
H0: 1 - 2 = d0 (ou 1 - 2 d0)
H1: 1 - 2 < d0
REGRA DE DECISO: rejeitar H0 se tc < -t, onde tc =

(x 1 x 2 ) d 0
1
1

s 2
+
n1 n 2

b) Teste Unilateral do Tipo:


H0: 1 - 2 = d0 (ou 1 - 2 d0)
H1: 1 - 2 > d0
REGRA DE DECISO: rejeitar H0 se tc > t, onde tc =

(x 1 x 2 ) d 0
1
1
s 2
+
n1 n 2

c) Teste Bilateral do Tipo:


H0: 1 - 2 = d0
H1: 1 - 2 d0
REGRA DE DECISO: rejeitar H0 se tc < -t/2 ou tc > t/2, onde tc =

(x 1 x 2 ) d 0
1
1

+
s 2
n
n
2
1

Esse tipo de teste empregado, por exemplo, quando uma empresa de reflorestamento,
que tradicionalmente cultiva um clone A de eucalipto, adquire numa instituio de pesquisa um
novo clone B. Assim, interessa saber se no plantio de novos talhes justificvel plantar o novo
clone B, ou seja, se ele mais produtivo. Se 1 - 2 = 0, ento no se justifica trocar o clone
cultivado na empresa. Se, por outro lado, A - B < 0, ento o clone B mais produtivo, e justifica-se
utiliz-lo. Assim, um teste de interesse seria:

Guia de estudos de Estatstica


H0: A - B = 0 (ou A - B 0)
H1: A - B

>

Suponha-se que, para a realizao de tal teste, um experimento tenha sido conduzido com
25 parcelas de cada clone nas quais avaliou-se o DAP mdio das rvores, tendo-se encontrado
2

X A = 18,61 cm, X B = 15,61, SA = 1,70 cm , e SB = 1,90 cm . Assim, temos que S = 1,80 cm ,


e
tc =

(18,61 15,61) 0
1
1
1,80
+

25
25

= 7,906

Utilizando a significncia de = 5%, tem-se que o valor tabelado de t para 48 graus de liberdade
deve ser obtido por interpolao: com 40 e 60 graus de liberdade, tem-se, respectivamente, 1,684
e 1,671 para os valores de t0,05, ou seja, diminuio de 0,013 ao se aumentar 20 graus de
liberdade. Assim:
20 ------------------0,013
8 -------------------

x = 0,005

E, portanto, o valor t para 48 graus de liberdade 1,684 - 0,005 = 1,679. Por ns mesmos
colocamos o sinal negativo, pois estamos vendo que o valor de t est do lado esquerdo da curva
de t: -1,679. Como 7,906 > -1,679 , aceita-se H0, isto , no h evidncias, neste teste, para
concluir que A e B sejam diferentes.
Observe que, nesse exemplo ilustrativo, consideramos, implicitamente, que as varincias
Ae
2

2B

das populaes de clones so iguais, justificando, assim, o uso da varincia combinada


2

s = 1,8000 cm . A maneira como deveramos julgar essa pressuposio poderia ser como fizemos
no Captulo 5: fazendo um intervalo de confiana para A /
2

ou no, no intervalo. Se estiver, as varincias

2
A

2B

2
B

e, verificando se o nmero 1 est ,

so iguais, se no estiver, no so. Outro

modo proceder um teste para a razo de varincias, que ser visto adiante.
Outra observao importante a coerncia entre hipteses H0 e H1 e evidncias amostrais:
nossas amostras resultaram em X A - X B = 18,61 15,61 = 3 cm, um valor positivo. Logo, seria
mais razovel julgar H0: A - B = 0 contra H1: A - B > 0 , pois, se A e B no foram iguais (A - B
= 0, H0), ento o mais razovel admitir que A ser maior do que B, porque as amostras sugerem
isto ( X A > X B ). Assim sendo, convm estabelecer como H1 aquilo que os dados sugerem, neste
caso, H1: A - B > 0. Faamos ento o teste assim:
H0: A - B = 0
H1: A - B > 0 (por sugesto das amostras)

Guia de estudos de Estatstica


= 5%
Estatstica para teste: tc = 7,906, e v = nA + nB 2 = 25 + 25 2 = 48
Regio de rejeio de H0: t5% = 1,679.
Concluso: como 7,906 > 1,679, rejeita-se H0, a um nvel de significncia de 5%.

Observe que a concluso mudou! Agora rejeitamos H0, isto , estamos concluindo que a mdia de
DAP do clone A maior do que a mdia de DAP do clone B. Observe como uma escolha mais
coerente da hiptese alternativa tornou o teste mais eficaz!

Vamos explorar mais um exemplo ilustrativo, onde as varincias no so iguais: considere


uma provedora de internet que deseja saber se o espao de memria no webmail utilizado por
seus clientes homens , em mdia, diferente do que o espao utilizado por suas clientes mulheres.
Para testar a hiptese de igualdade de mdia, tal provedora toma uma amostra de nH = 115
homens e nm = 134 mulheres, obtendo X H = 480,4 Mbytes e X M = 458,1 Mbytes, com sH = 111,8
Mbytes e sM

75,5 Mbytes. Vamos consider que as varincias populacionais so diferentes. O

teste para diferena entre duas mdias, quando as varincias so diferentes usa a estatstica

tc =

(x1 x 2 ) (1 1 )

s12 s 22
+
n2 n2

a qual tem nmero de graus de liberdade igual

v =

s12 s 22
+

n1 n 2
2

s12
s 22


n 2
n 2
+
n1 1 n 2 1

(tome a parte inteira),

Esta a j conhecida frmula de Satterthwaite.


Ento:
H0 : H = M
H1 : H > M (como sugerido pelos dados, j que X H > X M )

Guia de estudos de Estatstica


= 5%
Estatstica para teste:

tc =

(480,4 458,1) 0
2

111,8
75,5
+
115
134

111,8 2 75,5 2
+

134
115

v =

111,8 2

115 +
114

22,30

= 1,81

12, 2975

75,5 2

134
133

22869,9753
2

103,6255 +13,6059

= 195,0840 v 195

t0,05(195) = 1,6527 .

RRH0:

Regio de
Rejeio de
H0
1,81

1,6527
Concluso: como 1,81 > 1,6527 , rejeitamos H0. Isto , ao observarmos, nas amostras, que
homens gastam em mdia mais memria que mulheres em seus webmails da citada provedora,
isto significa que, nas populaes, as mdias podem ser consideradas diferentes tambm.

Guia de estudos de Estatstica


6.5. TESTES SOBRE MDIA DA DIFERENA D
Testar 1 - 2 testar sobre a diferena das mdias, e o que vimos na seo anterior. J
testar D testar a mdia das diferenas, e o que veremos agora. Voc perceber que isto no
s um trocadilho so situaes diferentes! Vejamos um exemplo: considere um administrador
que deseja testar se um determinado programa de gesto da qualidade aumentou o retorno sobre
o investimento (ROI) de empresas de mdio porte numa regio dada. Para tal empreitada, ele
obteve os seguintes dados, antes e depois do programa ser aplicado, veja Tabela 6.6.

Tabela 6.6. Retorno sobre investimento (ROI) de 12 empresas, antes e depois de um certo
programa de gesto da qualidade ser aplicado.
ROI

ROI

Empresa

Antes

Depois

Empresa

Antes

Depois

0,101

0,123

0,126

0,119

0,097

0,106

0,111

0,122

0,131

0,119

0,091

0,122

0,088

0,091

0,085

0,117

0,157

0,158

0,100

0,127

0,099

0,099

0,095

0,108

Esse tipo de dados chamado dados emparelhados, ou dados pareados, visto que cada
empresa gera um par de resultados, um antes e um depois isto , a mesma empresa (o mesmo
indivduo) gera um par de dados correlacionados. Nesse tipo de dados, no se pode usar os testes
para diferena de mdias 1 - 2 , exatamente porque tais dados so correlacionados, pois esto
vinculados, cada par, no mesmo indivduo (empresa), Para este tipo de dados o teste :
H0 : D = d0 (na maioria das vezes d0 = 0, isto , o antes igual no depois)
H1 : D > d0 ou D < d0 ou D d0
Estatstica para teste:
tc =

d d0
sD / n

, sendo d e s D so a mdia e o desvio-padro das diferenas par par.

O nmero de graus de liberdade v n -1.

Guia de estudos de Estatstica


No exemplo acima:
Empresa

Diferena D

Empresa

Diferena D

0,123 -0,101 = 0,022

0,119 0,126 = 0,007

0,106 0,097 = 0,009

0,122 0,111 = 0,011

0,119 0,131 = -0,012

0,122 0,091 = 0,031

0,091 0,088 = 0,003

0,117 0,085 = 0,032

0,158 0,157 = 0,001

0,127 0,100 = 0,027

0,099 0,099 = 0,000

0,108 0,095 = 0,013

d = ( 0,022 + 0,009 + (-0,012) + 0,003 + ... + 0,013) 12 = 0,01275

sD =

(0,022 0,01275 )2 + ... + (0,013 0,01275 )2


12 1

= 0,01238

H0 : D =0
H1 : D >0 (sugesto dos dados, j que d = 0,01275 > 0).
= 5%
Estatstica para teste:
tc =

0,01275 0
= 3,57
0,01238
12

Concluso: como tc = 3,57 > t5%(11) = 1,796, rejeitamos H0 ao nvel de significncia de 5%,
isto , o programa de qualidade aumentou o ROI das empresas.

6.6. TESTES SOBRE RAZES DE VARINCIAS

12
22

Como saber se duas populaes podem ser consideradas como tendo varincias iguais
ou diferentes? Isso corresponde a uma hiptese, dado que raramente as populaes sob
comparao so conhecidas em sua totalidade. Assim, um teste de hiptese de interesse seria:
H0:

12
=1
22

Guia de estudos de Estatstica

H0:

onde

12
1
22

12 a varincia da populao 1 e 22 a varincia da populao 2.


De uma maneira geral, testes sobre razes de duas varincias de populaes diferentes,

nas quais pressupe-se distribuio Normal, podem ser feitos mediante a distribuio F.
a) Teste Unilateral do Tipo:
H0:

12
= q0
22

H1:

12
< q0
22

REGRA DE DECISO: rejeitar H0 se fc <

s2 1
1
, onde fc = 12
f
s2 q0

b) Teste Unilateral do Tipo:


H0:

12
= q0
22

H1:

12
> q0
22

REGRA DE DECISO: rejeitar H0 se fc > f, onde fc =

s12 1
s 22 q 0

c) Teste Bilateral do Tipo:


H0:

12
= q0
22

H0:

12
q0
22

REGRA DE DECISO: rejeitar H0 se fc <

1
f / 2

ou fc > f/2, onde fc =

s12 1
s 22 q 0

Nota. H 2 nmeros de graus de liberdade para a distribuio F, como j vimos: v1 = n1 -1


relativo ao numerador e v2 = n2 -2 ao denominador.

Guia de estudos de Estatstica


Um exemplo ilustrativo pode ser visto se aproveitarmos o exemplo j dado no teste para 1
- 2, quando tivemos que decidir sobre a igualdade, ou no, das varincias. L, assumimos
varincias diferentes, mas aqui, testaremos:
H0 :

H1 :

H2

2
= 1 (ou H2 = M
)

M2

H2
2
> 1 (ou H2 > M
).
1
M

= 2,5%
Estatstica para teste:

fc =

111,8 2
s 2H 1
.
=
75,5 2
s 2M 1

= 2,19

v1 = 115 - 1 = 114 = vNumerador = vH


v2 = 134 - 1 = 133 = vDenominador = vM
F2,5% (114,133) = 1,423

v1 v2

Regio de rejeio de H0:

2,19
RAH0
RRH0
1,423

Guia de estudos de Estatstica


2
Concluso: H2 > M
, isto , diferentes.

6.7. EXERCCIOS RESOLVIDOS


1) Em um experimento com ervilhas foram obtidos os seguintes resultados:
Cor

Frequncia

Verde

275

Amarela

156

Albino

28

Total

459

a) Teste a hiptese de que a segregao segue a proporo 9:6:1.


Teoria Mendeliana 9 : 6 : 1

Proporo

9 6 1
:
:
16 16 16

Tem-se a frequncia observada, calcula-se ento a frequncia esperada (Total de observaes


vezes a probabilidade dada pela Teoria Mendeliana).
Cor

Freq. obs. (fo)

Freq. esp. (fe)

Verde

275

258

Amarela

156

172

Albino

28

29

Total

459

459

Teste de Deciso:
1) H0: Os dados seguem a proporo 9 : 6 : 1.
2) HA: Ao dados no seguem a proporo 9 : 6 : 1.
3) = 5%
4) Estatstica de Teste: Distribuio de 2 .
2
cal
=

i =1

(fe fo ) 2 (275 258 ) 2 (156 172) 2 (28 29 ) 2


=
+
+
= 2,643
fe
258
172
29

O valor de

2
tabelado com v = 2 GL: tab
= 5,991

2
2
Como: cal
< tab

Aceita-se H0 , ou seja, os dados seguem a proporo 9 : 6 : 1.


b) Qual o erro que pode-se estar cometendo na deciso acima. Qual a probabilidade desse erro
estar sendo cometido?

Guia de estudos de Estatstica


O erro do Tipo II, ou seja, aquele que se comete quando aceita-se H0 sendo esta hiptese falsa. A
probabilidade de comet-la dada por:

= 1 = 1 0,05 = 0,95 = 95%

2) Suponhamos que experimentou-se o efeito de certa droga no controle de certa bactria, usando
ratos. Foram utilizados 111 animais divididos em 2 grupos, 57 deles recebendo uma dose-padro
de bactrias patognicas seguidas pela droga e um grupo de controle de 54 que receberam
apenas a bactria. Depois de um adequado perodo de tempo, quando a doena poderia provocar
a morte, obtiveram-se os seguintes resultados:

Tratamento

Indivduos
Sobreviventes
44
29
73

Mortos
13
25
38

Bactria +droga
Bactria
Total

Total
57
54
111

H diferena entre os tratamentos?

Para a resoluo ser necessrio o clculo das frequncias esperadas:

fe(Mortes Bac. + Droga ) =


fe(Mortes Bac.) =

TotalM arg.Linha TotalM arg.Coluna 57 38


=
= 20
TotalGeral
111

TotalM arg .Linha TotalM arg .Coluna 54 38


=
= 18
TotalGeral
111

fe(Sobrev . Bac. + Droga ) =


fe(Sobrev . Bac.) =

TotalM arg .Linha TotalM arg .Coluna 57 73


=
= 37
TotalGeral
111

TotalM arg .Linha TotalM arg .Coluna 54 73


=
= 36
TotalGeral
111

Agora, passamos ao teste de deciso:


1) H0: Os efeitos da droga no influenciam na sobrevivncia.
2) HA: Os efeitos da droga influenciam na sobrevivncia
3) = 5%
4) Estatstica de Teste: Distribuio de 2
3

2
cal
=
i =1

(fe fo) 2 (13 20) 2 (25 18) 2 (44 37) 2 (29 36) 2
=
+
+
+
= 7,85
fe
20
18
37
36

O valor de 2 tabelado com v = (H-1).(K-1) = 1, onde H o nmero de linhas, e K o nmero de


2
colunas da tabela acima,: Assim, tab
= 3,841
2
2
Como: cal
> tab

Guia de estudos de Estatstica


Rejeita-se H0 , ou seja, os efeitos da droga no influenciam na sobrevivncia dos ratos expostos a
essa bactria.

3) O nmero de chegadas de pacientes em determinado hospital foi anotado minuto a minuto para
uma amostra de 70 perodos (de um minuto). Os dados colhidos foram os seguintes:

N Chegadas

Frequncia

15

17

11

O modelo de Poisson foi proposto para modelar estes nmeros de chegadas. Qual sua opinio,
embase-a estatisticamente?
Primeiro, construamos as hipteses a serem testadas:

H0: O nmero de chegadas tem distribuio de Poisson.


HA: O nmero de chegadas no tem distribuio de Poisson.

Calculemos a mdia, para os dados:

X =

x f

i i

(0 9) + (1 15 ) + ... + (7 2) = 2,47
70

Agora, precisa-se de alguns clculos auxiliares, que podem ser feitos em um quadro auxiliar:
fe = P(x) . n

(fo fe)

(fo fe)2

(fo fe)2/fe

0,084 x 70 = 5,88

3,12

9,70

1,65

15

0,210 x 70 = 14,70

0,30

0,09

0,01

17

0,260 x 70 = 18,20

-1,20

1,44

0,08

11

0,210 x 70 = 14,70

-3,70

13,69

0,93

0,130 x 70 = 9,10

-2,10

4,41

0,48

0,063 x 70 = 4,53

0,47

0,22

0,05

0,030 x 70 = 2,10

3,11

9,67

3,35

0,011 x 70 = 0,79

Total

70

X = n Ch.

fo

6,55

Guia de estudos de Estatstica

O clculo das probabilidades para cada uma das chegadas ser calculada assim:

P ( X = 0) = e

x
x!

= e 2,47

2,47 0
= 0,084 . Para as outras probabilidades seguem-se o mesmo
0!

princpio.
Busca-se agora o 2 tabelado:
Os graus de liberdade ser obtido por, v = ( k 1 ) 1, onde k o nmero de classes para o
nmero de chegadas, p o nmero de parmetros estimados (neste caso estimou-se , um
parmetro estimado, portanto p = 1), e o 1 fora do parntese um grau de liberdade perdido ao
se calcular a mdia apenas baseado nos dados amostrais :
v=(k1)1= (81)1=6
Utilizando = 5%, 2 tabelado com v = 6 GL igual a 12,59.
2
2
Concluso: Como cal
< tab
, aceita-se H0 com confiana de 95%, ou seja, o modelo de Poisson

o mais adequado para modelar o nmero de chegadas. H inmeros usos gerenciais para esta
concluso: por exemplo, se o gestor do hospital deseja dimensionar o nmero de atendentes que
devem ficar de prontido na recepo do hospital, ele pode se valer do conhecimento de que o
nmero de chegadas segue a distribuio de Poisson para esse dimensionamento.

6.8. EXERCCIOS PROPOSTOS


1) Num cruzamento entre plantas de tomates altas e folhas normais, com plantas ans e folhas tipo
batata, na gerao F2 obteve-se:
Plantas altas folhas normais

- 940

Plantas altas folhas batata

- 290

Plantas ans folhas normais

- 282

Plantas ans folhas batata

88

Verifique concordncia com a 2 Lei de Mendel (9:3:3:1) utilizando = 5%.

2) Proceda ao teste de 2 para decidir se o fator Tipo de Cooperativa independe do fator


Estado com coeficiente de confiana de 95%.

Guia de estudos de Estatstica

Tipo de cooperativa
Total

Estado
Consumidor
SP
PR
RS
Total

Produtor

214
51
111
376

Escola

237
102
304
643

Outros
78
126
139
343

119
22
48
189

648
301
602
1551

3) O gerente de um supermercado deve decidir sobre a quantidade de cada sabor de sorvete que
se deve estocar a fim de atender demanda dos consumidores, sem que haja perda de sabores
menos procurados. O fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes tm suas preferncias: 62% preferem creme, 18% cupuau, 12% goiaba e 8% baunilha
com calda. Uma amostra de 200 clientes acusou os resultados a seguir. Com o nvel de 0,05 de
significncia, teste se o fornecedor identificou corretamente as preferncias dos consumidores.

Sabor
Clientes

creme
120

cupuau
40

goiaba
18

baunilha
22

4) Em um estudo sobre acidentes de trabalho constatou-se que 147 deles exigiram tratamento
mdico. Desses acidentes, 31 ocorreram na Segunda feira, 42 na Tera, 18 na Quarta, 25 na
Quinta, e 31 na Sexta. Teste a afirmao de que os acidentes ocorrem com a mesma proporo
nos cinco dias da semana utilizando =5%.

Guia de estudos de Estatstica

UNIDADE 7
REGRESSO E CORRELAO
7.1. INTRODUO

Correlao e Regresso so tcnicas utilizadas em uma anlise de dados amostrais para


medir o comportamento conjugado entre duas ou mais variveis. Comecemos por definir
correlao e regresso:
Conceito 7.1. Correlao. um nmero entre -1 e 1 que mede o grau de relacionamento ou de
associao entre duas variveis.

Alm de se calcular o grau de correlao entre duas variveis, pode-se tambm fazer um estudo
para ajustar uma equao ao conjunto de dados, de forma que ele possa expressar uma relao
matemtica entre as variveis.

Conceito 7.2. Regresso. o estudo que busca ajustar uma equao a um conjunto de dados de
forma que a relao entre as variveis possa ser descrita matematicamente.

Encontramos na correlao um nmero que mede o grau de covariao entre duas


variveis e na regresso uma tentativa para estabelecer uma equao matemtica linear que
descreva a relao entre as variveis. Basicamente, buscamos encontrar nestas equaes de
regresso uma boa maneira de explicarmos o que ocorre com uma varivel devido s variaes
ocorridas nas outras variveis a qual est associada. Existem vrios tipos de relaes entre as
variveis. Neste estudo dar-se- nfase s regresses lineares.

7.2. O MODELO LINEAR


Um modelo linear uma equao matemtica da forma:

Guia de estudos de Estatstica


y = b 0 + b1x 1 + b 2 x 2 + ... + b p x p
onde:
y a varivel que considerada resposta ou dependente de outras variveis. um
nmero real sempre conhecido.
x1 , x2 ,..., x p so as variveis que possivelmente influenciam y . So nmeros reais
tambm sempre conhecidos.
b 0 , b 1, b 2 ..., b p so os parmetros do modelo. So nmeros reais, princpio,
desconhecidos.

p um nmero inteiro a partir de 1.


Esta equao considerada linear porque uma combinao linear dos parmetros, isto , os
parmetros so combinados entre si atravs de multiplicaes e adies.
Quando p = 1 denominamos a equao de regresso linear simples. Neste caso, podemos
reescrever a equao fazendo b 0 = a e b 1 = b , anotando:

y = a + bx
onde:

a o ponto em que a reta cruza o eixo y quando x = 0 (intercepto y );


b o coeficiente angular da reta dado pela relao:

b=

y
x

y = a + bx

Inclinao

Figura 7.1. Elementos de um modelo de regresso linear simples.

Guia de estudos de Estatstica


Tomemos, como exemplo, os dados de produo de leite de um grupo de vacas
holandesas tratadas com diferentes nveis de protena:
x

10

12

14

16

18

20

22

11,8

10,2

12,1

13,2

15,1

15,4

15,6

x o nvel de protena em %
y a produo de leite em kg.dia-1
Fazendo o grfico:

kg.dia-1

Figura 7.2. Um modelo de regresso linear simples colocado sobre dados.

Analisando o grfico, percebe-se que os dados ajustam-se a uma regresso linear simples. Mas,
nem sempre o modelo linear simples adequado para um determinado conjunto de dados. Assim,
alguns estudos iniciais devem ser realizados para que se possa determinar o modelo mais
apropriado. Observe tambm que consideramos o modelo linear adequado para representar (ou
descrever) a associao entre y e x, mesmo os pontos representando os dados no se sobrepondo
perfeitamente sobre a reta! Por qu isto? Podemos dar mais de uma resposta:
i.

Porque no estamos fazendo um ajuste matemtico, mas, sim, um ajuste


estatstico. Enquanto a Matemtica no tolera imprecises, a Estatstica admite
variaes aleatrias em torno de um modelo matemtico preciso.

ii.

Porque a produo de leite no depende somente do nvel de protena da rao, e,


por isso, mesmo se esperando uma certa produo de leite tpica para o consumo
de raes com 10% de protena, esta produo variar de animal para animal.

iii.

Porque a associao entre y e x no perfeitamente linear.

Guia de estudos de Estatstica


Todas estas respostas tem o seu lugar de ser, e esto mesmo relacionadas entre si. Para
acomodar tais argumentos, o modelo estatstico difere ligeiramente do modelo matemtico
apresentado, tornando-se:

y = b0 + b1 x1 + b2 x2 + ... + bp x p + e
onde:
a parte matemtica como j apresentado acima.
acrescenta-se a componente e , que um nmero real sempre desconhecido (mas no
um parmetro), o qual abriga toda a variao encontrada nos dados que no explicada
pelo modelo matemtico.

No caso de regresso linear simples temos:

y = a + bx + e

A maneira mais simples para se determinar relao entre as variveis atravs da


representao grfica dos pontos que representam a relao entre as variveis no plano
cartesiano, como foi feito acima. Vejamos alguns exemplos de relao entre variveis:

Os pontos dispostos em (b) e (d) apresentam relao linear entre as variveis, o que no ocorre
em (a) e (c). O grfico de (c) por exemplo, parece indicar relao quadrtica entre y e x, pois h
aparncia de um arco de parbola no grfico:

Guia de estudos de Estatstica

Uma relao assim seria uma equao do tipo y = a + bx + cx 2 com c>0 (parbola com a boca
para baixo). Apesar desta relao ser quadrtica, ns a consideramos ainda linear, pois
permanece sendo uma combinao linear dos parmetros a, b e c. Porm, no linear simples.
Seria uma equao de regresso linear quadrtica, ou simplesmente regresso quadrtica. J o
grfico de (a), por exemplo, do tipo que no poderia ser bem representado por nenhuma
regresso linear, nem simples, nem quadrtica, nem polinomial com qualquer grau. H uma
sugesto de uma relao exponencial do tipo y = a + be cx , a qual no uma combinao linear
dos parmetros a, b e c. Este tipo de regresso denominada no-linear. Aqui abordaremos
somente regresso linear simples.
Como j realado, ento, na Estatstica, o modelo (matemtico) linear simples incorpora as
variaes devidas ao aleatrio, tornando-se um modelo estatstico:

y i = a + bx i + e i
O termo

ei est relacionado ao erro aleatrio percebido em cada uma das i-simas observaes.

A massa de dados que temos em mos do tipo:

x1

x2

xn

y1

y2

yn

7.3. ESTIMAO DA EQUAO MATEMTICA DA REGRESSO


LINEAR
A partir do modelo de regresso linear, usando o mtodo chamado mtodo dos quadrados

mnimos, podemos determinar a equao da reta. Pode-se assim, obter a estimativa de regresso
por meio da equao:

y i = a + bx i

Guia de estudos de Estatstica


onde: a e b so as estimativas de a e b obtidas com os dados, e y i a estimativa da i-sima
observao.
Por meio desta equao, atravs dos valores dados de x (varivel independente ou
varivel resposta) possvel predizer os valores de

y (varivel dependente ou varivel

regressora).

Por meio de operaes algbricas, utilizando-se o mtodo dos quadrados mnimos,


possvel determinar valores estimados para o intercepto a e para o coeficiente angular b , ou
seja, podemos estimar a equao de regresso.

b =

xi

i =1

xi y i

i =1

yi

i =1
n

xi
n

i =1

2
xi
n
i =1

y
a =

i =1

i =1

Para os dados do exemplo das vacas holandesas, com o auxlio de um quadro auxiliar
para os clculos, temos:

xi

yi

xi yi

x i2

y i2

10

11,8

118,0

100,0

139,2

12

10,2

122,4

144,0

104,0

14

12,1

169,4

196,0

146,4

16

13,2

211,2

256,0

174,2

18

15,1

271,8

324,0

228,0

20

15,4

308,0

400,0

237,2

22

15,6

343,2

484,0

243,4

Totais: 112,00

93,40

1.544,00

1.904,00

1.272,46

Calculando a e b :

Guia de estudos de Estatstica

b =

a =

(112,0)(93,4)
7
= 0,44
(112,0) 2
1904,0
7

1544,0

93,4
112,0
0,44
= 6,257 6,30
7
7

Logo, a equao estimada ou ajustada para a produo de leite em funo do nvel de protena
dada:

y i = 6,30 + 0,44 x i
Esta equao pode ser interpretada da seguinte maneira: no intervalo estudado espera-se um
-1

aumento mdio de 0,44 kg.dia na produo de leite das vacas a cada 1% (x variando de 10 a 22
% de protena) de aumento no nvel de protena da rao. A interpretao est diretamente ligada
ao valor do coeficiente angular da reta ( b ). Para o exemplo:

x = 12% y = 6,30 + 0,44(12) = 11,58 kg.dia 1


x = 13% y = 6,30 + 0,44(13) = 12,044 kg.dia 1

y = 0,44 kg.dia 1

x = 1%

Deve-se ressaltar o perigo em extrapolar as concluses alm do alcance dos dados amostrais,
pois alm do intervalo estudado, a relao existente entre as variveis pode no se verificar.

7.4. VARIAES NO MODELO DE REGRESSO


Vejamos as variaes admitidas no modelo de regresso e como calcul-las:
1- A Variao Total ( SQTotal ) mede a variao dos pontos da reta de regresso em torno da
mdia da varivel dependente ( y ):

n
yi

n
i=1

2
SQTotal = y i
n
i=1

SQTotal = 1272,46

(93,4) 2
= 26,24
7

Para o exemplo: SQTotal mede toda a variao ocorrida na produo de leite.

Guia de estudos de Estatstica


2- Variao na Regresso Linear ( SQRL ):

n
n

xi
yi
n

x i y i i =1 i =1
n
i =1

SQRL =
2
n

xi
n

i =1
2

xi
n
i =1

Para o exemplo:

( 49,6) 2
= 21,97
112,0
O desvio da regresso linear mede o valor da variao ocorrida na produo de leite devido
SQRL =

variao nos diversos nveis de protena na rao. Em termos percentuais da Variao Total, a
variao devida Regresso Linear denominada Coeficiente de Determinao ( r 2 ):

r2 =

SQRL
21,97
100% =
100% = 83,7%
SQTOTAL
26,24

A interpretao : 83,7 % da variao na produo de leite explicada pela variao na


porcentagem de protena na rao.
3- Variao do acaso a variao no explicada pela regresso (Soma de Quadrados do Desvio
( SQ Re sduo )):

SQResduo = SQTotal SQRL


Nota. SQResduo tambm chamada SQDesvio .

Para o exemplo:
SQResduo = 26,24 21,97 = 4,27
Mede a variao ocorrida na produo de leite que no foi devido variao dos nveis de protena
da rao. Em termos percentuais:

4,27
100% = 16,3% da variao em
26,24

y explicada por x .

Guia de estudos de Estatstica

7.5. CORRELAO
A partir das evidncias de que existe relacionamento entre as variveis, existe a
necessidade de quantificao do grau de correlao entre elas. Isto j foi feito atravs das somas
de quadrados descritas acima, porm, tradicional e conveniente fazer-se tambm, e
principalmente, esta quantificao calculando o chamado coeficiente de correlao ( r ):

x y
i

r =

xi

i =1

i =1

n
x i2
i =1

xi

i =1
n

yi

i =1
n

yi

n
y i2 i =1
i =1
n

Interpretao dos valores do coeficiente de correlao:


O valor do coeficiente de correlao pode variar de 1 at 1: os valores negativos indicam
associao inversa entre as variveis e os positivos indicam associao direta. Se o coeficiente de
correlao for igual a zero, h indicao de que no existe relao entre as variveis.
Calculando o coeficiente de correlao para o exemplo:

r =

49,6
(112,0)(26,24)

= 0,915

Interpretando o resultado: pode-se afirmar que existe alta associao direta (positiva) entre o nvel
de protena da rao e a produo de leite.

7.6. COEFICIENTE DE DETERMINAO ( r 2 )


O coeficiente de determinao, indica percentualmente a variao da varivel dependente
( y ) causada pela variao da varivel independente ( x ). Isto j foi mostrado acima. Outro
modo de calcular ou medir esta associao elevar o valor encontrado no coeficiente de
correlao ao quadrado. Tal quadrado tambm o coeficiente de determinao, o r 2 Para o

exemplo:

Guia de estudos de Estatstica


r = 0,915 2 = 0,8372 = 83,7%
Interpreta-se que 83,7% da variao ocorrida na produo de leite se deve variao do nvel de
protena na rao.

7.7. EXERCCIOS RESOLVIDOS


1) Qual a equao da reta com as seguintes caractersticas?
a) Coeficiente angular 3,5 e intercepto -2;
Teremos a seguinte equao: y = -2 + 3,5 x
b) Coeficiente angular -5 e intercepto 6,3;
Teremos a seguinte equao: y = 6,3 -5 x
c) Coeficiente angular 0 e intercepto 3,8;
Teremos a seguinte equao: y = 3,8
2) Determine os coeficientes angulares e os interceptos das seguintes equaes da reta:
a) y = -5 x
Coeficiente angular = 5 e intercepto = 0.
b) y = 3,8
Coeficiente angular = 0 e intercepto = 3,8.
c) y = 2 3x
Coeficiente angular = 3 e intercepto = 2.

3) Use os valores dados abaixo para estimar a equao de regresso e plote a reta de regresso:
20

x = 200 ,
i =1

20

20

20

y = 300 , xy = 6.200 , x
i =1

i =1

= 3.600 ,

n = 20

i =1

Calculando o coeficiente angular da reta:

20
20 20
n
xy
x
y

20(6.200 ) (200 )(300 )


i =1
i =1 i =1

b=
=
=2
2
2
20(3.600 ) (200 )
20 2 20
n
x
x

i
=
1
i
=
1

Calculando o intercepto da reta:


20

a=

20

y b

i =1

x
i =1

300 2( 200 )
= 5
20

Guia de estudos de Estatstica


Assim, a equao de regresso :

y = -5 + 2 x .

Plotando a reta de regresso:

4) Foi feito um estudo sobre a adio de sulfato de clcio (CaSO4) uria e seu efeito no ganho de
peso de novilhos tratados com cana. Os resultados obtidos foram os seguintes:
x

10

15

20

495

560

590

620

615

Onde x concentrao de CaSO4 em g/kg e y o ganho de peso dirio em gramas.

Ganho de peso (g)

a) Faa um diagrama de disperso para os dados.

Sulfato de Clcio (g/kg)

b) Estime a equao de regresso que se ajusta aos dados.

Guia de estudos de Estatstica


Calculando os somatrios:
5

x = 50 ,
i =1

y = 2.880 ,
i =1

xy = 30.300 ,
i =1

= 750 ,

i =1

= 1.669.350

i =1

Calculando o coeficiente angular da reta:

5
5 5
n
xy
x
y

i
=
i
=
i
=
1
1
1

b=

5 2 5
n
x
x

i =1
i =1

5(30.300 ) (50 )(2.880 )


5(750 ) (50 )

=6

Calculando o intercepto da reta:


5

a=

y b

i =1

x
i =1

Assim a equao de regresso :

2.880 6(50)
= 516
5

y = 516 + 6 x .

c) Plote (faa o grfico de) a equao estimada.


Para plotarmos a reta de regresso, atribumos valores para x e assim encontraremos o

Ganho de peso (g)

valor correspondente em y. Ento, s plotarmos estes valores nos eixos x e y.

Sulfato de Clcio (g/kg)

d) Interprete praticamente a equao de regresso.


No intervalo estudado, esperamos um aumento de peso dirio de 6g, para cada 1% de
CaSO4 adicionado uria.

e) Calcule e interprete as trs variaes admitidas no modelo de regresso.

Guia de estudos de Estatstica


1- Soma de Quadrados Total (SQTotal):
2

y
5

(2.880 )2 = 10.470
i =1
= 1.669.350
SQTotal =
y2
5
n
i =1

Este valor encontrado para o SQTotal mede toda a variao ocorrida no peso dos novilhos.
2- Soma de Quadrados de Regresso Linear (SQRL):
2

5 5

x
y
5

i =1 i =1

xy

i =1
n

= (1.500 ) = 9.000
SQRL =
2
250
5

x
5

i =1
x2
n
i =1

Este valor encontrado para a SQRL mede a variao do peso dos novilhos devido
variao do teor de sulfato de clcio na uria.
3- Soma de Quadrados dos Desvios (SQDesvio): Pode ser encontrado pela diferena.
SQDesvio = SQTotal SQRL = 10.470 9.000 = 1.470
Este valor encontrado mede a variao ocorrida no peso dos novilhos que no foi devido
variao do teor de sulfato de clcio na uria.

g) Calcule o coeficiente de correlao e interprete.

5
5 5
n
xy
x
y

i =1 i =1 i =1

r =

y
2
5
5 5 2 i =1

2

x
x
y
n

n
i =1
i =1 i =1

1.500
250 10.470

= 0,93

Portanto, r = 0,93 mostra que existe alta correlao positiva entre o teor de sulfato de
clcio e o ganho de peso dos novilhos.

Guia de estudos de Estatstica


2

h) Encontre o coeficiente de determinao (r ) e interprete.


2

r = 0,93

r = 0,8649
Portanto, 86,49% da variao ocorrida no ganho de peso dos novilhos se deve ao teor de
sulfato de clcio na uria.

7.9. EXERCCIOS PROPOSTOS


1) Qual a equao da reta com as seguintes caractersticas? Esboce-as graficamente.
a) Coeficiente angular 10,2, e intercepto 5,0;
b) Coeficiente angular 55, e intercepto 0; .
c) Coeficiente angular 0, e intercepto 2,4;

2) Determine os coeficientes angulares e os interceptos-y das seguintes equaes da reta:


a) y = 3 + 7x
b)y = 3x
c) y = -2 + x

3) Com os valores dados abaixo, estime a equao e plote a reta de regresso:


20

a)

20

x = 163 ,

i =1

x = 37 ,

i =1

20

xy = 2.300

i =1

i =1

b)

20

y = 150 ,

i =1

= 1.600

i =1

y = 15 ,

xy = 230

i =1

= 1.560

i =1

4) Numa pesquisa foram medidos os teores de alumnio em diversos solos onde cultivado soja e
anotando-se suas respectivas produtividades. Foram obtidos os seguintes resultados:
x

0,9

1,1

1,2

1,5

1,6

1,8

2,0

1,0

0,9

0,8

0,9

0,6

0,5

0,5

Sendo:
+++

x teor de Al

em mE/100 cc de solo;

y a produtividade de soja em t/ha.

a) Faa um diagrama de disperso para os dados.


b) Estime a equao de regresso que se ajusta aos dados.

Guia de estudos de Estatstica


c) Plote a equao estimada.
d) Interprete de maneira prtica a equao de regresso.
e) Calcule e interprete as trs variaes admitidas no modelo de regresso.
f) Calcule o coeficiente de correlao e interprete.
2

g) Encontre o coeficiente de determinao (r ) e interprete.

5) necessrio de tempos em tempos realizar estimativas do peso de ovelhas; por exemplo, para
predizer o efeito de certas drogas ou para predizer datas de disponibilizao no mercado.
Infelizmente, pesar cada ovelha difcil, ento necessrio realizar estimativas do peso das
ovelhas de um modo mais fcil. Um estudo foi realizado para investigar a relao entre o peso vivo
da ovelha e a sua circunferncia de trax. A tabela mostra as medidas de uma amostra aleatria
de 66 ovelhas estudadas cuja circunferncia de trax encontra-se entre 60 cm e 90 cm.

Tabela 1. Peso vivo (LW) em kg e circunferncia de trax (CG) em cm de 66 ovelhas (dados de


Warriss e Edwards, 1995, com permisso.)
LW

CG

LW

CG

LW

CG

LW

CG

LW

CG

LW

CG

(y)

(x)

(y)

(x)

(y)

(x)

(y)

(x)

(y)

(x)

(y)

(x)

30

76

20

63

28

77

29

73

18

62

19

67

24

71

28

70

25

71

30

74

28

70

27

69

20

63

22

65

27

72

21

64

27

71

31

74

25

69

28

72

28

74

28

74

30

73

23

67

25

67

25

67

25

65

48

89

28

72

22

63

19

62

20

62

20

64

17

60

22

69

35

75

35

77

35

78

35

78

46

86

48

90

44

84

37

84

43

81

32

73

43

84

31

73

31

73

39

78

36

81

33

80

44

82

39

80

45

86

43

88

41

87

36

82

43

80

33

79

35

78

38

78

36

76

35

74

39

81

34

74

39

76

a) Faa um diagrama (grfico) de disperso para os dados.


b) Estime a equao de regresso que se ajusta aos dados.
c) Faa o grfico da equao estimada. Faa-o sobreposto ao grfico de disperso.
d) Interprete praticamente a equao de regresso.
e) Calcule e interprete as trs variaes admitidas no modelo de regresso.
f) Calcule o coeficiente de correlao e interprete.
g) Encontre o coeficiente de determinao (r2 ) e interprete.

Guia de estudos de Estatstica


6) A tabela abaixo apresenta trs conjuntos de dados preparados pelo estatstico Frank Anscombe,
eles mostram o perigo de fazermos o estudo de regresso sem antes examinarmos o grfico de
disperso.

Tabela 1. Trs conjuntos de dados preparados para mostrar a necessidade de se construir sempre
o grfico de disperso num estudo de regresso.
Conjunto de dados A
X
Y

10
8,04

13

11

14

12

6,95

7,58

8,81

8,33

9,96

7,24

4,26

10,84

4,82

5,68

Conjunto de dados B
X

10

13

11

14

12

9,14

8,14

8,74

8,77

9,26

8,10

6,13

3,10

9,13

7,26

4,74

Conjunto de dados C
X

19

6,58

5,76

7,71

8,84

8,47

7,04

5,25

5,56

7,91

6,89

12,50

Fonte: Moore, D. A Estatstica Bsica e sua prtica. LTC editora, Rio de Janeiro, 2000.

a) Calcule a equao de regresso linear para cada um dos trs.


b) Faa os trs grficos de disperso e compare com os resultados de 6.a. O que voc conclui ?

Guia de estudos de Estatstica

Observao: as tabelas estatsticas esto em um arquivo


separado.

Você também pode gostar