Você está na página 1de 221

UNIVERSIDADE FEDERAL DE PELOTAS

INSTITUTO DE FSICA E MATEMTICA


DEPARTAMENTO DE MATEMTICA E ESTATSTICA

Estatstica Bsica
Verso Preliminar

Clause Ftima de Brum Piana


Amauri de Almeida Machado
Lisiane Priscila Roldo Selau

Pelotas, 2009.

Sumrio
Unidade I. Introduo
1.1. Consideraes gerais................................................................................................

1.2. Populao e amostra.................................................................................................

1.3. Conceito e diviso.....................................................................................................

1.4. Informaes histricas..............................................................................................

1.5. Conceitos fundamentais...........................................................................................

1.5.1. Caracterstica e varivel....................................................................................

1.5.2. Escalas de medida.............................................................................................

1.5.3. Classificao de variveis.................................................................................. 10


1.5.4. Observao e conjunto de dados......................................................................

10

1.6. Bibliografia.................................................................................................................

12

Unidade II. Estatstica Descritiva


2.1. Apresentao de dados............................................................................................

14

2.1.1. Sries estatsticas.............................................................................................. 14


2.1.2. Tabelas..............................................................................................................

18

2.1.3. Grficos.............................................................................................................. 21
2.2. Distribuies de freqncias e grficos.................................................................. 24
2.2.1. Tabelas de classificao simples....................................................................... 24
2.2.2. Tabelas de classificao cruzada......................................................................

33

2.3. Medidas descritivas................................................................................................... 36


2.3.1. Medidas de localizao ou tendncia central....................................................

37

2.3.2. Medidas separatrizes......................................................................................... 43


2.3.3. Medidas de variao ou disperso....................................................................

45

2.3.4. Medidas de formato...........................................................................................

49

2.3.6. Medidas descritivas para dados agrupados em classe.....................................

52

2.4. Anlise exploratria de dados.................................................................................. 57


2.5. Bibliografia.................................................................................................................

64

Unidade III. Elementos de Probabilidade


3.1. Introduo teoria das probabilidades................................................................... 66
3.1.1. Introduo......................................................................................................... 66
3.1.2. Conceitos fundamentais...................................................................................

68

3.1.3. Conceitos de probabilidade..............................................................................

69

3.1.4. Teoremas para o clculo de probabilidades..................................................... 69


3.1.5. Probabilidade condicional e independncia...................................................... 73
3.2. Variveis aleatrias...................................................................................................

77

3.2.1. Introduo e conceito........................................................................................ 77


3.2.2. Variveis aleatrias discretas...........................................................................

79

3.2.3. Variveis aleatrias contnuas.......................................................................... 86


3.3. Distribuies de probabilidade................................................................................

92

3.3.1. Distribuies de probabilidade de variveis discretas......................................

92

3.3.2. Distribuies de probabilidade de variveis contnuas..................................... 104


3.3. Bibliografia................................................................................................................. 117

Unidade IV. Inferncia Estatstica


4.1. Introduo e histrico................................................................................................ 119
4.2. Conceitos fundamentais............................................................................................ 121
4.3. Distribuies amostrais............................................................................................. 124
4.3.1. Distribuies amostrais de algumas estatsticas importantes.........................

130

4.4. Estimao de parmetros.......................................................................................... 137


4.4.1. Conceitos fundamentais..................................................................................

137

4.4.2. Propriedades dos estimadores........................................................................ 134


4.4.3. Processos de estimao.................................................................................. 135
4.5. Testes de hipteses................................................................................................... 155
4.5.1. Testes para a mdia populacional................................................................... 155
4.5.2. Testes para a varincia populacional..............................................................

166

4.5.3. Testes para a proporo populacional............................................................

171

4.6. Quebras nas pressuposies adotadas no processo de inferncia..................... 174


4.6.1. Heterogeneidade de varincias....................................................................... 174
4.6.2. Dependncia entre as amostras...................................................................... 175
4.7. Regresso linear simples.......................................................................................... 179
4.7.1. Introduo................................................................................................. 179
4.7.2. Anlise de regresso....................................................................................... 182

4.8. Testes de qui-quadrado............................................................................................. 196


4.8.1. Consideraes gerais...................................................................................... 196
4.8.2. Estatstica do teste..........................................................................................

196

4.8.3. Classificao simples......................................................................................

197

4.8.4. Classificao dupla.......................................................................................... 197


4.8.5. Critrio de deciso........................................................................................... 198
4.9. Bibliografia.................................................................................................................. 203

Apndice
1. Notao somatrio..................................................................................................... 205
2. Noes sobre conjuntos...........................................................................................

206

3. Notao fatorial..........................................................................................................

209

4. Anlise combinatria................................................................................................. 209


5. Noes sobre derivao e integrao...................................................................... 211
6. Tabelas estatsticas...................................................................................................

213

7. Lista de respostas dos exerccios propostos.........................................................

219

Unidade I
Introduo

1.1. Consideraes gerais................................................................................................

1.2. Populao e amostra.................................................................................................

1.3. Conceito e diviso.....................................................................................................

1.4. Informaes histricas..............................................................................................

1.5. Conceitos fundamentais...........................................................................................

1.5.1. Caracterstica e varivel....................................................................................

1.5.2. Escalas de medida.............................................................................................

1.5.3. Classificao de variveis.................................................................................. 10


1.5.4. Observao e conjunto de dados......................................................................

10

1.6. Bibliografia.................................................................................................................

12

Piana, Machado e Selau

Introduo

1.1. Consideraes gerais


A coleta, o processamento, a interpretao e a apresentao de dados numricos
pertencem todos aos domnios da estatstica. Essas atribuies compreendem desde o clculo
de pontos em esportes, a coleta de dados sobre nascimentos e mortes, a avaliao da
eficincia de produtos comerciais, at a previso do tempo. A informao estatstica
apresentada constantemente em todos os meios de comunicao de massa: jornais, televiso,
rdio e internet.
Observamos uma abordagem crescentemente quantitativa utilizada em todas as
cincias, na administrao e em muitas atividades que afetam diretamente nossas vidas. Isto
inclui o uso de tcnicas matemticas nas decises econmicas, pblicas ou privadas; na
avaliao de controles de poluio; na anlise de problemas de trfego; no estudo dos efeitos
de vrios medicamentos; na adoo de novas tcnicas agrcolas e novas cultivares; em
estudos demogrficos como crescimento populacional e migrao.
A partir destes poucos exemplos, podemos notar a importncia da Estatstica como
ferramenta necessria para a compreenso dos fenmenos que ocorrem nas mais diferentes
reas.
1.2. Populao e amostra
difcil encontrar duas coisas exatamente iguais. H um pouco de variabilidade em
quase tudo. De modo bem geral, podemos dizer que o objetivo da Estatstica fornecer
mtodos para se conviver, de modo racional, com a variabilidade. Isto feito atravs da
descoberta de regularidade nos dados relativos s situaes em estudo. Para isso, duas ideias
so de fundamental importncia. Primeiramente, embora as observaes sejam variveis
sempre possvel associar a elas a ideia de regularidade e expressar essa regularidade
matematicamente. Por outro lado, devido variabilidade inerente aos indivduos, os pontos de
interesse da Estatstica so referentes aos grupos de indivduos, ou seja, estudamos os
indivduos atravs dos grupos.
Quando estudamos uma determinada caracterstica, geralmente, queremos obter
concluses para o conjunto de todos os indivduos que apresentam tal caracterstica.
Chamamos de populao o conjunto de todos os indivduos ou objetos que apresentam uma
caracterstica em comum. Na maioria dos casos, ao estudarmos uma populao, no temos
acesso a todos os seus elementos. O estudo feito, ento, a partir de uma parte desta
populao, denominada amostra, que tem por objetivo represent-la.
1.3. Conceito e diviso
A Estatstica, durante muitos sculos, esteve relacionada apenas com as informaes
a respeito do Estado. Hoje em dia, o conjunto de teorias, conceitos e mtodos denominado
Estatstica est associado ao processo de descrio e inferncia, debruando-se, de modo
particular, sobre questes relativas a sumarizao eficiente de dados, planejamento e anlise
de experimentos e levantamentos e natureza de erros de medida e de outras causas de
variao em um conjunto de dados.
A estatstica pode ser dividida em duas partes principais: a Estatstica Descritiva e a
Inferncia Estatstica ou Estatstica Analtica.
Enquanto a Estatstica Descritiva cuida do resumo e da apresentao de dados de
observao por meio de tabelas, grficos e medidas, sem se preocupar com as populaes de
onde esses dados foram retirados, a Inferncia Estatstica tem como objetivo fornecer mtodos
que possibilitem a realizao de inferncia sobre populaes a partir de amostras delas
provenientes. A Inferncia Estatstica tem por base o clculo de probabilidades e compreende
dois grandes tpicos: a estimao de parmetros e os testes de hipteses.
Embora a Estatstica Descritiva seja um ramo fundamental da Estatstica, em muitos
casos ela se torna insuficiente. Isto ocorre porque quase sempre as informaes so obtidas
de amostras e, consequentemente, sua anlise exige generalizaes que ultrapassam os
5

Piana, Machado e Selau

Introduo

dados disponveis. Essa necessidade, aliada ao desenvolvimento dos mtodos probabilsticos,


promoveu o crescimento da Estatstica pela nfase aos mtodos generalizadores (Inferncia
Estatstica), em acrscimo aos mtodos puramente descritivos.
Alguns exemplos ilustram a necessidade dos mtodos generalizadores:
prever a durao mdia da vida til de uma calculadora, com base no desempenho
de muitas dessas calculadoras;
comparar a eficincia de duas dietas para reduzir peso, com base nas perdas de
peso de pessoas que se submeteram s dietas;
determinar a dosagem ideal de um novo medicamento, com base em testes feitos
em pacientes voluntrios de hospitais selecionados aleatoriamente;
prever o fluxo de trfego de uma rodovia ainda em construo, com base no trfego
observado em rodovias alternativas.
Em todas essas situaes existe incerteza porque dispomos apenas de informaes
parciais, incompletas ou indiretas. A Inferncia Estatstica trata de problemas onde a incerteza
inerente, utilizando mtodos que se fundamentam na teoria das probabilidades. Os mtodos
de inferncia tornam-se necessrios para avaliar a confiabilidade dos resultados observados.
1.4. Informaes histricas
Embora a palavra estatstica ainda no existisse, existem indcios de que h 3000
anos a.C. j se faziam censos na Babilnia, China e Egito.
A prpria Bblia leva-nos a esse resgate histrico:
o livro quarto do Velho Testamento, intitulado Nmeros, comea com a seguinte
instruo a Moiss: Fazer um levantamento dos homens de Israel que estivessem aptos para
guerrear;
na poca do Imperador Csar Augusto, saiu um edito para que se fizesse o censo
em todo o Imprio Romano. Por isso Maria e Jos teriam viajado para Belm.
A Estatstica teve origem na necessidade do Estado Poltico em conhecer os seus
domnios. Sob a palavra estatstica, provavelmente derivada da palavra status (estado, em
latim), acumularam-se descries e dados relativos ao Estado. Nas mos dos governantes, a
Estatstica passou a constituir-se verdadeira ferramenta administrativa.
Em 1085, Guilherme, o Conquistador, ordenou que se fizesse um levantamento
estatstico da Inglaterra, que deveria incluir informaes sobre terras, proprietrios, uso da
terra, empregados, animais e que serviria tambm de base para o clculo de impostos. Esse
levantamento originou um volume intitulado Domesday Book (Livro do dia do juzo final).

Jonh Graunt
(1620 - 1674)

No sculo XVII, ganhou destaque na


Inglaterra, a partir das Tbuas de
mortalidade de Jonh Graunt e William
Petty, a aritmtica poltica que
consistiu de exaustivas anlises de
nascimentos e mortes. Dessas
anlises resultou a concluso, entre
outras, de que a percentagem de
nascimentos de crianas do sexo
masculino era ligeiramente superior
de crianas do sexo feminino.

William
(1623 - 1687)

Petty

Em 1708, foi organizado o primeiro curso de Estatstica na Universidade de Yena, na


Alemanha.
6

Piana, Machado e Selau

Introduo

A palavra estatstica foi cunhada pelo acadmico alemo Gottfried Achenwall, em


1740. Tambm ele quem estabelece as relaes da Estatstica com outras reas, definindolhe o campo de ao.
Contudo, foi o casamento entre o clculo das probabilidades e a Estatstica, em
meados do sculo XIX, que permitiu que a Estatstica fosse organicamente estruturada e
ampliasse largamente o seu campo de ao. O avano na teoria das probabilidades
possibilitou a descoberta das distribuies de probabilidade e, como consequncia, a criao
de tcnicas de amostragem mais adequadas e de formas de relacionar as amostras com as
populaes de onde provieram.
Outro marco decisivo no desenvolvimento dos mtodos estatsticos foi o advento da
computao eletrnica, ferramenta valiosssima que permitiu que a Estatstica alargasse ainda
mais os seus horizontes.
1.5. Conceitos fundamentais
1.5.1. Caracterstica e varivel
As unidades de uma populao se distinguem e se caracterizam por um conjunto de
particularidades, propriedades ou atributos. Cada uma dessas particularidades ou propriedades
uma caracterstica ou atributo da populao e de suas unidades. Cada caracterstica pode
manifestar-se nas unidades sob diferentes alternativas ou nveis. Por exemplo, sexo e grau de
instruo so caractersticas de indivduos de uma populao. Os nveis (alternativas) para a
caracterstica sexo so dois: masculino e feminino, e para a caracterstica grau de instruo
poderiam ser quatro: fundamental, mdio, graduao e ps-graduao.
Em geral, o conjunto de caractersticas das unidades de uma populao
demasiadamente vasto e no totalmente conhecido para ser completamente descrito. Assim,
apenas as caractersticas relevantes numa pesquisa especfica que so consideradas. O
conjunto dessas caractersticas ir depender dos objetivos e das condies de realizao da
pesquisa. Desse modo, o interesse estar sempre focalizado no nas unidades em si, mas nas
suas caractersticas relevantes.
O termo varivel utilizado genericamente para indicar aquilo que sujeito variao
ou inconstncia. No contexto da pesquisa cientfica, uma varivel definida como a funo
que estabelece uma correspondncia entre os nveis de uma caracterstica e os valores de um
conjunto numrico segundo uma escala de medida. Em outras palavras, uma varivel uma
caracterstica populacional que pode ser medida de acordo com alguma escala.
1.5.2. Escalas de medida
O termo escala de medida usualmente relacionado com instrumentos como rgua,
balana, copos de medida, utilizados para determinar comprimento, peso, volume, etc. Ou seja,
comumente tende-se a associar a mensurao com um processo de medida fsica com escala
bem definida que possui uma origem ou ponto zero natural e uma unidade de medida
constante. Frequentemente, entretanto, caractersticas devem ser representadas por escalas
menos informativas, que no possuem as propriedades associadas com a maioria das medidas
fsicas.
Podemos classificar as escalas de medida em quatro categorias: escala nominal,
escala ordinal, escala intervalar e escala de razo ou racional. Cada escala de medida possui
seu prprio conjunto de pressuposies referentes correspondncia de nmeros com
entidades do mundo real e ao significado da realizao das vrias operaes matemticas
sobre esses nmeros. A complexidade e a informao aumentam conforme aumenta o nvel da
escala de medida.

Piana, Machado e Selau

Introduo

Escala nominal
Uma varivel de escala nominal classifica as unidades em classes ou categorias
quanto caracterstica que representa, no estabelecendo qualquer relao de grandeza ou de
ordem. denominada nominal porque duas categorias quaisquer se diferenciam apenas pelo
nome.
A escala nominal a menos restritiva. A igualdade ou equivalncia de classes
caracterizada pelas seguintes trs propriedades:
reflexividade: cada unidade em uma classe igual a ela prpria;
simetria: para cada duas unidades em uma mesma classe, sejam A e B, A=B implica
B=A;
transitividade: para quaisquer trs unidades em uma classe, sejam A, B e C, A=B e
B=C implica A=C.
Os rtulos das categorias eventualmente podem ser numricos, mas operaes
aritmticas sobre esses nmeros no tm qualquer significado com respeito aos objetos do
mundo real que eles identificam. A escala nominal permite apenas algumas operaes
aritmticas mais elementares. Pode-se contar o nmero de elementos de cada classe e
determinar a classe mais numerosa ou efetuar testes de hipteses estatsticas referentes
distribuio das unidades da populao nas classes. Como uma escala nominal apenas
classifica unidades, mas no infere grau ou quantidade, as vrias classes no podem ser
manipuladas matematicamente (por exemplo, por adio ou subtrao de equivalentes
numricos daquelas classes). Consequentemente, a maioria das estatsticas usuais, como
mdia e desvio padro no tm sentido, pois as operaes para sua determinao no so
permitidas. Se tudo o que pode ser dito sobre um objeto que ele diferente de outros, ento
a escala de medida nominal.
Escala ordinal
Uma varivel de escala ordinal classifica as unidades em classes ou categorias quanto
caracterstica que representa, estabelecendo uma relao de ordem entre as unidades
pertencentes a categorias distintas. A escala ordinal uma escala de ordenao, designando
uma posio relativa das classes segundo uma direo. Qualquer conjunto de valores que
preservem a ordem so vlidos para essa varivel tornando, dessa forma, a escala ordinal
invariante sob transformaes que preservem a ordem. Ou seja, uma escala ordinal pode ser
transformada em outra escala ordinal. Isto implica que, se eventualmente forem empregados
nmeros para representar as classes, apenas a propriedade de ordem deve ser respeitada.
Assim como na escala nominal, operaes aritmticas (somas, diferenas, etc.) entre
esses valores no tm sentido. A escala ordinal mantm a propriedade da equivalncia de
classes da escala nominal, no sentido de que unidades equivalentes recebem a mesma ordem.
Alm da propriedade de simetria da escala nominal, a escala ordinal tem a propriedade de
assimetria. Isso significa que classes podem ser designadas no apenas como equivalentes a
outras classes, mas tambm como no equivalentes. Assim, por exemplo, uma escala ordinal
pode designar que a classe A maior do que a classe B e, portanto, que a classe B menor
que a classe A. A propriedade de transitividade preservada na escala ordinal: se a classe A
maior ou mais elevada que a classe B, qualquer unidade particular da classe A maior ou mais
elevada que qualquer unidade especfica da classe B.
Essas propriedades adicionais caracterizam a superioridade da escala ordinal em
relao escala nominal. Entretanto, as descries estatsticas ainda so limitadas. As
medidas descritivas restringem-se ao grupo das medidas de ordem (separatrizes) porque as
operaes aritmticas usuais no podem ser efetuadas com smbolos que caracterizam apenas
ordem e designam quantidade vagamente. Alguns procedimentos estatsticos so
especificamente apropriados para dados de ordem. Se o que pode ser dito sobre um objeto
que ele maior, melhor, mais colorido, etc. que outro, ento a escala ordinal.

Piana, Machado e Selau

Introduo

Escala intervalar
Uma varivel de escala intervalar, alm de ordenar as unidades quanto
caracterstica mensurada, possui uma unidade de medida constante. A escala intervalar, ou
escala de intervalo, aproxima-se da concepo comum de medida, mas no possui uma origem
(ou ponto zero) nica. O ponto zero dessa escala arbitrrio e no expressa ausncia de
quantidade.
Os exemplos mais comuns de escala de intervalo so as escalas Celsius e Fahrenheit,
usadas para medir a temperatura. Cada uma dessas escalas assinala um zero arbitrrio e
diferenas de temperatura iguais so determinadas atravs da identificao de volumes iguais
de expanso no lquido usado no termmetro. Dessa forma, a escala de intervalo permite
inferncias referentes a diferenas entre unidades a serem medidas, mas no se pode dizer
que um valor em um intervalo especfico da escala seja um mltiplo de outro. Por exemplo, a
mensurao da temperatura de unidades permite determinar quanto uma mais quente do que
outra, mas no correto dizer que um objeto com 30oC est duas vezes mais quente que um
com temperatura de 15oC.
Segundo a frmula de converso de graus Celsius para graus Fahrenheit,
F = 9 5 C + 32 , essas temperaturas, 30oC e 15oC, expressas em graus Fahrenheit so,
respectivamente 86oF e 59oF, que no esto na razo 2:1. Pode-se dizer, entretanto, que uma
diferena entre dois valores em uma escala um mltiplo de uma diferena entre dois outros
valores. Por exemplo, a diferena 30 C 0 C o dobro da diferena 15 C 0 C . As
correspondentes diferenas na escala Fahrenheit so 86 F 32 C e 59 F 32 C , que esto
na mesma razo 2:1.
A escala intervalar invariante sob transformaes lineares positivas (ou seja,
transformaes da forma y = a + bx, b > 0 ). Isso significa que uma escala de intervalo pode ser
transformada em outra por meio de uma transformao linear positiva. A transformao de
graus Celsius em Fahrenheit um exemplo de transformao linear.
A maioria das medidas descritivas, tais como mdia, desvio padro, coeficiente de
correlao, requer apenas escala de intervalo. Entretanto, algumas medidas, como o
coeficiente de variao, podem ser enganosas quando aplicadas a dados de varivel de escala
intervalar. Se o que pode ser dito sobre um objeto que ele tantas unidades maior que outro,
ento a escala de medida intervalar.
Escala de razo
Uma varivel de escala de razo ou racional ordena as unidades quanto
caracterstica mensurada, possui uma unidade de medida constante e sua origem (ou ponto
zero) nica. Nessa escala o valor zero expressa ausncia de quantidade. A escala de razo,
ou escala racional, a mais elaborada das escalas de medida, no sentido de que permite todas
as operaes aritmticas. a escala de medida mais comum nas cincias fsicas, tais como as
escalas para a medida de comprimento, peso, etc.
Conforme a designao sugere, razes iguais entre valores da escala racional
correspondem a razes iguais entre as unidades mensuradas. Dessa forma, escalas de razo
so invariantes sob transformaes de proporo positivas, ou seja, transformaes da forma
y = cx, x > 0 . Por exemplo, se uma unidade tem 3m e a outra 1m, pode-se dizer que a primeira
unidade tem altura 3 vezes superior a da segunda. Isso porque, se as alturas das duas
unidades forem transformadas em centmetros, suas medidas sero, respectivamente, 300cm e
100cm, que esto na mesma razo 3:1. Pode-se efetuar a transformao das medidas de uma
escala racional para outra escala racional meramente pela multiplicao por uma constante
apropriada. Se puder ser dito que um objeto tantas vezes maior, mais pesado, etc. que outro,
ento a escala de medida de razo.
A escala racional contm toda a informao das escalas de nvel mais baixo, ou seja,
igualdade de classe, ordem e igualdade de diferenas, e mais ainda. Todas as medidas
descritivas podem ser determinadas para dados de uma varivel expressa em escala racional.

Piana, Machado e Selau

Introduo

1.5.3. Classificao de variveis


De modo geral, as variveis podem ser divididas em dois grupos: variveis categricas
e variveis numricas.
As variveis categricas, tambm denominadas fatores de classificao ou
simplesmente fatores, so aquelas cujos valores representam categorias ou classes.
Caracterizam-se por possuir um conjunto limitado de valores (nveis) que usualmente se
repetem entre as unidades. As variveis categricas podem ser qualitativas ou quantitativas.
Variveis categricas qualitativas descrevem qualidades e, de acordo com a escala de
medida, so classificadas em:
Nominais: quando no houver um sentido de ordenao entre os seus possveis
valores. Exemplos: sexo (com os nveis masculino e feminino), raa de cavalos (com os nveis
manga-larga, crioulo e rabe, por exemplo), regio geogrfica (com os nveis norte, sul,
sudeste e leste), estado civil (com os nveis solteiro, casado e divorciado, por exemplo),
linhagens de uma cultivar em um processo de melhoramento vegetal, etc.
Ordinais: quando houver um sentido de ordenao entre os seus possveis valores.
Exemplos: faixas de idade (criana, adolescente, adulto, idoso), intensidade de cor (claro,
escuro), intensidade de infestao (forte, mdia, fraca), grau de instruo (fundamental, mdio,
graduao, ps-graduao) etc.
Variveis categricas quantitativas descrevem quantidades. Possuem os mesmos
atributos das variveis qualitativas, mas, uma vez que seus nveis expressam quantidade, a
cada nvel est associado um valor, denominado valor do nvel. Por exemplo, se uma varivel
exprime a quantidade de um tranquilizante utilizado contra a insnia, ento os nveis podero
ser Dose 1, Dose 2 e Dose 3 e as quantidades (valores) associadas podero ser 0, 2 e 4 mg.
As variveis numricas so aquelas cujos valores so nmeros reais, de modo que
cada valor representa um valor da varivel e no uma categoria ou uma classe. De acordo com
o processo de obteno dos seus dados (valores), as variveis numricas so classificadas
em:
Discretas: descrevem dados discretos ou de enumerao, ou seja, obtidos por
processo de contagem. As variveis discretas s podem assumir valores do conjunto dos
nmeros inteiros no negativos (0, 1, 2, 3, ...). Exemplos: nmero de sementes germinadas,
nmero de pacientes que se recuperam, nmero de frutos estragados, nmero de filhos de um
casal, etc.
Contnuas: descrevem dados contnuos ou de mensurao, ou seja, obtidos por
processo de medio. As variveis contnuas podem assumir qualquer valor do conjunto dos
reais (-10, 0, 2 , ). Exemplos: peso, altura, tempo de sono, teor de umidade, temperatura
corporal, etc.
Observemos que variveis categricas quantitativas so, de certa forma, variveis
numricas, mas, nesse caso, os valores representam quantidades associadas a categorias
(nveis do fator).
A classificao correta de uma varivel fundamental, uma vez que esta
discriminao que ir indicar a possibilidade e a forma de utilizao dos procedimentos
estatsticos disponveis.
1.5.4. Observao e conjunto de dados
Os nmeros, taxas e outras informaes coletados em experimentos ou
levantamentos so denominamos dados. Todo dado um valor de uma varivel (numrico ou
no numrico). A unidade da populao em que so medidas as variveis de interesse
chamada de unidade de observao. Uma planta, por exemplo, pode ser a unidade de
10

Piana, Machado e Selau

Introduo

observao em uma determinada pesquisa. Os valores obtidos para a varivel medida nas
unidades de observao (nas plantas) so os dados.
Observao o conjunto de valores referentes a todas as variveis medidas em uma
unidade de observao. Por exemplo, os valores referentes ao peso de matria seca,
estatura e ao nmero de perfilhos de uma planta constituem uma observao. O conjunto de
todas as observaes, ou seja, todos os valores referentes a todas as unidades de observao,
constituem o conjunto de dados.
As variveis so representadas por letras maisculas (X, Y, Z, etc) e os seus valores
(dados) por letras minsculas (x, y, z, etc.). Assim, se uma varivel representada por X (xis
maisculo), todos os seus valores sero representados por x (xis minsculo).
Para diferenciar ou individualizar os valores de uma varivel, acrescenta-se um ndice
i = 1, 2, ..., n, que representa a unidade ou a observao. Assim, um conjunto de n valores de
uma varivel X ser representado por x1, x2, x3, ..., xn.
Como exemplo, tomemos o conjunto de dados apresentado na tabela abaixo. Esse
conjunto constitudo por 19 unidades ou observaes (i), uma varivel identificadora (nome),
uma varivel do tipo fator (sexo) e trs variveis numricas contnuas (idade, estatura e peso).
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Nome
Alfredo
Carol
Jane
Joo
Lusa
Roberto
William
Brbara
Juca
Joca
Judite
Felipe
Tomas
Alice
Henrique
Janete
Joice
Maria
Ronaldo

Sexo
M
F
F
M
F
M
M
F
M
M
F
M
M
F
M
F
F
F
M

Idade
14
14
12
12
12
12
15
13
12
13
14
16
11
13
14
15
11
15
15

Estatura
1,75
1,60
1,52
1,50
1,43
1,65
1,69
1,66
1,46
1,59
1,63
1,83
1,46
1,44
1,61
1,59
1,30
1,69
1,70

Peso
51,03
46,49
38,33
45,13
34,93
58,06
50,80
44,45
37,65
38,10
40,82
68,04
38,56
38,10
46,49
51,03
22,91
50,80
60,33

Este conjunto de dados representado simbolicamente na tabela abaixo.


i
1
2
3
...
19

A
a1
a2
a3
...
a19

B
b1
b2
b3
...
b19

X
x1
x2
x3
...
x19

Y
y1
y2
y3
...
y19

Z
z1
z2
z3
...
z19

11

Piana, Machado e Selau

Introduo

1.6. Bibliografia
COSTA, S.F. Introduo Ilustrada Estatstica (com muito humor!). 2.ed., So Paulo:
Harbra, 1992. 303p.
FARIA, E.S. de. Estatstica. Edio 97/1. (Apostila)
FERREIRA, D.F. Estatstica Bsica. Lavras: Editora UFLA, 2005, 664p.
FREUND, J.E., SIMON, G.A. Estatstica Aplicada.
Contabilidade. 9.ed., Porto Alegre: Bookman, 2000. 404p.

Economia,

Administrao

PIMENTEL GOMES, F. Iniciao Estatstica. So Paulo: Nobel, 1978. 211p.


SILVA, J.G.C. da. Estatstica experimental: anlise estatstica de experimentos. (Apostila)
2000. 318p.
SILVEIRA JNIOR, P., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. da Curso de Estatstica.
v.1, Pelotas: Universidade Federal de Pelotas, 1989. 135p.
SPIEGEL, M.R. Estatstica. So Paulo: McGraw-Hill, 1972. 520p.
Sistema Galileu de Educao Estatstica. Disponvel em: http://www.galileu.esalq.usp.br

12

Unidade II
Estatstica Descritiva

2.1. Apresentao de dados............................................................................................

14

2.1.1. Sries estatsticas............................................................................................. 14


2.1.2. Tabelas.............................................................................................................

18

2.1.3. Grficos............................................................................................................. 21
2.2. Distribuies de frequncias e grficos.................................................................. 24
2.2.1. Tabelas de classificao simples...................................................................... 24
2.2.2. Tabelas de classificao cruzada..................................................................... 33
2.3. Medidas descritivas................................................................................................... 36
2.3.1. Medidas de localizao ou tendncia central...................................................

37

2.3.2. Medidas separatrizes........................................................................................ 43


2.3.3. Medidas de variao ou disperso...................................................................

45

2.3.4. Medidas de formato..........................................................................................

49

2.3.5. Medidas descritivas para dados agrupados em classe....................................

52

2.4. Anlise exploratria de dados.................................................................................. 57


2.5. Bibliografia.................................................................................................................

64

Piana, Machado e Selau

Estatstica Descritiva

2. Estatstica Descritiva
O mtodo cientfico, quando aplicado para soluo de um problema cientfico,
frequentemente gera dados em grande quantidade e de grande complexidade. Desse modo, a
anlise da massa de dados individuais, na maioria das vezes, no revela a informao
subjacente, gerando a necessidade de algum tipo de condensao ou resumo dos dados.
A Estatstica Descritiva a parte da Estatstica que desenvolve e disponibiliza
mtodos para resumo e apresentao de dados estatsticos com o objetivo de facilitar a
compreenso e a utilizao da informao ali contida.
Em resumo, a Estatstica Descritiva tem por finalidade a utilizao de tabelas, grficos,
diagramas, distribuies de frequncia e medidas descritivas para:
examinar o formato geral da distribuio dos dados;
verificar a ocorrncia de valores atpicos;
identificar valores tpicos que informem sobre o centro da distribuio;
verificar o grau de variao presente nos dados.
Evidentemente, a validade do resumo dos dados est intimamente ligada quantidade
de informao disponvel e qualidade da obteno dos dados. Pode-se pensar que todo
mtodo descritivo possui uma entrada, os dados, e uma sada, que pode ser uma medida
descritiva ou um grfico. Se a entrada deficiente a sada tambm ser de m qualidade.
2.1. Apresentao de dados
2.1.1. Sries Estatsticas
A reunio ou agrupamento de dados estatsticos, quando apresentados em tabelas ou
em grficos, para apreciao ou investigao, determina o surgimento das sries estatsticas.
As sries estatsticas resumem um conjunto ordenado de observaes atravs de trs
fatores fundamentais:
a) tempo: refere-se a data ou a poca em que o fenmeno foi investigado;
b) espao: refere-se ao local ou regio onde o fato ocorreu;
c) espcie: refere-se ao fato ou fenmeno que est sendo investigado e cujos
valores numricos esto sendo apresentados.
As sries estatsticas so classificadas de acordo com o fator que estiver variando,
podendo ser simples ou mistas.
 Sries simples: so aquelas em que apenas um fator varia. Podem ser de trs tipos:
Srie histrica (temporal ou cronolgica ou evolutiva): onde varia o tempo
permanecendo fixos o espao e a espcie do fenmeno estudado.
Exemplo:
Tabela 2.1. Casos de sarampo notificados no Brasil de 1987 a 1992.
Ano

Nmero de casos

1987
1988
1989
1990
1991
1992

65.459
26.173
55.556
61.435
45.532
7.934

Fonte: Anurios estatsticos IBGE.

14

Piana, Machado e Selau

Estatstica Descritiva

Srie geogrfica (territorial ou regional): onde varia o espao permanecendo fixos o


tempo e a espcie do fenmeno estudado.
Exemplo:
Tabela 2.2. Necessidades mdias de energia em alguns pases, em
1973.
Pas

kcal/per capita/dia

Brasil
Estados Unidos
Etipia
Japo
Mxico

2.174
2.397
2.120
1.125
2.114

Fonte: Necessidades Humanas de Energia IBGE.

Srie especificativa (qualitativa ou categrica): onde varia a espcie do fenmeno


estudado permanecendo fixos o tempo e espao.
Exemplo:
Tabela 2.3. Abate de animais, por espcie, no Brasil, em 1993.
Espcie

Nmero de cabeas

Aves
Bovinos
Sunos
Ovinos
Caprinos
Equinos

1.232.978.796
14.951.359
13.305.932
926.818
803.188
165.691

Fonte: Anurio Estatstico do Brasil (1994).

 Sries mistas: so aquelas em que mais de um fator varia ou um fator varia mais de
uma vez.
Exemplos:
Srie histrica geogrfica (ou geogrfica histrica)
Tabela 2.4. Taxa de atividade feminina urbana (em percentual) em trs
regies do Brasil, 1981/90.
Regio
Norte
Nordeste
Sudeste

Ano
1981

1984

1986

1990

28,9
30,2
34,9

30,3
32,6
37,2

34,0
34,3
40,1

37,1
37,8
40,7

Fonte: Anurio Estatstico do Brasil (1992).

15

Piana, Machado e Selau

Estatstica Descritiva

Srie especificativa geogrfica (ou geogrfica especificativa)


Tabela 2.5. Consumo per capita anual de alguns tipos de alimentos, em
algumas regies metropolitanas do Brasil, no ano de 1988.
Consumo (kg)
Cidade
Belo Horizonte
Rio de Janeiro
So Paulo
Curitiba
Porto Alegre

Hortalias

Carnes

Pescado

44,5
54,3
46,7
36,2
48,9

21,6
24,7
26,1
24,1
34,2

1,3
4,9
2,9
1,7
1,5

Fonte: Anurio Estatstico do Brasil (1992).

Srie especificativa histrica (ou histrica especificativa)


Tabela 2.6. Taxa de mortalidade (em percentual) de menores de um ano no Brasil,
segundo as trs principais causas, no perodo de 1984 a 1987.
Causa

1984

1985

1986

1987

Doenas infecciosas intestinais

20,6

17,3

17,9

16,8

Pneumonia

12,1

11,7

12,0

10,8

Perinatal

42,4

45,8

45,3

48,0

Fonte: Informe Epidemiolgico SUS.

Srie especificativa histrica geogrfica


Tabela 2.7. Nmero de vtimas em acidentes, segundo as grandes regies do
Brasil, nos anos de 1991 e 1992.
Regio
Norte
Nordeste
Sudeste
Sul
Centro-Oeste
Brasil

Vtimas fatais

Vtimas no fatais

1991

1992

1991

1992

1.188
3.857
11.555
4.402
2.220
23.222

1.165
3.843
10.217
4.213
1.949
21.387

10.229
23.774
130.938
61.797
22.147
248.885

9.739
23.942
159.669
58.832
22.086
274.268

Fonte: Anurio Estatstico do Brasil (1994).

16

Piana, Machado e Selau

Estatstica Descritiva

 Srie distribuio de frequncias: ocorre quando nenhum dos fatores varia. Nesta
srie os dados so agrupados em classes (intervalos com limites predeterminados) segundo
suas respectivas frequncias. Segundo a natureza dos dados, as distribuies de frequncias,
podem ser de dois tipos.
Para dados de enumerao
Tabela 2.8. Nmero de alarmes falsos, acionados acidentalmente ou por
mau funcionamento do equipamento, recebidos diariamente por uma
empresa de segurana, na cidade de Pelotas, no ms de abril de 2003.
Classes
(Nmero de alarmes falsos)

Frequncia
(Nmero de dias)

2
3
4
5
6
7
8
Total

2
6
8
4
5
3
2
30

Fonte: Dados fictcios.

Para dados de mensurao


Tabela 2.9. Peso de 80 estudantes da Escola So Jos,
em 1980.
Classes

Frequncia

(Peso, em kg)

(Nmero de estudantes)

40 | 50
50 | 60
60 | 70
70 | 80
80 | 90
Total

12
28
25
10
5
80

Fonte: Dados fictcios.

A srie distribuio de frequncias ser abordada com maiores detalhes na Seo 2.2
desta unidade.

17

Piana, Machado e Selau

Estatstica Descritiva

2.1.2. Tabelas
A tabela a forma no discursiva de apresentar informaes, das quais o dado
numrico se destaca como informao central. Sua finalidade apresentar os dados de modo
ordenado, simples e de fcil interpretao, fornecendo o mximo de informao num mnimo de
espao.
A construo de uma tabela, entretanto, deve obedecer a uma srie de normas
tcnicas. Estas normas podem ser encontradas na publicao do IBGE intitulada "Normas de
Apresentao Tabular" que tem como objetivo orientar a apresentao racional e uniforme de
dados estatsticos na forma tabular.
Seguem abaixo algumas das principais normas e recomendaes.
 Elementos da tabela
Uma tabela estatstica composta de elementos essenciais e elementos
complementares. Os elementos essenciais so:
Ttulo: a indicao que precede a tabela contendo a designao do fato observado,
o local e a poca em que foi estudado.
Corpo: o conjunto de linhas e colunas onde esto inseridos os dados.
Cabealho: a parte superior da tabela que indica o contedo das colunas.
Coluna indicadora: a parte da tabela que indica o contedo das linhas.
Os elementos complementares so:
Fonte: entidade que fornece os dados ou elabora a tabela.
Notas: informaes de natureza geral, destinadas a esclarecer o contedo das
tabelas.
Chamadas: informaes especficas destinadas a esclarecer ou conceituar dados
numa parte da tabela. Devero estar indicadas no corpo da tabela, em nmeros arbicos entre
parnteses, esquerda nas casas e direita na coluna indicadora.
Os elementos complementares devem situar-se no rodap da tabela, na mesma
ordem em que foram descritos.
 Nmero da tabela
Uma tabela deve ter nmero para identific-la sempre que o documento apresentar
uma ou mais tabelas, permitindo, assim, a sua localizao. A identificao da tabela deve ser
feita em nmeros arbicos, de modo crescente, precedidos da palavra Tabela, podendo ou no
ser subordinada a captulos ou sees de um documento. Exemplos: Tabela 5, Tabela 10.4.
 Apresentao de dados numricos
Toda tabela deve ter dado numrico para informar a quantificao de um fato
especfico observado, o qual deve ser apresentado em nmeros arbicos.
A parte inteira dos dados numricos deve ser separada por pontos ou espaos de trs
em trs algarismos, da direita para a esquerda, por exemplo: 12.243.527 ou 12 243 527. A
separao da parte inteira da decimal deve ser feita por vrgula, por exemplo: 25,67.
No sistema ingls, a separao da parte inteira feita por vrgula, e a separao da
parte inteira da decimal feita por ponto, ou seja, o inverso do sistema brasileiro.
 Sinais convencionais
Sempre que um dado numrico no puder ser apresentado, o mesmo deve ser
substitudo por um sinal convencional. A substituio de um dado numrico deve ser feita por
um dos sinais abaixo, conforme o caso.
18

Piana, Machado e Selau

Estatstica Descritiva

a) (trao): indica dado numrico igual a zero no resultante de arredondamento;


b) .. (dois pontos): indica que no se aplica dado numrico;
c) ... (trs pontos): indica dado numrico no disponvel;
d) x (xis): indica dado numrico omitido a fim de evitar a individualizao da
informao;
e) 0, 0,0 ou 0,00: indica dado numrico igual a zero resultante de arredondamento.
f) ? (interrogao): quando h dvida sobre a veracidade da informao.
Quando uma tabela contiver sinais convencionais, estes devero ser apresentados em
nota geral com seus respectivos significados.
 Arredondamento
Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o
ltimo algarismo a permanecer. Exemplo: 48,23 48,2.
Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, aumenta-se de uma
unidade o ltimo algarismo a permanecer. Exemplo: 23,87 23,9.
 Unidade de medida
Uma tabela deve ter unidade de medida, inscrita no cabealho ou nas colunas
indicadoras, sempre que houver necessidade de se indicar, complementarmente ao ttulo, a
expresso quantitativa ou metrolgica a dos dados numricos.
Esta indicao deve ser feita com smbolos ou palavras, entre parnteses. Exemplos:
(m) ou (metros), (t) ou (toneladas), (R$) ou (reais).
uando os dados numricos forem divididos por uma constante, esta deve ser indicada
por algarismos arbicos, smbolos ou palavras, entre parnteses, precedendo a unidade de
medida, quando for o caso. Exemplos:
(1.000 t): indica dados numricos em toneladas que foram divididos por mil;
(1.000 R$): indica dados numricos em reais que foram divididos por mil;
(%) ou (percentual): indica dados numricos proporcionais a cem;
(1/1.000): indica dados numricos divididos por 1/1.000, ou seja, multiplicados por mil.
 Classe de frequncia
A classe de frequncia cada um dos intervalos no superpostos em que se divide
uma distribuio de frequncias. Toda classe deve ser apresentada, sem ambiguidade, por
extenso ou com notao.
Toda a classe que inclui o extremo inferior do intervalo (EI) e exclui o extremo superior
(ES), deve ser apresentada de uma destas duas formas:
EI | ES

ou

[EI; ES)

 Apresentao de tempo
Toda a srie histrica consecutiva deve ser apresentada por seus pontos inicial e final,
ligados por hfen (). Exemplos:
1892-912: quando varia o sculo;
1960-65: quando variam os anos dentro do sculo;
out 1991 - mar 1992: quando variam os meses dentro de anos.
Toda a srie histrica no consecutiva deve ser apresentada por seus pontos inicial e
final, ligados por barra (/). Exemplos:
1981/85: indica dados no apresentados para pelo menos um ano do intervalo;
out 1991 / mar 1992: indica dados no apresentados para pelo menos um ms do
intervalo.
19

Piana, Machado e Selau

Estatstica Descritiva

 Apresentao da tabela
O corpo da tabela deve ser delimitado, no mnimo, por trs traos horizontais.
Recomenda-se no delimitar as tabelas direita e esquerda por traos verticais.
facultativo o uso de traos verticais para a separao de colunas no corpo da tabela.
Quando, por excessiva altura, a tabela tiver que ocupar mais de uma pgina, no
deve ser delimitada inferiormente, repetindo-se o cabealho na pgina seguinte. Deve-se usar
no alto do cabealho a palavra continuao ou concluso, conforme o caso.
Se possuir muitas linhas e poucas colunas, poder ser apresentada em duas ou
mais partes dispostas lado a lado e separadas por trao duplo.
A disposio da tabela deve estar na posio normal de leitura. Caso isso no seja
possvel, a apresentao ser feita de forma que a rotao da pgina seja no sentido horrio.
Exemplo:
Tabela 2.10. Total de estabelecimentos, pessoal ocupado, valor da produo e valor da
transformao industrial das indstrias metalrgicas, por Unidade da Federao do Brasil,
1982.
Valor da produo
(1.000 Cr$)

(2)

Unidade da Federao

Total de
estabelecimentos

Pessoal
(1)
ocupado

Valor da transformao
industrial (1.000 Cr$)

Rondnia
Acre
Amazonas
Roraima
Par
Amap
Maranho
Piau
Cear
Rio Grande do Norte
Paraba
Pernambuco
Alagoas
Sergipe
Bahia
Minas Gerais
Esprito Santo
Rio de Janeiro
So Paulo
Paran
Santa Catarina
Rio Grande do Sul
Mato Grosso do Sul
Mato Grosso
Gois
Distrito Federal

1
2
31
2
43

14
12
74
11
30
105
20
20
116
736
42
847
4.699
449
305
706
29
13
106
28

x
x
1.710
x
1.675

328
193
5.336
343
794
5.171
439
423
5.527
54.264
2.281
40.768
272.983
11.118
10.816
30.103
485
528
2.686
843

x
x
21.585
x
6.492

498
454
21.732
1.267
2.089
44.673
4.101
1.447
89.072
954.258
22.923
635.731
2.531.363
43.797
84.294
156.680
1.643
884
9.860
2.577

x
x
10.103
x
3.287

251
159
10.878
383
1.265
14.506
1.768
534
27.679
306.856
6.297
177.358
939.032
22.014
41.894
74.316
623
686
4.800
1.301

Brasil

8.452

448.932

4.637.512

1.646.043

Fonte: Pesquisa Industrial - 1982-1984. Dados gerais, Brasil. Rio de Janeiro: IBGE, v.9, 410p.
Nota: Sinais convencionais utilizados:
x Dado numrico omitido a fim de evitar a individualizao da informao.
Dado numrico igual a zero no resultante de arredondamento.
(1)
Em 31.12.1982.
(2)
Inclui o valor dos servios prestados a terceiros e a estabelecimentos da mesma empresa.

20

Piana, Machado e Selau

Estatstica Descritiva

2.1.3. Grficos
Outro modo de apresentar dados estatsticos sob uma forma ilustrada, comumente
chamada de grfico. Os grficos constituem-se numa das mais eficientes formas de
apresentao de dados.
Um grfico , essencialmente, uma figura construda a partir de uma tabela; mas,
enquanto a tabela fornece uma ideia mais precisa e possibilita uma inspeo mais rigorosa aos
dados, o grfico mais indicado para situaes que visem proporcionar uma impresso mais
rpida e maior facilidade de compreenso do comportamento do fenmeno em estudo.
Os grficos e as tabelas se prestam, portanto, a objetivos distintos, de modo que a
utilizao de uma forma de apresentao no exclui a outra.
Para a confeco de um grfico, algumas regras gerais devem ser observadas:
 Normas para representao grfica
Os grficos, geralmente, so construdos num sistema de eixos chamado sistema
cartesiano ortogonal. A varivel independente localizada no eixo horizontal (abscissas),
enquanto a varivel dependente colocada no eixo vertical (ordenadas). No eixo vertical, o
incio da escala dever ser sempre zero, ponto de encontro dos eixos.
Iguais intervalos para as medidas devero corresponder a iguais intervalos para as
escalas. Exemplo: Se ao intervalo 10-15 kg corresponde 2 cm na escala, ao intervalo 40-45 kg
tambm dever corresponder 2 cm, enquanto ao intervalo 40-50 kg corresponder 4 cm.
O grfico dever possuir ttulo, fonte, notas e legenda, ou seja, toda a informao
necessria sua compreenso, sem auxlio do texto.
O grfico dever possuir formato aproximadamente quadrado para evitar que
problemas de escala interfiram na sua correta interpretao.
 Tipos de grficos
Podemos considerar quatro tipos principais de representao grfica:
Estereogramas: so grficos onde as grandezas so representadas por volumes.
Geralmente so construdos num sistema de eixos bidimensional, mas podem ser construdos
num sistema tridimensional para ilustrar a relao entre trs variveis. Exemplo:
Hortalias

Carnes

Pescado

60
50
40
30
20
10
0
Belo
Horizonte

Rio de
Janeiro

So Paulo

Curitiba

Porto
Alegre

Figura 2.1. Consumo, em kg, de alguns tipos de alimentos per capita


anual em algumas regies metropolitanas do Brasil, em 1988.
Fonte: Anurio Estatstico do Brasil (1992).
21

Piana, Machado e Selau

Estatstica Descritiva

Cartogramas: so representaes em cartas geogrficas (mapas).


Pictogramas ou grficos pictricos: so grficos puramente ilustrativos, construdos
de modo a ter grande apelo visual, dirigidos a um pblico muito grande e heterogneo. No
devem ser utilizados em situaes que exijam maior preciso. Exemplo:

Figura 2.2. Problemas a serem solucionados pelo governo


brasileiro de acordo com um levantamento encomendado pelo
Ministrio da Educao, em 1985.
Fonte: Silveira Jnior et al. (1989).
Diagramas: so grficos geomtricos de duas dimenses, de fcil elaborao e
grande utilizao. Podem ser ainda subdivididos em: grficos de colunas, de barras, de linhas
ou curvas e de setores.
a) Grfico de colunas: neste grfico as grandezas so comparadas atravs de
retngulos de mesma largura, dispostos verticalmente e com alturas proporcionais s
grandezas. A distncia entre os retngulos deve ser, no mnimo, igual a 1/2 e, no mximo, 2/3
da largura da base dos mesmos. Exemplo:

Figura 2.3. Efetivo do rebanho suno no Brasil, segundo as


grandes regies em 1992.
Fonte: Anurio Estatstico do Brasil (1994).

22

Piana, Machado e Selau

Estatstica Descritiva

b) Grfico de barras: segue as mesmas instrues que o grfico de colunas, tendo a


nica diferena que os retngulos so dispostos horizontalmente. usado quando as
inscries dos retngulos forem maiores que a base dos mesmos. Exemplo:
Estados
Paran
Minas Gerais
Rio Grande do Sul
Rio de Janeiro
So Paulo
Casos
0

1000

2000

3000

4000

5000

6000

Figura 2.4. Casos notificados de AIDS nos cinco estados brasileiros


de maior incidncia em 1992.
Fonte: Anurio Estatstico do Brasil (1994).
c) Grfico de linhas ou curvas: neste grfico os pontos so dispostos no plano de
acordo com suas coordenadas, e a seguir so ligados por segmentos de reta. muito utilizado
em sries histricas e em sries mistas quando um dos fatores de variao o tempo, como
instrumento de comparao. Exemplo:

Figura 2.5. Eleitores inscritos para as eleies brasileiras - 1978/90.


Fonte: Anurio Estatstico do Brasil (1992).
d) Grfico em setores: recomendado para situaes em que se deseja evidenciar o
quanto cada informao representa do total. A figura consiste num crculo onde o total (100%)
representa 360, subdividido em tantas partes quanto for necessrio representao. Essa
diviso se faz por meio de uma regra de trs simples. Com o auxlio de um transferidor efetuase a marcao dos ngulos correspondentes a cada diviso. Exemplo:

23

Piana, Machado e Selau

Estatstica Descritiva

Figura 2.6. Hospitalizaes pagas pelo SUS, segundo a


natureza do prestador de servio 1993.
Fonte: Anurio Estatstico do Brasil (1994).

2.2. Distribuio de frequncias e grficos


Um grande nmero de dados necessita de uma forma eficiente de sumarizao. Uma
das formas mais comuns de resumir e apresentar dados atravs de tabelas de distribuio de
frequncias. Estas tabelas podem ser de dois tipos: de classificao simples ou de
classificao cruzada.
2.2.1. Tabelas de classificao simples
As tabelas de classificao simples so tabelas de frequncias relativas a uma
varivel. As caractersticas dessas tabelas variam de acordo com o tipo de varivel em estudo.
Se a varivel do tipo categrica (fator), ento so obtidas as frequncias de ocorrncia de
cada nvel dessa varivel. Se a varivel do tipo numrica contnua, primeiro so obtidos
intervalos de mesma amplitude e depois contados os valores que ocorrem em cada intervalo.
2.2.1.1. Distribuio de frequncias de variveis categricas
Quando a varivel em estudo for categrica ou, em alguns casos, numrica discreta, a
tabela de distribuio de frequncias apresentar a seguinte caracterstica: cada valor da
varivel constituir uma classe.
 Construo da tabela
A construo da tabela de distribuio de frequncia para variveis categricas
envolve apenas dois passos bastante simples:
1o passo: ordenar os nveis do fator, ou seja, coloc-los em ordem crescente de
grandeza (rol). Cada nvel constituir uma classe. O nmero de cada classe da distribuio
ser representado por j, tal que j = 1, 2, ..., k.
2o passo: contar o nmero de elementos em cada classe, ou seja, contar quantas
vezes o dado est repetido.

24

Piana, Machado e Selau

Estatstica Descritiva

Veremos, por meio de exemplos, como construir uma tabela de distribuio de


frequncias para os dados de uma varivel categrica (Exemplo 1) e de uma varivel numrica
discreta (Exemplo 2).
Exemplo 1:
Seja a varivel em estudo o conceito obtido por 60 estudantes na disciplina de
Estatstica, para o qual os dados observados foram os seguintes:
ruim, mdio, bom, mdio, ruim, mdio, ruim, mdio, ruim, bom, mdio, mdio, bom, mdio,
mdio, mdio, timo, mdio, bom, timo, bom, timo, mdio, timo, mdio, ruim, mdio, timo,
mdio, mdio, bom, ruim, bom, bom, mdio, ruim, mdio, mdio, timo, mdio, bom, ruim, ruim,
bom, mdio, mdio, ruim, bom, mdio, mdio, bom, bom, bom, mdio, ruim, bom, mdio,
mdio, ruim, mdio
Podemos observar que esta varivel categrica qualitativa ordinal apresenta quatro
nveis (ruim, mdio, bom e timo). Como cada nvel deve constituir uma classe da distribuio
de frequncias, j est determinado que o nmero total de classes (k) quatro. O primeiro
passo a ordenao dos nveis da varivel. Assim, temos
Nmero da
classe (j)
1
2
3
4

Classe
Ruim
Mdio
Bom
timo

O passo seguinte a contagem do nmero de estudantes em cada nvel. Estes


valores so denotados por Fj e chamados de frequncias absolutas das classes. A partir da
frequncia absoluta podemos obter outras frequncias de interesse numa distribuio, tais
como:
frequncia absoluta acumulada na classe j, denotada por Fj , que expressa o
nmero de elementos (observaes) acumulados at a classe j;
frequncia relativa da classe j, denotada por fj , que expressa a proporo de
elementos (observaes) na classe j;
frequncia relativa acumulada na classe j, denotada por fj , que expressa a
proporo de elementos (observaes) acumulados at a classe j.
As frequncias obtidas so ento apresentadas na forma tabular.
Tabela 2.11. Frequncia do conceito obtido por estudantes na
disciplina de Estatstica. UFPel, 2001.
j

Classe

Fj

Fj

fj

fj

Ruim

12

12

0,2

0,2

Mdio

27

39

0,45

0,65

Bom

15

54

0,25

0,9

timo

60

0,1

60

25

Piana, Machado e Selau

Estatstica Descritiva

Exemplo 2:
Muito frequentemente, as tabelas de distribuio de frequncia de variveis numricas
discretas so construdas da mesma forma que as das variveis categricas. Consideremos
agora que a varivel em estudo seja o nmero de animais portadores de brucelose em 350
propriedades rurais. Os valores observados para esta varivel foram:
2, 5, 6, 0, 4, 4, 3, 4, 2, 2, 3, 3, 5, 3, 5, 1, 2, 4, 2, 3, 5, 4, 3, 3, 2, 3, 0, 4, 4, 3, 4, 0, 3, 1, 2, 4, 2, ...
Como cada valor da varivel deve constituir uma classe e foram observados apenas
sete valores diferentes para esta varivel, a tabela de distribuio de frequncias ter sete
classes.
Nmero da
classe (j)
1
2
3
4
5
6
7

Classe
0
1
2
3
4
5
6

Atravs da contagem do nmero de vezes que cada valor apareceu, ou seja, do


nmero de observaes em cada classe, obtemos as frequncias absolutas, relativas e
acumuladas, apresentadas na tabela a seguir.
Tabela 2.12. Frequncia do nmero de animais portadores de
brucelose em 350 propriedades rurais. UFPel, 2001.
j

Classe

Fj

Fj

1
2
3
4
5
6
7

0
1
2
3
4
5
6

55
60
112
82
31
8
2
350

55
115
227
309
340
348
350
-

fj

0,1571
0,1714
0,32
0,2343
0,0886
0,0229
0,0057
1,0000

fj

0,1571
0,3286
0,6486
0,8829
0,9714
0,9943
1,0000
-

Devemos observar, ainda, que to importante quanto saber construir uma tabela
saber interpretar os seus valores. Vejamos, como exemplo, o significado de alguns valores da
tabela:
F4 = 82 significa que, das 350 propriedades rurais consultadas, 82 possuem trs
animais portadores de brucelose.
F3 = 227 significa que, das 350 propriedades rurais consultadas, 227 possuem
menos de trs animais portadores de brucelose.
f2 = 0,1714 significa que a proporo de propriedades rurais que possuem apenas
um animal portador de brucelose de 0,1714 (em percentual: 17,14).
f5 = 0,9714 significa que a proporo de propriedades rurais que possuem menos
de quatro animais portadores de brucelose de 0,9714 (em percentual: 97,14).
26

Piana, Machado e Selau

Estatstica Descritiva

2.2.1.2. Distribuio de frequncias de variveis numricas contnuas


Ao contrrio das variveis discretas, as variveis contnuas assumem, em geral,
muitos valores e, em sua grande maioria, diferentes uns dos outros. Para contornar problemas
desse tipo, as tabelas de distribuio de frequncias para variveis contnuas so construdas
de modo que cada classe seja constituda por um intervalo de valores da varivel.
Devemos observar, no entanto, que em algumas situaes uma varivel discreta
tambm poder assumir tantos valores diferentes que a construo de uma tabela onde cada
valor constitui uma classe seja impraticvel. Em outras palavras, pode ocorrer que ela tenha
tantas linhas que sua construo pouco auxilie na descrio resumida dos dados. Nesses
casos, por uma questo de simplificao, usual agrupar os dados discretos em intervalos de
classe, da mesma forma que se agrupam os dados contnuos.
 Construo da tabela
O processo de construo da tabela de distribuio de frequncia para variveis
numricas segue os seguintes passos:
1o passo: ordenar o conjunto de dados, ou seja, colocar os dados brutos em ordem
crescente de grandeza (rol).
2o passo: determinar o nmero de classes da tabela. De modo geral, este valor no
dever ser inferior a 5 e nem superior a 15. A definio do nmero de classes dever ser
orientada pelos objetivos do trabalho, mas existem algumas regras objetivas de determinao,
como, por exemplo:
k = 1 + 3, 32 logn (Frmula de Sturges) ou
k= n,
onde:
k = nmero de classes;
n = nmero de observaes;
log = logaritmo de base 10.
3o passo: determinar a amplitude do intervalo. Para isto, podemos utilizar a seguinte
expresso:
a
i= t
k
onde:
i = amplitude do intervalo;
a t = ES EI : amplitude total do conjunto de valores;
k = nmero de classes.
Convencionamos, tambm, que o arredondamento no nmero de classes (k) ou na
amplitude do intervalo (i) sempre feito para cima.
4o passo. Construir os intervalos de classe. O limite inferior da primeira classe ser
sempre o menor valor do conjunto de dados (x(1)) e o limite superior ser o limite inferior
acrescido do valor da amplitude do intervalo de classe (i). Na sequncia, o limite inferior da
segunda classe ser o limite superior da primeira e o limite superior da segunda classe ser
este limite inferior acrescido da amplitude do intervalo. Para todas as classes subsequentes, os
intervalos devero ser construdos da mesma forma que para a segunda:
j
1
2
...
k

Classe
x(1) | x(1) + i
x(1) + i | x(1) + 2i
...
x(1) + (k -1)i | x(1) + ki
27

Piana, Machado e Selau

Estatstica Descritiva

Notamos, assim, que a amplitude do intervalo constante para todas as classes. O


intervalo fechado esquerda e aberto direita, representado pelo smbolo | , garante a no
superposio de classes.
Exemplo:
Tomemos a seguinte varivel:
X = peso ao nascer (em kg) de 60 bovinos machos da raa Ibag, para a qual os
valores observados (e j ordenados) foram:
16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23, 23,
23, 23, 23, 25, 25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30,
30, 30, 30, 30, 30, 30, 31, 32, 33, 33, 33, 34, 34, 35, 36, 39.
Sendo o peso uma varivel contnua cujos valores poderiam ser todos diferentes entre
si, no podemos considerar cada valor como sendo uma classe, de modo que no podemos
saber de antemo o nmero de classes da distribuio de frequncia. Este valor dever ser
determinado e, para isto, usaremos a frmula de Sturges. Para n = 60, temos
k = 1 + 3,32 logn
k = 1 + 3,32 log60
k = 1 + 3,32 1,778 = 6,9

Como o nmero de classes tem que ser um nmero inteiro, teremos que arredondar o
valor 6,9. Usaremos como regra o arredondamento para cima. Deste modo, o nmero de
classes ser k = 7.
Uma vez determinado o valor de k, temos que obter a amplitude dos intervalos. Sendo
k = 7 e a amplitude total do conjunto de dados
a t = ES EI
a t = 39 16 = 23,

temos
i=

at
k

23
7

= 3,2857.

Por uma questo de praticidade, vamos arredondar o valor da amplitude do intervalo


para uma casa decimal, lembrando que o arredondamento, tambm neste caso, dever ser
sempre para cima. Assim, temos i = 3,3.
O prximo passo a construo dos intervalos de classe. Tomamos como limite
inferior da primeira classe o menor valor do conjunto de dados x(1) = 16. Somando ao 16 o valor
da amplitude do intervalo i = 3,3, obtemos o limite superior deste intervalo. Todos os demais
intervalos so construdos considerando como limite inferior o limite superior do intervalo de
classe que o precede e como limite superior a soma do limite inferior com o valor 3,3. Assim,
temos:
j
1
2
3
4
5
6
7

Classes
16,0 | 19,3
19,3 | 22,6
22,6 | 25,9
25,9 | 29,2
29,2 | 32,5
32,5 | 35,8
35,8 || 39,1
28

Piana, Machado e Selau

Estatstica Descritiva

Para a obteno das frequncias absolutas das classes, contamos quantos valores
(observaes) do conjunto de dados pertencem a cada intervalo. As demais frequncias, como
j vimos anteriormente, derivam da frequncia absoluta.
Em distribuies de frequncias de variveis contnuas, geralmente existe interesse
em uma outra quantidade conhecida como ponto mdio ou centro de classe, denotada por cj.
Os centros de classe so calculados da seguinte forma:
cj =

EIj + ES j
2

onde:
EIj = extremo inferior da classe j
ES j = extremo superior da classe j

No exemplo, temos:
c1 =

16 +19,3

35,3

= 17,65
2
2
19,3 + 22,6 41,9
c2 =
=
= 20,95
2
2

c7 =

35,8 + 39,1
2

74,9
2

= 37, 45.

A tabela de frequncias completa apresentada a seguir.


Tabela 2.13. Frequncia do peso ao nascer (em kg) de 60 bovinos machos
da raa Ibag. UFPel, 2001.
j

Classes

Fj

Fj

fj

cj

16 | 19,3

0,1167

0,1167

17,65

19,3 | 22,6

16

0,15

0,2667

20,95

22,6 | 25,9

15

31

0,25

0,5167

24,25

25,9 | 29,2

12

43

0,2

0,7167

27,55

29,2 | 32,5

52

0,15

0,8667

30,85

32,5 | 35,8

58

0,1

0,9667

34,15

35,8 || 39,1

60

0,0333

1,0000

37,45

60

1,0000

fj

A interpretao das frequncias da tabela exemplificada atravs de alguns valores:


F3 = 15 significa que 15 dos 60 bovinos nasceram com peso entre 22,6 e 25,9 kg
(exclusive).
F5 = 52 significa que 52 dos 60 bovinos nasceram com peso entre 16,0 e 32,5 kg
(exclusive).
f2 = 0,15 significa que a proporo de bovinos que nasceram com peso entre 19,3 e
22,6 kg (exclusive) de 0,15 (em percentual: 15).
f6 = 0,9667 significa que a proporo de bovinos que nasceram com peso entre 16
e 35,8 kg (exclusive) de 0,9667 (em percentual: 96,67).

29

Piana, Machado e Selau

Estatstica Descritiva

Exerccios propostos:
2.1. Os dados a seguir se referem aos nmeros de pes no vendidos em uma certa padaria
at a hora do encerramento do expediente:
0

Construa a distribuio de frequncias para esses dados.

2.2. Os dados em rol (ordenao horizontal) abaixo se referem aos valores gastos (em reais)
pelas primeiras 50 pessoas que entraram em um determinado supermercado, no dia
01/01/2000.
3,11

8,88

9,26

10,81

12,69

13,78

15,23

15,62

17,00

17,39

18,36

18,43

19,27

19,50

19,54

20,16

20,59

22,22

23,04

24,47

24,58

25,13

26,24

26,26

27,65

28,06

28,08

28,38

32,03

36,37

38,98
50,39

38,64
52,75

39,16
54,80

41,02
59,07

42,97
61,22

44,08
70,32

44,67
82,70

45,40
85,76

46,69
86,37

48,65
93,34

Faa a distribuio de frequncias desses dados.

30

Piana, Machado e Selau

Estatstica Descritiva

2.2.1.3. Representao grfica das distribuies de frequncias


As distribuies de frequncias podem ser representadas graficamente de duas
formas distintas e exclusivas, so elas: o histograma e o polgono de frequncias.
 Histograma
O histograma consiste de um conjunto de retngulos contguos cuja base igual
amplitude do intervalo e a altura proporcional frequncia das respectivas classes.
Na figura abaixo podemos observar o histograma da distribuio de frequncias da
Tabela 2.13.
Fj

Figura 2.6. Peso ao nascer (em kg) de 60 bovinos machos


da raa Ibag. UFPel, 2001.
Quando trabalhamos com variveis discretas, os retngulos dos histogramas se
reduzem a retas e, consequentemente, deixam de ser contguos. Vejamos um exemplo na
figura a seguir que representa a distribuio da Tabela 2.12.
Fj

Figura 2.7. Nmero de animais portadores de brucelose


em 350 propriedades rurais. UFPel, 2001.
31

Piana, Machado e Selau

Estatstica Descritiva

 Polgono de frequncia
O polgono de frequncias constitudo por segmentos de retas que unem os pontos
cujas coordenadas so o ponto mdio e a frequncia de cada classe. O polgono de
frequncias fechado tomando-se uma classe anterior a primeira e uma posterior a ltima,
uma vez que ambas possuem frequncia zero.
Na Figura 2.8 podemos observar o polgono de frequncias da distribuio da Tabela
2.13.

Figura 2.8. Peso ao nascer (em kg) de 60 bovinos machos da


raa Ibag. UFPel, 2001.

Exerccio proposto:
2.3. Faa a representao grfica (histograma e polgono de frequncias, quando for o caso)
das distribuies de frequncias construdas nos Exerccios 2.1 e 2.2 da pgina 30.

32

Piana, Machado e Selau

Estatstica Descritiva

2.2.2. Tabelas de classificao cruzada


Em algumas situaes, pode haver interesse no estudo de duas ou mais variveis
simultaneamente. Da surgem as distribuies conjuntas de frequncias. As tabelas de
classificao cruzada so tabelas de frequncias relativas a duas variveis, numricas ou
categricas. Existe um nmero razovel de tipos de tabelas e grficos para descrever esses
casos.
2.2.2.1. Frequncias cruzadas de variveis categricas
Quando um estudo envolve duas variveis categricas (fatores), a tabela de
frequncia cruzada dessas duas variveis conhecida tambm como tabela de dupla entrada,
tabela de associao ou tabela de contingncia. As regras bsicas para sua construo so
semelhantes s das tabelas de classificao simples. A diferena que agora a tabela
apresenta duas margens, cada qual com os totais referentes a um dos fatores.
Na Tabela 2.14, por exemplo, os 60 alunos da escola E foram classificados segundo
duas variveis categricas: Conceito em Estatstica e Hbito de fumar. Para isso,
primeiramente, os alunos so classificados de acordo com o Conceito em Estatstica e,
posteriormente, dentro de cada nvel deste fator, so classificados quanto ao Hbito de fumar.
Tabela 2.14. Distribuio dos alunos da escola E,
segundo o hbito de fumar e conceito em Estatstica.
Conceito
Ruim
Mdio
Bom
timo
Totais

Hbito de fumar
Sim
No
5
8
10
16
5
10
2
4
22
38

Totais
13
26
15
6
60

Podemos observar que, com as frequncias marginais (totais) da tabela cruzada,


poderamos resgatar a tabela de classificao simples de cada fator.
A representao grfica de distribuies de frequncias de variveis categricas
pode ser feita atravs de dois tipos de grficos:

Grficos em duas dimenses (diagramas): descrevendo a variao de um fator


dentro dos nveis do outro.
Por exemplo, na Figura 2.9, observamos a variao do fator Hbito de fumar dentro de
cada nvel do fator Conceito em Estatstica, enquanto que, na Figura 2.10, fica mais evidente a
variao do fator Conceito em Estatstica dentro de cada nvel do fator Hbito de fumar.
Pode no ser necessrio apresentar os dois grficos simultaneamente. mais comum
apresentar apenas um deles, de acordo com o fato que desejamos ressaltar. Assim, no
exemplo, se for mais importante ressaltar a distribuio de fumantes e no fumantes dentro de
cada conceito, utilizamos a Figura 2.9. Se for mais importante ressaltar a distribuio do
conceito em estatstica dentro dos grupos de fumantes e no fumantes, utilizamos a Figura
2.10. Naturalmente, se ambas as situaes forem relevantes podemos apresentar os dois
diagramas.
33

Piana, Machado e Selau

Estatstica Descritiva

Figura 2.9. Distribuio dos alunos da escola Figura 2.10. Distribuio dos alunos da
E, segundo o hbito de fumar e conceito em escola E, segundo o hbito de fumar e
Estatstica.
conceito em Estatstica.
A observao atenta destes grficos j pode fornecer uma ideia da possvel
associao existente entre os fatores. Por exemplo, se o um fator apresenta o mesmo
comportamento dentro de todos os nveis do outro, podemos supor que eles no esto
associados, ou seja, comportam-se independentemente um do outro. Devemos observar,
entretanto, que os grficos fornecem apenas indicaes, para verificar tais hipteses
(suposies) devemos utilizar os testes apropriados que sero vistos posteriormente.

Grficos tridimensionais (estereogramas): compostos por paralelogramos, dispostos


em eixos tridimensionais, separados entre si, cujas bases so determinadas pelos nveis dos
fatores e as alturas pelas suas respectivas frequncias (Figura 2.11).

Figura 2.11. Distribuio dos alunos da escola E, segundo o


hbito de fumar e conceito em Estatstica.

34

Piana, Machado e Selau

Estatstica Descritiva

2.2.2.2. Frequncias cruzadas de variveis numricas


Ao estudarmos conjuntamente duas variveis numricas, as tabelas de classificao
cruzada so, agora, denominadas tabelas de correlao. As ideias bsicas sobre a construo
dessas tabelas j foram vistas em sees anteriores.
As tabelas de frequncias cruzadas de duas variveis contnuas tambm so
construdas de modo similar s de classificao simples, ou seja, seguindo todos os passos j
descritos na Seo 2.2.1.2. Primeiramente, procedemos classificao das observaes
segundo uma das variveis, para em seguida, dentro de cada classe da primeira, classific-las
de acordo com a outra varivel. Por exemplo, na Tabela 2.15, observamos a classificao dos
400 alunos do Colgio C, segundo duas variveis contnuas: Nota em Estatstica e Nota em
Matemtica.
Tabela 2.15. Distribuio dos alunos do Colgio C,
segundo suas notas em Estatstica e Matemtica.
Matemtica

Estatstica

Totais

0 | 4

4 | 7

7 | 10

0 | 4

32

25

62

4 | 7

20

183

82

285

7 | 10

27

19

53

Totais

59

235

106

400

Os grficos geralmente utilizados para descrever dados como estes so os


histogramas em trs dimenses (estereogramas), nos quais os retngulos cedem lugar aos
paralelogramos. Agora, a base de cada paralelogramos definida pelas amplitudes das
classes das variveis envolvidas. Este tipo de grfico pouco utilizado em trabalhos cientficos
pela dificuldade de execuo e interpretao atravs dos meios disponveis.
A relao entre duas variveis contnuas tambm comumente representada por
diagramas de disperso. Tomemos outro exemplo: para estudar o relacionamento entre as
variveis Peso do pai (X) e Peso do filho (Y), foram medidos os pesos (em kg) de dez alunos
do Colgio C e de seus respectivos pais. Os resultados so apresentados numa tabela de
correlao:
Observao ( i )

10

Peso dos pais (xi)

78

65

86

68

83

68

75

80

82

66

Peso dos filhos (yi)

60

52

68

53

65

57

58

62

65

53

Esta tabela possibilita a construo do diagrama de disperso de pontos (Figura


2.12). Este tipo de grfico pode fornecer uma indicao do tipo de relacionamento que
existe entre as duas variveis. Por exemplo, se os pontos apresentarem a forma de elipse
indicam a existncia de uma relao linear (positiva ou negativa) entre as variveis. A
Figura 2.12 parece evidenciar um relacionamento linear positivo entre os pesos dos dez
alunos e os pesos dos seus respectivos pais, sugerindo um estudo mais aprofundado desta
correlao.
Atravs da anlise de regresso linear, que ser abordada mais adiante,
possvel obter uma equao do tipo Y = a + bX, que descreve o peso dos filhos (Y) como
uma funo linear do peso dos pais (X).
35

Piana, Machado e Selau

Estatstica Descritiva

Figura 2.12. Disperso dos pesos (em kg) de dez alunos


do Colgio C e de seus respectivos pais.

2.3. Medidas Descritivas


As medidas descritivas tm o objetivo de reduzir um conjunto de dados
observados (numricos) a um pequeno grupo de valores que deve fornecer toda a
informao relevante a respeito desses dados. Estas medidas so funes dos valores
observados e podem ser classificadas em quatro grupos:
Medidas de localizao, tambm denominadas medidas de tendncia central ou
medidas de posio: indicam um ponto central onde, em muitas situaes importantes, est
localizada a maioria das observaes.
Medidas separatrizes: indicam limites para propores de observaes em um
conjunto, podendo ser utilizadas para construir medidas de disperso.
Medidas de variao tambm denominadas medidas de disperso: informam sobre a
variabilidade dos dados.
Medidas de formato: informam sobre o modo como os valores se distribuem.
Compreendem as medidas de assimetria, que indicam se a maior proporo de valores est no
centro ou nas extremidades, e as medidas de curtose, que descrevem grau de achatamento da
distribuio.
Existe uma enorme variedade de medidas descritivas, muitas delas competidoras
entre si. Um guia geral para escolha da medida mais adequada pode ser visto a seguir:





Com que objetivo a medida est sendo obtida?


A medida fcil de interpretar? intuitiva?
Existem valores atpicos que podem afet-la exageradamente?
O propsito da anlise meramente descritivo ou planeja-se fazer inferncias?

Uma medida descritiva dever, sempre que possvel, possuir as seguintes


caractersticas: ser representativa, ser de fcil interpretao e prestar-se bem a tratamento
matemtico e/ou estatstico em etapas posteriores.

36

Piana, Machado e Selau

Estatstica Descritiva

2.3.1. Medidas de localizao ou tendncia central


As medidas de localizao ou tendncia central tm o objetivo de representar o ponto
de equilbrio ou o centro de uma distribuio. Em muitos casos, podem ser considerados
valores tpicos ou representativos do conjunto.
As medidas mais utilizadas so a mdia aritmtica, a mediana e a moda, embora
outras tambm possam ser teis em algumas situaes.
 Mdia aritmtica
A mdia aritmtica, pela sua facilidade de clculo e de compreenso aliada s suas
propriedades matemticas, a medida de localizao mais conhecida e utilizada. Pode ser de
dois tipos: simples ou ponderada.
A mdia aritmtica simples, representada por x , calculada considerando que todas
as observaes participam com o mesmo peso. Assim, para um conjunto de n observaes
(x1, x2, ..., xn), a mdia aritmtica simples ou simplesmente mdia definida por
n

x=

xi
i=1

Exemplo:
Se X = tempo (h)
Para xi = 9, 7, 5, 10, 4, temos
x=

xi
n

9 + 7 + 5 + 10 + 4
5

35
5

=7h

A mdia aritmtica ponderada, representada por xp , calculada considerando que


pelo menos uma das observaes deve participar com peso diferente das demais. Assim, se as
observaes x1, x2, ..., xn forem associadas aos pesos p1, p2, ..., pn, a mdia aritmtica
ponderada dada por
n

xp =

xipi
i=1
n

pi
i=1

Exemplo:
Para xi = 7, 8, 6, 10, e
pi = 10, 10, 8, 2, temos
xp =

xipi
pi

7 10 + 8 10 + 6 8 + 10 2
10 + 10 + 8 + 2

218
30

= 7,02

Propriedades matemticas da mdia aritmtica


1a propriedade: A mdia de um conjunto de dados que no varia, ou seja, cujos
valores so uma constante, a prpria constante.
37

Piana, Machado e Selau

Estatstica Descritiva

2a propriedade: Ao somar (ou subtrair) uma constante c por todos os valores de um


conjunto de dados, sua mdia tambm somada (ou subtrada) por esta constante.
Demonstrao:
x x +c =
=
=

(xi + c) = x1 + c + x 2 + c + + xn + c
n
xi + c

n
xi + nc

n
xi + nc =
=
n
n

xi + c = x + c
n

Verificao numrica:
Ao somarmos a constante 2 a todos os valores do conjunto xi = 9, 7, 5, 10, 4, cuja
mdia x = 7, teremos um novo conjunto de valores xi + 2 = 11, 9, 7, 12, 6, com uma nova
mdia
x x+2 =

xi
n

11 + 9 + 7 + 12 + 6
5

45
5

=9 =7+2,

logo, a mdia 7 sofreu a mesma operao que os valores xi.


3a propriedade: Ao multiplicar (ou dividir) uma constante c por todos os valores de um
conjunto de dados, sua mdia tambm multiplicada (ou dividida) por esta constante.
Demonstrao:
xcx =
=
=

cxi

cx1 + cx 2 + + cx n

n
n
c ( x1 + x 2 + + x n )
n
c xi
n

=c

xi
n

= cx

Verificao numrica:
Ao multiplicarmos a constante 2 por todos os valores do conjunto de dados xi = 9, 7, 5,
10, 4, cuja mdia x = 7, teremos um novo conjunto de valores 2xi = 18, 14, 10, 20, 8, com
uma nova mdia
x2x =

xi
n

18 + 14 + 10 + 20 + 8
5

70
5

= 14 = 2 7 ,

logo, a mdia 7 sofreu a mesma operao que os valores xi.


4a propriedade: A soma de todos os desvios em relao mdia de um conjunto de
valores nula, entendendo por desvio a diferena entre a observao e a mdia aritmtica, ou
seja,
(xi x ) = 0 .
38

Piana, Machado e Selau

Estatstica Descritiva

possvel demonstrar esta propriedade aplicando as propriedades do somatrio:

( x i x ) = xi x
= x i nx , sendo x =
= xi n

xi

xi , temos
n

n
= xi xi = 0

5a propriedade: A soma dos quadrados dos desvios em relao a uma constante c,


(xi c)2 , mnima quando c = x .
Podemos demonstrar esta propriedade, somando e subtraindo do desvio uma
constante de interesse ( x ) e aplicando as propriedades do somatrio:

(xi c)2 = (xi c + x x)2


= [(xi x) + (x c)]2
= [(x i x)2 + 2(x i x)(x c) + (x c)2 ]
= (x i x)2 + 2(x i x)(x c) + (x c)2
= (x i x)2 + 2(x c) (x i x) + n(x c)2 , sendo (xi x) = 0,
= (x i x)2 + n(x c)2
Observamos que

(xi c )2 assumir o menor valor quando

temos

c = x , pois, neste caso,

n ( x c) = 0 .

Podemos verificar a 3a e a 4a propriedades da mdia aritmtica no seguinte conjunto


de dados:
i
1
2
3
4
5

xi
9
7
5
10
4
35

(x i x)

(x i x)2

(x i 6)2

(x i 9)2

2
0
-2
3
-3
0

4
0
4
9
9
26

9
1
1
16
4
31

0
4
16
1
25
46

Verificamos, assim, que:

( xi x ) = 0 (terceira propriedade da mdia)


( x i x )2 = 26 < ( x i 6)2 = 31
(quarta propriedade da mdia)
( x i x )2 = 26 < ( x i 9)2 = 46

39

Piana, Machado e Selau

Estatstica Descritiva

 Mediana
A mediana, representada por Md, a medida que divide um conjunto de dados
ordenado em duas partes iguais: 50% dos valores ficam abaixo e 50% ficam acima da
mediana.
Existem dois casos diferentes para o clculo da mediana, mas em ambos o primeiro
passo a ser tomado a ordenao dos dados.
1o caso: quando n mpar
Determinamos, primeiramente, a posio mais central (p) do conjunto de dados
ordenado
n +1
p=
.
2
A mediana ser o valor do conjunto de dados que ocupa a posio p, ou seja,
Md = xp.
Exemplo:
Se X = tempo (h)
Para xi = 4, 5, 7, 9, 10, temos
p=

n +1
2

5 +1
2

=3,

logo,
Md = x p = x 3 = 7 h

2o caso: quando n par


Neste caso, temos duas posies centrais no conjunto de dados ordenado, denotadas
n +1
por p1 e p2. Ao utilizarmos a expresso p =
, obtemos um valor no inteiro. As posies p1
2
e p2 so os dois inteiros mais prximos do valor de p.
A mediana ser a mdia aritmtica simples dos valores do conjunto de dados que
ocupam as posies p1 e p2, ou seja,
x p + x p2
Md = 1
.
2
Exemplo:
Se X = tempo (h)
Para xi = 4, 5, 7, 9, 10, 12, temos
p=

n +1
2

6 +1
2

p1 = 3

= 3, 5

p2 = 4

logo,
Md =

xp1 + x p2
2

x3 + x4
2

7+9
2

= 8h .

40

Piana, Machado e Selau

Estatstica Descritiva

 Moda
A moda, representada por Mo, o valor de maior ocorrncia num conjunto de dados.
a nica medida que pode no existir e, existindo, pode no ser nica.
Exemplos:
X = peso (kg)
1. Para xi = 2, 3, 7, 5, 7, 5, 8, 7, 9,
2. Para xi = 1, 3, 4, 5, 4, 8, 6, 8,
3. Para xi = 5, 7, 8, 3, 9, 1, 4,
4. Para xi = 1, 3, 4, 4, 5, 1, 3, 5,

temos Mo = 7 kg
temos Mo = 4 kg e 8 kg (conjunto bimodal)

no existe Mo (conjunto amodal)


no existe Mo (conjunto amodal)

41

Vantagens

Mediana

- No exige clculo, apenas uma contagem.

- uma medida que tm existncia real dentro


do conjunto de dados e em grande nmero de
vezes.

Vantagens

Moda

Desvantagem

Desvantagens

- Deixa sem representao todos os valores do


conjunto de dados que no forem iguais a ela.

- uma medida altamente influenciada por - uma medida que no se presta a clculos - uma medida que no se presta a clculos
valores discrepantes (no resistente).
matemticos.
matemticos.

Desvantagem

- o ponto de equilbrio de uma distribuio, - uma medida resistente, ou seja, no sofre


sendo to mais eficiente quanto mais simtrica influncia de valores discrepantes.
for a distribuio dos valores ao seu redor.

- Pode ser determinada tambm para variveis


- uma medida que sempre existe e rgida e - uma medida que sempre existe e nica.
qualitativas nominais.
unicamente determinada.
- Esta medida pode ser utilizada para definir o
- um valor tpico de um conjunto de dados, meio de um nmero de objetos, propriedades ou
podendo substituir todos os valores de um qualidades que possam de alguma forma ser
conjunto sem alterar o total.
ordenados.

- No clculo da mdia participam todos os - Define exatamente o centro de uma


distribuio, mesmo quando os valores se
valores observados.
distribuem assimetricamente em torno da mdia.
- uma medida de fcil interpretao e prestase muito bem a tratamentos estatsticos - Pode ser determinada mesmo quando no se
adicionais.
conhece todos os valores do conjunto de dados.

Vantagens

Mdia aritmtica

O quadro abaixo apresenta as principais caractersticas da mdia, da mediana e da moda, destacando as vantagens e desvantagens de
cada uma em relao s demais.

 Caractersticas das principais medidas de localizao ou tendncia central

Piana, Machado e Selau

Estatstica Descritiva

2.3.2. Medidas separatrizes


As medidas separatrizes delimitam propores de observaes de uma varivel
ordinal. Elas estabelecem limites para uma determinada proporo 0p1 de observaes. So
medidas intuitivas, de fcil compreenso e frequentemente resistentes.
Para discutir medidas separatrizes, vamos considerar um conjunto de dados
ordenado, representado como y(1), y(2), ..., y(n), pressupondo uma ordenao ascendente, de
modo que y(1) o menor valor e y(n) o maior valor do conjunto.
Em todas as medidas separatrizes, importante conhecer a posio que um valor
ordenado ocupa em relao aos valores extremos, ou seja, a distncia em relao ao extremo
mais prximo. A posio ocupada por uma observao ordenada em relao extremidade
mais prxima denominada profundidade.
Como a definio feita em termos da extremidade mais prxima, a profundidade do
mnimo e do mximo igual a 1. O segundo menor e o segundo maior tm profundidade 2, o
terceiro, 3 e assim por diante. Deste modo, tm profundidade i as observaes y(i) e y(n+1-i). A
profundidade de um valor ordenado o menor valor entre i e n-i+1. Evidentemente, a
profundidade cresce no sentido do centro at um certo ponto, decrescendo a seguir.
Se o nmero de observaes mpar, ento existe no conjunto um valor que tem a
profundidade mxima. Dos n-1 valores que sobram, metade est direita desse valor e metade
est esquerda. A mediana o valor com a maior profundidade em qualquer conjunto de
dados ordenado, sendo, portanto, a medida descritiva mais prxima do centro. Como um
indicador do centro do conjunto, a mediana tambm uma medida de localizao que compete
com a mdia.
Como a mediana divide o conjunto em duas metades, razovel pensar numa medida
separatriz que efetue uma diviso adicional: dividir cada metade em duas metades. Essas
medidas separatrizes so denominadas quartis. Todo o raciocnio relativo aos quartis e
mediana facilmente estendidos para divises adicionais. Cada quarta parte do conjunto de
dados pode ser dividida em duas de modo que o conjunto fique dividido em oito partes. A
medida separatriz dessas propores denominada oitavo.
De modo semelhante, possvel encontrar valores que delimitem pores expressas
em percentagem de dados em um conjunto ordenado. Esses valores so denominados
percentis. Entretanto, de todas essas medidas separatrizes, teremos interesse particular na
mediana, j discutida na seo anterior, e nos quartis que sero tratados a seguir.
 Quartis
Os quartis, representados por Qi, onde i = 1, 2 e 3, so trs medidas que dividem um
conjunto de dados ordenado em quatro partes iguais. So elas:
Primeiro quartil (Q1): 25% dos valores ficam abaixo e 75% ficam acima desta
medida.
Segundo quartil (Q2): 50% dos valores ficam abaixo e 50% ficam acima desta
medida. O segundo quartil de um conjunto de dados corresponde mediana (Q2 = Md).
Terceiro quartil (Q3): 75% dos valores ficam abaixo e 25% ficam acima desta
medida.
Observa-se facilmente que o primeiro quartil o percentil 0,25, a mediana o percentil
0,5 e o terceiro quartil o percentil 0,75.
O processo para obteno dos quartis, da mesma forma que o da mediana, consiste
em, primeiramente, ordenar os dados e, em seguida, determinar a posio (p) do quartil no
conjunto de dados ordenado. Existem dois casos diferentes para a determinao de p:
1o caso: quando n mpar

43

Piana, Machado e Selau

Estatstica Descritiva

Para Q1, temos: p =


Para Q2, temos: p =
Para Q3, temos: p =

n +1

;
4
2 ( n + 1)

4
3 ( n + 1)
4

;
.

2o caso: quando n par


Para Q1, temos: p =
Para Q2, temos: p =
Para Q3, temos: p =

n+2

;
4
2n + 2

4
3n + 2
4

;
.

O quartil Qi ser o valor do conjunto de dados que ocupa a posio p, ou seja, Qi = xp.
No caso de p no ser um nmero inteiro, o quartil ser a mdia aritmtica dos dois valores que
ocupam as posies correspondentes ao menor e ao maior inteiros mais prximos de p. Por
exemplo, se p=7,5, o quartil ser a mdia aritmtica dos valores que ocupam as posies 7 e 8.
Exemplos:
1o caso: quando n mpar
Seja X = peso (kg) e xi = 3, 3, 4, 6, 7, 9, 9, 11 e 12
Para Q1, temos
p=

n +1
4

9 +1
4

= 2,5

Como p no um nmero inteiro, Q1 ser a mdia aritmtica dos valores que ocupam as
posies 2 e 3, ou seja,
Q1 =
Para Q2, temos
p=

x2 + x3
2

2 ( n + 1)
4

3+4
2

2 ( 9 + 1)
4

= 3,5 kg

=5

Como p inteiro, Q2 = xp, ou seja,


Q2 = x 5 = 7kg
Para Q3, temos
p=

3 ( n + 1)

3 ( 9 + 1)

= 7,5
4
4
Como p no inteiro, Q3 ser a mdia aritmtica dos valores que ocupam as posies 7 e 8,
ou seja,

44

Piana, Machado e Selau

Estatstica Descritiva
Q3 =

x7 + x8

9 + 11
2

= 10kg

2o caso: quando n par


Seja X = Peso (kg) e xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 e 14
Para Q1, temos
p=

n+2
4

10 + 2
4

=3

Sendo p um nmero inteiro, ento,


Q1 = x 3 = 4kg
Para Q2, temos
p=

2n + 2
4

2 10 + 2
4

= 5,5

Como p no inteiro, Q2 ser a mdia aritmtica dos valores que ocupam as posies 5 e 6,
ou seja,
x + x6 7 + 9
Q2 = 5
=
= 8kg
2
2
Para Q3, temos
p=

3n + 2
4

3 10 + 2
4

=8

Sendo p um nmero inteiro, ento,


Q3 = x 8 = 11kg

2.3.3. Medidas de variao ou disperso


As medidas de variao ou disperso complementam as medidas de localizao ou
tendncia central, indicando quanto as observaes diferem entre si ou o grau de afastamento
das observaes em relao mdia.
As medidas de variao mais utilizadas so: a amplitude total, a varincia, o desvio
padro e o coeficiente de variao.
 Amplitude total
A amplitude total, denotada por a t , fornece uma ideia de variao e consiste na
diferena entre o maior valor e o menor valor de um conjunto de dados. Assim, temos
a t = ES EI,
onde:
ES: extremo superior do conjunto de dados ordenado;
EI: extremo inferior do conjunto de dados ordenado.
A amplitude total uma medida pouco precisa, uma vez que utiliza apenas os dois
valores mais extremos de um conjunto de dados. Tambm por esta razo extremamente
45

Piana, Machado e Selau

Estatstica Descritiva

influenciada por valores discrepantes. utilizada quando apenas uma ideia rudimentar da
variabilidade dos dados suficiente.
Exemplo:
Se X = tempo (h)
Para xi = 9, 7, 5, 10, 4, temos
a t = ES EI = 10 4 = 6h .
Significado: todos os valores do conjunto de dados diferem, no mximo, em 6h.
 Amplitude interquartlica
A amplitude interquartlica, denotada por a q , a diferena entre o terceiro quartil (Q3)
e o primeiro quartil (Q1). Assim, temos
aq = Q3 Q1 .
Apesar de ser uma medida pouco utilizada, a amplitude interquartlica apresenta uma
caracterstica interessante que a resistncia, ou seja, esta medida, ao contrrio da amplitude
total, no sofre nenhuma influncia de valores discrepantes.
Exemplo:
Seja X = peso (kg) e xi = 3, 3, 4, 6, 7, 9, 9, 11, 12,
onde: Q3 = 10 kg e Q1 = 3,5 kg., temos
aq = Q3 Q1 = 10 3,5 = 6,5kg
Significado: 50% dos valores (mais centrais) esto dentro deste intervalo, portanto,
diferem, no mximo, em 6,5 kg.
 Varincia
A varincia, denotada por s2 , a medida de disperso mais utilizada, seja pela sua
facilidade de compreenso e clculo, seja pela possibilidade de emprego na inferncia
estatstica. A varincia definida como sendo a mdia dos quadrados dos desvios em relao
mdia aritmtica. Assim, temos
(xi x)2

2
s =
,
n 1
onde:
n 1: o nmero de graus de liberdade ou desvios independentes.
A utilizao do denominador n 1, em vez de n, tem duas razes fundamentais:
1. Como a soma dos desvios nula, ou seja, ( x i x ) = 0 , existe n 1 desvios
independentes, isto , conhecidos n 1 desvios o ltimo est automaticamente determinado,
pois a soma zero.
2. O divisor n 1 faz com que a varincia possua melhores propriedades estatsticas.

46

Piana, Machado e Selau

Estatstica Descritiva

Nos casos em que a varincia for utilizada apenas para descrever a variao de um
conjunto de dados, ento, ela poder ser calculada utilizando o nmero de observaes (n)
como denominador e ser denotada por sn2 , ou seja,

(xi x)2 .

sn2 =

Mas se o objetivo for descrever a variao dos dados de uma amostra que ser
utilizada para inferir sobre a populao, ento a medida que deve ser utilizada a varincia
com denominador n 1.
Exemplo:
Se X = tempo (h)
Para xi = 9, 7, 5, 10, 4, onde x = 7h , temos
s

(xi x)2

=
=
=

n 1
(9 7)2 + (7 7)2 + (5 7)2 + (10 7)2 + (4 7)2
5 1
4+0+4+9+9
4

26

= 6,5 h2 .

Propriedades matemticas da varincia


1a propriedade: A varincia de um conjunto de dados que no varia, ou seja, cujos
valores so uma constante, zero.

(c c)2

sc2

n 1

=0.

2a propriedade: Se somarmos uma constante c a todos os valores de um conjunto de


dados, a varincia destes dados no se altera.

[(xi + c) (x + c)]
=

s2x +c

n 1

(x i x + c c)2 (xi x)2

=
=
n 1

n 1

= s2 .

3a propriedade: Se multiplicarmos todos os valores de um conjunto de dados por uma


constante c, a varincia destes dados fica multiplicada pelo quadrado desta constante.

(cxi cx)2 = [c(xi x)]


=

2
scx

n 1

n 1

c 2 (xi x)2
n 1

= c2

(xi x)2
n 1

= c 2 s2 .

Desvantagens da varincia:
Como a varincia calculada a partir da mdia, uma medida pouco resistente, ou
seja, muito influenciada por valores discrepantes.
Como a unidade de medida fica elevada ao quadrado, a interpretao da varincia
se torna mais difcil.
47

Piana, Machado e Selau

Estatstica Descritiva

 Desvio Padro
O desvio padro, denotado por s, surge para solucionar o problema de interpretao
da varincia e definido como a raiz quadrada positiva da varincia. Assim, temos
s = s2 .

Exemplo:
Se X = tempo (h)
Para xi = 9, 7, 5, 10, 4, onde s2 = 6,5h2 , temos
s = s2 = 6,5h2 = 2,55h

Podemos observar que o desvio padro expresso na mesma unidade de medida que
os dados, o que facilita a sua interpretao. Geralmente, o desvio padro apresentado junto
com a mdia do conjunto de dados da seguinte forma: x s . Deste modo, temos a indicao
da variao mdia dos dados em torno da mdia aritmtica.
 Coeficiente de Variao
O coeficiente de variao, denotado por CV, a medida mais utilizada quando existe
interesse em comparar variabilidades de diferentes conjuntos de dados. Embora esta
comparao possa ser feita atravs de outras medidas de variao, nas situaes em que as
mdias dos conjuntos comparados so muito desiguais ou as unidades de medida so
diferentes, devemos utilizar o CV.
O coeficiente de variao definido como a proporo da mdia representada pelo
desvio padro e dado por
s
CV = 100 .
x
Exemplo:
Se X = tempo (h)
Para xi = 9, 7, 5, 10, 4, onde x = 7h e s = 2,55h , temos
CV =

s
x

100 =

2,55h
7h

100 = 36,4%

As vantagens do coeficiente de variao sobre as demais medidas de variao so as


seguintes:
O CV desprovido de unidade de medida, uma vez que, expresso em
percentagem;
O CV uma medida relativa, ou seja, que relaciona o desvio padro (s) com a sua
respectiva mdia aritmtica ( x ). Deste modo, um desvio padro maior pode, algumas vezes,
representar uma variabilidade menor quando relacionado com a sua mdia.
A convenincia da utilizao do CV para a comparao das variabilidades de
conjuntos de dados com mdias ou com unidades de medida diferentes pode ser verificada nos
seguintes exemplos:
1. Consideremos que x1i e x2i so conjuntos de valores referentes a produo diria de
leite (em kg) de vacas das raas Holandesa e Jersey, respectivamente, para os quais foram
obtidas as seguintes medidas:
48

Piana, Machado e Selau

Estatstica Descritiva

Holandesa: x1 = 25kg , s1 = 4,2 kg , CV1 = 16,8%


x2 = 13kg , s2 = 3, 4kg , CV2 = 26,2%

Jersey:

Podemos observar que se utilizssemos o desvio padro para comparar as variaes


dos conjuntos de dados, concluiramos que o grupo das vacas holandesas mais varivel, pois
apresenta o maior valor para esta medida. Entretanto, no podemos deixar de considerar que o
desvio padro 4,2, mesmo sendo o maior, quando relacionado mdia 25, representa uma
poro menor deste valor do que o desvio padro 3,4 quando relacionado mdia 13. Sendo
assim, quando as mdias so muito desiguais, devemos utilizar na comparao dos conjuntos
de valores o CV que uma medida relativa.
2. Consideremos, agora, que xi e yi so conjuntos de valores referentes a alturas (em
cm) e pesos (em kg), respectivamente, de um grupo de estudantes, para os quais foram
obtidas as seguintes medidas:
Altura: x = 165 cm , s X = 30 cm , CVX = 18,2%
Peso:

y = 58 kg ,

s Y = 9kg ,

CVY = 15,5%

Verificamos, neste caso, que para a comparao de conjuntos de valores expressos


em diferentes unidades de medida, o CV a nica medida que pode ser utilizada por ser
desprovida de unidade de medida. Se utilizssemos qualquer outra medida de variao
estaramos comparando centmetros com quilogramas, o que no seria possvel, uma vez que
tais grandezas no so comparveis.
2.3.4. Medidas de formato
O formato um aspecto importante de uma distribuio. Embora mudanas em uma
medida de variao tambm provoquem alteraes no aspecto visual, o formato de uma
distribuio se relaciona com as ideias de simetria e curtose.
Vrias medidas tm o objetivo de informar sobre o formato de uma distribuio. Entre
as mais precisas esto os coeficientes de assimetria e de curtose, que so calculados a partir
dos momentos da distribuio.
 Momentos
Os momentos, denotados por mr, so medidas calculadas com o propsito de estudar
a distribuio. De um modo geral, tanto mais conhecemos uma distribuio quanto mais
conhecermos sobre os seus momentos. O momento de ordem r centrado num valor a dado
por
(xi a)r .
mr =
n
Dois valores de a geram momentos importante num conjunto de dados:
Quando a = 0 , temos os momentos centrados na origem, denominados momentos
ordinrios de ordem r e representados por mr . Assim, temos

mr =

xri
n

49

Piana, Machado e Selau

Estatstica Descritiva

Exemplos:
Para r = 1, temos: m1 =
Para r = 2, temos: m2 =
Para r = 3, temos: m3 =
Para r = 4, temos: m4 =

xi
n

xi2
n

xi3
n

xi4
n

Quando a = x , temos os momentos de ordem r centrados na mdia e representados


por mr . Assim, temos
mr

(x i x)r

=
.
n

Exemplos:
Para r = 1, temos: m1 =
Para r = 2, temos: m2 =
Para r = 3, temos: m3 =
Para r = 4, temos: m4 =

(xi x)
n

(xi x)2
n

(xi x)3
n

(xi x)4
n

 Coeficiente de assimetria
Entre as vrias medidas de assimetria que devem informar se a maioria dos valores se
localiza esquerda, ou direita, ou se esto uniformemente distribudos em torno da mdia
aritmtica, temos o coeficiente de assimetria, denotado por a3 . Esta medida indica o grau e o
sentido do afastamento da simetria e obtida utilizando o segundo e o terceiro momentos
centrados na mdia, atravs da seguinte expresso
a3 =

m3
m2 m2

A classificao da distribuio quanto a simetria feita de acordo com o valor do a3 :


Se a3 < 0, a distribuio classificada como assimtrica negativa, indicando que a
maioria dos valores so maiores ou se localizam direita da mdia aritmtica.
Se a3 = 0, a distribuio classificada como simtrica, indicando os valores esto
uniformemente distribudos em torno da mdia aritmtica.
Se a3 > 0, a distribuio classificada como assimtrica positiva, indicando que a
maioria dos valores so menores ou se localizam esquerda da mdia aritmtica.
50

Piana, Machado e Selau

Assimtrica negativa

Estatstica Descritiva

Simtrica

Assimtrica positiva

 Coeficiente de curtose
As medidas de curtose indicam o grau de achatamento de uma distribuio. O
coeficiente de curtose, denotado por a 4 , calculado a partir do segundo e do quarto momentos
centrados na mdia, atravs da seguinte expresso
a4 =

m4
m22

A curtose est relacionada com o grau de concentrao das observaes no centro e


nas caudas da distribuio e no tem interpretao to intuitiva quanto a simetria. A
classificao da distribuio feita de acordo com o valor do a 4 , tendo por base a curtose que
ocorre na distribuio normal, que classificada como mesocrtica.
Se a 4 < 3 , a distribuio classificada como platicrtica, indicando que ocorre baixa
concentrao de valores no centro, tornando a distribuio mais achatada que a distribuio
normal. A concentrao de valores nos eixos mdia mais ou menos o desvio padro maior
que na distribuio normal.
Se a 4 = 3 , a distribuio classificada como mesocrtica, indicando que a
concentrao das observaes ocorre de forma semelhante da distribuio normal. A
concentrao de valores nos eixos mdia mais ou menos o desvio padro maior que na
distribuio normal.
Se a 4 > 3 , a distribuio classificada como leptocrtica, indicando que ocorre alta
concentrao de valores no centro e nas caudas, o que provoca um pico maior que o da
distribuio normal. A concentrao de valores em torno dos eixos mdia mais ou menos o
desvio padro menor do que na distribuio normal.

Platicrtica

Mesocrtica

Leptocrtica

As medidas de curtose so muito pouco utilizadas, exceto em algumas reas


especficas como vendas, onde geralmente existe interesse no estudo da extenso dos picos
das distribuies.
51

Piana, Machado e Selau

Estatstica Descritiva

2.3.5. Medidas descritivas para dados agrupados em classe


As medidas descritivas podem ser calculadas a partir de dados agrupados em classe.
Entretanto, quando calculadas a partir de tabelas de distribuio de frequncias de variveis
contnuas, essas medidas, em geral, so apenas aproximaes das medidas obtidas a partir
dos dados no agrupados.
 Medidas de localizao ou tendncia central
Mdia aritmtica
Nas distribuies de frequncias de variveis contnuas inexistem valores individuais.
Consideramos, ento, que o melhor representante dos valores de uma classe o centro de
classe (cj) e, a partir destes valores, determinamos a mdia da varivel. Devemos observar, no
entanto, que os centros de classe representam nmeros diferentes de observaes, no
podendo participar da mdia com o mesmo peso. Assim, a mdia da distribuio ser a mdia
ponderada (pelas frequncias absolutas) dos centros de classe, que definida por
k

c jFj c jFj
xp =

j=1
k

j=1

Fj

j=1

O valor da mdia de uma distribuio obtido com um erro provocado pelo


agrupamento dos dados. Esse erro tanto menor quanto maior for a simetria dos valores de
cada classe em relao ao seu centro ou ponto mdio (cj). Entretanto, nas distribuies
discretas, como a da Tabela 2.12, tal erro no cometido, pois no existe representao pelo
centro de classe.
Classe mediana e classe modal
Embora existam expresses para o clculo aproximado da mediana e da moda a partir
de dados agrupados em classe, aqui nos interessar apenas determinar a classe mediana e a
classe modal.
A classe mediana aquela onde est compreendida a mediana. Esta classe a
primeira cuja frequncia absoluta acumulada ( Fj ) maior ou igual ao valor de p (posio da
mediana). A posio da mediana, como j vimos anteriormente, obtida atravs da expresso
p=

n +1
2

A classe modal aquela que possui a maior frequncia absoluta, mas no ,


necessariamente, a classe que compreende a moda do conjunto de valores.
 Medidas de variao ou disperso
Varincia
Devido inexistncia de valores individuais na distribuio de frequncias, devemos
utilizar para o clculo da varincia a seguinte expresso
52

Piana, Machado e Selau

Estatstica Descritiva

s =

Fj ( c j xp )
n 1

A varincia pode ser entendida como uma medida da extenso de um histograma ou


de um polgono de frequncias sobre o eixo horizontal.
Desvio padro e coeficiente de variao
O desvio padro e o coeficiente de variao para dados agrupados so obtidos da
mesma forma que para dados no agrupados. Assim, temos

s = s2

CV =

s
xp

100 .

 Medidas de formato
As expresses que definem o coeficiente de assimetria e o coeficiente de curtose,
tambm permanecem as mesmas que para os dados no agrupados, respectivamente,
a3 =

m3

m2 m2

a4 =

m4
m22

Porm, os momentos centrados da mdia, utilizados no clculo desses coeficientes,


pelas mesmas razes j mencionadas para a varincia e para a mdia, so assim definidos
m2

Fj (c j xp )2

=
,

m3

Fj (c j xp )3

=
n

m4

Fj (c j xp )4

=
.
n

Vamos utilizar a distribuio de frequncias apresentada na Tabela 2.13, para


exemplificar o clculo das medidas descritivas a partir de dados agrupados em classe.
Para facilitar a obteno destas medidas, convm utilizar a tabela auxiliar abaixo que
inclui todos os clculos intermedirios necessrios.
j

Classes

1
16 | 19,3
2 19,3 | 22,6
3 22,6 | 25,9
4 25,9 | 29,3
5 29,2 | 32,5
6 32,5 | 35,8
7 35,8 || 39,1

cj

17,65
20,95
24,25
27,55
30,85
34,15
37,45

Fj

7
9
15
12
9
6
2
60

Fj

c jFj

7
16
31
43
52
58
60

123,55
188,55
363,75
330,60
277,65
204,90
74,90
1.563,9

Fj (c j xp )2

Fj (c j xp )3

Fj (c j xp )4

496,27
235,93
49,69
26,28
205,64
391,72
259,01
1.664,54

-4.178,63
-1.207,96
-90,43
38,90
982,94
3.165,08
2.947,52
1.657,42

35.184,10
6.184,75
164,58
57,57
4.698,44
25.573,88
33.542,78
105.406,11

A partir dos totais da ltima linha da tabela, podemos facilmente calcular as medidas.
Assim temos:
k

c jFj
Mdia aritmtica: xp =

j=1

1563,9
60

= 26,07kg

53

Piana, Machado e Selau

Estatstica Descritiva

Como n par, existem duas posies centrais no conjunto. Sendo


p=

n +1
2

60 +1
2

= 30,5 ,

as posies p1 e p2 so os inteiros mais prximos de 30,5, ou seja, 30 e 31, respectivamente. A


primeira classe a apresentar freqncia absoluta acumulada igual posio (de maior valor, no
caso de n par) da mediana a terceira, Fj = 31 , significando que os valores que ocupam as
posies 30 e 31 pertencem a esta classe. Portanto, a classe mediana a terceira.
A classe com maior frequncia absoluta tambm a terceira, F3 = 15 . Assim, a classe
modal a terceira.

Varincia: s =

Fj ( c j xp )

n 1

1664,54kg2
60 1

= 28,21kg2

Desvio padro: s = s2 = 28,21kg2 = 5,331kg

Coeficiente de variao: CV =

s
xp

100 =

5,331kg
26,07kg

100 = 20,37%

Momentos centrados na mdia:

m2

Fj (c j xp )2

m3

Fj (c j xp )3

m4

Fj (c j xp )4

n
n

1664,54kg2
60
1657,42kg3
60

= 27,74kg2
= 27,62kg3

105406,11kg4

= 1756,77kg4

60

Coeficientes de assimetria e curtose:


a3 =

a4 =

m3
m2 m2
m4
m22

27,62kg3
27,74kg2 27,74kg2

1756,77 kg4

( 27,74 kg )

2 2

= 2,283

= 0,189 indica que a distribuio simtrica

indica que a distribuio platicrtica

Devemos salientar que as medidas para dados agrupados em classe vm sendo cada
vez menos utilizadas. A obteno de medidas descritivas a partir de distribuies de
frequncias tem como principal objetivo facilitar o processo de clculo, pois, quando se trata de
conjuntos de dados muito grandes, essa tarefa bastante trabalhosa. Outra razo que justifica
o uso dessas medidas a falta de acesso aos dados originais (no agrupados). Contudo,
sabe-se que medidas obtidas a partir de dados agrupados em classe, na maioria das vezes,
54

Piana, Machado e Selau

Estatstica Descritiva

no so exatas. Com o advento da computao e o desenvolvimento de programas


estatsticos, o problema da dificuldade no processo de clculo foi superado, uma vez que estes
programas executam clculos trabalhosos com rapidez e exatido. Sendo assim, no havendo
mais a dificuldade para a obteno das medidas exatas, no h razo para continuarmos
utilizando as medidas aproximadas.
No quadro abaixo podemos observar os valores das medidas calculadas a partir dos
dados no agrupados e a partir da tabela de distribuio de frequncias.
Dados no agrupados

Dados agrupados em classe

x = 25,78 kg

x = 26,07 kg

Md = 25 kg

Classe mediana: [22,6 ; 25,9)

Mo = 23 kg
2

s = 28,64 kg

Classe modal: [22,6 ; 25,9)


2

s = 5,352 kg

s2 = 28,21 kg2
s = 5,331 kg

CV = 20,76%

CV = 20,37%
2

m2 = 27,74 kg2

m3 = 32,48 kg3

m3 = 27,62 kg3

m4 = 1.875,62 kg4

m4 = 1.756,77 kg4

a3 = 0,218

a3 = 0,189

a4 = 2,365

a4 = 2,283

m2 = 28,16 kg

Comparando os valores das medidas calculadas pelos dois processos, podemos


verificar que as medidas obtidas dos dados agrupados em classe so aproximaes daquelas
obtidas a partir dos dados no agrupados, que so as medidas exatas. Tanto maior ser esta
aproximao, quanto mais simtrica for a distribuio dos valores dentro dos intervalos de
classe.
 Medida descritiva e escala de medida
Algumas medidas descritivas exigem uma escala de medida mnima para serem
obtidas. A tabela relaciona a escala necessria para algumas medidas.

Medida

Escala mnima

Moda

Escala nominal

Percentis

Escala ordinal

Mdia aritmtica Escala intervalar

55

Piana, Machado e Selau

Estatstica Descritiva

Exerccios propostos:
2.5. Os valores que seguem so os tempos (em segundos) de reao a um alarme de incndio,
aps a liberao de fumaa de uma fonte fixa:
12 9 11 7 9 14 6 10
Calcule as medidas de localizao (mdia, mediana e moda) e as medidas de variao
(amplitude total, varincia, desvio padro e coeficiente de variao) para o conjunto de dados.
2.6. Foram registrados os tempos de frenagem para 21 motoristas que dirigiam a 30 milhas por
hora. Os valores obtidos foram:
69

58

70

80

46

61

65

74

75

55

56

70

72

61

66

58

68

70

68

58

67

Para este conjunto de valores, calcule os quartis e a amplitude interquartlica e


interprete esses valores.
2.7. Calcule as medidas descritivas para o conjunto de dados referente ao nmero de pes no
vendidos em uma certa padaria at a hora do encerramento do expediente
j

Classes

Fj

20

40

Fj

c jFj

Fj (c j xp )2

Fj (c j xp )3

Fj (c j xp )4

2.8. Calcule as medidas descritivas para o conjunto de dados agrupados em classes,


apresentado na tabela abaixo.
Frequncia do valor gasto (em reais) pelas primeiras 50 pessoas que entraram em um
determinado supermercado, no dia 01/01/2000.
cj

Fj

Classes

3,11 | 16,00

16,00 | 28,89

20

28,89 | 41,78

41,78 | 54,67

54,67 | 67,56

67,56 | 80,45

80,45 || 93,34

50

Fj

c jFj

Fj (c j xp )2 Fj (c j xp )3 Fj (c j xp )4

56

Piana, Machado e Selau

Estatstica Descritiva

2.4. Anlise exploratria de dados


Vimos que a mdia aritmtica e a varincia, por serem medidas de fcil compreenso
e apresentarem boas propriedades matemticas e estatsticas, so muito utilizadas para
representar, respectivamente, a tendncia central e a disperso de um conjunto de valores.
Entretanto, importante destacar que essas medidas descrevem de forma tima apenas as
distribuies de frequncias unimodais, simtricas e mesocrticas. Podemos citar pelo menos
uma limitao importante do uso indiscriminado da mdia e da varincia na descrio de um
conjunto de dados. Sabemos que essas duas medidas so pouco resistentes; portanto, numa
distribuio assimtrica, seus valores seriam bastante afetados pelos valores discrepantes.
John Tukey, em 1970, props algumas tcnicas que, dentre outras vantagens,
contornavam esse problema advindo do uso da mdia e da varincia para descrever
distribuies assimtricas. O conjunto dessas tcnicas, denominado Anlise Exploratria de
Dados, no s constituiu um complemento s tcnicas estatsticas clssicas, como foi tambm
uma valiosa alternativa para descrever dados que no seguem o modelo unimodal, simtrico e
mesocrtico. O enfoque proposto pela Anlise Exploratria de Dados pretende obter medidas
resistentes e robustas.
Vimos que medidas resistentes so aquelas que se mostram pouco sensveis
presena de valores anmalos (discrepantes do ncleo central da distribuio). Uma medida
resistente mostrar poucas variaes diante da substituio dos valores originais por outros
muito diferentes, devido a sua focalizao na parte central ou relativamente agrupada da
distribuio. Dentre as medidas resistentes, o enfoque clssico tem a mediana como principal
exemplo. So denominadas medidas robustas aquelas que apresentam pouca sensibilidade
diante dos desvios aos pressupostos bsicos inerentes aos modelos probabilsticos, como
acontece com relao forma da distribuio, por exemplo.
As tcnicas exploratrias ajudam a comprovar as condies de aplicao dos testes
de hipteses (que sero vistos, mais adiante, na Inferncia Estatstica), a detectar erros ou
valores discrepantes, a buscar a melhor transformao de dados quando houver necessidade,
etc. Em geral, do uma viso distinta, prvia, mas complementar s tcnicas de Inferncia,
tambm chamadas de confirmatrias. Tudo isso repercute em melhor qualidade da anlise de
dados.
Nosso objetivo aqui apresentar trs dessas tcnicas: o resumo de cinco nmeros, o
grfico em caixa (box plot) e o diagrama de ramos e folhas. O grfico em caixa, alm de
representar os dados dando uma ideia precisa do formato da distribuio, ainda permite a
identificao de valores discrepantes.
 Resumo de cinco nmeros
O resumo de cinco nmeros descreve o conjunto de dados atravs de cinco valores: a
mediana (Md), os quartis, primeiro (Q1) e terceiro (Q3), e os extremos, inferior (EI) e superior
(ES). A partir desses valores, podemos calcular: a amplitude interquartlica (aq), obtida pela
diferena entre os quartis; a disperso inferior (DI), obtida pela diferena entre a mediana e o
extremo inferior; e a disperso superior (DS), diferena entre o extremo superior e a mediana.
O resumo de cinco nmeros fornece uma ideia acerca da simetria da distribuio porque o
percentual de observaes compreendido dentro de cada um desses intervalos conhecido
(25%).
Assim, se a diferena entre o primeiro quartil e extremo inferior aproximadamente
igual diferena entre o extremo superior e o terceiro quartil ( Q1 EI ES Q3 ) e a diferena
entre a mediana e o primeiro quartil aproximadamente igual diferena entre o terceiro
quartil e a mediana ( Md Q1 Q3 Md ), a distribuio considerada simtrica. Na figura
abaixo podemos observar alguns casos simtricos.
57

Piana, Machado e Selau

Estatstica Descritiva

Se uma dessas duas condies no for atendida, ento, a distribuio ser


assimtrica. Por exemplo, se a disperso superior for muito maior que a disperso inferior,
teremos uma distribuio assimtrica positiva, indicando que a maior concentrao de valores
est entre o extremo inferior e a mediana, ou ainda que os valores que se localizam abaixo da
mediana so mais homogneos do que aqueles que se localizam acima dela. Se, em caso
contrrio, a disperso inferior for maior que a disperso superior, teremos uma distribuio
assimtrica negativa. Na figura abaixo podemos observar alguns exemplos de distribuies
assimtricas.

Consideremos agora um exemplo resolvido:

Os dados abaixo se referem aos pesos ao nascer (em kg) de 61 bovinos machos da
raa Ibag.
16,
20,
23,
27,
30,
34,

17,
21,
23,
27,
30,
34,

17,
21,
23,
27,
30,
35,

18,
22,
25,
27,
30,
36,

18,
22,
25,
28,
30,
39,

18,
23,
25,
28,
30,
45

19,
23,
25,
28,
31,

20,
23,
25,
29,
32,

20,
23,
25,
29,
33,

20,
23,
26,
29,
33,

20,
23,
26,
30,
33,

Para esses dados vamos obter o esquema de cinco nmeros, a amplitude


interquartlica e a disperso inferior e a disperso superior.

58

Piana, Machado e Selau

Estatstica Descritiva

O resumo de cinco nmeros permite verificar que a distribuio no simtrica, pois


as distncias entre esses valores so diferentes.
Veremos a seguir que, atravs dos quartis e da amplitude interquartlica, tambm
possvel identificar a presena de valores discrepantes no conjunto de dados.

Identificao de valores discrepantes


Um critrio objetivo para a identificao de valores discrepantes num conjunto de
dados utiliza duas medidas denominadas cerca inferior (CI) e cerca superior (CS). A cerca
inferior calculada subtraindo-se do primeiro quartil uma e meia amplitude interquartlica, e a
cerca superior, somando-se esta mesma quantidade ao terceiro quartil. Assim, temos:
CI = Q1 1,5aq

CS = Q3 + 1,5aq

So considerados discrepantes os valores que estivem fora do seguinte intervalo:

Q1 1,5aq ; Q3 + 1,5aq .
Valores menores que a cerca inferior so denominados discrepantes inferiores e os
valores maiores que a cerca superior so os discrepantes superiores.
No exemplo, sero considerados discrepantes os valores que estiverem fora dos
limites da cerca superior e da cerca inferior:
CI = Q1 1,5aq = 22 1,5 8 = 10
CS = Q3 + 1,5aq = 30 + 1,5 8 = 42

Verificamos que o valor 45 ultrapassa a cerca superior, portanto, classificado como


discrepante superior.

 Grfico em caixa (box plot)


A informao dada pelo resumo de cinco nmeros pode ser apresentada em forma de
um grfico em caixa, que agrega uma srie de informaes a respeito da distribuio, tais
como localizao, disperso, assimetria, caudas e dados discrepantes. Antes de construir o
grfico precisamos definir o que so valores adjacentes. So adjacentes o menor e o maior
valores no discrepantes de um conjunto de dados, ou seja, o maior valor que no ultrapassa a
cerca superior e o menor valor que no ultrapassa a cerca inferior. Se num conjunto de dados
59

Piana, Machado e Selau

Estatstica Descritiva

nenhum valor considerado discrepante, os valores adjacentes so os prprios extremos. Para


construir o grfico em caixa, consideraremos um retngulo onde estaro representados os
quartis e a mediana. A partir do retngulo, para cima e para baixo, seguem linhas,
denominadas bigodes, que vo at os valores adjacentes. Os valores discrepantes recebem
uma representao individual atravs de uma letra ou um smbolo. Assim, obtemos uma figura
que representa muitos aspectos relevantes de um conjunto de dados, como podemos observar
na ilustrao abaixo.

A posio central dos valores dada pela mediana e a disperso pela amplitude
interquartlica (aq). As posies relativas da mediana e dos quartis e o formato dos bigodes do
uma noo da simetria e do tamanho das caudas da distribuio.
Na figura abaixo podemos observar o grfico em caixa representando diferentes tipos
de distribuies:
a) distribuio assimtrica positiva, com trs valores discrepantes superiores;
b) distribuio simtrica, com um valor discrepante inferior;
c) distribuio assimtrica negativa, sem valores discrepantes.

a) assimtrica positiva

b) simtrica

c) assimtrica negativa
60

Piana, Machado e Selau

Estatstica Descritiva

Vale lembrar que quando encontramos um valor discrepante num conjunto de dados, a
sua origem deve ser investigada. Muitas vezes, os valores discrepantes, de fato, fazem parte
do conjunto de dados, reforando a caracterstica assimtrica da distribuio. Mas,
eventualmente, estes valores podem ser oriundos de erros na aferio ou no registro dos
dados. Em geral, distribuies com caudas longas (indicadas por bigodes longos no grfico),
caracterstica comum de distribuies assimtricas, apresentam uma tendncia maior de
produzir valores discrepantes. Nas figuras acima, os bigodes de diferentes tamanhos indicam
distribuies assimtricas. O valor discrepante parece ser uma anomalia maior na figura b, pois
se trata de uma distribuio simtrica e com caudas curtas. De qualquer modo, uma cuidadosa
inspeo nos dados e nas eventuais causas da ocorrncia desse(s) valor(es) sempre uma
providncia necessria antes que qualquer atitude seja tomada em relao a esses dados.
A seguir temos o grfico em caixa representando o conjunto de dados do exemplo,
que se refere aos pesos ao nascer de bovinos machos da raa Ibag.

 Diagrama de ramo e folhas


Trata-se de uma ferramenta exploratria til para descrever pequenos conjuntos de
dados. O mtodo fornece uma boa viso geral dos dados sem que haja uma perda de
informao detectvel. Cada valor retm sua identidade e a nica informao perdida a
ordem em que foram obtidos os dados. Eventualmente, alguns algarismos podem ser
desprezados para facilitar a representao do conjunto.
O diagrama de ramos e folhas um procedimento alternativo para resumir um
conjunto de valores, que fornece uma ideia da forma de sua distribuio, semelhante a um
histograma. Este grfico uma boa opo quando temos em mos somente os dados, caneta
e papel.
Para ilustrar a montagem do diagrama de ramo e folhas, consideremos os seguintes
dados relativos s notas de 40 alunos em uma prova de Estatstica.
78
57
67
85
68

59
49
87
76
49

86
96
84
86
86

94
68
45
79
87

43
67
56
78
83

56
65
94
77
94

78
75
87
59
85

84
73
56
76
96

O primeiro passo a separao dos dados, combinando todos os valores que


comeam com 4, todos que comeam com 5, todos que comeam com 6, e assim por diante.
Assim, temos

61

Piana, Machado e Selau


43
59
68
78
86
94

49
56
67
78
84
96

45
57
65
75
89
94

56
67
73
87
94

Estatstica Descritiva

56 59
68
76 79 78 77 76
84 87 85 86 86 87 83 85
96

Esse arranjo j bastante informativo, mas no o tipo de diagrama utilizado na


prtica. Para simplificar ainda mais, mostramos o primeiro dgito uma vez para cada linha,
esquerda e separando dos outros dgitos por meio de uma linha vertical. Assim, temos
4
5
6
7
8
9

3
9
8
8
6
4

5
6
7
8
4
6

9
7
5
5
9
4

6
7
3
7
4

6 9
8
6 9 8 7 6
4 7 5 6 6 7 3 5
6

Isso o que denominamos diagrama de ramo e folhas. Nesse arranjo, cada linha
denominada ramo, cada nmero no ramo esquerda da linha vertical chamado rtulo do
ramo e cada nmero direita da linha vertical denominado folha. bastante interessante que
as folhas do diagrama sejam ordenadas facilitando ainda mais a interpretao. Dessa forma,
nosso diagrama resulta assim:
4
5
6
7
8
9

3
6
5
3
3
4

5
6
7
5
4
4

9
6
7
6
4
4

7
8
6
5
6

9 9
8
7 8 8 8 9
5 6 6 6 7 7 7 9
6

Existem vrias maneiras de organizar um diagrama de ramo e folhas. Por exemplo, os


rtulos dos ramos ou as folhas poderiam ser de dois dgitos, como por exemplo, o conjunto
240, 242, 245, 248 e 249, sendo representado de duas formas:
24| 0 2 5 8 9
ou
2| 40 42 45 48 49.
Em casos de muitos valores pode ser necessrio obter mais ramos, repetindo cada
rtulo de ramo, por exemplo, duas vezes, sendo o primeiro com as folhas de 0 a 4 e o segundo
com as folhas de 5 a 9. Esse tipo de diagrama chamado diagrama de ramos duplos. Um
diagrama de ramo e folhas pode ainda ser complementando com informaes adicionais, como
o nmero de observaes em cada ramo.

62

Piana, Machado e Selau

Estatstica Descritiva

Exerccios propostos:
2.9. Os dados abaixo se referem aos valores gastos (em reais) pelas primeiras 50 pessoas que
entraram em um determinado Supermercado, no dia 01/01/2000.
3,11

8,88

9,26

10,81

12,69

13,78

15,23

15,62

17,00

17,39

18,36

18,43

19,27

19,50

19,54

20,16

20,59

22,22

23,04

24,47

24,58
38,98

25,13
38,64

26,24
39,16

26,26
41,02

27,65
42,97

28,06
44,08

28,08
44,67

28,38
45,40

32,03
46,69

36,37
48,65

50,39

52,75

54,80

59,07

61,22

70,32

82,70

85,76

86,37

93,34

Para esses dados:


a) Obtenha o resumo de cinco nmeros.
b) Verifique se existem valores discrepantes.
c) Construa o grfico em caixa.
d) Com base no grfico, classifique a distribuio quanto simetria. Justifique sua resposta.

2.10. As duraes (em horas de uso contnuo) de 25 componentes eletrnicos selecionados de


um lote de produo so:
834, 919, 784, 865, 839, 912, 888, 783, 655,
831, 886, 842, 760, 854, 939, 961, 826, 954,
866, 675, 760, 865, 901, 632, 718.
Construa um diagrama de ramo e folhas com rtulos de ramos com um dgito e folhas de dois
dgitos. Use esse diagrama de ramo e folhas para decidir sobre a simetria desses dados.

63

Piana, Machado e Selau

Estatstica Descritiva

2.5. Bibliografia
ANDRES, A.M., CASTILLO, J. de D.L. del Bioestadistica para las Cincias de la Salud.
Madrid: Ediciones Norma, 1988. 614 p.
BOTELHO, E.M.D., MACIEL, A.J. Estatstica Descritiva (Um Curso Introdutrio) Viosa:
Universidade Federal de Viosa, 1992. 65p.
COSTA, S.F. Introduo Ilustrada Estatstica (com muito humor!). 2.ed., So Paulo:
Harbra, 1992. 303p.
FARIA, E.S. de Estatstica Edio 97/1. (Apostila)
FERREIRA, D.F. Estatstica Bsica. Lavras: Editora UFLA, 2005, 664p.
FREUND, J.E., SIMON, G.A. Estatstica Aplicada.
Contabilidade. 9.ed., Porto Alegre: Bookman, 2000. 404p.

Economia,

Administrao

PIMENTEL GOMES, F. Iniciao Estatstica So Paulo: Nobel, 1978. 211p.


SILVEIRA JNIOR, P., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. da Curso de Estatstica
v.1, Pelotas: Universidade Federal de Pelotas, 1989. 135p.
SPIEGEL, M.R. Estatstica So Paulo: McGraw-Hill, 1972. 520p.
Sistema Galileu de Educao Estatstica. Disponvel em: <http://www.galileu.esalq.usp.br>

64

Unidade III
Elementos de Probabilidade

3.1. Introduo teoria das probabilidades................................................................... 66


3.1.1. Introduo......................................................................................................... 66
3.1.2. Conceitos fundamentais...................................................................................

68

3.1.3. Conceitos de probabilidade..............................................................................

69

3.1.4. Teoremas para o clculo de probabilidades..................................................... 69


3.1.5. Probabilidade condicional e independncia...................................................... 73
3.2. Variveis aleatrias...................................................................................................

77

3.2.1. Introduo e conceito........................................................................................ 77


3.2.2. Variveis aleatrias discretas...........................................................................

79

3.2.3. Variveis aleatrias contnuas.......................................................................... 86


3.3. Distribuies de probabilidade................................................................................

92

3.3.1. Distribuies de probabilidade de variveis discretas......................................

92

3.3.2. Distribuies de probabilidade de variveis contnuas..................................... 104


3.3. Bibliografia................................................................................................................. 117

Piana, Machado e Selau

Elementos de Probabilidade

3.1. Introduo teoria das probabilidades


3.1.1. Introduo
A Estatstica, desde as suas origens (antigo Egito 2000 anos a.C.) at meados do
sculo XIX, se preocupava apenas com a organizao e a apresentao de dados de
observao coletados empiricamente (Estatstica Descritiva).
Somente com o desenvolvimento da teoria das probabilidades foi possvel que a
Estatstica se estruturasse organicamente e ampliasse seu campo de ao, atravs da criao
de tcnicas de amostragem mais adequadas e de formas de relacionar as amostras com as
populaes de onde provieram (Inferncia Estatstica).
A probabilidade uma rea relativamente nova da matemtica (considerando a idade
da matemtica) que tem como finalidade a modelagem de fenmenos aleatrios. Modelar
significa conhecer matematicamente. Uma das funes da matemtica a criao de modelos
que possibilitem o estudo dos fenmenos da natureza. Ao estudar um fenmeno, temos
sempre o interesse de tornar a sua investigao mais precisa e, para isso, tentamos formular
um modelo matemtico que melhor o explique.
Na formulao do modelo matemtico mais adequado deve-se levar em conta que
certos pormenores sejam desprezados com o objetivo de simplificar o modelo. Deste modo,
tanto maior ser a representatividade do modelo quanto menor foi a importncia destes
detalhes na elucidao do fenmeno considerado.
A verificao da adequao do modelo escolhido no pode ser feita sem que alguns
dados de observao sejam obtidos. Atravs da comparao dos resultados previstos pelo
modelo com um determinado nmero de valores observados, poderemos concluir se o modelo
ou no adequado para explicar o fenmeno em estudo.
Dependendo do fenmeno que est sendo estudado, os modelos matemticos podem
ser de dois tipos:
a) Modelo determinstico: aquele em que ao conhecer as variveis de entrada, ou
seja, as condies do experimento, possvel determinar as variveis de sada, isto , os seus
resultados. Para os fenmenos determinsticos existe a certeza do resultado que ocorrer. Na
fsica clssica, a maioria dos fenmenos estudados so determinsticos.
Exemplo: Se o deslocamento de um objeto definido pela expresso s = v t e so
conhecidos os valores de v (velocidade) e t (tempo), ento o valor de s fica implicitamente
determinado.
b) Modelo estocstico, probabilstico ou aleatrio: aquele em que, mesmo
conhecendo as condies do experimento, no possvel determinar o seu resultado final.
Neste modelo, introduzido um componente aleatrio e s possvel determinar a chance de
ocorrncia de um resultado. Na biologia, os fenmenos so probabilsticos.
Exemplo: O nascimento de um bovino. No possvel determinar o sexo do recm
nascido, somente a sua probabilidade de ocorrncia: 0,5 para fmea e 0,5 para macho.
A modelagem de um experimento aleatrio implica em responder trs questes
fundamentais:
Quais as possveis formas de ocorrncia?
Quais so as chances de cada ocorrncia?
De que forma se pode calcular isso?
66

Piana, Machado e Selau

Elementos de Probabilidade

Um pouco de histria...

Blaise Pascal
(1623 -1662)

O estudo das probabilidades teve suas origens


no sculo XVII, a partir do interesse de dois
matemticos franceses, Pascal e Fermat, em resolver
problemas relacionados com jogos de azar, que lhes
eram propostos pelo nobre francs Cavalheiro de
Mre.
Data de 1713, entretanto, o primeiro grande
tratado nesse campo escrito por Jacques Bernoulli
denominado Ars Conjectandi (Arte das Conjecturas).
Bernoulli exemplificou seu trabalho principalmente em
termos de jogos de azar.

Pierre Fermat
(1601 -1665)

Na mesma linha seguiram alguns trabalhos subsequentes, com destaque para a obra
de Abraham de Moivre iniciada, em 1718, com Doctrine of Changes. A famosa distribuio
normal foi deduzida pelo francs de Moivre como resultado do limite da expanso do binmio
(a + b)n, embora ainda no tivesse sido colocada como uma distribuio de probabilidade.
Mais tarde, essa relao veio a ter uma importncia muito grande por estabelecer a
aproximao da distribuio binomial em relao normal.
O extraordinrio avano das probabilidades, entretanto, deu-se no incio do sculo
XIX, atravs do matemtico Laplace com seu clssico Therie analytique des probabilits
(1812), onde mostra que a rea sob a curva normal e fornece uma prova formal sobre o
mtodo dos quadrados mnimos.

Abraham de Moivre
(1667 -1754)

Praticamente
no
mesmo
perodo,
o
matemtico e astrnomo alemo Gauss, chegou
aos mesmos resultados sobre a curva normal de
probabilidades, estudando a distribuio dos erros
de medida. Mas somente no sculo XX que se
desenvolveu uma teoria matemtica rigorosa
baseada em axiomas, definies e teoremas.
As distribuies de probabilidades so
consideradas hoje a espinha dorsal da teoria
estatstica, pois todos os processos de inferncia
so aplicaes de distribuies de probabilidades.
Assim, o conhecimento dos conceitos
advindos da teoria das probabilidades de grande
importncia para a correta utilizao da estatstica.

Blaise Pascal nunca frequentou


escola, foi educado pelo pai que era
matemtico. Quando Blaise estava
com 11 anos descobriu sozinho que a
soma dos ngulos de um tringulo era
180 graus! A 32a proposio de
Euclides! E ele jamais tinha ouvido
falar em Euclides, pois seu pai lhe
havia escondido, temendo que a
geometria fosse lhe cansar a cabea.
Quando o pai ficou sabendo o que o
filho acabava de (re)descobrir, chorou
de alegria e ficou to contente que lhe
deu de presente os treze livros dos
Elementos de Euclides. (Guedj, 2000)

Carl Friedrich Gauss


(1777 -1855)

Com o intuito de ajudar o pai que, alm de matemtico,


tambm era cobrador de impostos e tinha muitas contas a
fazer, Blaise Pascal inventou uma mquina de calcular, a
pascaline. O principal problema do clculo mecnico o
que fazer quando, chegando a nove, se acrescenta um.
Pascal criou um pequeno mecanismo em que ningum
tinha pensado antes dele, um transportador que
transportava automaticamente este nmero. Por conta da
engenhoca, que na poca era chamada de mquina
aritmtica, Pascal tinha se tornando um pequeno
empresrio. Havia montado uma empresa, feito o projeto
de sua mquina, contratado operrios, patenteado o
processo e fabricado umas cinquenta pascalines. Produo
em srie, vendida a cem libras cada mquina. Ganhou um
dinheiro! (Guedj, 2000)
67

Piana, Machado e Selau

Elementos de Probabilidade

3.1.2. Conceitos fundamentais


 Experimento probabilstico ou aleatrio: toda experincia cujos resultados
podem no ser os mesmos, ainda que sejam repetidos sob condies idnticas. Caractersticas
desses experimentos:
cada experimento pode ser repetido indefinidamente sob condies inalteradas;
embora no possamos afirmar que resultado ocorrer, sempre possvel descrever
o conjunto de todos os possveis resultados.
quando o experimento for realizado repetidamente, os resultados individuais
parecem ocorrer de forma acidental; mas se for repetido um grande nmero de vezes uma
configurao definida ou regularidade surgir.
Exemplos:
Experimento 1: Jogar um dado e observar a sua face superior.
Experimento 2: Lanar uma moeda at que aparea cara e contar o nmero de
lanamentos.
Experimento 3: Selecionar uma carta do baralho e anotar o seu valor e naipe.
Experimento 4: Acender uma lmpada e medir o tempo at que ela se apague.
 Espao amostral (S): o conjunto de todos os possveis resultados de um
experimento aleatrio, ou seja, o conjunto universo relativo aos resultados de um
experimento. A cada experimento aleatrio est associado um conjunto de resultados possveis
ou espao amostral.
Exemplos:
S1 = {1, 2, 3, 4, 5, 6} enumervel e finito
S2 = {1, 2, 3, 4, ...} enumervel e infinito
S3 = {s de ouro, ..., rei de ouro, s de paus, ..., rei de paus, ..., s de espada, ..., rei
de espada, s de copas, ..., rei de copas} enumervel e finito
S4 = {t; t 0} contnuo e infinito
 Evento ou ocorrncia: todo conjunto particular de resultados de S ou, ainda, todo
subconjunto de S. Geralmente designado por uma letra maiscula (A, B, C). A todo evento
ser possvel associar uma probabilidade.
Exemplo:
Se S = {1, 2, 3, 4, 5, 6}, ento
A = {1, 2, 3},
B = Ocorrncia de faces pares,
C = {5}, so eventos de S.
 Operaes com eventos
Como o espao amostral S e os eventos so conjuntos, as mesmas operaes
realizadas com conjuntos so vlidas para eventos.
Exemplo: Se A e B, so eventos de S, ento:
Ocorre A B, se ocorrer A ou B (ou ambos).
Ocorre A B, se ocorrer A e B.
Ocorre A , se ocorrer S, mas no ocorrer A.
Ocorre A B, se ocorrer A, mas no ocorrer B.
68

Piana, Machado e Selau

Elementos de Probabilidade

 Ponto amostral: qualquer resultado particular de um experimento aleatrio. Todo


espao amostral e todo evento so constitudos por pontos amostrais.
 Eventos especiais
Evento impossvel: aquele evento que nunca ir ocorrer, tambm conhecido
como o conjunto vazio (). um evento porque subconjunto de qualquer conjunto, portanto
subconjunto de S ( S).
Exemplo: A1 = {(x, y); x2 + y2 < 0}
Evento certo: aquele evento que ocorre toda vez que se realiza o experimento,
portanto, esse evento o prprio S. evento porque todo conjunto subconjunto de si mesmo
(S S).
Exemplo: A2 = {(x, y); x2 + y2 0}
Eventos mutuamente exclusivos
Dois eventos A e B associados a um mesmo espao amostral S, so mutuamente
exclusivos quando a ocorrncia de um impede a ocorrncia do outro. Na teoria dos conjuntos,
correspondem aos conjuntos disjuntos, que no possuem elementos comuns (A B = ).
Exemplos:
Experimento 1: Lanamento de uma moeda e observao do resultado.
S = {c, k}, se definimos
A = Ocorrncia de cara
B = Ocorrncia de coroa

A = {c}
B = {k}, ento A e B so mutuamente exclusivos.

Experimento 2: Lanamento de um dado e observao da face superior.


S = {1, 2, 3, 4, 5, 6}, se definimos
A = Ocorrncia de nmero mpar
A = {1, 3, 5}
B = Ocorrncia de maior do que 4
B = {5, 6}
A B = {5}, logo, os eventos A e B no so mutuamente exclusivos.
3.1.3. Conceitos de probabilidade
3.1.3.1. Conceito clssico ou probabilidade a priori
Como a teoria das probabilidades est historicamente ligada aos jogos de
azar, esta associao gerou, inicialmente, um conceito chamado conceito
clssico ou probabilidade a priori, devido a Laplace.
Definio: Seja E um experimento aleatrio e S o espao amostral a ele
associado, com n pontos amostrais, todos equiprovveis. Se existe, em S,
m pontos favorveis realizao de um evento A, ento a probabilidade de
A, indicada por P(A), ser:
Pierre-Simon Laplace
(1749 - 1827)

P(A) =

m
n

#A
#S

69

Piana, Machado e Selau

Elementos de Probabilidade

Notemos, entretanto, que, para que este conceito tenha


pressuposies bsicas devem ser atendidas:
1. O espao amostral S enumervel e finito.
2. Os elementos do espao amostral S so todos equiprovveis.

validade,

duas

Exemplo:
Consideremos o seguinte experimento: lanamento de uma moeda honesta duas
vezes e observao do lado superior.
O espao amostral deste experimento S = {cc, ck, kc, kk} e todos os seus pontos
amostrais so equiprovveis:
1
p(cc) = p(kc) = p(ck) = p(kk) =
4
Define-se o evento A = ocorrncia de uma cara, ento
A = {ck, kc}
m #A 2 1
e P(A) = =
= = ,
n #S 4 2
pois S possui quatro pontos amostrais, dos quais dois so favorveis ocorrncia de A.
Consideremos, agora, outra situao onde o espao amostral S refere-se ao nmero
de caras obtido nos dois lanamentos da moeda honesta.
O espao amostral passa a ser S = {0, 1, 2} e o evento A = ocorrncia de uma cara, ou
seja, A = {1}.
Observamos, nesta situao, que os pontos amostrais de S (0, 1 e 2) no so todos
equiprovveis, pois
1
1
1
1
1
p(0) = p(kk) = , p(1) = p(kc) + p(ck) =
+
=
e p(2) = p(cc)= .
4
4
4
2
4
Portanto, embora o evento A seja o mesmo, como uma das pressuposies bsicas
no foi atendida, o conceito clssico no pode ser imediatamente aplicado para calcular a sua
probabilidade.
Podemos observar, a seguir, que a aplicao do conceito clssico, nesta situao, no
conduz ao um resultado incorreto:
m #A 1
P(A) = =
= .
n #S 3
Recomendamos, ento, partir sempre do espao amostral original do experimento
para aplicar o conceito clssico.

3.1.3.2. Frequncia relativa ou probabilidade a posteriori


O conceito de frequncia relativa como estimativa de probabilidade ou
probabilidade a posteriori surgiu atravs de Richard Von Mises.
Definio: Seja E um experimento aleatrio e A um evento. Se aps n
realizaes do experimento E (sendo n suficientemente grande), forem
observados m resultados favorveis ao evento A, ento uma estimativa
da probabilidade P(A) dada pela frequncia relativa
Richard Von Mises
(1883 - 1953)

f=

m
n

.
70

Piana, Machado e Selau

Elementos de Probabilidade

Este conceito baseado no princpio estatstico da estabilidade, ou seja, a medida que


m
o nmero de repeties do experimento (n) aumenta, a frequncia relativa f =
se aproxima
n
de P(A). O n deve ser suficientemente grande para que se possa obter um resultado com
margem de erro razovel. Define-se o erro desta estimativa pela expresso
f - P(A) = erro.
A Figura 3.1 ilustra o princpio da estabilidade, tomando-se por base o nmero
crescente de lanamentos de uma moeda e a probabilidade de se obter cara.

Figura 3.1. Estabilizao da frequncia relativa f quando n cresce.


Exemplo: Em Sobral (CE), observaram-se seis anos de seca no perodo de 1901-66
(66 anos). Qual a probabilidade de ser seco o prximo ano?
A frequncia relativa f ser uma estimativa da probabilidade de ocorrer seca no prximo ano:
f=

m
n

6
66

1
11

3.1.3.3. Conceito moderno ou axiomtico


J no sculo XX, como a conceituao at ento no era apropriada a
um tratamento matemtico mais rigoroso, Andrei Nikolaevich
Kolmogorov conceituou probabilidade atravs de axiomas rigorosos,
tendo por base a teoria da medida.
Definio: Se A um evento do espao amostral S, ento o nmero
real P(A) ser denominado probabilidade da ocorrncia de A se
satisfizer os seguintes axiomas:

Andrei N. Kolmogorov
(1903 - 1987)

Axioma 1. 0 P(A) 1.
Axioma 2. P(S) = 1.
Axioma 3. Se A e B so eventos de S mutuamente exclusivos,
ento P(A B) = P(A) + P(B).
71

Piana, Machado e Selau

Elementos de Probabilidade

Notemos que A e B so mutuamente exclusivos se e somente se A B = .


O terceiro axioma pode ser generalizado para um nmero finito de eventos
mutuamente exclusivos
n

P(A1 A 2 A 3 A n ) = P(A i )
i=1

O conceito axiomtico no fornece formas e sim condies para o clculo das


probabilidades. Deste modo, os conceitos a priori e a posteriori se enquadram no conceito
axiomtico.
A principal vantagem do conceito axiomtico a possibilidade de extenso do estudo
s variveis contnuas, englobando eventos pertencentes a espaos amostrais infinitos no
enumerveis.
3.1.3.4. Probabilidade geomtrica ou calculada como rea
Seja S o espao amostral associado a um experimento e A um evento de S.
Definimos, ento

P(A) =

rea de A
rea de S

Exemplo: Seja o tringulo ABC um espao amostral S e o tringulo CDE um evento A.


A probabilidade P(A) obtida da seguinte forma:

rea de S =

bh

2 1

=1
2
2 1/2 1
rea de A =
=
=
2
2
4
rea de A 1/ 4 1
P(A) =
=
=
rea de S
1
4
2
bh

Vemos que a probabilidade de ocorrncia de um evento a medida do conjunto que


representa o evento e pode ser calculada de diversas formas. Da podemos fazer a seguinte
generalizao:

72

Piana, Machado e Selau

Elementos de Probabilidade

3.1.4. Teoremas para o clculo de probabilidades


Teorema 1. Se um evento impossvel, ento P() = 0.
Como A = A, ento P(A ) = P(A) e
A = , ento A e so mutuamente exclusivos.
Utilizando ento o terceiro axioma, temos
P(A ) = P(A) + P()
P(A) = P(A) + P()
P() = P(A) P(A) = 0

Teorema 2. Se A o complemento de A, ento P( A ) = 1 P(A).


Se A A = S, sendo A e A mutuamente exclusivos, ento
P(S) = P(A A ) = P(A) + P( A )
1 = P(A) + P( A )
P( A ) = 1 - P(A)
Teorema 3. Se A e B so dois eventos quaisquer, ento P(A B) = P(A) P(A B).

P(A)

P(A B)

= P(A B)

Teorema da soma das probabilidades


Se A e B so dois eventos quaisquer, ento P(A B) = P(A) + P(B) P(A B).

P(A) + P(B)

P(A B)

= P(A B)

3.1.5. Probabilidade condicional e independncia


Sejam A e B dois eventos associados a um mesmo espao amostral S. Se A e B no
so eventos mutuamente exclusivos, ou seja, se A B , ento A e B podero ser eventos
independentes ou condicionados.
Para definir o que so eventos condicionados e eventos independentes, tomaremos,
como exemplo, um experimento aleatrio que ser considerado em duas situaes distintas.

73

Piana, Machado e Selau

Elementos de Probabilidade

Experimento: Uma caixa contm cinco bolas equiprovveis, sendo trs azuis e duas
brancas. Duas bolas so retiradas uma a uma e sua cor observada. Definimos, ento, dois
eventos:
A1: a primeira bola retirada azul.
A2: a segunda bola retirada branca.
As probabilidades dos eventos A1 e A2 sero calculadas em duas situaes.
Situao 1. Consideremos que a primeira bola retirada no reposta (retirada sem reposio).
Sendo o espao amostral enumervel, finito e equiprovvel, podemos calcular
probabilidade dos eventos atravs do conceito clssico. Deste modo,
P(A1 ) =

# A1
#S

3
5

Entretanto, a probabilidade do A2 vai depender da ocorrncia ou no do A1.


Se ocorreu A1, ento P(A 2 /A1 ) =

# A 2 /A 1
#S

Se no ocorreu A1, ento P(A 2 ) =

# A2
#S

=
1
4

2
4

Observamos, nesta situao, que, se a bola no for reposta, a probabilidade de


ocorrncia do A2 fica alterada pela ocorrncia ou no de A1. Podemos definir, ento:
 Eventos condicionados: dois eventos quaisquer, A e B, so condicionados quando
a ocorrncia de um altera a probabilidade de ocorrncia do outro.
A probabilidade condicional de A denotada por P(A/B) (l-se probabilidade de A
dado que ocorreu B).
Situao 2. Consideremos que a primeira bola retirada reposta antes de tirar a segunda
(retirada com reposio).
# A1 3
P(A1 ) =
=
#S 5
Como a primeira bola reposta, independente de ter ocorrido ou no A1, a
probabilidade de ocorrncia de A2 ser a mesma.
Se ocorreu A1, ento P(A 2 /A1 ) =

# A 2 /A 1

Se no ocorreu A1, ento P(A 2 ) =

#S
# A2
#S

=
2
5

2
5

Podemos verificar agora que, se a bola for reposta, a probabilidade de ocorrncia do


A2 no alterada pela ocorrncia ou no do A1, ou seja, P(A2) = P(A2/A1). Podemos definir,
ento:
 Eventos independentes: dois eventos quaisquer, A e B, so independentes quando
a ocorrncia de um no altera a probabilidade de ocorrncia do outro, ou seja,
P(A) = P(A/B) e P(B) = P(B/A).
74

Piana, Machado e Selau

Elementos de Probabilidade

Teorema do produto das probabilidades


Se A e B so dois eventos quaisquer, ento
P(A B) = P(A) P(B/A) = P(B) P(A/B).
Definimos, tambm
P(A/B) =

P(A B)

P(B)

P(B/A) =

P(A B)
P(A)

Se A e B so dois eventos independentes, ento


P(A) = P(A/B) e P(B) = P(B/A).
Logo,
P(A B) = P(A) P(B).

Teorema de Bayes
Se S um espao amostral, com n=4 parties, onde est definido o evento A
B1 B 2 B3 B 4 = S
B1 B 2 =

Bi B j =

B1 B 2 =

B1 B 2 =

podemos definir o evento A como


Thomas Bayes
(1702 1761)

A = (A B1 ) (A B 2 ) (A B3 ) (A B 4 ) , logo,
P(A) = [P(A B1 ) P(A B2 ) P(A B3 ) P(A B 4 )] .

Utilizando o terceiro axioma, temos


P(A) = P(A B1 ) + P(A B2 ) + P(A B3 ) + P(A B 4 ) .

Utilizando o teorema do produto, temos


4

P(A) = P(B1 )P(A/B1 ) + P(B 2 )P(A/B2 ) + P(B3 )P(A/B3 ) + P(B4 )P(A/B 4 ) = P(Bi )P(A/Bi )
i=1

e
P(B1/A) =

P(A B1 )
P(A)

P(B1 ) P(A/B1 )
4

P(Bi ) P(A/Bi )
i=1

Definimos, a partir desse exemplo, o teorema de Bayes:

75

Piana, Machado e Selau

Elementos de Probabilidade

Seja S um espao amostral e B1, B2,..., Bn, uma de suas parties possveis, tal que
Bi B j = e

Bi = S . Se A um evento de S, ento:
i=1
n

P(A) = P(Bi )P(A/Bi )


i=1

P(Bi /A) =

P(Bi ) P(A/Bi )
n

P(Bi ) P(A/Bi )
i=1

Exerccios propostos:
3.1. Em 660 lanamentos de uma moeda, foram observadas 310 caras. Qual a probabilidade
de, num lanamento dessa moeda, obter-se coroa?
3.2. Se os registros indicam que 504, dentre 813 lavadoras automticas de pratos vendidas por
uma grande loja de varejo, exigiram reparos dentro da garantia de um ano, qual a
probabilidade de uma lavadora dessa loja no exigir reparo dentro da garantia?
3.3. Um grupo de pessoas constitudo de 60 homens e 40 mulheres. Sabe-se que 45 desses
homens e 30 dessas mulheres votaram numa determinada eleio. Tomando-se,
aleatoriamente, uma dessas pessoas, calcule a probabilidade de:
a) ser homem;
b) ser mulher;
c) ter votado;
d) no ter votado;
e) ser homem, sabendo-se que votou;
f) ser mulher, sabendo-se que no votou;
g) ter votado, sabendo-se que mulher;
h) no ter votado, sabendo-se que homem.
3.4. Em uma fbrica de parafusos, as mquinas A, B e C produzem 25 %, 35 % e 40 % do total
produzido. Da produo de cada mquina, 5 %, 4 % e 2 %, respectivamente, so defeituosos.
Escolhe-se ao acaso um parafuso e verifica-se que ele defeituoso. Qual a probabilidade de
que seja da mquina A, da mquina B e da mquina C?
3.5. Em um estado (dos Estados Unidos) onde os automveis devem ser testados quanto
emisso de poluentes, 25% de todos os carros emitem quantidades excessivas de poluentes.
Ao serem testados, 99% de todos os carros que emitem excesso de poluentes so reprovados,
mas 17% dos que no acusam emisso excessiva de poluentes tambm so reprovados. Qual
a probabilidade de um carro reprovado no teste acusar efetivamente excesso de emisso de
poluentes?
3.6. Em uma certa comunidade, 6 % de todos os adultos com mais de 45 anos tm diabetes.
Um novo teste diagnostica corretamente 84% das pessoas que tm diabetes e 98% das que
no tem a doena.
a) Qual a probabilidade de uma pessoa diagnosticada como diabtica no teste, ter de fato
a doena?
b) Qual a probabilidade de uma pessoa que faa o teste, seja diagnosticada como no
diabtica?

76

Piana, Machado e Selau

Elementos de Probabilidade

3.2. Variveis aleatrias


3.2.1. Introduo e conceito
Para facilitar a compreenso do conceito de varivel aleatria, vamos tomar como
exemplo o seguinte experimento aleatrio.
Exemplo: Lanamento de uma moeda honesta trs vezes e observao das faces que
ocorrem.
O espao amostral do experimento
S = {ccc, cck, ckc, kcc, kkc, kck, ckk, kkk}.
Como a moeda honesta, a probabilidade de ocorrer cara igual probabilidade de
1
correr coroa: P(c) = P(k) = .
2
Para que ocorra o resultado trs caras (ccc), necessrio que ocorram,
sucessivamente, os trs eventos: cara no primeiro lanamento, cara no segundo lanamento e
cara no terceiro lanamento, ou seja, deve ocorrer a interseco destes trs eventos. Como os
lanamentos so independentes entre si, a probabilidade de ocorrer cara a mesma em todos
eles:
1
P(c) = .
2
Logo, a probabilidade de ocorrer trs caras P(ccc), dada pelo produto das probabilidades de
ocorrer cara em cada lanamento
1 1 1 1
P(ccc) = P(c) + P(c) + P(c) = =
2 2 2 8
De forma anloga, obtemos as probabilidades de todos os demais resultados possveis.
1 1 1 1
P(cck) = P(c) + P(c) + P(k) = =
2 2 2 8
...
1 1 1 1
P(kkk) = P(k) + P(k) + P(k) = = .
2 2 2 8
Podemos observar, ento, que
P(ccc) = P(cck) = P(ckc) = P(kcc) = P(kkc) = P(kck) = P(ckk) = P(kkk) =

1
8

o que torna o espao amostral equiprovvel.


Observamos, tambm, que o espao amostral formado pela unio dos eventos (ccc),
(cck), (ckc), (kcc), (kkc), (kck), (ckk) e (kkk), que so todos mutuamente exclusivos. Sendo
assim, a probabilidade do espao amostral, P(S), dada pela soma das probabilidades de
cada evento
P(S) = P(ccc) + P(cck) + P(ckc) + P(kcc) + P(kkc) + P(kck) + P(ckk) + P(kkk)
1 1 1 1 1 1 1 1
P(S ) = + + + + + + + = 1.
8 8 8 8 8 8 8 8
77

Piana, Machado e Selau

Elementos de Probabilidade

Seja X a varivel que representa o nmero de caras ocorrido nos trs lanamentos,
quais so os possveis valores de X?
X = {0, 1, 2, 3}

X(ccc) = 3
X(cck) = 2
X(ckc) = 2
X(kcc) = 2
X(kkc) = 1
X(kck) = 1
X(ckk) = 1
X(kkk) = 0

Atravs de X foi possvel transformar um


conjunto no numrico com oito pontos
amostrais em um conjunto numrico com
quatro pontos.
A partir deste exemplo podemos definir:
 Varivel aleatria uma funo (ou regra) que transforma um espao amostral
qualquer em um espao amostral numrico que ser sempre um subconjunto do conjunto dos
nmeros reais.
No exemplo anterior, se X fosse a varivel que representa o nmero de coroas, os
conjuntos seriam os mesmos, mas a funo seria outra, pois a correspondncia outra.
De modo geral, uma varivel aleatria pode ser representada pelo esquema abaixo

S
Espao amostral

X = funo que
transforma

X(s)

SX
Espao amostral da
varivel X

As variveis aleatrias podem ser classificadas como discretas ou contnuas. Por


questes didticas e de praticidade, vamos estudar cada tipo separadamente. Inicialmente,
abordaremos as variveis aleatrias discretas e suas principais distribuies de probabilidades
e, mais adiante, as variveis aleatrias contnuas.
78

Piana, Machado e Selau

Elementos de Probabilidade

3.2.2. Variveis aleatrias discretas


Definio: So discretas todas as variveis cujo espao amostral SX enumervel
finito ou infinito. Assim se X uma varivel aleatria discreta, ento SX um subconjunto dos
inteiros.
Tomemos como exemplo o seguinte experimento:
Lanamento de uma moeda at que ocorra face cara.
O espao amostral bsico deste experimento ser
S = {c, kc, kkc, kkkc, kkkkc, kkkkkc, ...}.
Se definimos a varivel aleatria X como o nmero de lanamentos at que ocorra
cara, ento, temos
X S = {1, 2, 3, 4 ,5,...}.
S
X

Se definimos outra varivel aleatria Y como o nmero de coroas at que ocorra cara,
ento temos
Y S = {0, 1, 2, 3, 4,...}.
S
Y

Observamos que X e Y so variveis aleatrias discretas, pois seus espaos


amostrais so enumerveis.
3.2.2.1. Funo de probabilidade
Definio: Seja X uma varivel aleatria discreta e SX o seu espao amostral. A
funo de probabilidade P(X = x) , ou simplesmente p(x) , ser a funo que associa a cada
valor de X a sua probabilidade de ocorrncia, desde que satisfaa duas condies:
1. p(x) 0, x SX
2.

p(x) = 1

xSX

Existem trs formas distintas de representar uma funo:


Representao tabular: consiste em relacionar em uma tabela os valores da funo
de probabilidade.
Representao grfica: consiste em representar graficamente a relao entre os
valores da varivel e suas probabilidades.
Representao analtica: estabelece uma expresso geral para representar o valor
da funo num ponto genrico da varivel.
Para exemplificar as formas de representao de uma funo de probabilidade, vamos
considerar o seguinte experimento aleatrio.
Exemplo: De uma urna com trs bolas pretas e duas brancas, retiram-se, de uma vez,
duas bolas. Se X o nmero de bolas pretas retiradas, determine a funo de probabilidade
P(X = x) .

79

Piana, Machado e Selau

Elementos de Probabilidade

Observamos que o espao amostral bsico do experimento um conjunto no


numrico
S = {P1B1, P1B2, P2B1, P2B2, P3B1, P3B2, P1P2, P1P3, P2P3, B1B2}
e que a varivel X transforma este espao num conjunto numrico
SX = {0, 1, 2}
Como o espao amostral bsico S enumervel, finito e equiprovvel, podemos obter
as probabilidades associadas aos valores de X atravs do conceito clssico. J vimos
anteriormente que, neste tipo de experimento, o nmero de elementos do espao e o nmero
de pontos favorveis ocorrncia do evento desejado podem ser obtidos atravs da
combinao. Da, temos:

P(X = 0) = P(B1B2 ) =

C03 C22
C52

1
10

= 0,1 = 0,1

P(X = 1) = P(PB
1 1 ) + P(PB
1 2 ) + P(P2B1 ) + P(P2B 2 ) + P(P3B1 ) + P(P3B2 ) =
P(X = 2) = P(PP
1 2 ) + P(PP
1 3 ) + P(P2P3 ) =

C32 C02
C52

3
10

C13 C12
C52

6
10

= 0,6

= 0,3

Obtidas as probabilidades, podemos fazer a representao tabular da funo.


X=x
P(X = x)

0
0,1

1
0,6

2
0,3

Da mesma forma, possvel construir o grfico para a funo.

Observamos que P(X = x) uma


funo contnua para todo o
xSX, ou seja, a funo P(X = x)
assume o valor zero para todo o
xSX.

A representao analtica da funo feita atravs da generalizao da expresso


utilizada para o clculo da probabilidade de cada valor de X:

P(X = x) =

C3x C22 x
C52

, para SX = {0, 1, 2}

80

Piana, Machado e Selau

Elementos de Probabilidade

3.2.2.2. Funo de distribuio ou probabilidade acumulada


Definio: Seja X uma varivel aleatria discreta e SX o seu espao amostral. A
funo de distribuio, definida por F(x) ou P(X x) a funo que associa a cada valor de X a
probabilidade P(X x) . Desta forma, temos
F(x) = P(X x) = P(X = t)
tx

Para o exemplo anterior, temos:


F(0) = P(X 0) = P(X = x) = P(X = 0) = 0,1
x 0

F(1) = P(X 1) = P(X = x) = P(X = 0) + P(X = 1) = 0,1 + 0,6 = 0,7


x 1

F(2) = P(X 2) =

P(X = x) = P(X = 0) + P(X = 1) + P(X = 2) = 0,1+ 0,6 + 0,3 = 1

x 2

Podemos tambm representar a funo de distribuio acumulada de trs formas:


representao tabular
X=x
P(X = x)
F(x)

0
0,1
0,1

1
0,6
0,7

2
0,3
1

1
-

representao grfica

representao analtica

F(x) = P(X x) =
tx

C3t C22 t
C52

, para SX = {0, 1, 2}

81

Piana, Machado e Selau

Elementos de Probabilidade

3.2.2.3. Medidas descritivas


Visto que as medidas descritivas servem para descrever conjuntos de dados
numricos e que o espao amostral de uma varivel aleatria sempre um conjunto numrico,
podemos utilizar essas medidas para representar as distribuies de probabilidades de
variveis aleatrias.
 Mdia ou valor esperado
Definio: Seja X uma varivel aleatria discreta e SX o seu espao amostral. O valor
mdio de X representado por E(X) ou X ou simplesmente , a mdia dos valores de X
ponderada pelas suas respectivas probabilidades de ocorrncia. Deste modo, temos

E(X) = =

x p(x)

xS X

p(x) = 1

x p(x)

xS X

xS X

Considerando o exemplo cuja distribuio de probabilidade a seguinte


X=x
P(X = x)

0
0,1

1
0,6

2
0,3

o valor esperado para o nmero de bolas pretas retiradas ser:


E(X) = =

x p(x) = 0 0,1 + 1 0,6 + 2 0,3 = 1,2 bolas

xS X

Devemos destacar que a mdia ou valor esperado possui propriedades matemticas


importantes, algumas j vistas na Unidade II, as quais so relacionadas a seguir.
Propriedades matemticas da mdia
1a propriedade: Se c uma constante, ento
E(c) = c
2a propriedade: Se X uma varivel aleatria e c uma constante, ao somarmos a
constante aos valores da varivel, a mdia da varivel tambm fica somada da constante.
E(c+X)=c+E(X)
3a propriedade: Se X uma varivel aleatria e c uma constante, ao multiplicarmos a
varivel pela constante, a mdia da varivel tambm fica multiplicada pela constante.
E(cX)=cE(X)
4a propriedade: A mdia dos desvios igual a zero.
E(X) = 0
82

Piana, Machado e Selau

Elementos de Probabilidade

5a propriedade: A mdia dos desvios quadrticos mnima.


E(X)2 < E(Xc)2 0
6a propriedade: Se X e Y so duas variveis aleatrias, a mdia da soma (ou
diferena) das duas variveis igual soma (ou diferena) de suas mdias.
E(X Y) = E(X) E(Y)
7a propriedade: Se X e Y so duas variveis aleatrias independentes, a mdia do
produto das duas variveis igual ao produto de suas mdias.
E(XY) = E(X)E(Y), se X e Y so independentes.
 Varincia
Definio: Seja X uma varivel aleatria discreta e SX o seu espao amostral. O grau
mdio de disperso dos valores de X em relao a sua mdia conhecido como varincia que
representada por V(X), ou 2X , ou simplesmente 2 , e definida como a mdia dos quadrados
dos desvios em relao mdia. Sendo assim, temos
V(X) = 2 = E(X )2 =

(x )2 p(x)

(Frmula de definio)

xS X

ou
V(X) = 2 = E(X2 ) 2 , onde E(X)2 =

x 2p(x)

(Frmula prtica)

xS X

Para o exemplo cuja distribuio de probabilidade


X=x
P(X = x)

0
0,1

1
0,6

2
0,3

e o valor esperado = 1,2 bolas, a varincia do nmero de bolas pretas retiradas ser:
V(X) = 2 =

(x )2 p(x) = (0 1,2)2 0,1 + (1 1,2)2 0,6 + (2 1,2)2 0,3 = 0,36 bolas2.

xS X

A varincia destaca-se entre as medidas de variao por apresentar algumas


propriedades matemticas.
Propriedades matemticas da varincia:
1a propriedade: Se k uma constante, ento
V(k) = 0
2a propriedade: Se X uma varivel aleatria e c uma constante, ao somarmos a
constante aos valores da varivel a varincia da varivel no se altera.
V(X+c)=V(X)
83

Piana, Machado e Selau

Elementos de Probabilidade

3a propriedade: Se X uma varivel aleatria e k uma constante, ao multiplicarmos a


varivel pela constante a varincia da varivel fica multiplicada pelo quadrado constante.
V(kX) = k2 V(X)
4a propriedade: Se X e Y so duas variveis aleatrias independentes, a varincia da
soma (ou diferena) das duas variveis igual soma de suas varincias.
V(X Y) = V(X) + V(Y), se X e Y so independentes
 Desvio padro
A partir da varincia podemos obter o desvio padro, denotado por e definido como
a raiz quadrada da varincia:

= 2 .
No exemplo: = 2 = 0,36 = 0,6 bolas.

 Momentos
J vimos anteriormente que os momentos so quantidades que auxiliam na descrio
de um conjunto de valores. Da mesma forma, aqui, essas medidas so utilizadas para
descrever as distribuies de probabilidade de variveis aleatrias. A expresso geral do
momento de ordem r de uma varivel aleatria a seguinte:

r = E(X a)r
Os tipos mais importantes de momentos so dois:
Quando a = 0, temos os momentos centrados na origem ou momentos ordinrios de
ordem r:

r = E(X 0)r = E(Xr )


Para r = 1, temos

1 = E(X) = xp(x)
xS X

Para r = 2, temos

2 = E(X2 ) = x 2p(x)
xSX

Para r = 3, temos

3 = E(X3 ) = x 3p(x)
xS X

Para r = 4, temos

4 = E(X4 ) = x 4p(x)
xS X

84

Piana, Machado e Selau

Elementos de Probabilidade

Quando a = , temos os momentos de ordem r centrados na mdia

r = E(X )r
Para r = 1, temos

1 = E(X )
1 = E(X) E( )
1 = = 0
Para r = 2, temos

2 = E(X )2 =

(x )2 p(x)

(Frmula de definio)

xS X

2 = E(X )2
2 = E(X2 2X + 2 )
2 = E(X2 ) E(2X) + E(2 )
2 = E(X2 ) 2E(X) + 2
2 = E(X2 ) 22 + 2
2 = E(X2 ) 2 (Frmula prtica)
Para r = 3, temos

3 = E(X )3 =

(x )3 p(x)

(Frmula de definio)

xS X

3 = E(X )3
3 = E(X3 3X2 + 2X 2 3 )
3 = E(X3 ) E(3X2 ) + E(3X2 ) E(3 )
3 = E(X3 ) 3E(X2 ) + 32E(X) 3
3 = E(X3 ) 3E(X2 ) + 32 3
3 = E(X3 ) 3E(X2 ) + 33 3
3 = E(X3 ) 3E(X2 ) + 23 (Frmula prtica)
Para r = 4, temos

4 = E(X )4 =

(x )4 p(x)

(Frmula de definio)

xS X

4 = E(X4 ) 4E(X3 ) + 6 2E(X2 ) 3 4 (Frmula prtica)

 Coeficiente de assimetria
a3 =

3
3
= 3/2
2 2 2

 Coeficiente de curtose
a4 =

4
22
85

Piana, Machado e Selau

Elementos de Probabilidade

3.2.3. Variveis aleatrias contnuas


Vamos considerar agora o seguinte experimento: tomar aleatoriamente uma pea de
uma linha de fabricao, coloc-la em funcionamento e medir por quanto tempo ela funciona.
Um possvel espao amostral bsico para este experimento seria a anotao do dia e da hora
em que a pea parou de funcionar. Um procedimento equivalente (e mais adequado do ponto
de vista das aplicaes) seria associar a cada ponto desse espao amostral o tempo de
funcionamento decorrido. Assim, teramos uma varivel aleatria X definida como o tempo de
funcionamento da pea. Esta varivel X seria uma varivel aleatria contnua, visto que o
conjunto dos seus valores no poderia ser enumerado, e o seu espao amostral poderia ser
representado como {x; x 0}. Observamos tambm que, sendo X uma varivel contnua, entre
quaisquer dois valores distintos de X sempre existiro infinitos valores. A partir deste exemplo,
podemos definir uma varivel aleatria contnua.
Definio: So contnuas todas as variveis cujo espao amostral SX infinito no
enumervel. Assim, se X uma varivel aleatria contnua, ento X pode assumir qualquer
valor num intervalo [a; b] ou no intervalo (-; +) e o conjunto SX ser sempre definido como
um intervalo.
So exemplos de variveis aleatrias contnuas: o tempo de vida de um animal, a vida
til de um componente eletrnico, o peso de uma pessoa, a produo de leite de uma vaca, a
quantidade de chuva que ocorre numa regio.
3.2.3.1. Funo densidade de probabilidade
Definio: Seja X uma varivel aleatria contnua e SX o seu espao amostral. Uma
funo f associada varivel X denominada funo densidade de probabilidade se satisfizer
duas condies:
1. f(x) 0, x SX
2. f(x)dx = 1 = P(X SX )
SX

A rea sob a funo f(x) no intervalo SX


um, pois corresponde probabilidade de a
varivel X pertencer ao espao amostral SX.

Consideremos agora dois exemplos resolvidos.


Exemplo 1. Seja a funo f(x) = 2x, no intervalo SX =[0,1]. Verifique se f(x) uma
funo densidade de probabilidade.
Primeira condio: f(x) 0, x SX
Como a funo f(x) = 2x linear, apenas dois pontos so suficientes para traar a reta
que representa a relao entre x e f(x). Podemos obter, ento, os valores da funo f(x) nos
pontos 0 e 1 que so os limites do intervalo SX:
para x = 0, temos f(0) = 2 0 = 0,
para x = 1, temos f(1) = 2 1 = 2.
A partir desses dois pontos possvel construir o grfico da funo

86

Piana, Machado e Selau

Elementos de Probabilidade

Podemos observar que todos os valores da funo f(x) so no negativos no intervalo


de 0 a 1; portanto, a primeira condio foi atendida.
Segunda condio:

f(x)dx = 1

SX

A integral a ferramenta utilizada para se obter a rea sob a funo f(x) no intervalo
SX, que equivale a P(XSX) e deve ser igual a 1. Entretanto, na funo f(x) = 2x essa rea
adquire a forma de um tringulo, podendo ser mais facilmente calculada atravs da expresso
bh/2. Assim, temos
bh 1 2
=
= 1.
rea =
2
2
Como a rea sob a funo f(x) igual a 1, a segunda condio tambm foi atendida.
Logo, a funo f(x) = 2x no intervalo SX =[0, 1] uma funo densidade de probabilidade.

Exemplo 2. Seja a funo f(x) = 6x 6x2, no intervalo SX =[0,1]. Verifique se f(x) uma
funo densidade de probabilidade.
Primeira condio: f(x) 0, x SX
Como f(x) = 6x 6x2 uma funo quadrtica, so necessrios, pelo menos, trs
pontos para traar a parbola que representa a relao entre x e f(x). Devemos obter, ento, os
valores da funo f(x) nos pontos 0 e 1, que so os limites do intervalo SX, e no valor que
corresponde ao ponto crtico da funo. Para determinar este valor de x derivamos a funo e
igualamos a zero a primeira derivada. Deste modo, para
f(x) = 6x 6x2, temos
f (x) = 6 12x, sendo f (x) = 0, temos
0 = 6 12x
x=

6 1
=
valor de Xquecorrespondeaopontocrticode f (x)
12 2

Derivando a funo pela segunda vez, possvel determinar se o ponto crtico um


ponto de mximo ou de mnimo.
f (x) = 12

87

Piana, Machado e Selau

Elementos de Probabilidade

Sabemos que:
se f (x) < 0 , a parbola tem concavidade para baixo, ou seja, tem ponto de mximo.
se f (x) > 0 , a parbola tem concavidade para cima, ou seja, tem ponto de mnimo.
Como a segunda derivada resultou negativa, conclumos que a funo tem ponto de
mximo. Assim, obtemos os valores da funo f(x) = 6x 6x2 nos pontos 0, 1/2 e 1:
para x = 0, temos f(0) = 6 0 6 02 = 0,
para x = 1/2, temos f(1/2) = 6 1/2 6 (1/2)2 = 3/2,
para x = 1, temos f(1) = 6 1 6 12 = 0.
A partir desses trs pontos possvel traar o grfico da funo

Observamos que todos os valores da funo f(x) so maiores que zero no intervalo de
0 a 1; portanto, a primeira condio foi atendida.
Segunda condio:

f(x)dx = 1

SX

Como a representao grfica de f(x) no intervalo [0, 1] uma parbola, a rea sob a
funo pode ser obtida atravs da integrao da diferencial da funo (f(x)dx) neste intervalo.
Da, temos
1

1
1
1
1
1
1
x2
x3
rea = f(x)dx = 6x 6x 2 dx = 6xdx 6x 2 dx = 6 xdx 6 x 2 dx = 6 6
2 0
3 0
0
0
0
0
0
0

) (

= 3 12 02 2 13 03 = 3 2 = 1.

Como a rea sob a funo f(x) no intervalo SX, que equivale a P(XSX), igual a 1, a
segunda condio tambm foi atendida.
Portanto, a funo f(x) = 6x 6x2, no intervalo SX =[0, 1] uma funo densidade de
probabilidade.
3.2.3.2. Funo de distribuio ou probabilidade acumulada
Definio: Seja X uma varivel aleatria contnua e SX o seu espao amostral. A
funo de distribuio, definida por F(x) ou P(X x), a funo que associa a cada valor de x
SX a sua probabilidade acumulada P(X x). Desta forma, temos
x

F(x) = P(X x) = f(t)dt , para SX =[a, b].


a

88

Piana, Machado e Selau

Elementos de Probabilidade

Sendo SX =[a, b]., temos


F(a) = P(X a) = 0
F(b) = P(X b) = 1
Consideremos o Exemplo 1. Para a funo densidade de probabilidade f(x) = 2x, no
intervalo SX =[0,1], definem-se os seguintes eventos:

A = {x; 0 < x 1/2}


B = {x; 1/2 x 3/4}

As probabilidades dos eventos A e B correspondem s suas respectivas reas:


1/2

P(A) = rea de A =

1/2

1/2

x2
1
1
2xdx = 2 xdx = 2 = 02 =
4
2
2 0
0

3/4

3/4

3/4

x2
9 1 94 5
3 1
P (B) = rea de B = 2xdx = 2 xdx = 2 = =
=
=
16
16
2 1/2 4 2 16 4
1/2
1/2
Para f(x) = 2x, a funo de distribuio acumulada F(x) ser
x

t2
F(x) = P(X x) = 2tdt = 2 = x 2 02 = x 2 .
2 0
0
As probabilidades dos eventos A e B podem ser obtidas de outra forma atravs da
funo de distribuio acumulada F(x) = P(X x) = x 2 . Assim, temos
2

1
1
F(1/2) = P(X 1/2) = =
4
2

9
3
F(3/4) = P(X 3/4) = =
,
4
16

donde resulta
1
P(A) = F(1/2) =
4
e
9 1 5
P(B) = F(3/4) F(1/2) =
=
16 4 16

Para o Exemplo 2:
Seja f(x) = 6x 6x2 uma funo densidade de probabilidade definida no intervalo
SX=[0,1]. Para f(x) a funo de distribuio acumulada F(x) ser
89

Piana, Machado e Selau

Elementos de Probabilidade
x

x
x
x
t2
t3
F(x) = 6t 6t 2 dt = 6tdt 6t 2 dt = 6 6 = 3x 2 2x 3 .
2 0
3 0
0
0
0

3.2.3.3. Medidas descritivas


 Mdia ou valor esperado
Definio: Seja X uma varivel aleatria contnua e SX o seu espao amostral. O valor
mdio de X, representado por E(X) ou , ser dado por

x f(x)dx

E(X) = =

SX

Sempre que a funo for par e, portanto, simtrica, F() = 1/2.


 Varincia
Definio: Seja X uma varivel aleatria contnua e SX o seu espao amostral. A
varincia de X, representada por V(X) ou 2, ser dada por
V(X) = 2 = E(X )2 =

(x )

f(x)dx

(Frmula de definio)

SX

ou

V(X) = 2 = E(X2 ) 2 = x 2 f(x)dx 2


SX

Para o Exemplo 1: f(x) = 2x, SX =[0,1], temos:

(Frmula prtica)

1
1
1
x3
13 03 2
E(X) = = E(X) = = x 2xdx = 2x 2 dx = 2 x 2 dx = 2 = 2 =
3 0
3 3 3
0
0
0

e
2
4 1
1 2

1 3
1 4 98 1
x 2
2
2
V(X) = = x 2xdx = 2x dx = 2 = =
=
2 9
18
18
4 0 3
0

Para o Exemplo 2: f(x) = 6x 6x2, SX =[0,1], temos:


1

E(X) = = x 6x 6x 2 dx = 6x 2 6x 3 dx 6x 2 dx 6x 3 dx
0

3 1

x
x
6 86 1
=6 6 = 2 =
=
4
4
2
3 0
4 0
4

e
1

V(X) = 2 = x 2 6x 6x 2 dx 2 = 6x 3 6x 4 dx 2

0
0

1
1
2
1
x 4
1

x 5 1
3 6 1 30 24 5 1
= 6x 3 dx 6x 4 dx 2 = 6 6 = =
=
2 5 4
20
20
0

5 0 2
0
4 0

90

Piana, Machado e Selau

Elementos de Probabilidade

 Momentos
Segundo momento:

2 = E(X )2 =

(x )

f(x)dx

(Frmula de definio)

SX

SX

2 = E(X2 ) 2 = x 2 f(x)dx 2 (Frmula prtica)

Terceiro momento:

3 = E(X )3 =

(x )

f(x)dx

(Frmula de definio)

SX

SX

SX

3 = E(X3 ) 3E(X2 ) + 23 = x 3 f(x)dx 3 x 2 f(x)dx + 23 (Frmula prtica)

Quarto momento:

4 = E(X )4 =

(x )

f(x)dx

(Frmula de definio)

SX

4 = E(X4 ) 4E(X3 ) + 62E(X2 ) 3 4

= x 4 f(x)dx 4 x 3 f(x)dx + 62 x 2 f(x)dx 3 4 (Frmula prtica)


SX

SX

SX

 Coeficiente de assimetria
a3 =

3
3
= 3/2
2 2 2

 Coeficiente de curtose
a4 =

4
22

91

Piana, Machado e Selau

Elementos de Probabilidade

3.3. Distribuies de probabilidade


At o momento, as variveis aleatrias consideradas no possuam, necessariamente,
qualquer sentido de aplicao. Entretanto, algumas variveis aleatrias so muitos importantes
e, devido a esta importncia, surge o interesse em estudar suas distribuies de probabilidade.
Uma distribuio de probabilidade essencialmente um modelo de descrio
probabilstica de uma populao, entendendo por populao o conjunto de todos os valores de
uma varivel aleatria. As ideias de populao e distribuio de probabilidade so, deste modo,
indissociveis e sero, a partir de agora, tratadas como sinnimos. As distribuies de
probabilidade formam a espinha dorsal da metodologia estatstica, uma vez, que pela sua
natureza, a estatstica somente trabalha com variveis cujos valores no ocorrem de modo
determinstico.
No estudo de uma varivel aleatria importante saber:
o tipo de distribuio de probabilidade da varivel;
a funo de probabilidade da varivel;
os parmetros da distribuio;
as medidas descritivas da distribuio (mdia, varincia, assimetria).
Existem inmeros modelos descrevendo o comportamento probabilstico de variveis
discretas e contnuas. Nas sees a seguir sero discutidos os principais tipos de distribuies
discretas e contnuas.

3.3.1. Distribuies de probabilidade de variveis discretas


As distribuies discretas mais importantes e utilizadas so: Bernoulli, Binomial,
Hipergeomtrica, Poisson, Uniforme, Multinomial, Geomtrica, Binomial negativa e
Hipergeomtrica negativa. Todavia, nesta seo, trataremos apenas as cinco primeiras.
3.3.1.1. Distribuio de Bernoulli

Esta distribuio foi deduzida no final do sculo XVII pelo matemtico


suo Jacob Bernoulli.
Definio: modelo de descrio probabilstica dos resultados de um
experimento de Bernoulli.
Jacob Bernoulli
(1654 1705)

O experimento (ou ensaio) de Bernoulli definido como o experimento


aleatrio que possui apenas dois resultados possveis.

Exemplos:
Experimento 1. Uma lmpada colocada numa luminria.
S = {acende, no acende}
Vamos considerar um dos resultados como sucesso, por exemplo, sucesso = acender.
Definimos, ento, a varivel X como nmero de sucessos em uma repetio do experimento.
X = nmero de sucessos
92

Piana, Machado e Selau

Elementos de Probabilidade

A varivel X s poder assumir dois valores


0, se a lmpada no acender
, sendo SX = {0, 1}.
X=
1, se a lmpada acender

Experimento 2. Uma semente colocada para germinar.


S = {germina, no germina}
Se sucesso = germinar, ento, a varivel X = nmero de sucessos ser
0, se a semente no germinar
, sendo SX = {0, 1}.
X=
1, se a semente germinar

Se for conhecido o poder germinativo do lote de sementes, por exemplo, 87%, ento,
podemos concluir que a probabilidade de a semente germinar 0,87. Como o evento {no
germinar} complemento do evento {germinar}, a probabilidade de no germinar ser 1 0,87.
Temos, ento
X=x
P(X = x)

0
0,13

1
0,87

Experimento 3. O nascimento de um bovino.


S = {macho, fmea}
Se sucesso = fmea, ento, a varivel X = nmero de sucessos ser
0, se nascer macho
, sendo SX = {0, 1}
X=
1, se nascer fmea

Sabe-se que a probabilidade de nascer fmea a mesma de nascer macho. Temos,


ento
X=x
P(X = x)

0
0,5

1
0,5

 Funo de probabilidade
De modo geral, se X uma varivel que tem distribuio de Bernoulli, ento a sua
funo de probabilidade ser:
Representao tabular
X=x
P(X = x)

0
(1)

onde:

= probabilidade de sucesso
(1) = probabilidade de fracasso
93

Piana, Machado e Selau

Elementos de Probabilidade

Representao analtica
P(X = x) = x (1 )1 x , para SX = {0, 1}

 Parmetros
A distribuio de Bernoulli tem apenas um parmetro:

= probabilidade de sucesso
Dizemos, ento, que
X ~ Ber ().
 Medidas descritivas
Mdia ou valor esperado: E(X) = =

x p(x)

xS X

E(X) = 0 (1 ) + 1 =

Teorema: E(X) = =

Varincia: V(X) = 2 = E(X2 ) 2


Como
E(X 2 ) =

x 2p(x) = 02 (1 ) + 12 = ,

xS X

temos
V(X) = E(X2 ) 2 = 2 = (1 ).

Teorema: V(X) = 2 = (1 )

Coeficiente de Assimetria: a3 =

3
2 2

onde:

2 = E(X )2 = E(X2 ) 2
3 = E(X )3 = E(X3 ) 3E(X2 ) + 23
Teorema: a3 =

(1 )
(1 )

3.3.1.2. Distribuio binomial


Definio: modelo que descreve probabilisticamente os resultados de uma sequncia
de experimentos de Bernoulli independentes, ou seja, onde a probabilidade de sucesso
sempre a mesma.

94

Piana, Machado e Selau

Elementos de Probabilidade

Podemos dizer que, se

X = Y1 + Y2 + + Yn ,
onde:
Yi ~ Ber () e

Yi's so independentes, ento X tem distribuio binomial.

Exemplo: Em uma estncia 60% dos bovinos foram vacinados contra uma
determinada doena. Se um bovino dessa estncia for escolhido ao acaso, ento, teremos um
experimento de Bernoulli com
S = {vacinado, no vacinado},
onde:
P(vacinado) = 0,6 e P(no vacinado) = 0,4.
Se trs bovinos forem escolhidos ao acaso, ento teremos uma sequncia de trs
experimentos de Bernoulli independentes uma vez que, a cada escolha, a probabilidade de
sucesso permanecer inalterada. O espao amostral deste experimento ser
S = {VVV, VVN, VNV, NVV, NNV, NVN, VNN, NNN},
onde:
V = vacinado e N = no vacinado.
Se a varivel X definida como o nmero de sucessos em n experimentos de
Bernoulli independentes, com probabilidade de sucesso igual a , ento, no exemplo, onde n =
3 e = 0,6 (se considerarmos sucesso = vacinado), o espao amostral da varivel X ser SX =
{0, 1, 2, 3} e as probabilidades P(X = x) ser:
P(X = 0) = 1 0 (1 )3 = 1 . 0,60 0,43 = 0,064
P(X = 1) = 3 1 (1 )2 = 3 . 0,61 0,42 = 0,288
P(X = 2) = 3 2 (1 )1 = 3 0,62 0,41 = 0,432
P(X = 3) = 1 3 (1 )0 = 1 0,63 0,40 = 0,216
Sendo assim, a distribuio de probabilidade da varivel X ser
X=x
P(X = x)

0
0,064

1
0,288

2
0,432

3
0,216

 Funo de probabilidade
De modo geral, se X uma varivel que tem distribuio binomial, ento a sua funo
de probabilidade ser:

P(X = x) = P x,n x x (1 )n x , para SX = {0, 1, ..., n}


 Parmetros
A distribuio binomial tem dois parmetros:
n = nmero de repeties do experimento de Bernoulli
= probabilidade de sucesso
Dizemos, ento, que
X ~ Bin (n, ).
95

Piana, Machado e Selau

Elementos de Probabilidade

 Medidas descritivas
Mdia ou valor esperado: E(X) = =

x p(x)

xS X

Considerando que uma varivel X com distribuio binomial pode ser definida como a
soma de variveis de n variveis Y independentes, podemos utilizar as propriedades da mdia.
Sendo X = Y1 + Y2 + + Yn ,
temos
E(X) = E(Y1 + Y2 + + Yn )
E(X) = E(Y1 ) + E(Y2 ) + + E(Yn )
E(X) = + + + = n

Teorema: E(X) = = n
Varincia: V(X) = 2 = E(X2 ) 2
Sendo X = Y1 + Y2 + + Yn ,
temos
V(X) = V(Y1 + Y2 + + Yn )
V(X) = V(Y1 ) + V(Y2 ) + + V(Yn )
V(X) = (1 ) + (1 ) + + (1 ) = n (1 )

Teorema: V(X) = 2 = n(1 ).

Coeficiente de assimetria: a3 =
Teorema: a3 =

3
2 2

(1 )
n(1 )

Interpretao do coeficiente de assimetria:


Se > (1), a distribuio binomial assimtrica negativa.
Se = (1) = 0,5, a distribuio binomial simtrica.
Se < (1), a distribuio binomial assimtrica positiva.
Coeficiente de curtose: a4 =

4
22

Fazendo a4 = a4 3 , temos:
Teorema: a4 =

1 6(1 )
n(1 )

Interpretao do coeficiente de curtose a4 :


Se a4 < 0 , a distribuio binomial platicrtica.
Se a4 = 0 , a distribuio binomial mesocrtica.
Se a4 > 0 , a distribuio binomial leptocrtica.
96

Piana, Machado e Selau

Elementos de Probabilidade

No exemplo:
E(X) = 3 0,6 = 1,8 bolas
Significado do valor esperado: Se o experimento (escolher trs bovinos) for repetido
um grande nmero de vezes, o valor esperado ser o nmero mdio de sucessos (bovinos
vacinados) obtidos nesses experimentos.
V(X) = 3 0,6 0,4 = 0,72 bolas2
Significado da varincia: Se o experimento (escolher trs bovinos) for repetido um
grande nmero de vezes, a varincia expressar a variao mdia do nmero de sucessos
(bovinos vacinados) obtidos nesses experimentos em relao ao valor esperado.
a3 =

0,4 0,6
= 0,24 distribuio assimtrica negativa
3 0,6 0,4

Significado do coeficiente de assimetria: A probabilidade de ocorrer valores maiores


que a mdia (1,8) maior que a probabilidade de ocorrer valores menores.
a4 =

1 6 0,6 (1 0,6)
= 0,61 distribuio platicrtica
3 0,6 (1 0,6)

3.3.1.3. Distribuio hipergeomtrica


Definio: modelo que descreve probabilisticamente os resultados de uma sequncia
de experimentos de Bernoulli dependentes. Refere-se a experimentos que se caracterizam por
retiradas sem reposio, ou seja, onde a probabilidade de sucesso se altera a cada retirada.
Tais experimentos podem ser descritos genericamente da seguinte forma:
Consideremos uma populao de tamanho N, dividida em duas sub-populaes de
tamanho N1 e N2. Suponha que desejamos retirar dessa populao um grupo de n elementos,
um a um, sem reposio. Se a varivel aleatria X definida como o nmero de elementos da
sub-populao de tamanho N1, observa-se uma relao de dependncia entre os elementos
retirados, pois, como no h reposio, a probabilidade de sucesso (retirar elemento da subpopulao de tamanho N1) muda a cada retirada.
N

sub-populao
de interesse

N1

N2

(N = N1 + N2)

n elementos, retirados sem reposio


X = nmero de elementos da sub-populao (de interesse) de tamanho N1
Exemplo: Dentre 10 painis solares apresentados numa exposio, sete so do tipo
placa plana e trs so do tipo concentrador. Uma pessoa que visita a exposio escolhe, ao
acaso, trs painis para observar. Se a varivel aleatria X definida como o nmero de
painis do tipo placa plana observados, construa a distribuio de probabilidade de X.

97

Piana, Machado e Selau

Elementos de Probabilidade
N = 10 painis
N1 = 7
Plana

sub-populao
de interesse

N2 = 3
Concentrador

escolher 3 painis, sem reposio


S = {C1C2C3, C1C2P1, C1C2P2, ..., P5P6P7}
3
#S = C10

X = nmero de painis do tipo placa plana observados


SX = {0, 1, 2, 3}
P(X = 0) =

C07 C33
3
C10

C17 C23

P(X = 1) =

3
C10

P(X = 2) =
P(X = 3) =

C72 C13
3
C10

C37 C03
3
C10

1 1
1
=
= 0,008333
120 120

7 3 21
=
= 0,175
120 120

21 3 63
=
= 0,525
120 120

351 35
=
= 0,2917
120 120

Sendo assim, a distribuio de probabilidade da varivel X ser


X=x
P(X = x)

0
1/120

1
2
3
21/120 63/120 35/120

 Funo de probabilidade
De modo geral, se X uma varivel que tem distribuio hipergeomtrica, ento sua
funo de probabilidade ser:
P(X = x) =

CNx 1 CNn2 x
CNn

, para SX = {max (0, n N2), ..., min (n, N1)}

 Parmetros
A distribuio hipergeomtrica tem trs parmetros:
N = tamanho da populao
N1 = nmero de elementos da sub-populao de interesse
n = nmero de elementos retirados (repeties do experimento de Bernoulli)
Dizemos, ento, que
X ~ Hip (N, N1, n).
98

Piana, Machado e Selau

Elementos de Probabilidade

 Medidas descritivas
Mdia ou valor esperado: E(X) = =

x p(x)

xS X

Teorema: E(X) = = n

N1
N

Varincia: V(X) = 2 = E(X2 ) 2


Teorema: V(X) = 2 = n

N1 N2 N n

,
N N N 1

onde:
Nn
o fator de correo para populaes finitas.
N 1

Agora torna-se necessrio definirmos mais claramente quando uma populao


considerada finita.
Entendemos por populao finita aquela que pode ser esgotada por processo de
amostragem. Uma populao ser considerada finita quando tiver um nmero finito de
elementos e a amostragem for efetuada sem reposio. De maneira anloga, podemos definir
uma populao infinita como aquela que no se esgota por processo de amostragem. Assim,
uma populao ser considerada infinita quando tiver um nmero infinito de elementos ou
quando amostragem for efetuada com reposio.
Para o exemplo, as medidas descritivas so:
7
= 2,1 painis
10
7 3 10 3
2
V(X) = 3
= 0,49 painis
10 10 10 1

E(X) = 3

3.3.1.4. Distribuio de Poisson


A distribuio de Poisson, assim designada em homenagem ao
matemtico e fsico francs Simon Denis Poisson.
Definio: modelo que descreve probabilisticamente a sequncia de um
grande nmero de fenmenos independentes entre si, cada um com
probabilidade de sucesso muito pequena.
Esta distribuio importante no estudo de variveis aleatrias de
ocorrncia rara em relao ao nmero total de ocorrncias, como por
exemplo:
Simon Denis Poisson
(1781 - 1840)

nmero de peas defeituosas observadas em uma linha de produo


num determinado perodo de tempo;
nmero de partculas radioativas emitidas numa unidade de tempo;
nmero de cultivares selecionadas num processo de melhoramento;
nmero de acidentes de trabalho ocorridos numa grande empresa
num determinado perodo de tempo;
nmero de ciclones ocorridos em certa regio num determinado
perodo de tempo
99

Piana, Machado e Selau

Elementos de Probabilidade

A distribuio de Poisson tem inmeras aplicaes na simulao de sistemas


modelando o nmero de eventos ocorridos num intervalo de tempo, quando os eventos
ocorrem a uma taxa constante.
 Funo de probabilidade
De modo geral, se X uma varivel que tem distribuio de Poisson, ento a sua
funo de probabilidade ser:
P(X = x) = e

, para SX = {0, 1, 2, ...},

x!

onde:
X: nmero de sucessos;
e: nmero base dos logaritmos neperianos = 2,718 (constante);
: nmero mdio de sucessos (sempre maior que zero).
Podemos demonstrar que a funo P(X = x) = e
provando que

p(x) = 1. Como SX = {0, 1, 2, ...}, temos

x!

uma funo de probabilidade

xSx

x =0

x =0

p(x) = e

x
x!

x =0

x!

= e

2 3
= e 1+ +
+
+
2! 3!

= e (e )
= e + = e0 = 1

 Parmetros
A distribuio de Poisson tem apenas um parmetro:

: nmero mdio de sucessos


Dizemos, ento, que
X ~ Poi ().
 Medidas descritivas
Mdia ou valor esperado: E(X) = =

x p(x)

xS X

E(X) = xp(x) =
x =0

x =0

x!

x e

x =0

x!

= e x

= e
x =1

x =0

x 1

(x 1)!

y =0

y!

= e

= e x

x 1
x(x 1)!

= e

x =1

= e x
x =1

x 1
x (x 1)!

x 1

, fazendo y = x 1, temos
(x 1)!

= e e = e + = e0 =

100

Piana, Machado e Selau

Elementos de Probabilidade

Teorema: E(X) = =

Varincia: V(X) = 2 = E(X2 ) 2


E(X 2 ) =

p(x)

x =0

x!

x =0

=e

x =1

=e

x!

x =0

x 1

x (x 1)!

=e

x 1

x (x 1)!,

fazendo y = x 1, temos

x =1

y y
E(X ) = e (y +1)
= e y
+

y!
y! y!
y =0
y =0
2

= e ( e + e )

y =0 y! y =0 y!
= e e + e e = e 0 2 + e0 = 2 +
= e

Assim, temos V(X) = E(X2 ) 2 = 2 + 2 = .


Teorema: V(X) = 2 =

Coeficiente de assimetria: a3 =

Teorema: a3 =

3
2 2

Distribuio assimtrica positiva, tendendo para a simetria

quando cresce.

Coeficiente de curtose: a4 =

4
22

Teorema: a4 = Distribuio platicrtica, tendendo para mesocrtica quando


cresce.
3.3.1.5. Formas limite da distribuio binomial
Sob determinadas circunstncias, uma distribuio de probabilidade pode tender para
outra. Os casos mais importantes de aproximaes entre distribuies e as circunstncias em
que ocorrem so os seguintes:
1. Hipergeomtrica se aproxima da Binomial
Quando N (tamanho da populao) muito grande (ou tende para +), a distribuio
hipergeomtrica se aproxima da distribuio binomial. Isso ocorre porque o fator de correo
para populaes finitas tende a 1.
101

Piana, Machado e Selau

Elementos de Probabilidade
Nn Nn N n
n

= = 1 1
N 1
N
N N
N

De modo geral, esta aproximao considerada satisfatria quando o nmero de


elementos retirados (n) no excede 5% da populao (N), ou seja,
n (0,05) N.
2. Binomial se aproxima da Poisson
Quando n (nmero de repeties do experimento) muito grande (ou tende para + )
e (probabilidade de sucesso) muito pequena (ou tende para 0) a distribuio binomial se
aproxima da distribuio de Poisson. Esta aproximao considerada satisfatria quando
n < 10 e n 100.
3. Binomial se aproxima da Normal
Quando n (nmero de repeties do experimento) muito grande (ou tende para + )
e (probabilidade de sucesso) se aproxima de 0,5, a distribuio binomial se aproxima da
distribuio normal.
Se = (1) = 0,5, ento a distribuio binomial ser simtrica.
Em alguns casos, a distribuio hipergeomtrica pode ser aproximada por uma
distribuio binomial e esta binomial pode ser aproximada por uma distribuio de Poisson.
Assim, existem situaes em que a distribuio hipergeomtrica pode ser aproximada por uma
distribuio de Poisson.
Consideremos o exemplo seguinte:
Um auditor foi contratado para examinar uma coleo de 6.000 faturas, das quais 128
contm erros. Se foi selecionada uma amostra de 120 faturas, qual a probabilidade desta
amostra conter exatamente duas faturas com erros?
Resoluo:
As caractersticas do experimento evidenciam que a varivel X = nmero de sucessos
(faturas com erros) tem distribuio hipergeomtrica com os seguintes parmetros: N = 6.000,
N1 = 128 e n = 120.
N = 6.000 faturas

sub-populao
de interesse

N1 =128
Com erro

N2 = 5872
Sem erro
n = 120 faturas, sem reposio

Como N suficientemente grande, pois


120 < 0,05 6.000 = 300,
102

Piana, Machado e Selau

Elementos de Probabilidade

razovel utilizarmos a aproximao binomial, cujos parmetros so:


n = 120 e =

N1 128
=
= 0,02133.
N 6000

Como n pode ser considerado suficientemente grande e suficientemente pequeno,


uma vez que
n = 120 > 100 e n = 120 0,02133 = 2,56 < 10,
tambm razovel utilizarmos a aproximao de Poisson, com parmetro

= E(X) = n = 2,56.
Da temos
P(X = 2) = e

x
x!

= e 2,56

2,562
6,5536
= 0,0773
0,2533.
2!
2

Verificamos, assim, que nas situaes que envolvem grandes valores de n e valores
ainda maiores de N, a distribuio de Poisson torna-se bastante til.

Exerccios propostos:
3.8. A probabilidade de um atirador acertar o alvo de 0,25. Se quatro atiradores atiram, qual
a probabilidade do alvo ser atingido?
3.9. A taxa mdia de chegada de clientes em um posto de servios de 0,5 por minuto.
Calcular a probabilidade de, em um dado minuto, chegarem dois clientes.
3.10. Sendo de 1% o percentual de canhotos numa populao, qual a probabilidade de haver
apenas um canhoto numa classe de 30 alunos?

103

Piana, Machado e Selau

Elementos de Probabilidade

3.3.2. Distribuies de probabilidade de variveis contnuas


difcil identificar o tipo de distribuio de probabilidade de uma varivel contnua.
Geralmente necessrio fazer uma pesquisa bibliogrfica para saber se a varivel de interesse
j foi estudada antes e a sua distribuio de probabilidade j foi identificada. Uma das formas
de identificar o tipo de distribuio de uma varivel contnua observando o campo de variao
desta varivel.
Existem vrios tipos de distribuies contnuas, dentre as quais podemos citar:
Uniforme, Normal, Exponencial, Gama, Beta, Lognormal, Weibull, Gumbel. Aqui trataremos
apenas das trs primeiras, consideradas as mais importantes.
3.3.2.1. Distribuio uniforme
Definio: Seja X uma varivel aleatria contnua que assume valores no intervalo
[, ]. Se a probabilidade de X assumir valores num subintervalo a mesma que para qualquer
outro subintervalo de mesmo comprimento, ento, esta varivel tem distribuio uniforme.

 Funo densidade de probabilidade


De modo geral, se X uma varivel aleatria contnua que tem distribuio uniforme,
ento sua funo densidade de probabilidade ser:

f(x) =

1
,

0,

para x
em caso contrrio

Podemos demonstrar que uma funo densidade de probabilidade provando que

f(x)dx = 1.

Sx

1
x

f(x)dx
=

dx = = = = 1

Sx

 Parmetros
A distribuio uniforme tem dois parmetros:

: menor valor para o qual a varivel X est definida;


: maior valor para o qual a varivel X est definida.
Dizemos, ento, que
X ~ U (, ).
104

Piana, Machado e Selau

Elementos de Probabilidade

 Medidas descritivas
Mdia ou valor esperado: E(X) = =

x f(x)dx

SX

E(X) = =

x f(x)dx

Sx

1
1 x2
= x
dx
=

2

=

1 2 2 ( )( + ) ( + )
=

=
2
2( )
2

Teorema: E(X) = =

( + )
2

Varincia: V(X) = 2 = E(X2 ) 2


E(X2 ) =

f(x)dx

Sx

1
1 x3
=x
dx =
3

1 3 3 3 3

=
3 3( )

Assim, temos

3 3 ( + )2

3( )
4
3
3
3
3 2
4( ) 3( )( + )
=
12( )
43 4 3 + 33 + 3 2 32 33
=
12( )
3
3
3
+ 3 32
( )3
( )2
=
=
=
12( )
12( )
12

V(X) = 2 = E(X2 ) 2 =

Teorema: V(X) = 2 =

( )2
12

 Funo de distribuio acumulada


A funo de distribuio acumulada da uniforme facilmente encontrada:
0,

x
x
F(x) = P(X x) =
f(x) dx =
,


1,

se x <
se x
se x >

105

Piana, Machado e Selau

Elementos de Probabilidade

Vejamos um exemplo resolvido.


Seja X uma varivel aleatria contnua com distribuio uniforme no intervalo [5, 10].
Determinar as probabilidades:
a) P(X < 7)
b) P(X > 8,5)
c) P(8 < x < 9)
d) P(|x - 7,5| > 2)
Resoluo:
Utilizando a funo de distribuio acumulada:
75
2
= = 0,4
10 5 5

a)

P(X < 7) = F(7) =

b)

P(X < 8,5) = 1 F(8,5) = 1

8,5 5
3,5
= 1
= 1 0,7 = 0,3
10 5
5

c)

P(8 < X < 9) = F(9) F(8) =

95
85
43 1

=
= = 0,2
10 5 10 5
5
5

d) P( X 7 > 2) = P(X 7,5 > 2 ou X 7,5 < 2)


= P(X > 9,5 ou X < 5,5) = 1 F(9,5) + F(5,5)
= 1

9,5 5 5,5 5
+
= 0,1 0,1 = 0,2
10 5 10 5

3.3.2.2. Distribuio exponencial


Definio: Seja X uma varivel aleatria contnua que s assume valores no negativos. Se
esta varivel o tempo decorrido entre ocorrncias sucessivas de um processo de Poisson,
ento ela tem distribuio exponencial.

Na distribuio de Poisson, a varivel aleatria definida como o nmero de


ocorrncias (sucessos) em determinado perodo de tempo, sendo a mdia das ocorrncias no
perodo definida como . Na distribuio exponencial, a varivel aleatria definida como o
tempo entre duas ocorrncias, sendo a mdia de tempo entre ocorrncias igual a 1/. Por
exemplo, se a mdia de atendimentos no caixa de uma loja de = 6 clientes/min, ento o
tempo mdio entre atendimentos 1/ = 1/6 de minuto ou 10 segundos.

106

Piana, Machado e Selau

Elementos de Probabilidade

A distribuio exponencial muito utilizada no campo da confiabilidade para a


modelagem do tempo at a ocorrncia de falha em componentes eletrnicos, bem como do
tempo de espera em sistemas de filas.
 Funo densidade de probabilidade
De modo geral, se X uma varivel aleatria contnua que tem distribuio
exponencial, ento sua funo densidade de probabilidade ser:
e x ,

f(x) =

0,

para x >0
em caso contrrio

Podemos demonstrar que uma funo densidade de probabilidade provando que

f(x) dx = 1.

Sx

Sx

f(x) dx = e x dx = e x = e e 0 = 0 ( 1) = 1
0
0

 Parmetros
A distribuio exponencial tem apenas um parmetro:

: nmero mdio de ocorrncias em determinado perodo de tempo (>0);


Dizemos, ento, que
X ~ Exp().
 Medidas descritivas
Mdia ou valor esperado: E(X) = =

x f(x)dx

SX

E(X) = =

x f(x) dx

Sx

= x e x dx =
0

Teorema: E(X) = =

Varincia: V(X) = 2 = E(X2 ) 2

V(X) = 2 = x2 f(x)dx 2
Sx

1
1
= x2 e x dx 2 = 2

107

Piana, Machado e Selau

Elementos de Probabilidade

Teorema: V(X) = 2 =

 Funo de distribuio acumulada


A funo de distribuio acumulada da exponencial pode ser facilmente encontrada:
F(x) = P(X x) =

se x < 0
0,
x
1 e , se x 0

f(x) dx =

Desta forma, P(X > x) = 1 F(x) = 1 (1 e x ) = e x .

 Propriedade da distribuio exponencial


A distribuio exponencial apresenta uma propriedade interessante que denominada
falta de memria. Isso significa que a probabilidade de ocorrncia dos valores de X no
afetada pelo conhecimento da ocorrncia de valores anteriores, ou seja,
P(X > s + t | X > s) =

P(X > s + t X > s) P(X > s + t) e (s+ t)


=
= s = e t = P(X > t) .
P(X > s)
P(X > s)
e

Consideremos o seguinte exemplo resolvido:


Suponha que um componente eletrnico tenha um tempo de vida X (em unidades de 1000
horas) que segue uma distribuio exponencial de parmetro = 1. Suponha que o custo de
fabricao do item seja 2 reais e que o preo de venda seja 5 reais. O fabricante garante
devoluo total se X < 0,90. Qual o lucro esperado por item?
Resoluo:
Neste caso, temos f(x) = e x , para x > 0 .
A probabilidade de um componente durar menos de 900 horas dada por:
P(X < 0,9) = F(0,9) = 1 e0,9 = 0,5934

Assim, o lucro do fabricante ser uma varivel aleatria discreta Y com a seguinte distribuio:
Y=y
P(Y = y)

-2
3
0,5934 0,4066

Ento o lucro esperado ser:


E(Y) = -2 0,5934 + 3 0,4066 = R$ 0,03

108

Piana, Machado e Selau

Elementos de Probabilidade

3.3.2.3. Distribuio normal


A distribuio normal (ou distribuio de Gauss ou distribuio de Gauss-Laplace)
uma distribuio especialmente importante na metodologia estatstica. Sua importncia advm
das suas propriedades, do nmero de fenmenos (variveis) que podem, pelo menos
aproximadamente, ser modelados atravs dela e da quantidade de mtodos e tcnicas que so
derivados tendo-a como pressuposio bsica. Esse conjunto de mtodos e tcnicas forma a
chamada Estatstica Clssica ou Estatstica Paramtrica.
uma distribuio terica de frequncias, onde a maioria das observaes se situa
em torno da mdia (centro da distribuio) e diminui gradual e simetricamente no sentido dos
extremos. A distribuio normal representada graficamente pela curva normal (tambm
chamada curva de Gauss) que tem a forma de sino e simtrica em relao ao centro, onde se
localiza a mdia .
Curva normal

 Funo densidade de probabilidade


De modo geral, se X uma varivel aleatria contnua, X possui distribuio normal se
sua funo densidade de probabilidade for

1
f(x) =
e
2

(x )2
2 2

-<X<+

Parmetros
A distribuio normal tem dois parmetros:

= mdia (determina o centro da distribuio)


2 = varincia (determina a disperso da distribuio)
Dizemos, ento, que
X ~ N (, 2).
Cada vez que um dos parmetros muda de valor, temos uma curva normal diferente.

109

Piana, Machado e Selau

Elementos de Probabilidade

Populaes normais com mdias


diferentes e mesma varincia

Populaes normais com varincias


diferentes e mesma mdia

Como consequncia, existe um nmero infinito de curvas normais. Na figura abaixo,


podemos observar alguns exemplos de curvas.

Medidas descritivas
Mdia ou valor esperado: E(X) = =

x f(x)dx

SX

(x )
1

2
E(X) = = x
e 2

S X 2

Varincia: V(X) = 2 =

(x )

dx

f(x)dx

SX

(x )
1

V(X) = = (x )
e 2
2
SX

dx

 Propriedades da distribuio normal


1. O mximo da funo densidade de probabilidade se d no ponto x = .
110

Piana, Machado e Selau

Elementos de Probabilidade

2. A distribuio simtrica em relao ao centro onde coincidem a mdia, a moda e a


mediana.
= Mo = Md
3. Os pontos de inflexo (onde a curva passa de convexa para cncava) so
exatamente e +.
4. Verifica-se na distribuio normal que:
P(
< X < +) = 0,6825
P(2 < X < +2) = 0,9544
P(3 < X < +3) = 0,9974
Considerando que a rea sob a curva no intervalo de interesse que corresponde a
probabilidade, utilizamos as curvas abaixo para ilustrar esta propriedade.

Vimos que, para cada valor de e de , existe uma distribuio normal diferente. Da
existirem infinitas distribuies (e curvas) normais, pois basta que mude um dos parmetros
para termos outra distribuio. Deste modo, o clculo de reas sob a curva normal,
frequentemente necessrio, dever ser feito sempre em funo dos particulares valores de e
. Para evitar a trabalhosa tarefa de calcular essas reas todas as vezes que desejssemos
obter as probabilidades associadas a uma certa varivel X, foi determinada uma distribuio
normal padro ou reduzida. Atravs da distribuio normal padro possvel estudar qualquer
varivel que tenha distribuio normal, com quaisquer valores para e .
 Distribuio normal padro
Definio: a distribuio normal de uma varivel Z que tem mdia igual a zero ( = 0)
e desvio padro igual a um ( = 1). Para a varivel Z, a funo densidade de probabilidade
resulta
f(z) =

1
2

z2
2

- < Z < + .

A funo densidade de probabilidade mais simplificada da distribuio normal padro,


facilitou o clculo das reas sob a sua curva. Assim, a curva normal padro foi dividida em
pequenas tiras, cujas reas foram calculadas e apresentadas numa tabela. Na tabela da
111

Piana, Machado e Selau

Elementos de Probabilidade

distribuio normal padro (Tabela I do Apndice), podemos encontrar as reas


correspondentes aos intervalos de 0 a z.

Os valores negativos no so apresentados na tabela porque a curva simtrica;


portanto, as reas correspondentes a estes valores so exatamente iguais s dos seus
simtricos positivos, por exemplo, P(-1 < Z < 0) = P(0 < Z < 1). Podemos observar tambm, na
tabela da distribuio normal padro, que os valores de Z vo de 0 a 3,99. Este limite
estabelecido com base na quarta propriedade da distribuio normal, como podemos observar
na figura abaixo.

Sabemos que no intervalo [-3; +3], que na normal padro corresponde ao


intervalo [-3; 3], temos 99,74 % dos valores de Z. Portanto, como podemos verificar na tabela, a
rea compreendida entre de 0 e 3,99 j aproximadamente 0,5.
Veremos agora como a distribuio normal padro e sua tabela podem ser utilizadas
para a obteno de probabilidades correspondentes a qualquer varivel X que tenha
distribuio normal.
A distribuio de uma varivel X, com quaisquer valores para e , pode ser obtida
pela transformao da varivel X na varivel Z, atravs da expresso
Z=

Assim, se x1 e x 2 so valores de X com distribuio normal e z1 e z2 so valores de


Z, tais que
x
x
z1 = 1
e
z2 = 2
,

ento, P(x1 < X < x2) = P(z1 < Z < z2).

112

Piana, Machado e Selau

Elementos de Probabilidade

A relao evidente, uma vez que a transformao muda as variveis, mas no altera
a rea sob a curva, como podemos verificar na figura a seguir.

X ~ N (, 2)

P(x1 < X < x2) = P(z1 < Z < z2)


Z ~ N (0, 1)

Sendo assim, para utilizar os valores da tabela, devemos transformar X em Z.


X ~ N (, 2)
transformar

Z=

Z ~ N (0, 1)
Aps a transformao, podemos procurar na tabela a rea compreendida entre 0 e z,
que corresponder rea entre e x.
Consideremos o exemplo resolvido a seguir.
Sabendo que as notas de 450 alunos esto normalmente distribudas, com mdia =
3,9 e desvio padro = 0,28, determine:
a) a probabilidade de um aluno ter nota maior que 4,27;
b) o nmero de alunos que tm nota superior a 4,27.
Resoluo:
a) Sabemos que a probabilidade de ocorrer um valor dentro de um determinado intervalo
corresponde rea sob a funo densidade dentro deste intervalo. Sendo assim, para
determinar a probabilidade de ocorrer uma nota maior do que 4,27, devemos encontrar a rea
localizada direita de 4,27 na curva normal.

113

Piana, Machado e Selau

Elementos de Probabilidade

Para encontrar essa rea, vamos utilizar a tabela da distribuio normal padro. Inicialmente,
X
fazemos a transformao da varivel X para a varivel Z, atravs da expresso Z =
.

Desta forma, determinamos o valor de z que corresponde ao valor x = 4,27.

Assim, temos z =

4,27 3,9
= 1,32
0,28

Sabemos que a tabela fornece a rea entre 0 e z, portanto, o valor 0,4066, encontrado na
tabela para z = 1,32, expressa a rea compreendida entre 0 e 1,32. Como a rea que nos
interessa a rea direita de 1,32 e sabemos que a rea correspondente metade da curva
0,5, podemos encontrar a rea de interesse calculando a diferena entre essas duas reas.

114

Piana, Machado e Selau

Elementos de Probabilidade

Assim, fazemos
P(Z > 1,32) = P(Z > 0) P(0<Z<1,32)
P(Z > 1,32) = 0,5 0,4066
P(Z > 1,32) = 0,0934

Sabendo que a rea direita de z = 1,32 e igual rea direita de x = 4,27, conclumos que a
probabilidade de Z ser maior que 1,32 igual probabilidade de X ser maior que 4,27. Sendo
assim, a probabilidade de um aluno tirar uma nota acima de 4,27 de 0,0934 ou 9,34%, ou
seja, P(X > 4,27) = 0,0934.

b) Para determinar o nmero de indivduos que tm nota superior a 4,27, devemos saber qual
o percentual da populao que tm nota acima de 4,27. No item a, vimos que este percentual
de 9,34%. Sendo assim, atravs de uma regra de trs simples, podemos determinar quantos
estudantes correspondem a 9,34% de uma populao de 450 estudantes. Esse valor pode ser
obtido facilmente multiplicando o tamanho da populao pela probabilidade de ocorrer uma
nota maior que 4,27. Assim, temos:
450 0,0934 = 42,03
Conclumos, ento, que, dos 450 estudantes, 42 tm nota superior a 4,27.

115

Piana, Machado e Selau

Elementos de Probabilidade

Exerccios propostos:
3.11. Uma varivel X uniformemente distribuda no intervalo [10, 20]. Determine:
a) valor esperado e varincia de X;
b) P(12,31 < X < 16,50).
3.12. Os tempos at a falha de um dispositivo eletrnico seguem o modelo exponencial, com
uma taxa de falha = 0,012 falhas/hora. Indique qual a probabilidade de um dispositivo
escolhido ao acaso sobreviver a 50 horas? E a 100 horas?
3.13. Suponha que um mecanismo eletrnico tenha um tempo de vida X (em unidades de 1000
horas) que considerado uma varivel aleatria com funo densidade de probabilidade dada
por:
f(x) = e-x , x > 0
= 0, em caso contrrio.
Suponha ainda que o custo de fabricao de um item seja 2 reais e o preo de venda seja 5
reais. O fabricante garante total devoluo se X 0,8. Qual o lucro esperado por item?

3.14. Seja Z uma varivel aleatria com distribuio normal padro. Determine as seguintes
probabilidades:
a) P(0 < Z < 1,73)
b) P(0,81 < Z < + )
c) P(-1,25 Z -0,63)
3.15. Suponha que a estatura de recm-nascidos do sexo feminino uma varivel com
distribuio normal de mdia = 48 cm e = 3 cm. Determine:
a) a probabilidade de um recm-nascido ter estatura entre 42 e 49 cm;
b) a probabilidade de um recm-nascido ter estatura superior a 52 cm;
c) o nmero que de recm-nascidos que tm estatura inferior +cm, dentre os 532 que
nasceram numa determinada maternidade, no perodo de um ms.
3.16. Suponha que as notas de uma prova sejam normalmente distribudas, com mdia =72 e
desvio padro =1,3. Considerando que 18% dos alunos mais adiantados receberam conceito
A e 10% dos mais atrasados o conceito R, encontre a nota mnima para receber A e a
mxima para receber R.

116

Piana, Machado e Selau

Elementos de Probabilidade

3.3. Bibliografia
COSTA, S.F. Introduo Ilustrada Estatstica (com muito humor!). 2.ed., So Paulo:
Harbra, 1992. 303p.
DEVORE, J. Probability and statistics for engineering and the sciences Brooks/Cole
Publishing Companig. 1982. 640p.
FARIA, E.S. de Estatstica Edio 97/1. (Apostila)
FERREIRA, D.F. Estatstica Bsica. Lavras: Editora UFLA, 2005, 664p.
FREUND, J.E., SIMON, G.A. Estatstica Aplicada.
Contabilidade. 9.ed., Porto Alegre: Bookman, 2000. 404p.

Economia,

Administrao

GUEDJ, D. O teorema do papagaio. So Paulo: Companhia das Letras, 2000. 501p.


MEYER, P. L. Probabilidade: aplicaes estatstica. Rio de Janeiro: LTC, 1976.
PIMENTEL GOMES, F. Iniciao Estatstica So Paulo: Nobel, 1978. 211p.
SILVEIRA JNIOR, P., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. da Curso de Estatstica.
v.1, Pelotas: Universidade Federal de Pelotas, 1989. 135p.
SILVEIRA JNIOR, P., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. da. Curso de
Estatstica.v.2, Pelotas: Universidade Federal de Pelotas, 1992. 234p.
SPIEGEL, M.R. Estatstica. So Paulo: McGraw-Hill, 1972. 520p.
VIEIRA, S. Estatstica Experimental. 9.ed., So Paulo: Atlas, 1999. 185p.

117

Unidade IV
Inferncia Estatstica
Unidade IV. Inferncia Estatstica
4.1. Introduo e histrico................................................................................................ 119
4.2. Conceitos fundamentais............................................................................................ 121
4.3. Distribuies amostrais............................................................................................. 124
4.3.1. Distribuies amostrais de algumas estatsticas importantes.........................

130

4.4. Estimao de parmetros.......................................................................................... 137


4.4.1. Conceitos fundamentais..................................................................................

137

4.4.2. Propriedades dos estimadores........................................................................ 134


4.4.3. Processos de estimao.................................................................................. 135
4.5. Testes de hipteses................................................................................................... 155
4.5.1. Testes para a mdia populacional................................................................... 155
4.5.2. Testes para a varincia populacional..............................................................

166

4.5.3. Testes para a proporo populacional............................................................

171

4.6. Quebras nas pressuposies adotadas no processo de inferncia..................... 174


4.6.1. Heterogeneidade de varincias....................................................................... 174
4.6.2. Dependncia entre as amostras...................................................................... 175
4.7. Regresso linear simples.......................................................................................... 179
4.7.1. Introduo................................................................................................. 179
4.7.2. Anlise de regresso....................................................................................... 182
4.8. Testes de qui-quadrado............................................................................................. 196
4.8.1. Consideraes gerais...................................................................................... 196
4.8.2. Estatstica do teste..........................................................................................

196

4.8.3. Classificao simples......................................................................................

197

4.8.4. Classificao dupla.......................................................................................... 197


4.8.5. Critrio de deciso........................................................................................... 198
4.9. Bibliografia.................................................................................................................. 203

Piana, Machado e Selau

Inferncia Estatstica

4.1. Introduo e histrico


Estudamos na Unidade II as tcnicas para resumir e descrever variveis associadas a
conjuntos de dados obtidos de populaes inteiras ou de subconjuntos de populaes. Na
Unidade III, vimos como construir modelos probabilsticos, identificados por parmetros,
capazes de representar adequadamente o comportamento de algumas variveis. Nesta
unidade veremos os fundamentos tericos para fazer afirmaes sobre caractersticas de uma
populao com base em informaes fornecidas por amostras.
No preciso beber toda a garrafa para saber se o vinho bom. Esta frase bastante
popular ilustra melhor do que qualquer exemplo tcnico o conceito de inferncia estatstica: dar
informao sobre o todo, com base no conhecimento da parte. O uso de informaes parciais
para concluir sobre o todo faz parte do cotidiano da maioria das pessoas. Basta observar como
a cozinheira prova a comida que est preparando ou como um comprador experimenta um
pedao de laranja na feira antes de decidir se vai comprar as laranjas ou no. Essas decises
so baseadas em procedimentos amostrais.
Na pesquisa cientfica, em geral, o processo tambm esse. Levantamentos
amostrais e experimentos so feitos com amostras, mas o pesquisador no quer suas
concluses restritas amostra com a qual trabalhou, ao contrrio, o ele quer estender os
resultados que obteve para toda a populao. Assim, o pesquisador quer fazer inferncia.
Podemos conceituar a Inferncia Estatstica como o conjunto de procedimentos
estatsticos que tm por finalidade generalizar concluses de uma amostra para uma
populao.
Outro exemplo da aplicao dos mtodos de inferncia estatstica, presente em nosso
dia a dia, so as pesquisas eleitorais. Vejamos o esquema da abaixo.

Para poder generalizar as concluses obtidas da amostra para a populao, no basta


saber descrever convenientemente os dados da amostra, preciso garantir que o processo de
amostragem seja eficiente, ou seja, que a amostra seja representativa da populao. Isto
significa que a amostra deve possuir as mesmas caractersticas bsicas da populao no que
diz respeito s variveis que desejamos pesquisar.
A partir desta generalizao surge o conceito fundamental de erro provvel. A
possibilidade de erro inerente ao processo de inferncia, ou seja, sempre que estudamos
uma populao a partir de uma amostra, existe a possibilidade de cometermos algum tipo de
erro de concluso. A grande aplicao da Inferncia Estatstica fornecer mtodos que
permitam quantificar esse erro provvel.
119

Piana, Machado e Selau

Inferncia Estatstica

Um pouco de histria...

O casamento entre a Estatstica e o clculo das


probabilidades se deve ao astrnomo belga Lambert
Adolphe Jacques Qutelet, que, atravs de estudos na
rea social, mostrou que muitos fenmenos vivos
apresentavam um comportamento regular. A
expresso
matemtica
dessa
regularidade

conhecida, hoje, como distribuio de probabilidade.

Lambert Qutelet
(1796 - 1855)

Aps Qutelet, a Estatstica teve um


desenvolvimento sem precedentes, sendo o fenmeno
da regularidade observado em muitos campos de
pesquisa.
As
distribuies
de
probabilidade
comearam a ser deduzidas, aumentando ainda mais o
campo de aplicao.

Karl Pearson
(1857 - 1936)

O bilogo ingls Francis Galton, estudando a


hereditariedade do carter estatura na espcie
humana, foi o primeiro a empregar o termo regresso
para designar o fenmeno de retorno mdia.

Francis Galton
(1822 - 1911)

Em 1890, o ingls Karl Pearson, estimulado


pelos trabalhos de Francis Galton, iniciou o estudo
sobre relacionamento entre variveis e, em 1900,
deduziu a distribuio Qui-quadrado. Em 1908, o ingls
William Gosset, aluno de Pearson, descobriu a
distribuio t no intuito de resolver problemas relativos
a pequenas amostras.

Egon Pearson
(1895 - 1980)

Alguns anos mais tarde, outro ingls, Ronald


Aylmer Fisher, trouxe contribuies extremamente
valiosas Estatstica. Fisher, com os resultados de
Gosset, rapidamente descobriu as distribuies
amostrais dos coeficientes de correlao, regresso,
correlao mltipla e a distribuio da razo entre duas
varincias. Foi ele tambm quem estendeu e deu ideia
mais precisa tcnica chamada Anlise da Variao,
at hoje uma das mais poderosas utilizadas na
Estatstica. Fisher trabalhou por quatorze anos na
Estao Experimental de Rothamstead, Inglaterra, e,
devido aos trabalhos que l desenvolveu,
considerado o pai da Estatstica Experimental.
Jerzy Neyman
(1894 - 1981)

Aps 1925, emergiram dois campos de extrema


importncia na Inferncia Estatstica, considerados os
pilares da cincia: a teoria dos testes de hipteses, sob
inspirao de Egon Sharpe Pearson e Jerzy Neyman,
e a teoria da estimao de parmetros, desenvolvida
por Fisher.

Ronald Fisher
(1890 - 1962)

120

Piana, Machado e Selau

Inferncia Estatstica

4.2. Conceitos fundamentais


Inicialmente, veremos alguns conceitos fundamentais da Inferncia Estatstica.
 Populao o conjunto de todos os indivduos ou elementos que atendem a
determinadas caractersticas definidoras. Estas caractersticas dependem do objetivo do
estudo.
Exemplos:
1. Pesquisa eleitoral no Rio Grande do Sul.
Objetivo: Conhecer a preferncia eleitoral no estado.
Populao: Todos os eleitores que votam no RS.
2. Pesquisa scio-econmica na Universidade Federal de Pelotas.
Objetivo: Estimar a renda mdia das famlias dos estudantes da UFPel.
Populao: Todos os estudantes da UFPel.
 Amostra um subconjunto retirado da populao com o objetivo de represent-la.
Exemplos:
1. Pesquisa eleitoral no Rio Grande do Sul.
Amostra: Conjunto de 1.000 a 2.000 eleitores votantes no RS que sero
entrevistados pelos pesquisadores.
2. Pesquisa scio-econmica na Universidade Federal de Pelotas.
Amostra: Conjunto de 200 estudantes da UFPel que sero entrevistados pelos
pesquisadores.
 Amostragem o mtodo de seleo que empregamos para obteno de amostras.
Podemos distinguir dois tipos de amostragem: probabilstica e no probabilstica. A amostra
ser probabilstica se todos os elementos da populao tiverem probabilidade conhecida e
diferente de zero de participarem da amostra. Caso contrrio, a amostragem ser no
probabilstica. A amostragem probabilstica a mais recomendvel por garantir a
imparcialidade da amostra. Assim, qualquer discrepncia entre populao e amostra
atribuda ao acaso.
Vejamos a seguir uma breve descrio dos principais tipos de amostragem.
Amostragem probabilstica:
Amostragem aleatria simples: considera a populao homognea e consiste num
sorteio para a seleo dos elementos que comporo a amostra. Deste modo, todos os
elementos da populao tm a mesma probabilidade de fazer parte da amostra.
Amostragem aleatria estratificada: utilizada quando a populao pode ser dividida
em subgrupos cujos elementos so semelhantes entre si. A amostragem consiste em obter-se
de cada grupo uma amostra aleatria. Esse processo pode gerar amostras bastante precisas,
mas s recomendado quando os grupos so homogneos internamente e heterogneos
entre si, ou seja, a populao heterognea e as diferenas constituem os estratos (grupos).
Amostragem aleatria por conglomerados: neste caso, a populao j dividida em
diferentes grupos (conglomerados) e extraem-se amostras apenas de conglomerados
selecionados, e no de toda a populao. O ideal que cada conglomerado represente tanto
quanto possvel o total da populao. Na prtica, selecionam-se os conglomerados
geograficamente. Escolhem-se aleatoriamente algumas regies, em seguida algumas subregies e finalmente, alguns lares. Esse processo possibilita ao pesquisador entrevistar apenas
poucas pessoas.
121

Piana, Machado e Selau

Inferncia Estatstica

Amostragem aleatria sistemtica: ocorre quando os elementos da populao se


apresentam ordenados e a retirada dos elementos da amostra feita periodicamente. Por
exemplo, em uma linha de produo, podemos, a cada dez itens produzidos, retirar um para
avaliar a qualidade da produo. um processo de amostragem mais preciso que a aleatria
simples e to preciso quanto amostragem estratificada.
Amostragem no probabilstica:
Amostragem de convenincia: de acordo com determinado critrio, escolhido
convenientemente um grupo de elementos que comporo a amostra. O pesquisador se dirige a
grupos de elementos dos quais deseja saber a opinio. A amostra pesquisada muitas vezes
est disponvel no local e no momento onde a pesquisa estava sendo realizada.
Amostragem por julgamento: enquadram-se aqui os diversos casos em que o
pesquisador deliberadamente escolhe certos elementos para pertencer amostra, por julgar
tais elementos bem representativos. O perigo desse tipo de amostragem grande, pois o
pesquisador pode facilmente se enganar em seu pr-julgamento.
Amostragem por quota: o pesquisador procura obter uma amostra que seja similar
apenas em alguns aspectos populao. H necessidade de conhecer caractersticas
especficas da populao para determinar a amostra.
Amostragem a esmo ou sem norma: a amostragem em que o pesquisador, para
simplificar o processo, procura ser aleatrio sem, no entanto, realizar propriamente o sorteio
usando algum dispositivo aleatrio confivel. Os resultados da amostragem a esmo so, em
geral, equivalentes aos da amostragem probabilstica se a populao homognea e se no
existe a possibilidade de o pesquisador ser inconscientemente influenciado por alguma
caracterstica dos elementos da populao.
Amostragem acidental: trata-se da formao de amostras por aqueles elementos que
vo aparecendo. Este mtodo utilizado, geralmente, em pesquisas de opinio, em que os
entrevistados so acidentalmente escolhidos.
Dos exemplos relacionados, centraremos nossa ateno na amostragem aleatria
simples que a maneira mais fcil de selecionarmos uma amostra probabilstica de uma
populao. Alm disso, esse procedimento ser a base para o desenvolvimento de outros
procedimentos amostrais.
 Amostra aleatria simples, tambm chamada de amostra casual simples, aquela
obtida de tal forma que todas as unidades da populao tenham a mesma probabilidade de
fazer parte da amostra, ou ainda, que todas as possveis amostras tenham igual probabilidade
de serem selecionadas.
O processo de obteno das unidades que comporo a amostra aleatria simples o
sorteio (com ou sem reposio) de todos as unidades da populao. Esse sorteio pode ser
realizado utilizando-se pedacinhos de papel, tabelas de nmeros aleatrios ou programas
computacionais.
Outra maneira bastante prtica de efetuar o sorteio com a utilizao de nmeros
aleatrios fornecidos pelas calculadoras cientficas. Este procedimento envolve apenas trs
passos:
1) Identificar cada unidade da populao por um nmero, numa seqncia de 1 a N ou
de C a N+C1.
2) Obter uma sequncia de n nmeros aleatrios utilizando a funo Random da
calculadora.
122

Piana, Machado e Selau

Inferncia Estatstica

3) Efetuar para cada nmero aleatrio a seguinte operao:


[UN] + C,
onde:
U: nmero aleatrio, sendo 0U<1;
N: tamanho da populao;
[UN]: parte inteira do produto UN;
C: nmero de ordem da primeira observao.
Por exemplo, se desejamos extrair uma amostra de tamanho n=10 de uma populao
de tamanho N=150, devemos enumerar de 1 a 150 as unidades da populao e obter da
calculadora uma seqncia de dez nmeros aleatrios (U). Na tabela abaixo temos uma
sequncia de dez nmeros aleatrios e, para cada um deles, os dois passos da operao
[UN] + 1.
U
0.301
0.938
0.574
0.205
0.720
0.702
0.152
0.505
0.633
0.566

U150
45,15
140,70
86,10
30,75
108,00
105,30
22,80
75,75
94,95
84,90

[U150] + 1
46
141
87
31
109
106
23
76
95
85

Assim, as unidades da populao que iro compor a amostra so aquelas


identificadas pelos nmeros 23, 31, 46, 76, 85, 87, 95, 106, 109 e 141.
A amostragem aleatria simples o processo mais simples de amostragem, de modo
que, dada uma populao de N elementos, podemos extrair k amostras diferentes de tamanho
n, onde
Nn , se as retiradas so feitas com reposio
k= n
CN , se as retiradas so feitas sem reposio
A probabilidade associada a cada uma das k amostras possveis de tamanho n
assim definida
1
p(amostra) =
.
k
Na prtica, a amostra sorteada da populao unidade por unidade e, se o sorteio for
com reposio, a probabilidade associada a cada unidade
p(unidade) =

1
.
N

Do ponto de vista da quantidade de informao contida na amostra, amostrar sem


reposio mais adequado. Entretanto, a amostragem com reposio conduz a um tratamento
terico mais simples, uma vez que implica na independncia entre as unidades selecionadas.
Essa independncia facilita o desenvolvimento das propriedades dos estimadores que sero
considerados.
123

Piana, Machado e Selau

Inferncia Estatstica

4.3. Distribuies amostrais


Vamos adotar a partir de agora o conceito de populao que mais adequado para o
tratamento terico. Em vez de considerar a populao como um conjunto de indivduos ou
objetos (populao real), vamos trabalhar com a ideia de populao apresentada na unidade
III, ou seja, como o conjunto de todos os possveis valores de uma varivel aleatria, cuja
distribuio de probabilidade conhecida ou passvel de ser obtida. Chamaremos este
conjunto de valores de populao estatstica. Observemos que para utilizar os conceitos de
probabilidade em Estatstica essencial saber qual a distribuio de probabilidade da
varivel em estudo.
Vejamos tambm o significado mais preciso de uma amostra. Entendemos por
amostra aleatria aquela amostra cujos elementos [X1, X2, ..., Xn] so todos independentes
entre si e tm a mesma distribuio de probabilidade da populao (X), ou seja,
- os Xi's so independentes

- os Xi's tm a mesma distribuio de X

Para garantir a independncia entre os elementos da amostra, as escolhas devem ser


feitas com reposio. Como os valores que compem a amostra so aleatrios, qualquer
funo (total, mdia, varincia, etc.) dos elementos da amostra ser tambm uma varivel
aleatria. Denominamos estatstica qualquer valor obtido em funo da amostra. Como as
estatsticas so funes de variveis aleatrias, tambm so variveis aleatrias e, como
consequncia, tero alguma distribuio de probabilidade com mdia, varincia, etc. A
distribuio de probabilidade de uma estatstica chamada de distribuio amostral.
O objetivo da inferncia estatstica inferir para a populao a partir da amostra.
Assim, todas as informaes que temos sobre a populao so providas pela amostra, ou seja,
trabalhamos efetivamente com estatsticas, que so variveis aleatrias. Por essa razo,
fundamental que conheamos as distribuies amostrais dessas estatsticas.
A mdia da amostra ( X ) a estatstica mais utilizada porque apresenta propriedades
interessantes. Vamos utilizar o exemplo a seguir para demonstrar as propriedades da
distribuio amostral da mdia.
O mecnico de uma oficina de regulagem para carros com 4, 6 e 8 cilindros, cobra
pelo servio 40, 45 e 50 reais, respectivamente. Seja a varivel X = valor cobrado pelo
mecnico, com a seguinte distribuio de probabilidade:
X=x
P(X = x)

40
0,2

45
0,3

50
0,5

a) Determine a mdia e a varincia da populao.


b) Supondo a retirada de uma amostra aleatria de tamanho n, determine a
distribuio de probabilidade, a mdia e a varincia de cada elemento da amostra
[X1, X2, ..., Xn]
c) Supondo a retirada de uma amostra de tamanho n = 2, com reposio, quantas e
quais so as possveis amostras retiradas da populao e qual a probabilidade
associada a cada uma? Determine a mdia e a varincia da distribuio amostral
da mdia X .
d) Supondo a retirada de uma amostra de tamanho n = 3, com reposio, quantas e
quais so as possveis amostras retiradas da populao e qual a probabilidade
associada a cada uma? Determine a mdia e a varincia da distribuio amostral
da mdia.
124

Piana, Machado e Selau

Inferncia Estatstica

Resoluo:
a) Mdia e a varincia da populao:
E(X) = =

x p(x) = 40 0,2 + 45 0,3 + 50 0,5 = 46,5

xS X

V(X) = 2 = E(X2 ) 2 = (402 0,2 + 452 0,3 + 502 0,5) 46,52 = 15,25

b) Distribuio de probabilidade, mdia e varincia de cada elemento da amostra [X1, X2, ..., Xn]
Amostra aleatria de tamanho n [X1, X2, ..., Xn]
Distribuio de probabilidade de X1
X1 = x1
P(X1 = x1)

40
0,2

45
0,3

50
0,5

E(X1) = = 46,5
V(X1) = 2 = 15,25
Distribuio de probabilidade de X2
X2 = x2
P(X2 = x2)

40
0,2

45
0,3

50
0,5

E(X2) = = 46,5
V(X2) = 2 = 15,25
Distribuio de probabilidade de Xn
Xn = xn
P(Xn = xn)

40
0,2

45
0,3

50
0,5

E(Xn) = = 46,5
V(Xn) = 2 = 15,25
Verificamos, assim, que se [X1, X2, ..., Xn] uma amostra aleatria, o valor esperado
de cada elemento da amostra igual mdia da populao e a varincia de cada elemento da
amostra igual varincia da populao, ou seja,
E(Xi) =

V(Xi) = 2

c) O nmero de amostras aleatrias possveis obtido por meio da expresso


k = Nn,
onde:
k = nmero de amostras possveis de um mesmo tamanho
N = tamanho da populao
n = tamanho da amostra
Assim, supondo uma amostra de tamanho dois, temos k = Nn = 32 = 9.

125

Piana, Machado e Selau

Inferncia Estatstica

O conjunto de todas as possveis amostras de tamanho dois, retiradas desta


populao de tamanho trs, consiste no conjunto de todos os arranjos desses trs elementos
tomados dois a dois. A probabilidade associada a cada amostra obtida pelo produto das
probabilidades de cada elemento da amostra.
Na tabela abaixo temos todas as amostras possveis, com suas respectivas
Xi
probabilidades, e a mdia de cada amostra, obtida pela expresso X =
n
Amostra
1
2
3
4
5
6
7
8
9

[X1, X2]
(40, 40)
(40, 45)
(40, 50)
(45, 40)
(45, 45)
(45, 50)
(50, 40)
(50, 45)
(50, 50)

P [X1, X2]
0,2 0,2 = 0,04
0,2 0,3 = 0,06
0,2 0,5 = 0,10
0,3 0,2 = 0,06
0,3 0,3 = 0,09
0,3 0,5 = 0,15
0,5 0,2 = 0,10
0,5 0,3 = 0,15
0,5 0,5 = 0,25

X
40
42,5
45
42,5
45
47,5
45
47,5
50

Para construir a distrubuio amostral da mdia, tomamos todos os diferentes valores


que a estatstica X assume e calculamos a probabilidade de ocorrncia de cada um. A
probabilidade associada a cada valor de X obtida da seguinte maneira:
P(X = 40) = P(40, 40) = 0,04
P(X = 42,5) = P(40, 45) + P(45, 40) = 0,06 + 0,06 = 0,12
P(X = 45) = P(40, 50) + P(45, 45) + P(50, 40) = 0,10 + 0,09 + 0,10 = 0,29
P(X = 47,5) = P(45, 50) + P(50, 45) = 0,15 + 0,15 = 0,30
P(X = 50) = P(50, 50) = 0,25

Assim, temos a distribuio amostral da mdia das amostras de tamanho dois. Essa
distribuio de probabilidade pode ser apresentada na forma tabular abaixo.
40
0,04

X=x
P(X = x)

42,5
0,12

45
0,29

47,5
0,3

50
0,25

Como todos os possveis valores de X constituem uma populao, tambm podemos


obter o valor esperado a mdia E(X) e a varincia V(X) desta populao:
E(X) = X =

x p(x) = 40 0,04 + 42,5 0,12 + 45 0,29 + 47,5 0,3 + 50 0,25 = 46,5

xS X

V(X) = 2X = E(X2 ) 2X = (402 0,04 + 42,52 0,12 + + 502 0,25) 46,52 = 7,625

d) Supondo uma amostra de tamanho trs, temos


k = Nn = 33 = 27 amostras possveis.
Da mesma forma como j visto no item c, podemos obter todas as possveis amostras
de tamanho trs, suas probabilidades e suas mdias. Essas valores so apresentados na
tabela a seguir.
126

Piana, Machado e Selau


Amostra
1
2
3
4
5
6
7
8
9
10
11
12
13
14

[X1, X2, X3]


(40, 40, 40)
(40, 40, 45)
(40, 40, 50)
(40, 45, 40)
(40, 45, 45)
(40, 45, 50)
(40, 50, 40)
(40, 50, 45)
(40, 50, 50)
(45, 40, 40)
(45, 40, 45)
(45, 40, 50)
(45, 45, 40)
(45, 45, 45)

Inferncia Estatstica
P[X1, X2, X3]
0,008
0,012
0,020
0,012
0,018
0,030
0,020
0,030
0,050
0,012
0,018
0,030
0,018
0,027

Amostra
15
16
17
18
19
20
21
22
23
24
25
26
27

X
40
41,7
43,3
41,7
46,7
45
43,3
45
48,3
41,7
43,3
45
43,3
45

[X1, X2, X3]


(45, 45, 50)
(45, 50, 40)
(45, 50, 45)
(45, 50, 50)
(50, 40, 40)
(50, 40, 45)
(50, 40, 50)
(50, 45, 40)
(50, 45, 45)
(50, 45, 50)
(50, 50, 40)
(50, 50, 45)
(50, 50, 50)

P[X1, X2, X3]


0,045
0,030
0,045
0,075
0,020
0,030
0,050
0,030
0,045
0,075
0,020
0,075
0,125

X
46,7
45
46,7
48,3
43,3
45
46,7
45
46,7
48,3
46,7
48,3
50

A partir desses dados, construmos a distribuio amostral da mdia das amostras de


tamanho trs, apresentada na tabela abaixo.
X=x
P(X = x)

40
0,008

41,7
0,036

43,3
0,114

45
0,207

46,7
0,285

48,3
0,225

50
0,125

Assim, obtemos tambm o valor esperado e a varincia da mdia das amostras de


tamanho trs.
E(X) = X =

x p(x) = 40 0,008 + 41,7 0,036 + + 50 0,125 = 46,5

xS X

V(X) = 2X = E(X2 ) 2X = (402 0,008 + 41,72 0,036 + + 502 0,125) 46,52 = 5,083

 Resultados importantes
Relacionando as medidas da distribuio amostral da mdia ( X ) com as medidas da
distribuio populacional (X), podemos verificar algumas propriedades importantes:
A mdia das mdias de todas as k amostras aleatrias possveis, de mesmo
tamanho n, extradas de uma populao, igual mdia da populao, ou seja,
E(X) = .

A varincia das mdias de todas as k amostras aleatrias possveis, de mesmo


tamanho n, extradas de uma populao, igual varincia da populao dividida pelo
tamanho da amostra, ou seja,
V(X) =

2
n

Deste resultado podemos obter tambm o desvio padro da mdia que igual ao
desvio padro da populao dividido pela raiz do tamanho da amostra, ou seja,

X = V(X) =

2
n

2
n

127

Piana, Machado e Selau

Inferncia Estatstica

Comparando o histograma da populao X com os histogramas da mdia X para as


amostras de tamanhos n = 2 e n = 3, observamos que, mesmo a distribuio da populao no
sendo simtrica, a distribuio amostral da mdia se aproxima da simetria medida que o
tamanho da amostra cresce. Podemos observar tambm que, conforme n vai aumentando, o
histograma tende a se concentrar cada vez mais em torno de E(X) = E( X ) = 46,5 e os valores
extremos passam a ter pequena probabilidade de ocorrncia.

Populao

Mdia das amostras de tamanho 2

Mdia das amostras de tamanho 3

A tendncia para a simetria e consequente aproximao para a normal pode ser


verificada nos grficos da figura 4.1, que mostram o comportamento do histograma para vrias
formas de distribuio da populao e vrios tamanhos da amostra.

Figura 4.1. Histogramas correspondentes s distribuies amostrais de X para amostras


extradas de algumas populaes.
Fonte: Bussab e Morettin, 2006.
128

Piana, Machado e Selau

Inferncia Estatstica

Assim, para a pergunta qual a distribuio da mdia ( X )? existem duas respostas


diferentes:
1. Se a populao (X) de onde foi extrada a amostra aleatria tiver distribuio
normal, a distribuio amostral da mdia ( X ) ser normal. Pode-se dizer que:

se X ~ N (, 2),

As mdias so iguais,
mas a varincia de
X n vezes menor.

ento, X ~ N (, 2/n).

2. Se a populao (X) de onde foi extrada a amostra aleatria no tiver distribuio


normal, a distribuio amostral da mdia ( X ) se aproximar da normal medida que o
tamanho da amostra (n) cresce. Por exemplo, o nmero de insetos mortos na aplicao de um
inseticida uma varivel que tem distribuio discreta, mas a distribuio do nmero mdio de
insetos mortos com a aplicao pode ser normal dependendo do tamanho da amostra.
Este resultado pode ser derivado do teorema fundamental da estatstica paramtrica,
denominado Teorema Central do Limite (TCL).
 Teorema Central do Limite: Se (X1, X2, ..., Xn) uma amostra aleatria de X, ento
a distribuio da soma de X ( X+ = Xi ) se aproxima da distribuio normal com mdia n e
varincia n2. Assim, para n suficientemente grande, temos:
X + n
n2x

= Z ~ N ( 0,1) .

Como consequncia, a distribuio da mdia ( X ) se aproxima da normal com mdia


e varincia 2/n. Assim, temos:
X + n
n2x

n ( X )

= Z ~ N ( 0,1) .

A demonstrao completa desse teorema no ser dada porque exigiria recursos dos
quais no dispomos, mas o importante sabermos como esse resultado pode ser usado.
A importncia da distribuio normal na estatstica se deve em grande parte a este
teorema. Observemos que se a populao tem distribuio normal, ento X ter distribuio
normal exata. Se a populao no tem distribuio normal, X poder ter distribuio normal
aproximada ou assinttica.
O TCL afirma que X aproxima-se de uma normal quando n tende para o infinito e a
rapidez dessa convergncia depende da distribuio da populao da qual a amostra retirada
(Figura 4.1). Se a populao tem uma distribuio prxima da normal, a convergncia rpida;
mas se esta populao se afasta muito da normal, a convergncia mais lenta, implicando
numa amostra maior para que X tenha uma distribuio aproximadamente normal. Para a
ordem de 30 a 50 elementos a aproximao pode ser considerada satisfatria.
Distribuies importantes como Binomial e Poisson (definidas como a soma de
variveis Bernoulli) se aproximam naturalmente da normal. Se a distribuio Binomial
simtrica (=0,5), a aproximao (ou convergncia) mais rpida.
129

Piana, Machado e Selau

Inferncia Estatstica

 Combinao linear de variveis


Seja [X1, X2, ..., Xn] uma amostra aleatria e seja c1, c2, ... , cn um conjunto de
constantes, ento,
Y = c1X1 + c 2 X2 + + c n Xn
uma combinao linear de variveis.
Sendo Y funo de uma varivel aleatria, tambm ser uma varivel aleatria e,
como consequncia, ter uma distribuio de probabilidade, com valor esperado e varincia.
Se Y for a combinao linear de variveis que tm distribuio normal, ou seja, Xi ~ N (, 2),
ento, a distribuio de Y tambm ser normal, com os seguintes parmetros:
Valor esperado
E(Y) = E(c1X1 + c 2 X2 + + c n Xn )
= E(c1X1 ) + E(c 2 X2 ) + + E(c n Xn )
= c1E(X1 ) + c 2E(X2 ) + + c nE(Xn )

Como E(Xi) = , temos


n

E(Y) = c1 + c 2 + + c n = c i
i=1

Varincia
V(Y) = V(c1X1 + c 2 X2 + + c n Xn )

Como os Xis so todos independentes entre si, temos


V(Y) = V(c1X1 ) + V(c 2 X2 ) + + V(c n Xn )
= c12 V(X1 ) + c 22 V(X2 ) + + c n2 V(Xn )

Como V(Xi) = 2, temos


n

V(Y) = c122 + c 222 + + c n2 2 = 2 c i2


i=1

Verificamos, assim, que se Y a combinao linear de um conjunto de variveis que


n

i=1

i=1

tm distribuio normal, ento Y ~ N ( c i , 2 c i2 ).

4.3.1. Distribuies amostrais de algumas estatsticas importantes


Nesta seo sero apresentadas com mais detalhe as distribuies de probabilidade
das estatsticas mais utilizadas nos processos de inferncia.
 Distribuio qui-quadrado (2)
Seja uma varivel aleatria X ~ N (, 2) e [X1, X2, ..., Xn] uma amostra aleatria dela
proveniente. Assim,
Xi ~ N (, 2).
Padronizando, ou seja, transformando Xi em Zi, temos
Zi =

Xi

~ N (0, 1), sendo - < zi <+.


130

Piana, Machado e Selau

Inferncia Estatstica

Seja Q uma nova varivel definida como a soma dos quadrados de variveis Z
independentes. Ento, dizemos que a varivel Q tem distribuio qui-quadrado, denotada por
2, com parmetro , ou seja,

Q = Zi2 = Z12 + Z 22 + ... + Z 2 ~ 2 (),


i=1

onde: = nmero de graus de liberdade ou variveis independentes somadas.


A funo densidade de probabilidade da distribuio 2 dada por
f(q) =

22

q
2

1
2
q ,

com 0 q < +.

Sendo a varivel Q definida como uma soma de quadrados, seus valores nunca sero
negativos. A curva da distribuio 2, representao grfica da funo densidade de
probabilidade, muda o seu formato medida que varia o nmero de graus de liberdade.
Exemplos:

A distribuio 2 tem mdia = e varincia 2 = 2.


131

Piana, Machado e Selau

Inferncia Estatstica

Uma varivel importante na determinao de intervalos de confiana e testes de


hipteses a respeito da varincia da populao (2) tem distribuio 2 e assim definida
Q=

(n 1)S2

~ 2 (), onde = n 1.

Esta varivel surge da seguinte situao: seja a varivel X ~ N (, 2) e [X1, X2, ..., Xn]
uma amostra aleatria dela proveniente. A varincia desta amostra ser

( Xi X )
=

ou (n 1)S2 =

n 1

( X X)

Dividindo os dois termos por uma constante de interesse (2), no alteramos a


igualdade. Assim, temos
(n 1)S2

( Xi X )
=

Somando e subtraindo outra constante de interesse (), resolvendo o binmio e


aplicando as propriedades da soma, temos
(n 1)S2

(Xi X)2 (Xi X + )2 (Xi )2 n(X )2

=
=
=

Xi

Fazendo

= Zi

2
Xi X
n

= Z , temos

X
i = Zi2 = Z12 + Z22 + ... + Zn2 = Qn ~ 2 (n)

e
2

X
2
2

= Z = Q1 ~ (1) ,
n

ento,
(n 1)S2

( Xi X )
=
2

= Qn Q1 ,

donde resulta
Qn Q1 = (Z12 + Z22 + + Zn2 ) Z2 = Q(n1) ~ 2 (n 1) .

Outros exemplos de variveis com distribuio 2 de ocorrncia comum nos testes de


hipteses envolvendo dados de enumerao so:
2
Xi Ei )
(
Q=
~ 2 ( ) , onde = k 1
k

Ei

i =1

Q =
i=1 j=1

(X

ij

Eij
Eij

~ 2 ( ) , onde = (r1)(s1)

132

Piana, Machado e Selau

Inferncia Estatstica

 Distribuio t de Student
Seja uma varivel Z, com distribuio normal padro, e uma varivel Q, com
distribuio 2 independentes, ento, dizemos que uma varivel T definida como:
T=

Z
Q

tem distribuio t de Student com parmetro .


Nesse contexto, uma varivel Z com distribuio normal padro e uma varivel Q com
distribuio 2 nas quais temos grande interesse nas aplicaes so:
Z=

~ N(0, 1)

e
Q=

(n 1)S2

~ 2 ( ) , onde = n 1 .
(n 1)S2

Ento,

donde resulta T =

Q
=
n 1

Z
=
Q

n 1

X
n
S2

X
S

S2

X
n X
=
=
S
S n

Assim, temos T =

~ t( ) , onde = n 1

De uma maneira geral, uma varivel com distribuio t muito parecida com uma
normal padro, exceto que o desvio padro, que aparece no denominador, o desvio padro
amostral e no o populacional.
A funo densidade de probabilidade da distribuio t de Student com graus de
liberdade dada por
f(t) =

1
1
, com - < t < +.
1
1
+
, t 2 2
2 2 1+

Podemos observar, nos exemplos a seguir, que a curva da distribuio t de Student,


representao grfica da funo densidade de probabilidade, muda o seu formato medida
que varia o valor de .

133

Piana, Machado e Selau

Inferncia Estatstica

Exemplos:

A distribuio t de Student tem mdia = 0 e varincia 2 =

~ t( ) importante na determinao de intervalos de confiana e


S n
testes de hipteses a respeito da mdia da populao ().

A varivel T =

De uma maneira geral, a razo T =

E( )
tem distribuio t, sendo uma

S()

combinao linear de variveis normais e E( ) o seu valor esperado.


Por exemplo, = c1X1 + c 2 X2 , onde c1 = 1 e c 2 = 1,
ento,

= 1 2 e S( ) = S ( X1 X2 ) ,

resultando que
T=

(X

X2 ( 1 2 )

S X1 X2

~ t( ) .

134

Piana, Machado e Selau

Inferncia Estatstica

 Distribuio F de Snedecor
Sejam duas variveis Q1 e Q2 com distribuio 2 independentes, ento, dizemos que
uma varivel F definida como:
Q1
F=

Q2

tem distribuio F, com parmetros 1 e 2.


A varivel F definida como a razo entre duas variveis que tm distribuio 2.
Vimos que uma varivel com esta distribuio nunca assume valores negativos, portanto, os
valores da varivel F tambm no podero ser negativos.
A funo densidade de probabilidade da distribuio F dada por
1

1 2
f2
g(f) =
, com 0 f < +.

1 + 2

1 , 2 2 1 2
f
2 2
1+
2
1

O grfico desta funo muda o seu formato medida que os valores de 1 e 2 se


alteram.
Exemplos:

135

Piana, Machado e Selau

Inferncia Estatstica

Outra varivel comumente utilizada na determinao de intervalos de confiana e


testes de hipteses a respeito da varincia da populao (2) tem distribuio F e surge da
seguinte situao: sejam as variveis aleatrias X1 (1, 12 ) e X2 (2 , 22 ) e X11,X12 ,,X1n1
e X21,X22 ,,X2n2 amostras aleatrias delas provenientes. As respectivas varincias dessas
amostras sero
S12

( X1i X1 )
=

S22

n1 1

( X2i X2 )
=

n2 1

Podemos reescrever as expresses da seguinte forma


(n1 1)S12

12

( X1i X1 )
=

12

= Q1 ~ 2 (n1 1)

e
(n2 1)S22

22

( X2i X2 )
=
22

= Q2 ~ 2 (n2 1) .

Se
Q1
F=

Q2

~ F(1, 2 ) ,

onde:
(n1 1)S12
Q1

12
n1 1

S12

S22

12

e
(n2 1)S22
Q2

22
n2 1

22

ento, temos
S12

Q1
F=

Q2

12
S22

~ F(1, 2 ) .

22

No caso de as varincias populacionais serem iguais, ou seja, 12 = 22 = 2 , temos


Q1
F=

Q2

onde:

S12
~ F(1, 2 ) ,
S22

1 = n1 1 ;
2 = n2 1 .
136

Piana, Machado e Selau

Inferncia Estatstica

4.4. Estimao de parmetros


4.4.1. Conceitos fundamentais
de fundamental importncia a compreenso e o domnio de alguns termos que sero
usados com bastante frequncia nos tpicos que seguem. Veremos, a seguir, os conceitos de
parmetro, estimador e estimativa.
Os parmetros so valores (medidas) calculados diretamente da populao e servem
para caracteriz-la. Os parmetros geralmente so valores desconhecidos, sempre so
constantes, e so representados, genericamente, pela letra grega teta (). So exemplos de
parmetros: a mdia da populao () e a varincia da populao (2).
Os estimadores so valores (medidas) calculados em uma amostra com objetivo de
obter informao sobre os parmetros e sobre a prpria populao. Todos os estimadores so
estatsticas, uma vez que so valores amostrais. Sendo estatsticas, so tambm variveis
aleatrias, pois podem assumir diferentes valores dependendo da amostra. Os estimadores
so representados, genericamente, pela letra teta com um acento circunflexo ( ), onde se l
teta chapu. Dentre os exemplos de estimadores podemos citar a mdia da amostra ( X ) e a
varincia da amostra (S2).

Sendo o estimador uma varivel que pode assumir diferentes valores, chamamos de
estimativa um valor particular que o estimador assume.
Consideremos como exemplo a seguinte populao constituda por quatro valores
(N = 4):
X=x
P(X=x)

1
0,2

2
0,3

3
0,3

4
0,2

onde: = 2,5 e 2 = 1,05.


Desta populao, retiramos uma amostra aleatria de tamanho dois (n = 2), [X1, X2].
Assim, podemos calcular o nmero de diferentes amostras de tamanho dois que
podem ser extradas desta populao de tamanho quatro:
k = Nn = 42 = 16 amostras.
Sendo possvel obter 16 amostras diferentes, para cada um dos parmetros, e 2,
ser possvel obter 16 estimativas. Na tabela a seguir temos todas as possveis estimativas de
cada um desses parmetros.
137

Piana, Machado e Selau

Inferncia Estatstica

= 2,5

Parmetro

X=

Estimador
Amostra 1: (1, 1)
Amostra 2: (1, 2)
Amostra 3: (1, 3)

Estimativas

2 = 1,05

Xi

n
1+ 1
x1 =
=1
2
1+ 2
x2 =
= 1,5
2
x3 = 2

S2 =

(Xi X)2

n 1
(1 1) + (1 1)2
s12 =
=0
2 1
(1 1,5)2 + (2 1,5)2
s22 =
= 0,5
2 1
s32 = 2
2

Amostra 4: (1, 4)

x 4 = 2,5

s24 = 4,5

Amostra 5: (2, 1)

x 5 = 1,5

s25 = 0,5

Amostra 6: (2, 2)

x6 = 2

s26 = 0

Amostra 7: (2, 3)

x 7 = 2,5

s27 = 0,5

Amostra 8: (2, 4)

x8 = 3

s82 = 2

Amostra 9: (3, 1)

x9 = 2

s92 = 2

Amostra 10: (3, 2)

x10 = 2,5

2
s10
= 0,5

Amostra 11: (3, 3)

x11 = 3

2
s11
=0

Amostra 12: (3, 4)

x12 = 3,5

2
s12
= 0,5

Amostra 13: (4, 1)

x13 = 2,5

2
s13
= 4,5

Amostra 14: (4, 2)

x14 = 3

2
s14
=2

Amostra 15: (4, 3)

x15 = 3,5

2
s15
= 0,5

Amostra 16: (4, 4)

x16 = 4

2
s16
=0

Devemos considerar tambm que podem existir vrios estimadores para um mesmo
parmetro. Por exemplo, a mdia aritmtica simples ( X ) e a mdia aritmtica ponderada ( Xp ),
calculadas na amostra, bem como qualquer elemento em particular de uma amostra aleatria
( Xi ), so todos estimadores da mdia populacional ().
X=

Xi
n

Xp =

Xipi
pi

Xi

estimadores de

Da mesma forma, as varincias S2 (com denominador n 1) e Sn2 (com denominador


n), calculadas na amostra, so dois estimadores da varincia populacional (2).

(Xi X)2

Sn2 =

n 1
(Xi X)2
n

2
estimadores de

Para escolher o melhor dentre todos os estimadores de um mesmo parmetro,


devemos optar pelo que tem melhores propriedades.
138

Piana, Machado e Selau

Inferncia Estatstica

4.4.2. Propriedades dos estimadores


 Imparcialidade ou no tendenciosidade
Um estimador um estimador imparcial do parmetro se o valor esperado de
for igual a .
E( ) =

Exemplos:
X um estimador imparcial de , pois E( X ) = .
Xp um estimador imparcial de , pois E( Xp ) = .
X1 um estimador imparcial de , pois E( X1 ) = .

S2 um estimador imparcial de 2, pois E( S2 ) = 2.


Sn2 no um estimador imparcial de 2, pois E( Sn2 ) =

n 1 2

 Eficincia ou varincia mnima


Se dois ou mais estimadores de um mesmo parmetro so imparciais, mais eficiente
aquele que possui a menor varincia.
Exemplo: Dentre todos os estimadores imparciais de ( X , Xp e X1 ), a mdia simples
( X ) o mais eficiente porque tem a menor varincia.

[ X1, X2 , X3 ]

Demonstrao: Considere uma amostra de tamanho n = 3


Mdia simples ( X )

Mdia ponderada ( Xp )

X1 + X2 + X3 1
= ( X1 + X2 + X3 )
3
3
1

X = V ( X1 + X2 + X3 )
3

1
X = V ( X1 + X2 + X3 )
9
1
X = V ( X1 ) + V ( X2 ) + V ( X3 )
9
1
X = 2 + 2 + 2
9
3 2
X =
= 0,332
9

X=

1X1 + 2X2 + 1X3 1


= ( X1 + 2X2 + X3 )
4
4
1

Xp = V ( X1 + 2X2 + X3 )
4

1
V ( X1 + 2X2 + X3 )
Xp =
16
1
V ( X1 ) + 4V ( X2 ) + V ( X3 )
Xp =
16
1 2
Xp =
+ 42 + 2
16
62
Xp =
= 0,382
16

Xp =

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

Comparando as varincias dos trs estimadores: V(X) = 0,332 < V(Xp ) = 0,382 < V(X1 ) = 2 ,
verificamos que a mdia aritmtica simples tem a menor variao, portanto, o estimador mais
eficiente.
 Consistncia
Um estimador consistente se medida que o tamanho da amostra aumenta o valor
do estimador se aproxima do parmetro.
n N

139

Piana, Machado e Selau

Inferncia Estatstica

Exemplo:

Sn2 um estimador consistente de 2.


Com base nessa propriedade, podemos concluir que:
Se a amostra for pequena, devemos utilizar S2 para estimar 2.
Se a amostra for grande, podemos utilizar S2 ou Sn2 para estimar 2.

4.4.3. Processos de estimao


Um parmetro pode ser estimado de duas formas: por ponto ou por intervalo.
 Estimao por ponto
o processo atravs do qual obtemos um nico ponto, ou seja, um nico valor para
estimar o parmetro.
Exemplo: Amostra (1, 3, 2)
x=

xi = 1 + 3 + 2 = 2
n

s2 =

(xi x)2
n 1

estimativa pontual ou por ponto de

(1 2)2 + (3 2)2 + (2 2)2


= 1 estimativa pontual ou por ponto de 2
3 1

 Estimao por intervalo


um processo que permite obter um intervalo onde, com uma determinada
probabilidade (nvel de confiana), podemos esperar encontrar o verdadeiro valor do
parmetro.
LI < < LS
As estimativas por intervalo so preferveis s estimativas por ponto porque indicam a
preciso, ou seja, sabemos a probabilidade de o intervalo conter o parmetro.

4.4.3.1. Intervalos de confiana para a mdia


 Intervalo de confiana para a mdia de uma populao ()
Para a construo do intervalo de confiana devemos levar em conta se conhecemos
a varincia populacional. Sendo assim, duas situaes sero consideradas:
Situao 1. Quando a varincia da populao (2) conhecida
Considere que desejamos estimar a mdia de uma populao X.
Para determinar o intervalo de confiana (IC) para , utilizamos o estimador X que,
como j foi demonstrado, o melhor estimador de .
De acordo com o TCL, se X ~ N (, 2), ento, X ~ N (,

2
n

).
140

Piana, Machado e Selau

Inferncia Estatstica

Padronizando a varivel X , temos Z =

V(X)

sendo que Z tem distribuio normal com mdia igual a zero e varincia igual a um, ou seja,
X

Z=

~ N (0, 1)

De acordo com a figura abaixo, vemos que 1 a probabilidade de que a varivel Z


assuma um valor entre -z/2 e z/2 e a probabilidade de Z no estar entre -z/2 e z/2.

Da, temos
P(-z/2 < Z < z/2) = 1
O valor denominado nvel de significncia ou taxa de erro (usualmente com valor
0,05 ou 0,01), enquanto o valor 1 representa o nvel de confiana do intervalo.
Sabendo que Z =

e fazendo a substituio, temos

n
X

P(-z/2 <

< z/2) = 1 .

Como o objetivo construir um intervalo de confiana para a mdia da populao,


devemos isolar na expresso. Podemos alcanar este objetivo manipulando a expresso:
X

P(-z/2 <

< z/2) = 1

P(-z/2

P(- X -z/2
P[(- X -z/2
P( X +z/2

< X < z/2

) = 1

< < - X + z/2

< < - X + z/2


> > X -z/2

) = 1
) (-1)] = 1

) = 1
141

Piana, Machado e Selau

Inferncia Estatstica

Da resulta a expresso do intervalo de confiana para a mdia de uma populao:


P( X -z/2

< < X +z/2

) = 1

Este intervalo de confiana tambm pode ser expresso da seguinte forma:


IC (; 1
): X z/2

onde:
X : o estimador de ;
z/2: o valor da varivel Z que delimita a rea /2 (Tabela I do Apndice);
n: o tamanho da amostra;
: desvio padro da populao (parmetro).

importante salientar que um parmetro (constante) e os limites do intervalo


que so aleatrios. Assim, a interpretao do intervalo ao nvel de 95% de confiana, por
exemplo, deve ser da seguinte maneira: se pudssemos construir uma quantidade grande de
intervalos, todos baseados em amostras de tamanho n, 95% deles conteriam o parmetro ,
como ilustra a figura abaixo.

Observemos que, escolhida uma amostra e encontrada sua mdia x0 , podemos

construir o intervalo x0 z/2


; x0 + z/2
, mas este intervalo pode ou no conter o
n
n

parmetro . A probabilidade de que contenha o parmetro 1.


142

Piana, Machado e Selau

Inferncia Estatstica

Podemos verificar tambm que todos os intervalos com mesmo nvel de confiana tm
a mesma amplitude: 2z/2

.
n
Na maioria dos casos no conhecemos, de fato, o parmetro , pois no estudamos a
populao inteira. Entretanto, com base na propriedade de consistncia dos estimadores,
quando a amostra tem tamanho grande, a estimativa de um parmetro considerada
suficientemente prxima do parmetro. Assim, quando trabalhamos com grandes amostras a
estimativa de , que s (desvio padro da amostra), pode ser usada no lugar do parmetro.
Consideramos a amostra suficientemente grande para utilizar a varivel Z quando n maior
que 30.
Duas pressuposies devem ser atendidas para a utilizao desta metodologia:
1. A varivel em estudo tem distribuio normal, X ~ N (, 2).
2. A varincia populacional conhecida ou o tamanho da amostra suficientemente
grande para obteno de uma estimativa aproximada da variao populacional ().
Consideremos o seguinte o exemplo resolvido.
Uma amostra de 100 terneiros de dois meses de idade da raa Ibag apresentou peso
mdio de 65,5kg e desvio padro de 4,8kg. Obtenha o intervalo de confiana, ao nvel de 95%,
para o verdadeiro peso mdio de terneiros e redija a concluso.
Varivel em estudo: X = peso de terneiros (kg)
Pressuposies: 1. A varivel em estudo tem distribuio normal.
2. A amostra tem tamanho suficiente para estimar .
Estimativas:
x = 65,5 kg
s = 4,8 kg
n = 100 terneiros
z/2 = z0,025 = 1,96
IC (; 1
): X z/2

IC (; 0,95): 65,5 1,96

4,8
100

IC (; 0,95): 65,5 0,941


Limite inferior = 65,5 0,941 = 64,56
Limite superior = 65,5 + 0,941 = 66,44
P(64,56 < < 66,44) = 0,95
Conclumos que o intervalo de confiana, ao nvel de 95%, para o verdadeiro peso
mdio de terneiros de dois meses de idade da raa Ibag de 64,56 a 66,44 kg.
Situao 2. Quando a varincia da populao (2) desconhecida
Quando a amostra pequena, no podemos supor que o desvio padro da amostra
(s) seja uma estimativa suficientemente aproximada do parmetro . Como no conhecemos a
varincia populacional, no podemos utilizar a varivel Z, que tem distribuio normal padro,
para construir o intervalo de confiana para .
143

Piana, Machado e Selau

Inferncia Estatstica

Nesse caso, em vez de Z, utilizamos a estatstica T que no tem distribuio normal e


sim distribuio t de Student, com parmetro :
T=

X
~ t (),
S
n

onde:
X : a mdia da amostra (estimador de );
S: o desvio padro da amostra (estimador de );
n: tamanho da amostra;
= n 1: o nmero de graus de liberdade associado varincia da amostra S2.

Sob o ponto de vista das aplicaes, podemos definir a estatstica T de uma forma
mais genrica:

T=
~ t (),
S( )
onde:
: o parmetro que est sendo estimado;

: o estimador do parmetro;
S( ): o estimador do desvio (ou erro) padro de .
Distribuio t
Em 1908, o pesquisador ingls William Gosset, ao tentar resolver problemas relativos
a pequenas amostras, descobriu a distribuio t.

William Gosset
(1876 - 1937)

Gosset trabalhava, na poca, numa cervejaria na Irlanda


e estava ciente de que seus empregadores no queriam
que funcionrios publicassem o que quer que fosse, com
receio de que segredos industriais cassem no domnio
pblico e, principalmente, nas mos da concorrncia.
Por isso Gosset ao descobrir uma nova distribuio de
probabilidades (distribuio t), publicou seus trabalhos
sob o pseudnimo de Student.

A distribuio t tem formato de campnula, simtrica em torno da mdia ( = 0) que


est localizada no centro da distribuio e varia de - a +. Sua curva se assemelha da
distribuio normal padro, sendo um pouco mais achatada no centro.
Como o parmetro da distribuio t o nmero de graus de liberdade ( = n -1), o
formato da curva se altera toda vez que muda o tamanho da amostra (n).
A distribuio t se aproxima da normal padro medida que o n cresce. Isto ocorre
porque quando o tamanho da amostra se aproxima do tamanho da populao (n N), o
estimador S se aproxima do parmetro (S ) e, consequentemente, a estatstica T se
aproxima da varivel Z (T Z).

144

Piana, Machado e Selau

Inferncia Estatstica

Na prtica, com 30 graus de liberdade a distribuio t aproximadamente igual


distribuio normal padro e com 120 graus de liberdade exatamente igual, ou seja, as
curvas se sobrepem. Por essa razo, o tamanho 30 adotado como referncia para
considerarmos uma amostra grande ou pequena. Quando n menor ou igual a 30, a amostra
considerada pequena para utilizarmos a varivel Z, devemos, portanto, utilizar a distribuio t
para construir o intervalo.
Como j foi visto para a varivel Z, na figura a seguir podemos observar que 1 a
probabilidade de que a varivel T assuma um valor entre -t/2 e t/2 e a probabilidade de T
no estar entre -t/2 e t/2.

Da, temos
P(-t/2 < T < t/2) = 1.
Sabendo que T =

X
e fazendo a substituio, temos
S
n
X
P(-t/2 <
< t/2) = 1.
S
n

Isolando o parmetro na expresso, temos


X
< t/2) = 1
S
n
S
S
P(-t/2
< X < t/2
) = 1
n
n
S
S
P(- X -t/2
< < - X + t/2
) = 1
n
n
S
S
P[(- X -t/2
< < - X + t/2
) (-1)] = 1
n
n
S
S
P( X +t/2
> > X -t/2
) = 1
n
n
S
S
P( X -t/2
< < X +t/2
) = 1
n
n

P(-t/2 <

donde resulta
S
,
n
sendo t/2 o valor da estatstica T que delimita a rea /2. Este valor encontrado na tabela da
distribuio t de Student (Tabela II do Apndice), a partir dos valores de e de .

IC (;1): X t/2

145

Piana, Machado e Selau

Inferncia Estatstica

Generalizando a expresso, temos


IC ( ; 1): t/2 S( ).
S
Assim, para o caso particular de = , temos: = X e S( ) = S( X ) =
.
n

Para a utilizao desta metodologia a seguinte pressuposio deve ser atendida:


A varivel em estudo tem distribuio normal: X ~ N (, 2).
Devido aproximao com a distribuio normal padro a partir de =30, a estatstica
T, que tem distribuio t de Student, poder ser utilizada para construir intervalos de confiana
para a mdia, tambm quando a amostra for grande.
Consideremos o seguinte exemplo resolvido.
Atravs da amostra de tamanho 15 que segue, procura-se estimar a verdadeira
potncia mdia de aparelhos eletrnicos de alta sensibilidade medida em microwatts:
26,7; 25,8; 24,0; 24,9; 26,4; 25,9; 24,4; 21,7; 24,1; 25,9; 27,3; 26,9; 27,3; 24,8; 23,6.
Resoluo:
Varivel em estudo: X = potncia de aparelhos eletrnicos de alta sensibilidade (w)
Pressuposio: A varivel em estudo tem distribuio normal.
Obteno das estimativas:
26,7 + 25,8 + + 23,6
= 25,31 w
15
(26,7 25,31)2 + (25,8 25,31)2 + + (23,6 25,31)2
s2 =
= 2,493 w2
15 1
s = 2,493 = 1,579 w
x=

Sendo = , temos
= X = 25,31
= S(X) = S = 1,579 = 0,4076
S()
n
15
= n 1 = 15 1 = 14
t/2() = 2,145

IC ( ; 1): t/2 S( )
IC (; 0,95): 25,31 2,145 0,4076
IC (; 0,95): 25,31 0,874
Limite inferior = 25,31 0,874 = 24,44
Limite superior = 25,31 + 0,874 = 26,18
P(24,44 < < 26,18) = 0,95
Conclumos que a probabilidade de o intervalo de 24,44w a 26,18w conter a
verdadeira potncia mdia de aparelhos eletrnicos de alta sensibilidade de 0,95.
146

Piana, Machado e Selau

Inferncia Estatstica

 Intervalo de confiana para diferena entre mdias de duas populaes (1 - 2)


Para utilizar a estatstica T no estudo de uma varivel X em duas populaes distintas,
trs pressuposies devem ser atendidas:
1.
2.
3.

A varivel em estudo tem distribuio normal.


X ~ N (, 2)
As varincias das populaes so iguais ( 12 = 22 ).
As amostras retiradas das populaes so independentes.

Atendidas as pressuposies, desejamos comparar as mdias das populaes,


estimando por intervalo, o parmetro = 1 2 . Utilizamos, ento, a varivel aleatria T.
T=

onde:


~ t (),
S( )

= 1 2
= X X
1

S( ) = S(X1 X2 )
= ( n1 1) + (n2 1) = n1 + n2 2

Vejamos como se obtm a estimativa do desvio (ou erro) padro de . Sendo

= X1 X2 , o desvio padro obtido extraindo a raiz quadrada da varincia da diferena


entre as mdias, ou seja,
S( ) = S(X1 X2 ) = S2 (X1 X2 ) .

Como as variveis X1 e X2 so independentes, podemos utilizar a propriedade de que


a varincia da soma ou diferena de variveis igual soma das varincias dessas variveis.
Da, temos
S2 (X1 X2 ) = S2 (X1 ) S2 (X2 ) .

Como a varincia da mdia V(X) =


S2 (X) =

2
n

, ento, o estimador desta varincia ser

S2
. Como consequncia, temos
n

( )

( )

S2 X1 + S2 X2 =

S12 S22
+
.
n1 n2

147

Piana, Machado e Selau

Inferncia Estatstica

Sendo as varincias amostrais, S12 e S22 , estimativas da mesma varincia (2),


possvel combin-las atravs da mdia. Assim, em vez de duas estimativas ( S12 e S22 ),
utilizamos S2 que a mdia das varincias das amostras, ponderada pelos seus respectivos
graus de liberdade, ou seja,
S2 =

S12 ( n1 1) + S22 ( n2 1)

( n1 1) + ( n2 1)

Da resulta que
1 1
S12 S22
S2 S2
+
=
+
= + S2 .
n1 n2
n1 n2
n1 n2

Assim, o estimador do erro padro de dado por


S2 ( n 1) + S22 ( n2 1)
1 1
S( ) = S(X1 X2 ) = + S2 , onde S2 = 1 1
.
( n1 1) + ( n2 1)
n1 n2

Sabemos que, de modo geral, o intervalo de confiana para um parmetro assim


definido
IC(; 1 ) : t /2 S( ) .

Para o caso particular de = 1 2 , temos


1 1
IC(1 2 ; 1 ) = X1 X2 t /2 + S2 .
n1 n2

Vejamos um exemplo resolvido.


Dez cobaias adultas criadas em laboratrio, foram separadas, aleatoriamente, em dois
grupos: um foi tratado com rao normalmente usada no laboratrio (padro) e o outro grupo
foi submetido a uma nova rao (experimental). As cobaias foram pesadas no incio e no final
do perodo de durao do experimento. Os ganhos de peso (em gramas) observados foram os
seguintes:
Rao padro

200

180

190

190

180

Rao experimental

220

200

210

220

210

Construa o intervalo de confiana, ao nvel de 99%, para a diferena entre as mdias


das duas populaes.
Resoluo:
Varivel em estudo: X = ganho de peso (g)
Pressuposies:
- A varivel em estudo tem distribuio aproximadamente normal, X ~ N (, 2).
- As varincias das populaes so iguais ( 12 = 22 = 2 ).
- As amostras retiradas das populaes so independentes.
148

Piana, Machado e Selau

Inferncia Estatstica

Estimativas:
Amostra 1: n1 = 5

x1 = 188

s12 = 70

Amostra 2: n2 = 5

x 2 = 212

s22 = 70

Sendo = 1 2 , temos:

= X1 X2 = 188 212 = 24
S2 =

S12 ( n1 1) + S22 ( n2 1)

(n1 1) + ( n2 1)

70 4 + 70 4
= 70
4+4

1 1
1 1
S( ) = S(X1 X2 ) = + S2 = + 70 = 5,292
5 5
n1 n2

= ( n1 1) + ( n2 1) = 4 + 4 = 8
t/2() = 3,36
IC(; 1 ) : t /2 S( )
IC ( 1 2 ; 0,99): -24 3,36 5,292
IC ( 1 2 ; 0,99): -24 17,78

Limite inferior = -24 - 17,78 = -41,78


Limite superior = -24 + 17,78 = -6,22
P(-41,78 < 1 2 < -6,22) = 0,99
Conclumos que a probabilidade de o intervalo de -41,78 a -6,22 conter a verdadeira
diferena entre o ganho de peso mdio da populao que recebeu rao padro e o ganho de
peso mdio da populao que recebeu a rao experimental de 0,99. Como o valor zero est
fora do intervalo podemos concluir que as mdias no so iguais.

149

Piana, Machado e Selau

Inferncia Estatstica

4.4.3.2. Intervalo de confiana para a varincia de uma populao (2)


Sabemos que o estimador no-tendencioso de 2 S2. No entanto, para se construir
um intervalo de confiana para 2 necessrio ainda conhecer como este estimador S2 se
comporta, ou seja, qual a sua distribuio de probabilidade. Considerando uma populao
com distribuio normal, com mdia e varincia 2, e que desta populao seja selecionada
uma amostra aleatria de tamanho n, ento:
n

Q=

( Xi X )

i=1

(n 1)S2

~ 2 ( ) ,

ou seja, a varincia da amostra (S2) uma varivel aleatria que tem distribuio 2 com
parmetro =n1 graus de liberdade. Assim, a distribuio 2 a base para inferncias a
respeito da varincia 2 .
De acordo com a figura abaixo, vemos que 1 a probabilidade de que a varivel Q
assuma um valor entre q/2 e q/2 e a probabilidade de Q no estar entre q/2 e q/2

Da, temos
P( q/2 < Q < q/2 ) = 1.
Sendo Q =

(n 1)S2

, ao substituirmos Q na expresso acima, obtemos:


P( q/2 <

(n 1)S2

< q/2 ) = 1.

A manipulao algbrica desta desigualdade resulta no intervalo de confiana para 2:


(n 1)S2
(n 1)S2
P
< 2 <
= 1.
q/2
q/2

onde:
S2 o estimador da varincia populacional 2;
n o tamanho da amostra;
= n1 o nmero de graus de liberdade associado varincia;
q/2 o valor da distribuio qui-quadrado, com graus de liberdade, que delimita a
rea /2 esquerda (Tabela III do Apndice);
q/2 o valor da distribuio qui-quadrado com graus de liberdade que delimita a
rea /2 direita (Tabela III do Apndice).
150

Piana, Machado e Selau

Inferncia Estatstica

Assim, os limites do intervalo de confiana para a varincia populacional ( 2 ) so


dados por:
(n 1)S2 (n 1)S2
;

.
q/2
q/2
Para determinar um intervalo de confiana para o desvio padro populacional ()
basta tomar a raiz quadrada positiva dos limites do intervalo para a varincia populacional:
(n 1)S2 (n 1)S2

;
q/2
q/2

Consideremos um exemplo resolvido:


Uma das maneiras de manter sob controle a qualidade de um produto controlar sua
variabilidade. Uma mquina de encher garrafas de refrigerante est regulada para ench-las
conforme uma distribuio normal com mdia de 200ml. Colheu-se uma amostra de 11
garrafas e observou-se uma varincia de 8,38ml2. Construa o intervalo, ao nvel de 90% de
confiana, para a varincia populacional e um intervalo de mesma confiabilidade para o desvio
padro da populao.
Resoluo:
Devemos, inicialmente, determinar os valores da distribuio 2 com 10 graus de
liberdade, de modo que q/2 e q/2 tenham uma rea igual a 0,05 sua esquerda e sua
direita, respectivamente. Estes valores so: q/2( ) = 3,94 e q/2( ) = 18,31.
Assim, o intervalo de confiana para a varincia ser:
(n 1)s2 (n 1)s2 (11 1) 8,38 (11 1) 8,38
;
;

=
= [ 4,58; 21,27 ] .
q/2
18, 31
3, 94

q/2

E o intervalo de confiana para o desvio padro ser:

(n 1)s2 (n 1)s2

;
q/2
q/2

(11 1) 8,38 (11 1) 8,38


=
;
= [ 2,14; 4,61] .
18, 31
3, 94

Conclumos, com uma confiana de 90%, que os intervalos 4,58 a 21,27 e 2,14 a 4,61
cobrem, respectivamente, a verdadeira varincia e o verdadeiro desvio padro da populao.
4.4.3.3. Intervalo de confiana para a proporo de uma populao ()
Se o objetivo estimar a proporo populacional (), atravs de uma amostra
aleatria desta populao, utilizamos como estimador a proporo da amostra (P).

151

Piana, Machado e Selau

Inferncia Estatstica

De acordo com o teorema central do limite, quando np>5 e n(1-p)>5, a distribuio


amostral de P se aproxima da distribuio normal com mdia P = e desvio padro

P =

(1 )
n

Deste modo, podemos utilizar a distribuio normal para construir o intervalo de


confiana para a proporo populacional. Lembramos que 1 a probabilidade de que a
varivel Z assuma um valor entre -z/2 e z/2 e a probabilidade de Z no estar entre -z/2 e
z/2.

Assim, temos que:


P(-z/2 < Z < z/2) = 1.

Como Z =

P P

P
, substitumos Z na expresso acima e obtemos:
(1 )
n

P(-z/2 <

P
< z/2) = 1
(1 )
n

A manipulao algbrica desta desigualdade resulta no intervalo de confiana para :


P(P - z/2

(1 )
n

< < P +z/2

(1 )
n

) = 1.

Como podemos verificar na expresso, o erro padro P =

(1 )

um valor
n
desconhecido, uma vez que no conhecemos . Entretanto, com base na propriedade de
consistncia dos estimadores, quando o tamanho da amostra grande, podemos considerar o
valor do estimador (P) suficientemente prximo do parmetro (), o que possibilita a
substituio de por P na expresso do intervalo de confiana. Assim, temos:
P(P - z/2

P(1 P)
< < P + z/2
n

P(1 P)
) = 1.
n

onde:
P o estimador da proporo populacional ;
n o tamanho da amostra e
z/2 o valor da varivel Z que delimita a rea /2 (Tabela I do Apndice).
152

Piana, Machado e Selau

Inferncia Estatstica

Vejamos um exemplo resolvido:


Foi realizada uma pesquisa de mercado para verificar a preferncia da populao de
em relao ao consumo de determinado produto. Para isso, foi colhida uma amostra de 300
consumidores, dos quais 180 disseram consumir o produto. Encontre o intervalo ao nvel de
99% de confiana para a proporo de consumidores do produto na populao.
Resoluo:
A estimativa por ponto para a proporo populacional ser: p = 180/300 = 0,60.
Como o nvel de confiana adotado de 99%, temos = 0,01. Assim, o valor de Z que
delimita a rea /2 = 0,005 direita 2,575.
Ento, o intervalo de confiana de 99% para a proporo populacional ser:
IC( ; 0,99) : P z/2

P(1 P)
n

0,60(1 0,60)
300
IC( ; 0,99) : 0,60 2,575 0,0283
IC( ; 0,99) : 0,60 2,575

IC( ; 0,99) : 0,60 0,0728


Limite inferior = 0,60 0,0728 = 0,5272
Limite superior = 0,60 + 0,0728 = 0,6728

P(0,5272 < < 0,6728) = 0,99


Concluindo, pode-se afirmar, com uma confiana de 99%, que o intervalo de 0,53 a
0,67 contm a proporo populacional de consumidores que preferem o produto pesquisado.

Exerccios propostos:
4.1. Um engenheiro de desenvolvimento de um fabricante de pneus est investigando a vida do
pneu em relao a um novo componente de borracha. Ele fabricou 40 pneus e testou-os at o
fim da vida em um teste na estrada. A mdia e o desvio padro da amostra so 61.492 km e
6.085 km, respectivamente. O engenheiro acredita que a vida mdia desse novo pneu est em
excesso em relao a 60.000 km. Obtenha o intervalo de confiana, ao nvel de 95%, para a
vida mdia do pneu e conclua a respeito da suposio do engenheiro.
4.2. Um agrnomo realizou um levantamento para estudar o desenvolvimento de duas
espcies de rvores, a Bracatinga e a Canafstula. Para esta finalidade foram coletadas duas
amostras de tamanhos igual a 10 rvores. Os resultados para altura, em metros, esto
descritos abaixo para as duas amostras:
Bracatinga 6,5 6,9 6,9 8,6 8,7 8,2 10,0 10,3 13,4 14,4
Canafstula 9,3 10,1 11,4 15,2 17,2 14,8 15,9 20,6 21,9 23,8
Para verificar a hiptese de que as alturas das duas espcies so diferentes, o agrnomo
adotou o seguinte critrio. Construir os intervalos com 95% de confiana, para cada uma das
espcies. Se os intervalos se sobrepem (se interceptam) concluir que no h diferenas
significativas entre as duas alturas medias, caso contrrio, concluir que h diferenas entre as
mesmas. Baseado neste critrio qual a concluso do agrnomo?
153

Piana, Machado e Selau

Inferncia Estatstica

4.3. Na fabricao de semicondutores o ataque qumico por via mida frequentemente usado
para remover silicone da parte posterior das pastilhas antes da metalizao. A taxa de ataque
uma caracterstica importante nesse processo e sabido que ela segue uma distribuio
normal. Duas solues diferentes para ataque qumico so comparadas, usando duas
amostras aleatrias de pastilhas. As taxas observadas de ataque (10-3 polegadas/min) so
dadas a seguir:
Soluo 1
Soluo 2

9,9
10,2

9,4
10,6

9,3
10,7

9,6
10,4

10,2
10,5

10,6
10,0

10,3
10,7

10,0
10,4

10,3
10,3

10,1
-

Os dados justificam a afirmao de que a taxa mdia de ataque seja a mesma para as duas
solues? Considere que ambas as populaes tm varincias iguais, construa o intervalo de
confiana, ao nvel de 95%, para a diferena entre as mdias e conclua.
4.4. Considere os dados do exerccio 4.1. Construa um intervalo de 90% para a varincia da
vida do pneu. Depois converta esse intervalo apresentando-o em termos de desvio padro.
4.5. Uma amostra aleatria de 250 dispositivos eletrnicos apresentou 27 unidades
defeituosas. Estime a frao de no conformes e construa um intervalo de 95% de confiana
para o verdadeiro valor da frao de no conformes.

154

Piana, Machado e Selau

Inferncia Estatstica

4.5. Testes de hipteses


O teste de hiptese um procedimento estatstico em que se busca verificar uma
hiptese a respeito da populao, no sentido de aceit-la ou rejeit-la, a partir de dados
amostrais, tendo por base a teoria das probabilidades.
Em geral, um problema cientfico (expresso na forma de pergunta) conduz a uma
hiptese cientfica (resposta provisria a esta pergunta) que requer uma pesquisa cientfica
para a sua verificao. O teste de hiptese um dos procedimentos mais utilizados na
pesquisa cientfica, sobretudo na pesquisa experimental.
De modo geral, podemos definir cinco passos para construo de um teste de
hipteses:
1. Definir as hipteses estatsticas.
2. Fixar a taxa de erro aceitvel.
3. Escolher a estatstica para testar a hiptese e verificar as pressuposies para o
seu uso.
4. Usar as observaes da amostra para calcular o valor da estatstica do teste.
5. Decidir sobre a hiptese testada e concluir.
4.5.1. Testes para a mdia populacional
 Hipteses estatsticas
A hiptese estatstica uma suposio feita a respeito de um ou mais parmetros, tais
como, mdias de populaes (), varincias de populaes (2), etc. As hipteses estatsticas
surgem de problemas cientficos.
Existem dois tipos bsicos de hipteses estatsticas:
Hiptese de nulidade (H0): a hiptese que est sob verificao. Esta hiptese supe
a igualdade dos parmetros que esto sendo testados.
Hiptese alternativa (HA): a hiptese que ser considerada caso a hiptese de
nulidade seja rejeitada. Esta hiptese supe que os parmetros testados so diferentes.
Duas situaes so comuns em testes de hipteses a respeito da mdia da populao ():
1. Comparao de uma mdia () com um valor padro (0)
Nesta situao, temos uma populao da qual extrada uma amostra e a mdia
desta amostra comparada com um valor j conhecido (valor padro) que serve como
referncia.
H0 : = 0 ou 0 = 0

HA : 0 ou 0 0 hiptese bilateral

> 0 ou 0 > 0 hiptese unilateral direita Devemos escolher a HA mais apropriada


< 0 ou 0 < 0 hiptese unilateral esquerda

155

Piana, Machado e Selau

Inferncia Estatstica

2. Comparao entre duas mdias (1 e 2)


Nesta situao, temos duas populaes, de cada uma extrada uma amostra, e as
mdias das duas amostras so comparadas.
H0 : 1 = 2 ou 1 2 = 0
HA :1 2 ou 1 2 0 hiptese bilateral

1 > 2 ou 1 2 > 0 hiptese unilateral direita Devemos escolher a HA mais apropriada


1 < 2 ou 1 2 < 0 hiptese unilateral esquerda

Consideremos o exemplo a seguir.


Vamos supor que nosso problema cientfico seja a pergunta As raas bovinas
Holandesa e Jersey diferem quanto produo de leite? e nossa hiptese cientfica seja a
afirmao A raa Holandesa produz mais leite que a raa Jersey. Esta hiptese pode ser
verificada de duas formas: pela avaliao das populaes inteiras de vacas das duas raas, ou
seja, todas as vacas das raas Holandesa e Jersey, ou por meio da avaliao de amostras que
sero retiradas dessas populaes. Obviamente, seria impossvel avaliar todas as vacas das
duas raas. E ainda que fosse possvel, sabemos que o processo de amostragem pode
fornecer preciso suficiente; portanto, ser muito mais econmico e menos trabalhoso utilizar
uma amostra.
Ao utilizarmos amostras, consideremos que temos duas populaes:
Populao 1 vacas da raa Holandesa
Populao 2 vacas da raa Jersey
Nestas populaes vamos estudar a varivel contnua X = produo de leite, supondo
que X ~ N (, 2) e que 12 = 22 , conforme figura abaixo

Assim nossos parmetros de interesse so:


E(X1) = 1 = produo mdia da populao 1
E(X2) = 2 = produo mdia da populao 2
Assim, devemos considerar as seguintes hipteses estatsticas.
H0 :1 = 2

HA :1 2

156

Piana, Machado e Selau

Inferncia Estatstica

Observemos que a hiptese alternativa no corresponde necessariamente


expectativa do pesquisador, ou seja, hiptese cientfica. A hiptese a ser testada em um teste
sempre a hiptese de igualdade entre os parmetros, enquanto a hiptese alternativa deve
ser definida pelo pesquisador, podendo ser bilateral ou unilateral. A escolha entre uma e outra,
entretanto, jamais deve ser feita com base nos dados da amostra, tampouco na expectativa do
pesquisador. A hiptese bilateral mais genrica e deve ser utilizada quando no temos
motivos suficientes para esperar que um dos parmetros seja maior ou menor que o outro.
Assim, supomos apenas que os parmetros sero diferentes, caso a hiptese de igualdade
seja rejeitada.
As situaes de aplicao da hiptese unilateral so mais restritas e nem sempre so
muito claras. A opo por uma hiptese unilateral exige que tenhamos mais informaes sobre
o comportamento da varivel de interesse na situao da pesquisa. Estudos anteriores, por
exemplo, podem prover evidncias que suportem uma hiptese unilateral.
A hiptese unilateral pode ser tambm uma decorrncia lgica da situao de
pesquisa, como, por exemplo, quando comparamos a mdia de um grupo tratado (que recebe
determinado tratamento) com a mdia de um grupo controle ou testemunha (que no recebe o
tratamento). Neste caso, se o tratamento no tem efeito, esperamos que as mdias dos dois
grupos sejam iguais; mas se o tratamento tem efeito significativo bastante razovel esperar
que a mdia do grupo tratado (que expressa este efeito) seja maior (e nunca menor do que a
mdia do grupo controle. Outra situao tpica da aplicao da hiptese unilateral ser
apresentada e discutida na seo 4.9.
Um teste de hiptese tambm pode ser classificado de acordo com o tipo de hiptese
alternativa que adota: se a hiptese alternativa bilateral, dizemos que o teste bilateral; se a
hiptese unilateral, o teste unilateral.
 Erros de Concluso
J vimos que um elemento intrnseco ao processo de inferncia o erro. Num teste de
hipteses, devemos considerar que as hipteses estatsticas so estabelecidas a respeito de
valores populacionais (parmetros) e as concluses so obtidas a partir de dados amostrais
(estimativas), ou seja, baseamos nossas concluses em apenas uma parte da informao
(amostra) que, eventualmente, pode no representar o todo (populao), portanto, existe a
possibilidade de estarmos cometendo um erro de concluso. Como a hiptese sob verificao
H0, dois tipos de erro esto associados deciso a respeito dela, so eles:
Erro Tipo I: rejeitar H0 quando ela verdadeira
= P(erro tipo I) probabilidade de cometer o erro tipo I
Erro Tipo II: no reijeitar H0 quando ela falsa
= P(erro tipo II) probabilidade de cometer o erro tipo II
A tabela a seguir ilustra os dois tipos de erro.
Deciso
No rejeitar
Rejeitar

Situao de H0
Verdadeira

Falsa

Acerto

Erro Tipo II

Erro Tipo I

Acerto

Como consequncia, temos que: 1 a probabilidade de no cometer o erro tipo I,


ou seja, a capacidade de no rejeitar H0 verdadeira, e 1 a probabilidade de no cometer
o erro tipo II, ou seja, a capacidade de rejeitar H0 falsa. A probabilidade 1 denominada
157

Piana, Machado e Selau

Inferncia Estatstica

poder do teste. Podemos dizer, ento, que o poder do teste a probabilidade de declarar
diferenas quando elas, de fato, existem. O poder de um teste est relacionado com os
seguintes fatores: tamanho da amostra, variabilidade da varivel e magnitude da diferena
existente entre as mdias.
importante ressaltar ainda que as duas taxas de erro ( e ) esto relacionadas
negativamente, de modo que a reduo de implica no aumento de e vice-versa. Para que
os testes de hipteses tenham validade, necessrio que sejam delineados de modo a
minimizar os erros de concluso. Entretanto, o nico meio de reduzir ambos os tipos de erro
aumentando o tamanho da amostra, o que nem sempre vivel. Na prtica, devemos definir
qual dos dois erros mais grave e, ento, minimiz-lo. Podemos adiantar, contudo, que, via de
regra, a preocupao est voltada para o erro tipo I, pois na maioria dos casos ele
considerado o mais grave. A probabilidade de ocorrncia do erro tipo I () chamada de nvel
de significncia do teste.
 Estatstica do teste
Para testar hipteses a respeito do parmetro , utilizamos a varivel aleatria T,
T=


.
S( )

Vejamos agora como o valor da varivel T obtido nas duas situaes mais comuns
de testes de hipteses a respeito de .
Situao 1. Comparao de uma mdia () com um valor padro (0).
Inicialmente, devemos lembrar que para compararmos uma mdia com um valor
padro utilizando a varivel aleatria T, a seguinte pressuposio deve ser verdadeira:
A varivel em estudo tem distribuio normal, ou seja, X ~ N (, 2).
Neste caso, a hiptese estatstica sob verificao ser:
H0 : = 0 .

Sob H0 verdadeira, a varivel aleatria T =


onde:


tem distribuio t com parmetro ,
S( )

= = 0
= X
S( ) = S(X) =

S
n

=n1
Da resulta que T =

X 0
=
S
S( )
n

Podemos verificar que, sendo 0 um valor conhecido, a varivel aleatria T torna-se


uma estatstica, pois passa a ser funo apenas da amostra.
158

Piana, Machado e Selau

Inferncia Estatstica

Situao 2. Comparao entre duas mdias (1 e 2)


Ao compararmos duas mdias populacionais utilizando a estatstica T, trs
pressuposies devem ser verdadeiras:
1. A varivel em estudo tem distribuio normal, ou seja, X ~ N (, 2);
2. As varincias das populaes so iguais ( 12 = 22 );
3. As amostras retiradas das populaes so independentes.
Atendidas as pressuposies, a hiptese estatstica sob verificao ser:
H0 : 1 2 = 0 .

Quando H0 supe que o parmetro estimado igual a zero, ou seja, = 1 2 = 0 ,


temos:
T=

Da resulta que T =

=
=
~ t ().
S( ) S( ) S( )

X1 X2

S()
1 1

+ S
n1 n2

,
2

onde:

= X1 X2
S2 ( n 1) + S22 ( n2 1)
1 1
S( ) = X1 X2 = + S2 , sendo S2 = 1 1
( n1 1) + ( n2 1)
n1 n2
= ( n1 1) + (n2 1)

Observemos que, tambm nesta situao, a varivel aleatria T passa a ser uma
estatstica.
 Critrio de deciso
A regra de deciso a respeito de H0 pode ser estabelecida com base num valor
crtico:
Teste bilateral: se a hiptese alternativa for bilateral, o valor crtico ser:
t/2(): valor da estatstica T, para graus de liberdade, que delimita a rea /2,
encontrado na tabela da distribuio t (limites bilaterais da Tabela II do Apndice).
Teste unilateral: se a hiptese alternativa for unilateral, o valor crtico ser:
t(): valor da estatstica T, para graus de liberdade, que delimita a rea ,
encontrado na tabela da distribuio t (limites unilaterais da Tabela II do Apndice).
Para decidir comparamos o valor da estatstica T =

com o valor crtico:


S( )

Rejeitamos H0 , ao nvel , se o valor da estatstica, em mdulo, for maior que o


valor crtico:
| t | > valor crtico
159

Piana, Machado e Selau

Inferncia Estatstica

No temos motivos suficientes para rejeitar H0 , ao nvel , se o valor da estatstica,


em mdulo, for menor que o valor crtico:
| t | < valor crtico

Podemos observar a seguir as regies de rejeio H0 na curva da distribuio t para


cada uma das trs possibilidades de hiptese alternativa:
Para hiptese alternativa bilateral, ou seja, HA :1 2 0

Para hiptese alternativa unilateral direita, ou seja, HA :1 2 > 0 , temos:

Para hiptese alternativa unilateral esquerda, ou seja, HA :1 2 < 0 , temos:

160

Piana, Machado e Selau

Inferncia Estatstica

Outro critrio tem sido frequentemente utilizado para decidir sobre H0 . Essa deciso
tambm pode ser baseada em um valor que expressa a probabilidade de que seja obtido um
valor t mais extremo que o valor observado, dado que H0 verdadeira. Esta probabilidade
conhecida como valor p.

A deciso a respeito de H0 tomada da seguinte forma:


Se o valor p for maior ou igual a , no rejeitamos a hiptese nula, pois t tpico ou
est em uma regio de alta probabilidade.

Se o valor p for menor que , rejeitamos a hiptese nula, pois t atpico ou est em
uma regio de baixa probabilidade.

 Consideraes finais
Os intervalos de confiana e os testes de hipteses bilaterais so procedimentos
estatsticos equivalentes. Portanto, se forem utilizados para analisar os mesmos dados, ao
mesmo nvel de significncia, devem conduzir aos mesmos resultados.
O intervalo de confiana para uma mdia equivale ao teste de hipteses que compara
uma mdia com um padro. Observe as expresses:
Intervalo de confiana para uma mdia ()
S
.
n
Estatstica T para a comparao de uma mdia () com um valor padro (0)
X 0
T=
.
S
n
IC( ; 1 ) : X t /2

161

Piana, Machado e Selau

Inferncia Estatstica

Da mesma forma, o intervalo de confiana para a diferena entre duas mdias


equivale ao teste de hipteses que compara duas mdias. Observe as expresses:
Intervalo de confiana para a diferena entre duas mdias (1 2)
1 1
IC(1 2 ; 1 ) : X1 X2 t /2 + S2
n1 n2

Estatstica T para a comparao entre duas mdias (1 e 2)


T=

X1 X2
1 1 2
+ S
n1 n2

Exemplos:
1. Se no teste de hipteses, ao nvel de 1% de significncia, rejeitamos H0 : 0 = 0 ,
significa que a diferena entre a mdia e o valor padro diferente de zero, ou seja, a mdia
diferente do valor padro. Construindo o intervalo de confiana para , ao nvel de 99%,
devemos esperar que o valor padro (0) esteja fora do intervalo. Caso contrrio, os resultados
seriam contraditrios.
2. Se no teste de hipteses, ao nvel de 5% de significncia, no rejeitamos
H0 : 1 2 = 0 significa que a diferena entre as duas mdias deve ser zero, ou seja, as
mdias podem ser consideradas iguais. Construindo o intervalo de confiana, ao nvel de 95%,
para a diferena entre essas mdias (1 2), devemos esperar que o valor zero esteja dentro
do intervalo. Caso contrrio, os resultados seriam contraditrios.
Vejamos a seguir dois exemplos resolvidos:
Exemplo 1. Um botnico recebeu a informao de que o dimetro mdio de flores de uma
determinada planta de 9,6cm. Para testar a veracidade da informao, tomou uma amostra
aleatria de 30 plantas, cujo dimetro mdio de flores observado foi 9,3cm, com desvio padro
de 3,2cm.
a) Verifique, utilizando teste de hipteses ao nvel de 5% de significncia, se a
informao recebida pelo botnico verdadeira.
b) Verifique se a informao verdadeira, utilizando intervalo de confiana ao nvel de
95%.
c) Houve coerncia entre os resultados do teste de hipteses e do intervalo de
confiana?
Resoluo:
a) Teste de hipteses
Varivel em estudo: X = dimetro de flores (cm)
1. Pressuposio: A varivel em estudo tem distribuio normal.
H0 : 0 = 0
2. Hipteses estatsticas:
HA : 0 0
A hiptese de nulidade supe que o dimetro mdio de flores da populao desta
espcie de planta igual ao valor padro 9,6cm.

162

Piana, Machado e Selau

Inferncia Estatstica

3. Estatstica do teste

= 0 = 0
= X
0

S
n

S( ) = S(X) =

=n1
X 0

T=
=

S
S()
n

Assim, temos:
x 0 = 9,3 9,6 = 0,3
s
3,2
=
= 0,5842
n
30
= 30 1 = 29
t/2(29) = 2,045
0,3
t=
= 0,5135
0,5842

4. Deciso e concluso
Como |t = 0,5135| < t/2(29) = 2,045, no temos motivos para rejeitar H0 . Conclumos,
ao nvel de 5% de significncia, que o dimetro mdio de flores desta planta no difere
significativamente do valor padro 0 = 9,6 . Portanto, a informao recebida pelo botnico
verdadeira.
b) Intervalo de confiana
Pressuposio: A varivel em estudo tem distribuio normal.
Estimativas:
x = 9,3
s
3,2
=
= 0,5842
n
30
= 30 1 = 29
t/2(29) = 2,045

Sendo IC(; 1 ) : t /2 S( )
S
IC( ; 1 ) : X t /2
n
temos:
IC (; 0,95): 9,3 2,045 0,5842
Limite inferior = 9,3 1,195 = 8,11
Limite superior = 9,3 + 1,195 = 10,50
P(8,11 < < 10,50) = 0,95
163

Piana, Machado e Selau

Inferncia Estatstica

Conclumos que o intervalo de confiana, ao nvel de 95%, para o verdadeiro dimetro


mdio de flores desta planta de 8,11 a 10,50cm.
c) Sim, o resultado do teste de hipteses esta coerente com o do intervalo de
confiana, pois o valor padro 9,6, que segundo o teste de hiptese no difere de , est
dentro do intervalo de confiana, ou seja, um valor possvel para .
Exemplo 2. Para investigar se o treinamento ou no transferido pelo cido nuclico, 10 ratos
foram treinados em discriminar se havia luz ou escurido. Posteriormente, esses ratos foram
mortos, o cido nuclico dos mesmos foi extrado e injetado em 10 ratos. Simultaneamente o
cido nuclico de 10 ratos no treinados foi injetado em outros 10. Os 20 ratos injetados com
cido nuclico foram observados durante um perodo de tempo quanto capacidade de
discriminar luz e escurido. O nmero de erros relativos a cada rato est na tabela abaixo.
Treinados
No treinados

7
12

9
8

6
9

11
13

13
14

8
9

7
8

13
10

12
7

9
15

a) Verifique, utilizando teste de hipteses ao nvel de 5% de significncia, se o


treinamento ou no transferido pelo cido nuclico.
b) Construa o intervalo de confiana, ao nvel de 95%, para a diferena entre as
mdias das duas populaes.
c) Houve coerncia entre os resultados do teste de hipteses e do intervalo de
confiana?
Resoluo:
a) Teste de hipteses
Varivel em estudo: X = nmero de erros ao discriminar luz e escurido
1. Pressuposies:
A varivel em estudo tem distribuio normal, ou seja, X ~ N (, 2);
As varincias das populaes so iguais ( 12 = 22 = );
As amostras retiradas das populaes so independentes.

H0 :1 2 = 0
2. Hipteses estatsticas:
HA :1 2 0

A hiptese de nulidade supe a igualdade entre as mdias das duas populaes.


164

Piana, Machado e Selau

Inferncia Estatstica

3. Estatstica do teste

= 1 2 = 0
= X X
1

1 1
S( ) = S(X1 X2 ) = + S2
n1 n2
= ( n1 1) + (n2 1)
T=

X1 X2

S()
1 1

+ S
n1 n2

Amostra 1: n1 = 10

x1 = 9,5

Amostra 2: n2 = 10

x 2 = 10,5

s12 = 6,722
s22 = 7,833

x1 x 2 = 9,5 10,5 = 1
s2 =

s12 ( n1 1) + s22 ( n2 1)

( n1 1) + ( n2 1)

6,722 9 + 7,833 9
= 7,278
9+9

1 1 2
1
1
+ 7,278 = 1,206
+ s =
10 10
n1 n2

= 9 + 9 = 18
t/2(18) = 2,101
t=

1
= 0,8292
1,206

4. Deciso e concluso
Como |t = 0,8292| < t/2(18) = 2,101, no temos motivos para rejeitar H0 . Conclumos,
ento, ao nvel de 5% de significncia, que a mdia de erros do grupo que recebeu cido
nuclico de ratos treinados no diferiu significativamente da mdia de erros do grupo que
recebeu cido nuclico de ratos no treinados. Se o treinamento fosse transferido pelo acido
nuclico, a mdia de erros da populao 1 deveria ser menor que a mdia de erros da
populao 2. Portanto, h evidncias de que o treinamento no transferido pelo cido
nuclico.
b) Intervalo de confiana para a diferena entre as mdias
Varivel em estudo: X = nmero de erros ao discriminar luz e escurido
Pressuposies:
A varivel em estudo tem distribuio normal, ou seja, X ~ N (, 2);
2

As varincias das populaes so iguais ( 1 = 2 = );


As amostras retiradas das populaes so independentes.
Estimativas:
x1 x 2 = 9,5 10,5 = 1

165

Piana, Machado e Selau


s2 =

s12 ( n1 1) + s22 ( n2 1)

( n1 1) + ( n2 1)

Inferncia Estatstica

6,722 9 + 7,833 9
= 7,278
9+9

1 1 2
1
1
+ 7,278 = 1,206
+ s =
10 10
n1 n2

= 9 + 9 = 18
t/2(18) = 2,101
1 1
Sendo IC(1 2 ; 1 ) : X1 X2 t /2 + S2 ,
n1 n2

temos:
IC (1 - 2; 0,95): -1 2,101 1,206
IC (1 - 2; 0,95): -1 2,533
Limite inferior = -1 - 2,533 = -3,533
Limite superior = -1 + 2,533 = 1,533
P(-3,533 < 1 - 2 < 1,533) = 0,95
Conclumos que a probabilidade de a verdadeira diferena entre a mdia de erros da
populao que recebeu cido nuclico de ratos treinados e a mdia de erros da populao que
recebeu cido nuclico de ratos no treinados estar entre -3,533 e 1,533 de 0,95.
c) Pelo teste de hipteses, conclumos que a verdadeira diferena entre as mdias
deve ser zero e, pelo intervalo de confiana, conclumos que zero um valor possvel para a
verdadeira diferena entre as mdias, uma vez que se encontra dentro do intervalo. Portanto, o
resultado do teste de hipteses est de acordo com o do intervalo de confiana.
4.5.2. Testes para a varincia populacional
4.5.2.1. Teste para a varincia de uma populao
Para aplicar o teste para a varincia necessrio supor a normalidade da populao
de onde ser extrada a amostra. Se essa suposio violada, o teste deixa de ser exato. Uma
hiptese testada com frequncia que a varincia tenha um valor especificado 20 . Assim, as
hipteses a serem testadas so:
H0 : 2 = 02
HA : 2 20 hiptese bilateral

2 > 02 hiptese unilateral direita


2 < 02 hiptese unilateral esquerda
A estatstica do teste Q que tem distribuio qui-quadrado com parmetro = n1 e
assim definida:
(n 1)S2
Q=
~ 2 ( ) ,
2

onde:

S2 o estimador da varincia populacional 2;


n o tamanho da amostra;
= n1 o nmero de graus de liberdade associado varincia.
166

Piana, Machado e Selau

Inferncia Estatstica

A regio de rejeio de H0 definida em funo do tipo de hiptese alternativa. Logo,


fixado um nvel de significncia , a hiptese nula rejeitada se o valor da estatstica do teste
ultrapassar o valor crtico (inferior ou superior) da distribuio qui-quadrado (Tabela III do
Apndice):
se q > q /2( ) ou q > q /2( ) , rejeitamos H0;
se q < q /2( ) e q < q /2( ) , no rejeitamos H0.
Para HA : 2 02

(bilateral)

Para HA : 2 < 02 (unilateral esquerda)

Para HA : 2 > 02 (unilateral direita)

Esse teste tem larga aplicao no controle da qualidade, uma vez que o
monitoramento da variabilidade essencial para a garantia de qualidade.
Consideremos o exemplo resolvido.
Uma mquina de empacotar caf est regulada para encher os pacotes com desvio
padro de 10g e mdia de 500g e onde o peso de cada pacote distribui-se normalmente.
Colhida uma amostra de n = 16, observou-se uma varincia de 169g2. possvel afirmar com
este resultado que a mquina est desregulada quanto variabilidade, supondo uma
significncia de 5%?
Resoluo:
167

Piana, Machado e Selau

Inferncia Estatstica

H0 : 2 = 02
Hipteses estatsticas:
2
2
HA : 0

Sendo 20 = 100 , s2 = 169 e n = 16, temos:


q=

(n 1)s2

2
0

(16 1) 169
= 25,35 .
100

Como = 0,05 e =15, os valores crticos so q0,025(15 ) = 6,26 e q 0,025(15) = 27,49 . O


valor calculado est contido neste intervalo, portanto, no rejeitamos H0. Conclumos, ao nvel
de 5% de significncia, que no h evidncia de que e a mquina esteja desregulada.
4.5.2.2. Teste de homogeneidade de varincias (teste F)
Considere duas estimativas distintas e independentes de 2, representadas por s12 e
s22 , com 1 e 2 graus de liberdade, respectivamente. Frequentemente, temos interesse em
verificar se tais estimativas so homogneas, ou seja, se so de fato estimativas de um mesmo
parmetro. Um teste apropriado para essa finalidade o teste F. Neste teste, verificamos a
hiptese de nulidade ( H0 ) por meio de uma estatstica que tem distribuio F, com parmetros

1 e 2.
 Hipteses estatsticas
A hiptese que est sob verificao ( H0 ) a hiptese de igualdade entre as varincias
populacionais. O conjunto das hipteses, incluindo todas as possveis hipteses alternativas, :
H0 : 12 = 22 ou 12 /22 = 1
HA : 12 22 ou 12 /22 1 hiptese bilateral

12 > 22 ou 12 /22 > 1 hiptese unilateral direita


12 < 22 ou 12 /22 < 1 hiptese unilateral esquerda
 Estatstica do teste
Como vimos na seo 4.4.3, dadas duas amostras independentes, de tamanhos n1 e
n2, retiradas de duas populaes normais, a varivel aleatria F tem distribuio F, com
parmetros 1 e 2
S12
F=

12
S22

~ F(1, 2 ) ,

22
onde:
S12 e S22 : so as varincias das amostras retiradas das populaes 1 e 2,
respectivamente;
12 e 22 : so as varincias das populaes 1 e 2, respectivamente;

1 = ( n1 1) e 2 = ( n2 1) : so os graus de liberdade de S12 e S22 , respectivamente.


Se a hiptese de nulidade verdadeira, ou seja, 12 = 22 = 2 , a varivel F torna-se

168

Piana, Machado e Selau

Inferncia Estatstica
S12
F=

12
S22

22

S12
=

2
S22

S12
.
S22

S12
~ F(1, 2 ) , ou seja,
S22
a estatstica F, obtida atravs da razo de duas varincias amostrais independentes, tem
distribuio F com parmetros 1 e 2, graus de liberdade do numerador e denominador,
respectivamente.

Deste modo, dizemos que, sob H0 verdadeira, a estatstica F =

Assim, para que a estatstica F possa ser utilizada na comparao das varincias
populacionais, duas pressuposies devem ser atendidas:
1. A varivel em estudo tem distribuio normal, X ~ N (, 2).
2. As amostras so independentes.
 Critrio de deciso
Para efetuar o teste F, convencionamos que a estatstica F obtida fixando a maior
varincia no numerador. Isto garante que o valor da estatstica nunca ser menor que 1 e
possibilita a utilizao das tabelas mais comumente disponveis para consulta. Por conveno,
vamos considerar que S12 S22 .
A regra de deciso a respeito de H0 pode ser estabelecida com base no valor crtico
f/2( 1,2 ) , que, para os graus de liberdade 1 e 2, delimita a rea /2 (Tabela IV do Apndice).

Rejeitamos H0 , ao nvel , se o valor da estatstica F for maior que o valor crtico:


f=

s12
> f/2( 1,2 ) .
s22

No rejeitamos H0 , ao nvel , se o valor da estatstica F for menor que o valor


crtico:
f=

s12
< f/2( 1,2 ) .
s22

Podemos observar a seguir as regies de rejeio de H0 na curva da distribuio F,


para os casos de hiptese alternativa unilateral e de hiptese alternativa bilateral.
Para HA : 12 > 22

(unilateral direita)

Para HA : 12 22

(bilateral)

169

Piana, Machado e Selau

Inferncia Estatstica

Neste caso, quando a hiptese alternativa bilateral, dizemos que o teste bilateral
condicionado, porque somente um lado da curva ser considerado. Como a tabela usualmente
utilizada adequada para testes F unilaterais, a rea de rejeio direita do valor crtico ser
representada por /2.
Consideremos dois exemplos resolvidos:
Exemplo 1. Os valores abaixo se referem aos pesos ao nascer (em kg) de bovinos da raa
Ibag, em duas pocas distintas:
Agosto

18 25 16 30 35 23 21 33 32 22

Setembro 27 30 20 30 33 34 17 33 20 23 39 23 28
Efetue o teste de homogeneidade de varincias, ao nvel = 0,05.
Resoluo:
Varivel em estudo: X = peso ao nascer (em kg) de bovinos da raa Ibag
1. Pressuposies
A varivel em estudo tem distribuio normal, X ~ N (, 2).
As amostras retiradas das populaes so independentes.
2
2
H0 : 1 = 2
2. Hipteses estatsticas:
2
2
HA : 1 2

3. Estatstica do teste
F=

S12
S22

1 = n1 1 = 9

Amostra 1 (agosto):

x1 = 25,5

Amostra 2 (setembro): 2 = n2 1 = 12
f=

s12 = 43,83

x 2 = 27,46

s22 = 42,60

s12 43,83
=
= 1,029
s22 42,60

4. Deciso e concluso
Como f = 1,029 < f0,025(9, 12) = 3,44, no temos informaes suficientes para rejeitar
H0 . Assim, conclumos, ao nvel de 5% de significncia, que as varincias de pesos ao nascer
de bovinos da raa Ibag nas diferentes pocas so homogneas.
Exemplo 2. Um experimento foi conduzido para comparar duas cultivares de soja (A e B)
quanto ao rendimento mdio por hectare. Os resultados obtidos foram os seguintes:
Cultivar A: n1 = 8

x1 = 3,8 t.ha-1

s12 = 0,04(t.ha-1 )2

Cultivar B: n2 = 10

x 2 = 4,6 t.ha-1

s22 = 0,36(t.ha-1 )2

Verifique, utilizando =0,05, se a pressuposio de homogeneidade de varincias foi


atendida.
170

Piana, Machado e Selau

Inferncia Estatstica

Resoluo:
Varivel em estudo: X = rendimento de soja (por hectare)
1. Pressuposies
A varivel em estudo tem distribuio normal, X ~ N (, 2).
As amostras retiradas das populaes so independentes.
H0 : 12 = 22
2. Hipteses estatsticas:
2
2
HA : 1 2

3. Estatstica do teste
F=

S12
S22

Amostra 1 (cultivar A): 1 = n11 = 7

x1 = 3,8 t.ha-1

s12 = 0,04(t.ha-1 )2

Amostra 2 (cultivar B): 2 = n21 = 9

x 2 = 4,6 t.ha-1

s22 = 0,36(t.ha-1 )2

Por conveno colocamos a maior estimativa no numerador, resultando assim


f=

s22 0,36
=
=9.
s12 0,04

4. Deciso e concluso
Como f = 9 > f0,025(9, 7) = 4,82, temos evidncias suficientes para a rejeio de H0 .
Assim, podemos concluir, ao nvel de 5% de significncia, que as varincias de rendimento de
gros (em t/ha) das cultivares A e B no so homogneas.
4.5.3. Testes para a proporo populacional
4.5.3.1. Teste para a proporo de uma populao
O teste para a proporo populacional, em geral, utilizado para verificar se a
proporo de elementos da populao que possuem uma determinada caracterstica igual a
um determinado valor 0. Assim as hipteses estatsticas so:
H0 : = 0 ou 0 = 0
HA : 0 ou 0 0 hiptese bilateral

> 0 ou 0 > 0 hiptese unilateral direita


< 0 ou 0 < 0 hiptese unilateral esquerda
O estimador da proporo a proporo amostral P, que tem uma distribuio
(1 )
aproximadamente normal, com mdia P = e desvio padro P =
, quando a
n
amostra grande, ou seja, quando np>5 e n(1-p)>5.
Assim, utilizamos a varivel Z para testar H0:
Z=

P
.
(1 )
n

171

Piana, Machado e Selau

Inferncia Estatstica

Sob H0 : = 0 verdadeira, temos


Z=

P 0

0 (1 0 )
n

A deciso sobre H0 baseada nos valores crticos z/2, para o teste bilateral, ou z,
para o teste unilateral, encontrados na tabela da distribuio Z (Tabela I do Apndice).

Assim, fixando o nvel de significncia , a hiptese nula ser rejeitada se:


|z| > z/2, no teste bilateral;
z > z, no teste unilateral direita;
z < z, no teste unilateral esquerda.
Vamos considerar um exemplo resolvido:
As condies de mortalidade de uma regio so tais que a proporo de nascidos que
sobrevivem at 70 anos de 0,60. Testar esta hiptese ao nvel de 5% de significncia se em
1000 nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes at os 70 anos.
Resoluo:
H0 : = 0
Hipteses estatsticas:
HA : 0

Sendo 0 = 0,60 e p = 0,53, temos:


z=

p 0

0 (1 0 )
n

0,53 0,60
= 4,52 .
0,60(1 0,60)
1000

Considerando que o teste bilateral e tendo = 0,05, os valores crticos so


-z/2 = -1,96 e z/2 =1,96.
Como este valor pertence regio de rejeio, rejeitamos a hiptese nula, ao nvel de
5% de significncia. Conclumos que a taxa dos que sobrevivem at os 70 anos menor do
que 60%.

172

Piana, Machado e Selau

Inferncia Estatstica

4.5.3.2. Teste para a diferena entre duas propores


A aproximao da distribuio normal tambm pode ser usada para testar hipteses
sobre diferenas entre propores de duas populaes, ou seja, para testar as hipteses:
H0 : 1 = 2 ou 1 2 = 0
HA : 1 2 ou 1 2 0 hiptese bilateral

1 > 2 ou 1 2 > 0 hiptese unilateral direita


1 < 2 ou 1 2 < 0 hiptese unilateral esquerda
Nesse caso, duas amostras aleatrias de tamanho n1 e n2 so retiradas das
populaes, gerando x1 e x2 itens pertencentes s classes da caracterstica de interesse. Ento
P1 = X1/n1 e P2 = X2 /n2 so os estimadores das propores populacionais 1 e 2.
A varivel P1 P2 ter uma distribuio aproximadamente normal com mdia 1 2 e
(1 1 ) 2 (1 2 )
varincia 2P1 P2 = 1
.
+
n1
n2
Assim, a varivel Z resulta:
Z=

(P1 P2 ) (1 2 )
1(1 1 ) 2 (1 2 )
n1

n2

Sob H0 : 1 = 2 verdadeira, temos 1 2 = 0 e como consequncia:


Z=

(P1 P2 )
1(1 1 ) 2 (1 2 )
n1

n2

Como os valores de 1 e 2 no so conhecidos, devemos utilizar suas estimativas p1


e p2. Desta forma, o valor de Z :
z=

p1 p2
p1(1 p1 ) p2 (1 p2 )
+
n1
n2

A deciso sobre H0 baseada nos valores crticos z/2, para o teste bilateral, ou z,
para o teste unilateral, encontrados na tabela da distribuio normal padro.
Vejamos o exemplo resolvido:
Em uma pesquisa de opinio, 32 entre 80 homens declararam apreciar certa revista,
acontecendo o mesmo com 26 entre 50 mulheres. Ao nvel de 5% de significncia os homens e
as mulheres apreciam igualmente a revista?
Resoluo:
H0 : 1 = 2
Hipteses estatsticas:
HA : 1 2

173

Piana, Machado e Selau

Inferncia Estatstica

Sendo p1 = 32/80 = 0,40 e p2 = 26/50 = 0,52, temos:


z=

p1 p2
p1(1 p1 ) p2 (1 p2 )
+
n1
n2

0,40 0,52
= 1,34
0,40 0,60 0,52 0,48
+
80
50

Como = 0,05, ento, z/2 = 1,96.


Sendo o |z| calculado menor que o valor crtico, no rejeitamos a hiptese de
igualdade entre as preferncias de homens e mulheres. Conclumos, ao nvel de 5% de
significncia, que no h diferena significativa entre as preferncias de homens e mulheres
quanto revista.

4.6. Quebras nas pressuposies adotadas no processo de inferncia


O teste t somente pode ser aplicado com resultados exatos se as pressuposies de
normalidade, homogeneidade de varincias e independncia entre amostras forem atendidas.
Das trs, a pressuposio de normalidade a mais robusta, ou seja, mesmo com normalidade
aproximada o teste poder ser realizado. Ademais, o teorema central do limite um poderoso
auxiliar nestes casos, uma vez que a distribuio necessita ser considerada em termos da
mdia da varivel. As outras duas devero ser consideradas com maior cuidado. No caso de
varincias heterogneas, apenas procedimentos aproximados podero ser utilizados. Veremos
a seguir dois procedimentos alternativos para os casos de violao dessas pressuposies.
4.6.1. Heterogeneidade de varincias
Se as varincias das populaes no so iguais ( 12 22 ), no podemos combinar as
varincias amostrais, S12 e S22 , pois estas no so mais estimativas de um mesmo parmetro
(2). Nesse caso, o erro padro do estimador resulta em:

S( ) = S X1 X2 =

S12 S22
+
n1 n2

Diversas modificaes do teste so propostas na literatura, entretanto, nenhuma


considerada completamente satisfatria. Aqui ser mencionada uma delas, bastante utilizada,
proposta por Satterthwaite, que estima o nmero de graus de liberdade associado estatstica,
uma vez que no existe uma varincia ponderada com nmero nico de graus de liberdade,
como no caso de varincias homogneas. Para a obteno do valor crtico, utilizamos, ento, o
nmero de graus de liberdade estimado ( ), atravs da Frmula de Satterthwaite:

(S + S )
=
(S ) + (S )
2
1

2 2
2

2 2
1

2 2
2

n1 1

n2 1

Nesse caso, rejeitamos H0 , ao nvel , se | t | > t ( ).


Vamos considerar o exemplo resolvido:
Com referncia ao Exemplo 2 da seo 4.7.2.2, verifique se os rendimentos mdios
das cultivares A e B diferem significativamente entre si, utilizando = 0,05.
174

Piana, Machado e Selau

Inferncia Estatstica

Resoluo:
1. Pressuposies:
- A varivel em estudo tem distribuio aproximadamente normal, X ~ N (, 2).
- As amostras retiradas das populaes so independentes.
H0 :1 2 = 0
2. Hipteses estatsticas:
HA :1 2 0

A hiptese de nulidade supe a igualdade entre as mdias das duas populaes.


3. Estatstica do teste

= 1 2 = 0
= X1 X2 = 3,8 4,6 = 0,8
Como verificamos na resoluo do Exemplo 2, a pressuposio de homogeneidade de
varincias no foi atendida, portanto, no podemos combinar as varincias das amostras.
Temos, ento
S2 S2
0,04 0,36
S( ) = S(X1 X2 ) = 1 + 2 =
+
= 0,041 = 0,2025
10
8
n1 n2
T=

0,8
=
= 3,951
S( ) 0,2025

4. Deciso e concluso
Devido heterogeneidade das varincias, o nmero de graus de liberdade deve-se ser
estimado pela frmula de Satterthwaite:

(s + s )
=
(s ) + (s )
2
1

2 2
1

2 2
2

2 2
2

n1 1 n2 1

2
0,04 + 0,36 )
(
=
( 0,04 )2 + ( 0,36 )2

8 1

0,16
= 10,94
0,0002286 + 0,0144

10 1

Para consulta tabela, o nmero de graus de liberdade pode ser arredondado. No


exemplo, o valor crtico ser t 0,025(11) = 2,201.
Como |t = 3,951| > t/2() = 2,201, temos motivos para rejeitar H0 . Conclumos, ento,
ao nvel de 5% de significncia, que o rendimento mdio de gros da cultivar A diferiu
significativamente do rendimento mdio de gros da cultivar B. Portanto, h evidncias de que
a cultivar B mais produtiva.
4.6.2. Dependncia entre as amostras
Quando comparamos as mdias de duas populaes, pode ocorrer uma diferena
significativa devido a fatores externos no-controlveis que inflacionam as estimativas das
varincias. Um modo de contornar este problema coletar observaes aos pares, de modo
que os dois elementos de cada par sejam homogneos em todos os sentidos, exceto naquele
que se quer comparar.
175

Piana, Machado e Selau

Inferncia Estatstica

Por exemplo, para testar dois mtodos de ensino A e B, pode-se usar pares de
gmeos, sendo que um recebe o mtodo de ensino A e o outro o mtodo de ensino B. Este
procedimento controla a maioria dos fatores externos que afetam a aprendizagem. Se houver
diferena, ela realmente se deve ao mtodo.
Outra forma fazer as observaes das duas amostras no mesmo indivduo. Por
exemplo, medindo uma caracterstica do indivduo antes e depois dele ser submetido a um
tratamento.
Nesses casos, temos duas amostras, mas as observaes esto emparelhadas, isto ,
a amostra formada pelos pares:
(X1, Y1), (X2, Y2), ..., (Xn, Yn).
Ao usarmos esse procedimento, passamos a ter uma dependncia entre as
observaes de um mesmo par. Por essa razo, no podemos preceder o teste de
comparaes de mdias da mesma forma como realizado no caso de independncia entre as
amostras.
Assim, para verificar se existe diferena entre X e Y , definimos a varivel D= Xi -Yi.
Como resultado, temos a amostra: D1 = X1- Y1, D2 = X2- Y2, ..., Dn = Xn- Yn. Desta forma, reduzse o problema para anlise de uma nica populao.
1
1
Di = (Xi Yi ) = X Y , e

n
n
Di2 nD2
D
1

2
2
assim D ter distribuio N(D , ) . Definindo: SD =
(Di D) = n 1 , tem-se que
n 1
n
a estatstica:
D D
T=
~ t( ) , onde =n-1.

Supondo que D tem distribuio N(D , D ) , temos D =

SD

As hipteses de interesse so:


H0 : X = Y ou D = 0
HA : X Y ou D 0 hiptese bilateral

X > Y ou D > 0 hiptese unilateral direita


X < Y ou D < 0 hiptese unilateral esquerda
Sob H0 : X = Y verdadeira, temos D = 0 e como consequncia:
T=

D D

SD
n

D0

SD
n

SD

~ t( ) .

A deciso sobre H0 tomada comparando o valor calculado para t com o valor crtico
da distribuio t (Tabela II do Apndice).
Vejamos um exemplo resolvido:
Cinco operadores de mquinas so treinados em duas mquinas de diferentes
fabricantes, para verificar qual delas apresentava maior facilidade de aprendizagem. Mediu-se
o tempo que cada um dos operadores gastou na realizao de uma mesma tarefa com cada
um dos dois tipos de mquinas. Os resultados esto na tabela a seguir.
176

Piana, Machado e Selau

Inferncia Estatstica

Operador Mquina X Mquina Y Diferena


1
80
75
5
2
72
70
2
3
65
60
5
4
78
72
6
5
85
78
7
Ao nvel de 5% possvel afirmar que h diferena no tempo mdio da tarefa realizada na
mquina X e na mquina Y?
Resoluo:
H0 : X = Y
Hipteses estatsticas:
HA : X Y

Pela tabela vemos que:


di = 5, 2, 5, 6 e 7,
logo,
2
D

d=5 e s

( di d)
=
n 1

= 28,5 .

Assim, obtemos
t=

sD
n

5
= 2,094 .
5,339
5

Sendo = 0,05 e = 4, temos t 0,025(4) = 2,778.


Como o t calculado menor que o valor crtico, no rejeitamos a hiptese nula. Conclumos, a
5% de significncia, que no h diferena no tempo mdio da tarefa realizada na mquina X e
na mquina Y.

Exerccios propostos:
4.6. Cinco medidas do contedo de alcatro em um cigarro X acusaram: 14,5, 14,2, 14,4, 14,8,
e 14,1 miligramas por cigarro. Este conjunto de cinco valores tem mdia 14,4 e desvio padro
0,274. O leitor pretende testar a hiptese nula H0: = 14,1 (conforme declarado no mao) ao
nvel de 0,05 de significncia.
a)
b)
c)
d)

H0 seria aceita, contra a alternativa HA: 14,1?


H0 seria aceita, contra a alternativa HA: < 14,1?
H0 seria aceita, contra a alternativa HA: > 14,1?
Que suposies so necessrias para fazer o teste de hipteses?

4.7. Suponha que um fabricante sem escrpulos deseje uma prova cientfica de que um
aditivo qumico totalmente incuo melhora o rendimento.
a) Se um grupo de pesquisa analisa esse aditivo com um experimento, qual a
probabilidade de chegar a um resultado significativo com = 0,05 (para promover o
aditivo com afirmaes cientficas) mesmo que o aditivo seja totalmente incuo?
177

Piana, Machado e Selau

Inferncia Estatstica

b) Se dois grupos independentes de pesquisa analisam o aditivo, qual a probabilidade


de que pelo menos um deles chegue a um resultado significativo, mesmo que o aditivo
seja totalmente incuo?
c) Se 32 grupos independentes de pesquisa analisam o aditivo, qual a probabilidade de
que pelo menos um deles chegue a um resultado significativo, mesmo que o aditivo
seja totalmente incuo?
4.8. Suponha que um farmacutico pretenda achar um novo unguento para reduzir inchao.
Para tanto, ele fabrica 20 medicamentos diferentes e testa cada um deles, ao nvel de 0,10 de
significncia, quanto a finalidade em vista.
a) Qual a probabilidade de ao menos um deles se revelar eficaz mesmo que todos sejam
totalmente incuos?
b) Qual a probabilidade de mais de um deles se revelarem eficazes, mesmo que todos
sejam totalmente incuos?
4.9. O fabricante de uma certa marca de aparelhos eletrnicos informou que a potncia mdia
dos seus aparelhos de 27 microwatts. O gerente de uma loja que vende os aparelhos utiliza
uma amostra de 15 aparelhos para checar se a informao do fabricante verdadeira. Os
valores (em microwatts) obtidos para a amostra foram os seguintes:
26,7; 25,8; 24,0; 24,9; 26,4; 25,9; 24,4; 21,7; 24,1; 25,9; 27,3; 26,9; 27,3; 24,8; 23,6
Utilize um teste de hiptese, ao nvel de 5% de significncia, e verifique qual foi a concluso do
gerente.
4.10. Dez cobaias adultas criadas em laboratrio, foram separadas, aleatoriamente, em dois
grupos: um foi tratado com rao normalmente usada no laboratrio (padro) e o outro grupo
foi submetido a uma nova rao (experimental). As cobaias foram pesadas no incio e no final
do perodo de durao do experimento. Os ganhos de peso (em gramas) observados foram os
seguintes:
Rao padro
200 180 190 190 180
Rao experimental

220

200

210

220

210

Utilize um teste de hiptese, ao nvel =0,01, para verificar se as duas raes diferem entre si.
4.11. Os valores abaixo se referem aos pesos ao nascer (em kg) de bovinos da raa Ibag, em
duas pocas distintas:
Agosto: 18 25 16 30 35 23 21 33 32 22
Setembro: 27 30 20 30 33 34 17 33 20 23 39 23 28
Efetue o teste de homogeneidade de varincias, ao nvel = 0,05.
4.12. Um engenheiro deseja testar a hiptese de que o percentual de peas defeituosas
inferior a 10%. Uma amostra aleatria com 75 peas revelou 6 peas defeituosas. Use = 0,05
e conclua a respeito.

178

Piana, Machado e Selau

Inferncia Estatstica

4.7. Regresso linear simples


4.7.1. Introduo
Em muitos estudos estatsticos, o objetivo do pesquisador estabelecer relaes que
possibilitem predizer uma ou mais variveis em termos de outras. Assim que se fazem
estudos para predizer as vendas futuras de um produto em funo do seu preo, a perda de
peso de uma pessoa em decorrncia do nmero de dias que se submete a uma determinada
dieta, a despesa de uma famlia com mdico e remdios em funo da renda, o consumo per
capita de certos alimentos em funo do seu valor nutritivo e do gasto com propaganda na TV,
a produo de uma determinada cultura em funo da quantidade de nutriente aplicada no
solo, etc.
Naturalmente, o ideal seria que pudssemos predizer uma quantidade exatamente em
termos de outra, mas isso raramente possvel. Na maioria dos casos devemos contentar-nos
com a predio de mdias, ou valores esperados. Por exemplo, no podemos predizer
exatamente quanto ganhar um bacharel nos 10 anos aps a formatura, mas com base em
dados adequados, possvel predizer o ganho mdio de todos os bacharis nos 10 anos aps
a formatura. Analogamente, podemos predizer a safra mdia de certa variedade de trigo em
termos do ndice pluviomtrico de julho, e a nota mdia de um estudante em funo do seu QI.
Sendo assim, podemos dizer que a predio do valor mdio de uma varivel em funo dos
valores de outra constitui o problema principal da regresso.
A origem desse termo remonta a Francis Galton (1822-1911), que o empregou pela
primeira vez em um estudo da relao entre as alturas de pais e filhos. Galton observou, nesse
estudo, que filhos de pais muito altos, em mdia, no eram to altos quanto os seus pais, da
mesma forma que filhos de pais muito baixos, em mdia, no eram to baixos quanto os seus
pais. A partir dessas observaes, concluiu que a altura dos filhos tendia para a mdia () da
espcie, ou seja, a cada gerao a altura dos filhos convergia ou regredia para a mdia. Esse
fenmeno de retorno mdia foi, ento, denominado regresso.

Por questes histricas o termo utilizado at hoje, mas abriga uma srie de tcnicas
estatsticas.
A expresso regresso linear simples utilizada por duas razes: a regresso linear
porque a relao entre X e Y expressa por uma equao de primeiro grau, representada
graficamente por uma reta, e simples porque envolve apenas duas variveis.
 Ajustamento de curvas
Sempre que possvel, procuramos expressar em termos de uma equao matemtica
as relaes entre grandezas conhecidas e grandezas que devem ser determinadas. Isso ocorre
179

Piana, Machado e Selau

Inferncia Estatstica

com frequncia nas cincias naturais, onde, por exemplo, a relao entre o volume (y) e
presso (x) de um gs, a uma temperatura constante, dada pela expresso
k
y= ,
x
sendo k uma constante numrica. Outro exemplo pode ser a relao entre uma cultura de
bactrias (y) e o tempo (x) em que esteve exposta a certas condies ambientais, que dada
por
y = ab x ,
onde a e b so constantes numricas. Mais recentemente, equaes como essas tm sido
usadas para descrever relaes tambm no campo das cincias do comportamento, das
cincias sociais e outros.
Essa representao matemtica dos fenmenos feita ajustando-se uma curva aos
dados observados, de tal forma que, a partir dessa curva ajustada, possamos representar,
grfica ou analiticamente, a relao entre as variveis. Ento, ajustar uma curva determinar
uma funo matemtica que possa representar um conjunto de observaes. Sempre que
utilizamos dados observados para chegar a uma equao matemtica encontramos trs tipos
de problema:
1. Devemos decidir que tipo de curva e, da, que tipo de equao de predio
queremos utilizar.
2. Devemos achar a equao particular que a melhor em determinado sentido.
3. Devemos investigar possveis problemas relativos ao mrito da equao escolhida e
da predio feita a partir dela.
Aqui vamos restringir nosso estudo s equaes lineares com duas incgnitas. Estas
equaes lineares so teis e importantes no s porque muitas relaes tm efetivamente
esta forma, mas tambm porque em geral constituem boas aproximaes de relaes que, de
outro modo, seriam difceis de descrever em termos matemticos.
 Modelo estatstico
Sendo x e y duas variveis que se relacionam de forma linear, esta relao expressa
pela seguinte equao:
y = 0 + 1x ,
Na figura a seguir podemos observar a representao grfica desta equao.

180

Piana, Machado e Selau

Inferncia Estatstica

Se Y uma varivel aleatria, ento, est sujeita a um erro de observao. Este erro
(ei) dever ser adicionado ao modelo, desde que se admitam como verdadeiras as seguintes
pressuposies:
1. Os erros so aleatrios, tm mdia zero e varincia constante, ou seja, E(ei) = 0 e
V(ei) = 2.
2. Os erros tm distribuio normal e so independentes entre si.
3. O modelo adequado para todas as observaes, no podendo haver nenhum
valor de X que produza um valor de Y discrepante dos demais.
4. A varivel X fixa (no aleatria).
Assim, o modelo de regresso linear simples ser:
yi = 0 + 1xi + ei

onde:
yi : a varivel resposta (dependente)
xi : a varivel preditora (independente)
0 : o intercepto ou coeficiente linear

1 : o coeficiente angular ou de regresso


ei : erro (variao aleatria no controlvel)
Sendo assim, verificamos que este modelo composto por uma parte fixa e uma parte
aleatria:

A parte fixa do modelo informa como X influencia Y e a parte aleatria mostra que Y
possui uma variabilidade inerente, significando que X no a nica varivel que influencia Y,
embora consideremos que sua influncia seja preponderante. Alis, devemos ressaltar que
este modelo ser adequado quando a parte fixa for preponderante sobre a aleatria.
A ttulo de ilustrao, consideremos o exemplo a seguir.
Exemplo 1. Um experimento foi conduzido para estudar o efeito da dose de Nitrognio
aplicada no solo sobre a produo de uma espcie de forrageira. Para as cinco doses
utilizadas, foram observados os seguintes resultados:
Parcela
1
2
3
4
5

Dose de Nitrognio
(kg/ha)
0
50
100
150
200

Produo de
forragem (kg/ha)
2.160
2.880
3.360
3.720
4.020

De modo geral, um grfico de disperso de valores observados para a varivel


resposta j suficiente para indicar o tipo de curva (reta, parbola, etc) que melhor descreve o
padro geral dos dados. A figura a seguir mostra a disperso dos valores observados para a
varivel produo de forragem quando diferentes doses de Nitrognio foram aplicadas.
181

Piana, Machado e Selau

Inferncia Estatstica

Podemos observar uma tendncia linear dos dados, o que nos permite supor que a relao
entre dose de Nitrognio e produo de forragem seja linear.

Admitindo, ento, o relacionamento linear entre as variveis, vamos adotar o modelo


de regresso linear simples:
yi = 0 + 1xi + ei ,

onde:
yi a produo de forragem (varivel resposta), em kg;
xi a dose de Nitrognio (varivel preditora), em kg;
0 a produo de forragem quando a dose de Nitrognio aplicada for nula
(intercepto), em kg;
1 a quantidade que varia na produo de forragem para cada unidade (kg) aplicada
de Nitrognio (coeficiente de regresso), em kg/kg.
ei o erro (variao aleatria no controlvel)
4.7.2. Anlise de regresso
A anlise de regresso tem por objetivo determinar a equao que melhor representa
a relao existente entre duas variveis e, a partir desta equao, fazer predies para a
varivel resposta. Para isso, necessrio que uma sequncia de passos seja seguida:
1. Obteno das estimativas (por ponto) dos coeficientes 0 e 1 para ajustar a
equao da regresso.
2. Aplicao dos testes de significncia para as estimativas obtidas, a fim de verificar
se a equao de regresso adequada.
3. Clculo dos intervalos de confiana para os valores estimados pela equao de
regresso.
4.7.2.1. Estimao dos parmetros do modelo
Quando temos n observaes, temos n pares de valores, (x1, y1); (x2, y2); ... ; (xn, yn),
onde os valores observados para a varivel resposta (yi) so representados pela equao da
regresso:
182

Piana, Machado e Selau

Inferncia Estatstica
y1 = 0 + 1x1 + e1

yi = 0 + 1x i + ei y 2 = 0 + 1x 2 + e2

i = 1,2,,n

y n = 0 + 1x n + en

Os coeficientes 0 e 1 so os parmetros do modelo, e, portanto, constantes


desconhecidas, que sero estimados a partir dos valores da amostra.
Se yi = 0 + 1xi + ei , ento
E(yi ) = E(0 + 1xi + ei )
E(yi ) = E(0 ) + E(1xi ) + E(ei )
E(yi ) = 0 + 1xi

Sendo assim, se yi = 0 + 1xi + ei , ento


yi = E(yi ) + ei ,
logo,
ei = yi E(yi ) .

A estimao dos parmetros 0 e 1 efetuada atravs do mtodo dos mnimos


quadrados.
 Mtodo dos mnimos quadrados
Este mtodo tem como objetivo obter as estimativas dos parmetros 0 e 1 de tal
forma que a soma dos quadrados dos erros ( ei2 ) seja o menor valor possvel.
Vimos que ei = yi E(yi ) e E(yi ) = 0 + 1xi ,
logo,

ei2 = [ yi E(yi )]

= [ yi (0 + 1xi )] .
2

Para encontrar os valores de 0 e 1 que tornam mnima a soma de quadrados dos


erros, devemos, inicialmente, encontrar para a expresso acima as derivadas parciais em
relao a 0 e 1 .
ei2
= 2 (yi 0 1xi ).( 1)
0
ei2
= 2 (yi 0 1xi ).( xi )
1

Observamos que os valores de 0 e 1 das duas expresses acima variam de acordo


com os valores que se atribui s derivadas parciais. Entretanto, para obter os pontos crticos
(mximos ou mnimos), devemos igualar essas derivadas a zero, onde 0 e 1 assumem um
valor particular, ou seja, representam as estimativas dos parmetros de forma que a soma dos
quadrados dos erros seja mnima. Deste modo, igualando a zero as derivadas parciais, temos
2 (yi 0 1xi ) = 0 , sendo

(yi 0 1xi ) = 0

e
183

Piana, Machado e Selau


2 (yi 0 1xi ) xi , sendo

Inferncia Estatstica

(yi xi 0 xi 1xi2 ) = 0 .

Podemos, ento determinar os valores de 0 e 1 , atravs de um sistema de


equaes normais.

(y i 0 1x i ) = 0

2
(y i x i 0 xi 1x i ) = 0
Aplicando as propriedades da soma, temos

y i n 0 1 x i = 0

2
y i x i 0 x i 1 x i ) = 0
e arrumando a expresso para que os termos fiquem positivos, temos

n 0 + 1 x i = y i

2
0 x i + 1 x i = y i x i
A resoluo do sistema pode ser feita por substituio. Comeamos por isolar o 0 na
primeira equao:
n 0 + 1 xi = yi
n 0 1 xi yi
+
=
n
n
n
n 0 xi yi
+ 1
=
n
n
n

0 + 1x = y
= y x
0

Determinado o valor de 0 , isolamos o 1 na segunda equao:

0 xi + 1 xi2 = yi xi
(y 1x) xi + 1 xi2 = yi xi

xi y xi 1x + 1 xi2 = yi xi
xi y 1x xi + 1 xi2 = yi xi
xi y + 1 xi2 1x xi = yi xi
1 ( xi2 x xi ) = yi xi xi y
yi y x xi yi
y
x

i
i
i
i i
yx xy
n =
n
1 = i2 i i =
.
2
x
x

x
x

i
2
i i xi
x
(
)

i
xi xi2
n
n
184

Piana, Machado e Selau

Inferncia Estatstica

e
Os estimadores 0 e 1 so os pontos crticos das razes das equaes i = 0 e
0
2

ei2
= 0 , podendo ser pontos de mnimo ou de mximo. Entretanto, demonstra-se que os
1
pontos crticos de qualquer funo que seja uma soma de quadrados sero sempre pontos de
mnimo. Da podemos concluir que de 0 e 1 so pontos de mnimo, ou seja, a soma de
quadrados dos erros mnima.

Consideremos agora o experimento descrito no Exemplo 1. importante lembrar que,


sendo uma tcnica de inferncia, a anlise de regresso linear simples tem o objetivo de
determinar a equao que melhor represente o relacionamento entre as variveis na
populao. No exemplo em questo, busca modelar a resposta mdia desta espcie de
forrageira quando diferentes doses de Nitrognio so aplicadas no solo. Sendo assim, cada
parcela do experimento constitui uma amostra da populao para uma determinada dose de
Nitrognio. Atravs da equao da reta ajustada podemos obter as estimativas dos valores
mdios das populaes, denotados por E(y/x i ) ou i , para qualquer quantidade de Nitrognio
que pertena ao intervalo estudado, no exemplo, de 0 a 200 kg/ha. Vejamos agora como essas
estimativas so obtidas.
Vimos que os valores observados so expressos por yi = 0 + 1xi + ei e os valores
esperados por E(yi /xi ) = 0 + 1xi . As estimativas destes valores esperados so denotadas por

i e podem ser obtidas atravs da equao ajustada:

i = 0 + 1xi
A partir da podemos obter tambm as estimativas dos erros. Sendo ei = yi E(yi /x i ) ,
as estimativas dos erros so obtidas por
e i = yi i .

Utilizando os dados do Exemplo 1, vamos estimar os parmetros do modelo de


regresso linear simples. Inicialmente, devemos construir uma tabela auxiliar que inclua todos
os clculos intermedirios para a obteno das estimativas dos parmetros, atravs do modelo
yi = 0 + 1xi + ei .
Tabela auxiliar:

i
1
2
3
4
5

Mdia

Dose de
Nitrognio
( xi )
0
50
100
150
200
500
100

Produo de
forragem ( yi )
2.160
2.880
3.360
3.720
4.020
16.140
3.228

xi2

0
2.500
10.000
22.500
40.000
75.000
-

xi y i

0
144.000
336.000
558.000
804.000
1.842.000
-

Obtidas a soma de quadrados X e a soma de produtos de X e Y, podemos calcular as


estimativas de 1 e 0 .

185

Piana, Machado e Selau

Inferncia Estatstica

yi xi ni
=
1
2
xi )
(

2
xi n
x

yi

500 16140
228000
5
=
= 9,12
2
25000
500
75000
5

1842000
=

0 = y 1x = 3228 9,12 100 = 2316


Podemos obter agora as estimativas das mdias de produo de forragem e dos erros
para cada dose de Nitrognio.
Sendo i = 2316 + 9,12xi , temos

1 = 2316 + 9,12 x1 = 2316 + 9,12 0 = 2.316 kg/ha;


2 = 2316 + 9,12 x 2 = 2316 + 9,12 50 = 2.772 kg/ha;
3 = 2316 + 9,12 x 3 = 2316 + 9,12 100 = 3.228 kg/ha;
4 = 2316 + 9,12 x 4 = 2316 + 9,12 150 = 3.684 kg/ha;
5 = 2316 + 9,12 x 5 = 2316 + 9,12 200 = 4.140 kg/ha;
Sendo e i = yi i , temos
e 1 = y1 1 = 2160 2316 = 156 kg/ha;
e 2 = y 2 2 = 2880 2772 = 108 kg/ha;
e 3 = y 3 3 = 3360 3228 = 132 kg/ha;
e 4 = y 4 4 = 3720 3684 = 36 kg/ha;
e 5 = y5 5 = 4020 4140 = 120 kg/ha.

Na figura abaixo podemos observar o grfico de disperso dos valores de Y com a


reta ajustada.

186

Piana, Machado e Selau

Inferncia Estatstica

Admitindo que a varivel resposta tem distribuio normal, os valores i estimam a


produes mdias populacionais E(y/x i ) correspondentes s cinco doses de Nitrognio
aplicadas. O valor y 5 = 4.020 kg/ha , por exemplo, o valor observado na parcela que recebeu
200 kg/ha de Nitrognio e que constitui uma amostra aleatria da populao que recebe esta
dose, enquanto o valor y 5 = 4.140 kg/ha a estimativa da mdia desta populao
E(y/x i ) = 200 , conforme podemos observar na figura a seguir.

importante destacar tambm que o modelo de regresso linear simples pressupe


que as varincias das populaes de valores de Y so iguais para quaisquer valores de X.
Essa homogeneidade de varincias representada na figura 4.4 pelas curvas de mesmo
formato.
4.7.2.2. Testes de significncia para a estimativa de 1
Devemos considerar que as estimativas de 0 e 1 , obtidas at agora, so estimativas
por ponto, de modo que no sabemos o quo prximas elas esto dos parmetros. Dentre os
parmetros do modelo de regresso linear simples, o coeficiente de regresso ( 1 )
considerado o mais importante, pois ele quem define a declividade da reta. Sendo assim,
quando estimamos o 1 , devemos verificar se esta estimativa difere significativamente de zero.
Esta verificao feita atravs de um teste de hipteses, cujas hipteses de interesse so:
H0 : 1 = 0

HA : 1 0

187

Piana, Machado e Selau

Inferncia Estatstica

Se o 1 no diferir estatisticamente de zero significa que o efeito linear de X sobre Y


no significativo. Para testar H0 podemos utilizar dois procedimentos: a anlise da variao e
o teste t, j estudado anteriormente.
 Anlise da variao
A anlise da variao consiste em decompor a variao total das observaes,
representada pelos desvios (yi y) , em duas partes:
- a variao explicada pela reta da regresso, representada pelos desvios ( i - y) .
- a variao aleatria, no explicada pela reta, representada pelos desvios (yi i ) .
Assim, a variao de cada observao pode ser representada pela seguinte
expresso:
(yi y) = ( i y) + (yi i )
(yi y) = ( i y) + e i

Esses desvios podem ser observados na figura abaixo, onde temos o grfico de
disperso dos pontos e a reta ajustada para os dados do experimento com Nitrognio
(Exemplo 1).

Considerando que a soma de desvios em relao mdia sempre zero, para


obtermos a variao total das observaes, devemos somar os quadrados dos desvios, o que
resulta
(yi y)2 = ( i y)2 + (yi i )2
variao
total

desvio explicado desvio no explicado


pela reta
pela reta (erro)

Ao dividirmos as somas de quadrados (Q) pelos graus de liberdade obtemos as


varincias (V), tambm denominadas quadrados mdios.

188

Piana, Machado e Selau

Inferncia Estatstica

Os graus de liberdade e as varincias (quadrados mdios) so obtidos da seguinte


forma:
Grau de liberdade total: Total = n1, onde n o nmero de observaes.
Grau de liberdade da regresso: Reg = p1, onde p o nmero de parmetros do
modelo.
Grau de liberdade do erro: Erro = np
QReg
Varincia da regresso: VReg =

Reg

Varincia do erro: VErro =

QErro

Erro

A varincia do erro (VErro) e a varincia da regresso (VReg) so utilizados para testar a


hiptese de interesse ( H0 : 1 = 0 ). A VErro estima a variao aleatria ( 2 ), enquanto a VReg
2
estima a variao da regresso ( Reg
) que composta pela variao aleatria ( 2 ) mais o
2
efeito linear de X sobre Y ( Reg ), ou seja, Reg
= 2 + Reg . Assim, temos um conjunto de

hipteses a respeito das varincias que corresponde ao conjunto de hipteses a respeito do 1 :


2
H0 : Reg
= 2 efeito linear de X sobre Y no significativo

2
2
HA : Reg >

H0 : 1 = 0 efeito linear de X sobre Y no significativo

HA : 1 0

Para testar H0, utilizamos a estatstica F, que definida como a razo entre duas
varincias e tem distribuio F, com parmetros 1 e 2:
F=

VReg
VErro

Se esta razo for significativamente maior do que 1 (um), conclumos que a variao
da regresso significativamente maior que a variao do erro e que, portanto, esta diferena
se deve ao efeito linear de X sobre Y. Vale lembrar que o modelo s adequado para explicar
o relacionamento entre as duas variveis quando a parte fixa do modelo (Regresso)
preponderante sobre a parte aleatria (Erro).
Em geral, a anlise da variao apresentada na forma de tabela, conforme o
esquema abaixo.
Tabela da anlise da variao:
Fonte de variao
Regresso
Erro
Total

( i y)2

p1
np
n1

E(V)

ei2

2 + Reg

= (yi i )

F
VReg
VErro

(yi y)

189

Piana, Machado e Selau

Inferncia Estatstica

Para facilitar o processo de clculo na obteno das somas de quadrados, as


seguintes frmulas prticas podem ser utilizadas:
QTotal =

yi2

( yi )2
n

QReg = 12 (xi x)2 ;


QErro = QTotal QReg

(por diferena).

A deciso a respeito de H0 ser tomada comparando o valor da estatstica F com o


valor crtico encontrado na tabela de F.
Rejeitamos H0, ao nvel de significncia, se f =

VReg
VErro

No rejeitamos H0, ao nvel de significncia, se f =

> f( 1,2 ) .

VReg
VErro

< f( 1,2 ) .

Para o Exemplo 1 vamos testar a hiptese de interesse a respeito do 1 . Inicialmente,


obtemos as somas de quadrados, atravs das frmulas prticas. Temos ento:
QTotal =

yi2

( yi )2
n

= 54248400

260499600
= 2148480
5

QReg = 12 (xi x)2 = 9,122 25000 = 2079360


QErro = QTotal QReg = 2148480 2079360 = 69120
Obtidas as somas de quadrados, os demais resultados podem ser apresentados
diretamente na tabela da anlise da variao.
Tabela da anlise da variao:
Fonte de variao

Regresso

2.079.360

2.079.360

Erro

69.120

23.040

Total

2.148.480

F
90,25

Como o valor calculado f = 90,25 foi maior que o valor crtico f0,01(1,3) = 34,12 ,
conclumos, ao nvel = 0,01, que o efeito linear da dose de Nitrognio sobre a produo desta
forrageira significativo, sendo que essa relao pode ser expressa pela equao
i = 2316 + 9,12xi . Isto significa que para cada kg/ha de Nitrognio aplicado no solo a
produo de forragem aumenta, em mdia, 9,12 kg/ha.

190

Piana, Machado e Selau

Inferncia Estatstica

 Teste t
Outro procedimento que pode ser utilizado para testar H0 : 1 = 0 o teste t. Como j
visto em sees anteriores, utilizamos a estatstica T que tem distribuio t de Student quando
H0 verdadeira. Nesse caso, temos = 1 = 0 , resultando:
T=

=
=
~ t( ) ,
S( ) S( ) S( )

onde:

= 1 ;
S( ) = S( 1 ) ;
= n 2;

A estimativa do erro padro do estimador do coeficiente de regresso, S( 1 ) , obtida


da seguinte forma:
yi (xi x)
V( 1 ) = V

(x x)2
i

1
V yi (xi x)
2
(x x)
i

1
V( 1 ) =
( x x)2 V(yi )
2 i
(xi x)2

V(yi )
V( 1 ) =
(xi x)2
V( 1 ) =

V( 1 ) =

(xi x)2

Sendo 2 um parmetro desconhecido, utilizamos o seu estimador


S2 =

(yi i )2 = e i2
n2

n2

para obter a estimativa da varincia do estimador do coeficiente de regresso

S2 ( 1 ) =

S
=
(xi x)2

e i2
n2 .
(x
i x)2

Da resulta que

e i2
S( 1 ) = S2 ( 1 ) =

n2
.
(xi x)2

Assim, sob H0 verdadeira, temos

191

Piana, Machado e Selau

T=

1
=
S( 1 )

Inferncia Estatstica

~ t( )

e i2
n2
(xi x)2

No exemplo, temos
t=

1
9,12
9,12
=
=
= 9,5
23040 0,96
s( 1 )
25000

Como o valor calculado t = 9,5 foi maior que o valor crtico valor t/2(3) = 5,841,
conclumos, ao nvel = 0,01, que o efeito linear da dose de Nitrognio sobre a produo desta
forrageira significativo. Podemos verificar tambm a correspondncia entre os valores das
estatsticas F e T. O valor da estatstica F deve ser igual ao quadrado do valor da estatstica T
(f = t 2 ) . Para esse exemplo temos f = 90,25 = 9,52 = t 2 .
Vimos em sees anteriores que o teste t bilateral e o intervalo de confiana, para um
mesmo nvel , so procedimentos estatsticos equivalentes de modo que conduzem aos
mesmos resultados. Sendo assim, o intervalo de confiana tambm pode ser utilizado para
verificar se 1 difere significativamente de zero ou no. Utilizando as mesmas expresses
acima deduzidas, podemos obter o intervalo de confiana para o 1 . Partindo da expresso
geral para intervalos de confiana
IC(; 1 ) : t /2 S( ) ,

e fazendo as substituies referentes ao parmetro em questo, temos


IC(1 ; 1 ) : 1 t /2 S( 1 )

e i2
IC(1 ; 1 ) : 1 t /2

n2
(x
i x)2

No exemplo, temos

e i2
IC(1 ; 1 ) : 1 t /2

n2
(xi x)2

IC(1;0,99) : 9,12 5,841

23040
25000

IC(1;0,99) : 9,12 5,61


Limite inferior : 9,12 5,61 = 3,51
Limite superior : 9,12 + 5,61 = 14,63
P(3,51 < 1 < 14,63 ) = 0,99

Assim, conclumos que probabilidade de os limites 3,51 e 14,63 conterem o verdadeiro


valor do coeficiente de regresso 1 de 0,99. Portanto, o efeito linear da dose de Nitrognio
sobre a produo da forrageira significativo.
192

Piana, Machado e Selau

Inferncia Estatstica

O teste de significncia e o intervalo de confiana para o parmetro 0 so feitos de


maneira anloga. Nesse caso, a estatstica
T=

~ t( )
S( )

utilizada considerando o seguinte:

= 0 ;
= ;
0

1
S( ) = S( 0 ) = +
n

1
ei2
x2
2
S = +

;
2
2
n ( xi x ) n 2
( xi x )
x2

= n 2.

4.7.2.3. Intervalos de confiana para as mdias das populaes i


Como vimos anteriormente, i um parmetro e i a estimativa pontual desse
parmetro. Vejamos agora como construir um intervalo de confiana para i . Consideremos a
expresso geral do intervalo de confiana:
IC(; 1 ) : t /2 S( ) ,

onde:

= i
=

S( ) = S( i )
= n 2.

Para obter o erro padro do estimador i , partimos do modelo

i = 0 + 1xi ,
Sendo 0 = y 1x , temos

i = y 1x + 1xi
i = y + 1(xi x).
Para este modelo temos
V( i ) = V y + 1(xi x)

V( i ) = V(y) + V 1(xi x)

V( i ) = V(y) + (xi x)2 V( 1 )

yi (xi x) , V(y) =
Sendo 1 =
2
(xi x)

ei2

, temos
=
n2

193

Piana, Machado e Selau

V( i ) =
V( i ) =

Inferncia Estatstica

yi (xi x)
+ (xi x)2 V

(x x)2
n
i

2
2
n

+ (xi x)2

(xi x)2

1
(xi x)2 2
V( i ) = +

n (x x)2
i

2
2
1
(xi x) ei
V( i ) = +

n (x x)2 n 2
i

Sendo 2 um valor desconhecido, utilizamos o seu estimador


e i2
S2 =
n2
i
para obter a estimativa da varincia do estimador
2
1
(xi x)2 2 1
(xi x)2 e i
S2 ( i ) = +
S
=
+

.
n (x x)2
n (x x)2 n 2
i
i

Da resulta que
2
1
(xi x)2 e i
S( i ) = S ( i ) = +

.
n (x x)2 n 2
i

O intervalo de confiana para i obtido pela expresso


IC(i ; 1 ) : i t /2 S( i )
IC(i ; 1 ) : i t /2

2
1
(xi x)2 e i
+

.
n (x x)2 n 2
i

Utilizando a expresso acima, vamos construir os intervalos de confiana para as


mdias do Exemplo 1. Na tabela auxiliar abaixo temos os clculos intermedirios e os valores
obtidos para os limites dos intervalos, considerando = 0,05 e o valor t/2(3) = 3,183.
i

xi

yi

(xi x)2

2160 10000 2.316


2500
2880
2.772
0
3360
3.228
2500
3720
3.684
4020 10000 4.140
500 16.140 25.000 16.140
1 0
2 50
3 100
4 150
5 200

ei2

s( i )

24.336 117,58
11.664 83,14
17.424 67,88
1.296
83,14
14.400 117,58
69.120
-

t /2 s( i )

Limite
inferior

Limite
superior

374,26
264,63
216,06
264,63
374,26
-

1.941,76
2.507,37
3.011,93
3.419,37
3.765,76
-

2.690,24
3.036,63
3.444,07
3.948,63
4.514,24
-

A figura a seguir apresenta o grfico de disperso dos valores de Y com os intervalos


ao nvel de 95% de confiana estimados para as mdias i . Podemos observar que o intervalo
de confiana tem maior preciso no ponto xi = x , onde o desvio (xi x) igual a zero.
medida que se distancia da mdia, o intervalo de confiana aumenta sua amplitude, ou seja,
diminui a preciso.
194

Piana, Machado e Selau

Inferncia Estatstica

Disperso dos valores de Y com os intervalos ao nvel de 95% de confiana


estimados para as mdias i .

195

Piana, Machado e Selau

Inferncia Estatstica

4.8. Testes de qui-quadrado (2)


4.8.1. Consideraes gerais
At agora tratamos da anlise dos chamados dados de medio ou mensurao, que
so valores referentes a variveis numricas de variao contnua, tais como peso, altura,
temperatura, etc.
Em muitos casos, entretanto, comum o pesquisador defrontar-se com problemas em
que necessita verificar, a partir de um grupo de indivduos (amostra), se frequncias
observadas em classes de uma varivel qualitativa (cor, forma, estado, opinio, etc.) esto de
acordo com frequncias resultantes de uma teoria.
As classes, tambm denominadas categorias, so as alternativas das variveis
qualitativas em estudo. Os indivduos que constituem a amostra so enquadrados nessas
classes e contados. As observaes numricas resultantes dessa contagem so dados de
enumerao e representam as frequncias observadas nessas classes. Os dados de
enumerao provenientes de uma teoria so denominados frequncias esperadas.
O teste que permite verificar se frequncias observadas esto de acordo com
frequncias esperadas denominado teste qui-quadrado por utilizar a estatstica Q que tem
distribuio qui-quadrado. A seguir so relacionados alguns exemplos de propores que
podem ser verificadas atravs do teste qui-quadrado:
- propores de germinao de sementes;
- proporo de pacientes curados aps a aplicao de uma vacina ou medicamento;
- proporo de peas defeituosas que saem de uma linha de montagem;
- em estudos no campo da gentica, propores de fentipos resultantes de
cruzamentos de indivduos.
4.8.2. Estatstica do teste
Quando queremos verificar se as diferenas entre as frequncias observadas e
esperadas nas classes de uma varivel qualitativa so reais ou casuais, utilizaremos o teste
qui-quadrado dado por uma estatstica Q, que tem distribuio qui-quadrado com parmetro .
Esta estatstica assim definida:
k

( Xi Ei )2

i=1

Ei

Q =

~ 2 (),

onde:
Xi: a frequncia observada da classe i;
Ei: a frequncia esperada da classe i;
k: nmero total de classes da varivel;
= k 1 : o nmero de graus de liberdade ou classes independentes.
O teste qui-quadrado est sujeito a algumas restries que devem ser observadas
sempre que ele for utilizado.
1. O teste vlido apenas para frequncias absolutas. Percentagens e propores devem
ser transformadas em frequncias absolutas antes da realizao do teste.
2. A distribuio qui-quadrado uma distribuio derivada da distribuio normal, sendo,
portanto, uma distribuio contnua. Como os dados analisados atravs de procedimentos quiquadrado so provenientes de processos de contagem, algumas consideraes devero ser
feitas para garantir uma boa aproximao.

196

Piana, Machado e Selau

Inferncia Estatstica

a) Usar uma correo, chamada de correo de continuidade, sempre que se


trabalha com apenas um grau de liberdade. Essa correo consiste em subtrair
0,5 do mdulo da diferena entre as frequncias observada e esperada, ou seja,
k

Q=
i=1

Xi Ei 0,5 )
Ei

b) A aproximao de distribuies discretas para contnuas s razovel quando se


assegura que nenhuma frequncia esperada seja inferior a 5, de forma que a
aproximao melhora para valores maiores. Assim, quando h frequncias
esperadas menores que 5 conveniente agrup-las.

4.8.3. Classificao simples


Quando o objetivo for verificar se as frequncias observadas concordam com as
frequncias esperadas dadas por uma teoria, teremos uma tabela de classificao simples, ou
seja, onde os indivduos so classificados segundo um nico fator qualitativo. De modo geral,
podemos representar esta tabela da seguinte forma
A

A1

A2

...

Ak

Frequncia observada

X1

X2

...

Xk

Frequncia esperada

E1

E2

...

Ek

onde:
A a varivel categrica;
Ai so as classes (categorias) da varivel;
k o nmero total de classes da varivel;
Xi so as frequncias observadas nas classes da varivel;
Ei so as frequncias esperadas para as classes da varivel segundo uma
determinada teoria.
Neste caso, a hiptese de nulidade a ser testada a hiptese de aderncia ou
concordncia que supe que os dados observados se ajustam a teoria dada pelas frequncias
esperadas. A hiptese alternativa, naturalmente, deve supor o contrrio. Assim temos
H0: as frequncias observadas concordam com as frequncias esperadas
HA: as frequncias observadas no concordam com as frequncias esperadas
4.8.4. Classificao dupla
Em muitos casos, o objetivo no apenas verificar se as frequncias observadas
concordam com as esperadas, mas sim verificar se duas variveis qualitativas (A e B) inerentes
de um mesmo indivduo so ou no independentes entre si.
Neste caso, os indivduos so classificados segundo essas duas variveis e dispostos
em uma tabela de dupla entrada denominada tabela de contingncia. A mais simples dessas
tabelas a 2 2, na qual cada varivel tem apenas duas alternativas (classes). Entretanto,
numa tabela r s (linha por coluna) pode haver mais de duas alternativas para um ou ambas
as variveis.

197

Piana, Machado e Selau

Inferncia Estatstica
B

A
A1
A2

Ar
Totais

B1
X11 (E11)
X21 (E21)

Xr1 (Er1)
X+1

B2
X12 (E12)
X22 (E22)

Xr2 (Er2)
X+2

Bs
X1s (E1s)
X2s (E1s)

Xrs (Ers)
X+s

Totais
X1+
X2+

Xr+
X++

O teste efetuado atravs da varivel Q, assim definida:


Q =
i

(Xij Eij )2

~ 2 (),

Eij

onde:
Xij: frequncia observada da linha i e coluna j, sendo i = 1, 2,..., r e j = 1, 2,..., s;
Eij: frequncia esperada da linha i e coluna j;
r: nmero total de linhas (classes da varivel A);
s: nmero total de colunas (classes da varivel B);
= (r 1).(s 1) : nmero de graus de liberdade ou classes independentes.
As frequncias esperadas (Eij) so obtidas atravs da seguinte expresso
Eij = Xi+

X+j
X++

Xi+ X+j
X++

onde:
Xi+ : somatrio da linha i
X+j : somatrio da coluna j
X++ : somatrio de todas as linhas e todas as colunas

A hiptese a ser testada a hiptese de independncia, que supem que as variveis


A e B independem entre si, ou seja,
H0: a varivel A independe da varivel B
HA: a varivel A depende da varivel B
4.8.5. Critrio de deciso
A regra de deciso a respeito de H0 pode ser estabelecida com base no valor crtico
q( ) que, para o nmero de graus de liberdade , delimita a rea (Tabela III do Apndice),

ou seja,
k

( x i ei ) 2

i=1

ei

- Rejeitamos H0, ao nvel , se q =

> q( ) .
k

( x i ei ) 2

i=1

ei

- No temos motivos suficientes para rejeitar H0 , se q =

< q( ) .

Podemos observar na figura abaixo a regio de rejeio de H0 na curva da


distribuio qui-quadrado:
198

Piana, Machado e Selau

Inferncia Estatstica

Consideremos os exemplos resolvidos:


Exemplo 1. Num determinado cruzamento, os indivduos resultantes foram classificados em
quatro fentipos e contados, sendo observado o seguinte:
Fentipo
A
B
C
D

Nmero de indivduos (Xi)


103
37
28
8

Verifique se esse resultado concorda com as respectivas propores de 9/16; 3/16;


3/16 e 1/16 dadas pelas leis de Mendel, usando = 0,05.
Resoluo:
1. Hipteses estatsticas
H0: as frequncias observadas concordam com as frequncias esperadas
HA: as frequncias observadas no concordam com as frequncias esperadas
2. Estatstica do teste
Obteno das frequncias esperadas (Ei)
Xi
103
37
28
8
176

Ei
9
176
= 99
16
3
176
= 33
16
3
176
= 33
16
1
176
= 11
16
176

Grau de liberdade: = k - 1 = 4 - 1 = 3

199

Piana, Machado e Selau

Inferncia Estatstica

Taxa de erro: = 0,05


k

q=

( x i - ei )

ei

i=1

(103 - 99 )

99

( 37 - 33 )
33

( 28 - 33 )
33

( 8 -11)

11

q = 0,1616 + 0,4848 + 0,7576 + 0,8182 = 2,222

3. Deciso e concluso
Como q = 2,222 < q( ) = 7,81, no temos motivos para rejeitar H0. Assim, conclumos,
ao nvel de 5% de significncia, que as frequncias observadas no diferem significativamente
das frequncias esperadas segundo as leis de Mendel.

Exemplo 2. Nos resultados de uma determinada pesquisa de opinio, foram obtidas 35


respostas favorveis opo 1 e 46 respostas favorveis opo 2. Verifique se esses
resultados concordam com as propores esperadas de 1/2 para a opo 1 e 1/2 para a opo
2. Use =0,01.
Resoluo:
1. Hiptese estatstica
H0: as frequncias observadas concordam com as frequncias esperadas
HA: as frequncias observadas no concordam com as frequncias esperadas
2. Estatstica do teste
Obteno das frequncias esperadas (Ei)
Ei
1
81 = 40,5
2
1
81 = 40,5
2
81

Xi
35
46
81
Grau de liberdade: = k 1 = 2 1 = 1
Taxa de erro: = 0,01

Como o nmero de graus de liberdade igual a 1, obtm-se o valor da estatstica Q


procedendo correo de continuidade:
k

q=
i=1

( xi ei

0,5 )

ei

( 35 40,5 0,5 )
=
40,5

( 46 40,5 0,5 )
+
40,5

= 0,7469 + 0,7469 = 1,494

3. Deciso e concluso
Como q = 1,494 < q( ) = 6,63, no temos motivos para rejeitar H0. Conclumos, ento,
ao nvel de 1% de significncia, que as frequncias observadas no diferem significativamente
das frequncias esperadas. Portanto, as duas opes tm a mesma frequncia.
200

Piana, Machado e Selau

Inferncia Estatstica

Exemplo 3. Trezentos proprietrios de uma certa marca de carro foram entrevistados sobre o
desempenho e o consumo de combustvel de seus carros. Os resultados obtidos na pesquisa
de opinio foram os seguintes:
Desempenho

Consumo

Totais

Regular

Bom

Alto
Baixo

152
88

48
12

200
100

Totais

240

60

300

Verifique, com = 0,05, se os atributos consumo e desempenho so independentes.


Resoluo:
1. Hiptese estatstica
H0: o consumo independe do desempenho
HA: o consumo depende do desempenho
2. Estatstica do teste
Obteno das frequncias esperadas (Ei)
240
= 160 ,
300
240
E21 = 100
= 80 ,
300
E11 = 200

60
= 40
300
60
= 100
= 20
300

E12 = 200
E22

Desempenho

Consumo

Regular

Alto

Totais

Bom

152 (160)

48 (40)

200

Baixo

88 (80)

12 (20)

100

Totais

240

60

300

Grau de liberdade:

= (r1).(s1) = (2 1) . (2 1) = 1

Taxa de erro: = 0,05


Como o nmero de graus de liberdade igual a 1, obtm-se o valor da estatstica Q
procedendo correo de continuidade:
q=
i, j

(x

ij

eij 0,5
ei

) = ( 152 160 0,5 ) + ( 48 40 0,5 ) + ( 88 - 80 - 0,5 ) + ( 12 20 0,5 )


2

160

40

80

20

q = 0,3516 + 1,406 + 0,7031 + 2,813 = 5,274

3. Deciso e concluso
Como q = 5,274 > q( ) = 3,84, temos motivos suficientes para rejeitar H0. Conclumos,
ento, ao nvel de 5% de significncia, que as frequncias observadas diferem
significativamente das frequncias esperadas. Portanto, o consumo de combustvel depende
do desempenho do carro.
201

Piana, Machado e Selau

Inferncia Estatstica

Exemplo 4. O efeito de diversos tratamentos no controle de certa doena est apresentado na


tabela abaixo
Evoluo da doena
Regrediu
No regrediu
92
13
62
12
35
14
19
13
208
52

Tratamento
A
B
C
D
Totais

Totais
105
74
49
32
260

Verifique qual a relao existente entre os diversos tratamentos e a evoluo da


doena, utilizando = 0,05.
Resoluo:
1. Hiptese estatstica
H0: a evoluo da doena independe do tratamento
HA: a evoluo da doena depende do tratamento
2. Estatstica do teste
Obteno das frequncias esperadas (Ei)
E11 = 105

208
= 84
260

E12 = 105

E21 = 74

208
= 59,2
260

E31 = 49

52
52
= 21 E22 = 74
= 14,8
260
260

208
= 39,2
260

E41 = 32

208
= 25,6
260

52
= 9,8
260

E42 = 32

52
= 6,4
260

E32 = 49

Evoluo da doena
Regrediu
No regrediu
92 (84)
13 (21)
62 (59,2)
12 (14,8)
35 (39,2)
14 (9,8)
19 (25,6)
13 (6,4)
208
52

Tratamento
A
B
C
D
Totais

Totais
105
74
49
32
260

= (r1).(s1) = (4 1) . (2 1) = 3

Grau de liberdade:

= 0,05

Taxa de erro:

q=
i, j

(x

ij

eij
ei

) = ( 92 84 ) + (13 21)
2

84

21

+ +

(13 6,4 )2
6,4

q = 0,7619 + 3,048 + + 6,806 = 15,23

3. Deciso e concluso
Como q = 15,23 > q( ) = 7,81, temos motivos suficientes para rejeitar H0. Assim,
conclumos, ao nvel de 5% de significncia, que as frequncias observadas diferem
significativamente das frequncias esperadas. Portanto, a evoluo da doena depende do
tratamento utilizado.
202

Piana, Machado e Selau

Inferncia Estatstica

4.9. Bibliografia
COSTA, S.F. Introduo Ilustrada Estatstica (com muito humor!). 2.ed., So Paulo:
Harbra, 1992. 303p.
DEVORE, J. Probability and statistics for engineering and the sciences. Brooks/Cole
Publishing Companig. 1982. 640p.
FARIA, E.S. de Estatstica Edio 97/1. (Apostila)
FERREIRA, D.F. Estatstica Bsica. Lavras: Editora UFLA, 2005, 664p.
FREUND, J.E., SIMON, G.A. Estatstica Aplicada.
Contabilidade. 9.ed., Porto Alegre: Bookman, 2000. 404p.

Economia,

Administrao

MEYER, P. L. Probabilidade: aplicaes estatstica. Rio de Janeiro: LTC, 1976.


RIBEIRO, J.L.D.; TEN CATEN, C.S. Estatstica Industrial. Porto Alegre, Universidade Federal
do Rio Grande do Sul, 2000. 135p.
SILVA, J.G.C. da. Estatstica Experimental. 1. Planejamento de Experimentos. 1. ed. Pelotas,
RS: Instituto de Fsica e Matemtica, Universidade Federal de Pelotas, 1997. v.1. 216p.
SILVA, J.G.C. da Estatstica experimental: anlise estatstica de experimentos. Pelotas, RS:
Instituto de Fsica e Matemtica, Universidade Federal de Pelotas, 2000. 318p.
SPIEGEL, M.R. Estatstica So Paulo: McGraw-Hill, 1972. 520p.
VIEIRA, S. Estatstica Experimental. 9.ed., So Paulo: Atlas, 1999. 185p.

203

Apndice

1. Notao somatrio..................................................................................................... 205


2. Noes sobre conjuntos...........................................................................................

206

3. Notao fatorial..........................................................................................................

209

4. Anlise combinatria................................................................................................. 209


5. Noes sobre derivao e integrao...................................................................... 211
6. Tabelas estatsticas...................................................................................................

213

7. Lista de respostas dos exerccios propostos.........................................................

219

Piana, Machado e Selau

Inferncia Estatstica

1. Notao somatrio
Consideremos a seguinte tabela de valores:
i

xi

yi

-2

4
5

-1
4

1
0

onde:
i o nmero da observao, tal que i = 1, 2, ..., n
n o nmero total de observaes
xi o valor da varivel X para a observao i, tal que x1 = 1, x2 = 0,...,x5 = 4
yi o valor da varivel Y para a observao i, tal que y1 = 2, y2 = 1,...,y5 = 0
x(i) o valor da varivel X para a observao i, tal que x(1) x(2) ... x(n)
x(1) o menor valor da varivel X
x(n) o maior valor da varivel X

Somatrio ()
A notao indica a soma seqencial de um conjunto de valores. De modo geral,
temos
Limite superior da soma
n

Somatrio

Valor que est sendo somado

i=1

Nmero da observao
Limite inferior da soma

A notao

inclui todos os valores do intervalo e pode ser simplificada por

, onde

i=1

omitimos os ndices, ou seja,

=
i=1

Exemplos:
5

1. x1 + x 2 + x 3 + x 4 + x 5 =

i =1

2. y 2 + y 3 + y 4 =

i=2

Outras quantidades de interesse:


5

1. x12 + x 22 + x 23 + x 24 + x 52 =

2
i

(soma de quadrados)

i=1

2.

( x1 + x2 + x3 + x 4 + x5 )

xi
i =1

(quadrado da soma)
5

3. x1y1 + x 2 y 2 + x 3 y 3 + x 4 y 4 + x 5 y 5 =

x y

i i

(soma de produtos)

i =1

4.

( x1 + x2 + x3 + x 4 + x5 ) ( y1 + y 2 + y3 + y 4 + y5 ) =

y
xi

i=1

(produto da soma)

i=1

205

Piana, Machado e Selau

Inferncia Estatstica

 Propriedades da soma
1a propriedade: A soma distributiva, ou seja, se cada termo da soma multiplicado
por uma constante c, os termos podem ser somados e a soma multiplicada pela constante.
n

c xi = c x1 + c x 2 + + c xn = c ( x1 + x 2 + + xn ) = c

i=1

i =1

2a propriedade: A soma de uma constante c sobre n termos igual a n vezes esta


constante.
n

c = c + c + + c = c (1+ 1+ +1) = nc
i=1

3a propriedade: A soma associativa, ou seja, o somatrio da soma igual a soma de


somatrios.
n

i =1

i =1

i =1

( xi + y i ) = x i + y i
( x1 + y1 ) + ( x 2 + y 2 ) + + ( xn + yn ) = ( x1 + x 2 + + xn ) + ( y1 + y 2 + + yn )
As propriedades devem ser usadas no sentido de simplificar as operaes. Sempre
que houver uma operao que precede a soma, devemos desenvolv-la antes de aplicar as
propriedades.
n

i=1

i=1

2
( xi c ) = ( xi2 2cxi + c 2 )
n

xi2

i=1

2cx + c

i =1

i =1

xi2 2c

i=1

xi +

i=1

i=1

2
i

i=1

2c

x + nc

i=1

2. Noes sobre conjuntos


 Conjunto
Um conjunto uma coleo bem definida de objetos chamados membros ou
elementos. Geralmente, um conjunto denotado por letra maiscula (A, B, C) e os seus
elementos por letras minsculas (a, b, c).
Um conjunto pode ser definido de duas formas:

Mtodo da listagem: relacionando todos os elementos do conjunto.


Exemplo: A = {a, e, i, o, u}

conjunto das vogais do alfabeto

Mtodo da propriedade: indicando uma propriedade que seja vlida para todos os
elementos do conjunto e s para eles.
Exemplo: A = {x; x uma vogal}

conjunto das vogais do alfabeto


206

Piana, Machado e Selau

Inferncia Estatstica

 Conjunto universal ou universo


Quando restringimos nosso estudo a subconjuntos de um determinado conjunto, ento
este conjunto chamado de conjunto universal, ou universo, ou espao e denotado por U.
Exemplo: Conjunto dos nmeros reais R
A = {x R; a x b}
B = {x R; 0 < x < b}
 Conjunto vazio
O conjunto vazio, denotado por ou { }, um conjunto desprovido de elementos. O
conjunto vazio subconjunto de qualquer conjunto.
Exemplo: A = {x R; x2 < 0}=
 Representao geomtrica de conjuntos
Um universo pode ser representado geometricamente pelo conjunto de pontos
interiores de um retngulo e os seus subconjuntos, tais como A e B, so representados pelos
pontos interiores de crculos. Tais representaes, denominadas diagramas de Venn, so teis
para dar intuio geomtrica sobre a relao entre conjuntos.

 Operaes com conjuntos


1. Unio ()
A unio de dois conjuntos A e B, representada por A B, o conjunto de todos os
elementos que pertencem a A ou a B ou a ambos.

207

Piana, Machado e Selau

Inferncia Estatstica

2. Interseco ()
A interseco de dois conjuntos A e B, representada por A B, o conjunto de todos
os elementos que pertencem a e a B.

3. Diferena ou complemento relativo


A diferena de dois conjuntos A e B, denotada por A B, ou o complemento de B em
relao a A, denotado por B A , o conjunto de todos os elementos que pertencem a A e no
pertencem a B.

4. Complemento absoluto
O complemento absoluto ou simplesmente complemento de A, denotado por A , o
conjunto de todos os elementos que no pertencem a A.

Principais propriedades da unio:


208

Piana, Machado e Selau

Inferncia Estatstica

A=A
AA=A
AB=BA
(A B) C = A (B C)
A (B C) = (A B) (A C)

Principais propriedades da interseco:

A=
AA=A
AB=BA
(A B) C = A (B C)
A (B C) = (A B) (A C)

3. Notao fatorial
O produto dos inteiros positivos de 1 a n representado pelo smbolo especial n! (lse n fatorial). Assim, temos
n! = 1 2 3 (n 2) (n 1) n

Define-se, tambm, que 0! = 1.


Exemplos:
2! = 2 1 = 2
4! = 4 3 2 1 = 24
5! = 5 4! = 5 24 = 120
8! 8 7 6 !
=
= 8 7 = 56
6!
6!

4. Anlise combinatria
Algumas tcnicas de contagem foram desenvolvidas para determinar, sem
enumerao direta, o nmero de elementos de certo conjunto, ou o nmero de resultados
possveis de um certo experimento. Essas tcnicas so chamadas de anlise combinatria.
Seja um conjunto A com n elementos distintos entre si. Se x elementos so retirados
de A possvel formar grupos de trs tipos:
Permutaes: Grupos que se distinguem apenas pela ordem dos seus elementos. Se
x = n, ento, o nmero de possveis permutaes de n dado por
Pn = n! grupos

Arranjos: Grupos que se distinguem pela ordem e pela natureza dos seus elementos.
Se x < n, ento, o nmero de possveis arranjos de n, tomados x a x, dado por
A nx =

n!
grupos
(n x)!

209

Piana, Machado e Selau

Inferncia Estatstica

Combinaes: Grupos que se distinguem apenas pela natureza dos seus elementos.
Se x < n, ento, o nmero de possveis combinaes de n, tomados x a x, dado por
Cnx =

n!
grupos
x !(n x)!

Exemplo:
Seja A = {a, b, c, d}, onde n = 4.
1. Se so retirados quatro elementos, quantos grupos possvel formar?
Se x = n, ento, os grupos formados sero permutaes:
P4 = 4! = 24 grupos

{(a, b, c, d), (a, b, d, c), (a, c, b, d), (a, c, d, b), (a, d, b, c), (a, d, c, b), (b, a, c, d), (b, a,
d, c), (b, c, a, d), (b, c, d, a), (b, d, a, c) (b, d, c, a), (c, a, b, d), (c, a, d, b), (c, b, a, d), (c, b, d, a),
(c, d, a, b), (c, d, b, a), (d, a, b, c), (d, a, c, b), (d, b, a, c), (d, b, c, a), (d, b, a, c)}
2. Se so retirados dois elementos, quantos grupos que diferem pela ordem e pela
natureza possvel formar?
Se os grupos formados devem diferir pela ordem e pela natureza, ento sero
arranjos:
4!
24
A 24 =
=
= 12 grupos
(4 2)! 2
{(a, b), (b, a), (a, c), (c, a), (a, d), (d, a), (b, c), (c, b), (b, d), (d, b), (c, d), (d, c)}
3. Se so retirados dois elementos, quantos grupos que diferem apenas pela natureza
possvel formar?
Se os grupos formados devem diferir apenas pela natureza, ento sero combinaes:
C24 =

4!
24
=
= 6 grupos
2!(4 - 2)! 4

{(a, b), (a, c), (a, d), (b, c), (b, d), (c, d)}
Permutaes com repetio: Grupos com elementos repetidos que se distinguem
apenas pela ordem dos seus elementos. Neste caso, n passa a ser o nmero de elementos
retirados e x o nmero de repeties de um dado elemento. O nmero de possveis
permutaes de n, com x repeties um dado elemento, dado por
Pnx,n x =

n!
grupos
x !(n x)!

Exemplo:
Seja um conjunto A formado por trs moedas de ouro e quatro de prata.
A = {o, o, o, p, p, p, p}
210

Piana, Machado e Selau

Inferncia Estatstica

1. Se quatro moedas so retiradas, de quantas maneiras diferentes podemos retirar


duas moedas de prata?
Se n = 4 e x =2, ento,
P42,4 2 =

4!
24
=
=6
2!(4 2)! 4

{(p, p, o, o), (p, o, p, o), (p, o, o, p), (o, o, p, p), (o, p, o, p), (o, p, p, o)}
2. Se quatro moedas so retiradas, de quantas maneiras diferentes podemos retirar
Trs moedas de prata?
Se n = 4 e x =3, ento,
P43,4-3 =

4!
24
=
=4
3!(4 3)! 6

{(p, p, p, o), (p, p, o, p), (p, o, p, p), (o, p, p, p)}

211

Piana, Machado e Selau

Inferncia Estatstica

5. Tabelas estatsticas

Tabela I. rea sob a curva normal padro de 0 a z,


P(0 Z z).

0,0

0,0000

0,0040

0,0080

0,0120

0,0160

0,0199

0,0239

0,0279

0,0319

0,0359

0,1

0,0398

0,0438

0,0478

0,0517

0,0557

0,0596

0,0636

0,0675

0,0714

0,0754

0,2

0,0793

0,0832

0,0871

0,0910

0,0948

0,0987

0,1026

0,1064

0,1103

0,1141

0,3

0,1179

0,1217

0,1255

0,1293

0,1331

0,1368

0,1406

0,1443

0,1480

0,1517

0,4

0,1554

0,1591

0,1628

0,1664

0,1700

0,1736

0,1772

0,1808

0,1844

0,1879

0,5

0,1915

0,1950

0,1985

0,2019

0,2054

0,2088

0,2133

0,2157

0,2190

0,2224

0,6

0,2258

0,2291

0,2324

0,2357

0,2389

0,2422

0,2454

0,2486

0,2518

0,2549

0,7

0,2580

0,2612

0,2642

0,2673

0,2704

0,2734

0,2764

0,2794

0,2823

0,2852

0,8

0,2881

0,2910

0,2939

0,2967

0,2996

0,3023

0,3051

0,3078

0,3106

0,3133

0,9

0,3159

0,3186

0,3212

0,3238

0,3264

0,3289

0,3315

0,3340

0,3365

0,3389

1,0

0,3413

0,3438

0,3461

0,3485

0,3508

0,3531

0,3554

0,3577

0,3599

0,3621

1,1

0,3643

0,3665

0,3686

0,3708

0,3729

0,3749

0,3770

0,3790

0,3810

0,3830

1,2

0,3849

0,3869

0,3888

0,3907

0,3925

0,3944

0,3962

0,3980

0,3997

0,4015

1,3

0,4032

0,4049

0,4066

0,4082

0,4099

0,4115

0,4131

0,4147

0,4162

0,4177

1,4

0,4192

0,4207

0,4222

0,4236

0,4251

0,4265

0,4279

0,4292

0,4306

0,4319

1,5

0,4332

0,4345

0,4357

0,4370

0,4382

0,4394

0,4406

0,4418

0,4429

0,4441

1,6

0,4452

0,4463

0,4474

0,4484

0,4495

0,4505

0,4515

0,4525

0,4535

0,4545

1,7

0,4554

0,4564

0,4573

0,4582

0,4591

0,4599

0,4608

0,4616

0,4625

0,4633

1,8

0,4641

0,4649

0,4656

0,4664

0,4671

0,4678

0,4686

0,4693

0,4699

0,4706

1,9

0,4713

0,4719

0,4726

0,4732

0,4738

0,4744

0,4750

0,4756

0,4761

0,4767

2,0

0,4772

0,4778

0,4783

0,4788

0,4793

0,4798

0,4803

0,4808

0,4812

0,4817

2,1

0,4821

0,4826

0,4830

0,4834

0,4838

0,4842

0,4846

0,4850

0,4854

0,4857

2,2

0,4861

0,4864

0,4868

0,4871

0,4875

0,4878

0,4881

0,4884

0,4887

0,4890

2,3

0,4893

0,4896

0,4898

0,4901

0,4904

0,4906

0,4909

0,4911

0,4913

0,4916

2,4

0,4918

0,4920

0,4922

0,4925

0,4927

0,4929

0,4931

0,4932

0,4934

0,4936

2,5

0,4938

0,4940

0,4941

0,4943

0,4945

0,4946

0,4948

0,4949

0,4951

0,4952

2,6

0,4953

0,4955

0,4956

0,4957

0,4959

0,4960

0,4961

0,4962

0,4963

0,4964

2,7

0,4965

0,4966

0,4967

0,4968

0,4969

0,4970

0,4971

0,4972

0,4973

0,4974

2,8

0,4974

0,4975

0,4976

0,4977

0,4977

0,4978

0,4979

0,4979

0,4980

0,4981

2,9

0,4981

0,4982

0,4982

0,4983

0,4984

0,4984

0,4985

0,4985

0,4986

0,4986

3,0

0,4987

0,4987

0,4987

0,4988

0,4988

0,4989

0,4989

0,4989

0,4990

0,4990

3,1

0,4990

0,4991

0,4991

0,4991

0,4992

0,4992

0,4992

0,4992

0,4993

0,4993

3,2

0,4993

0,4993

0,4994

0,4994

0,4994

0,4994

0,4994

0,4995

0,4995

0,4995

3,3

0,4995

0,4995

0,4995

0,4996

0,4996

0,4996

0,4996

0,4996

0,4996

0,4997

3,4

0,4997

0,4997

0,4997

0,4997

0,4997

0,4997

0,4997

0,4997

0,4997

0,4998

3,5

0,4998

0,4998

0,4998

0,4998

0,4998

0,4998

0,4998

0,4998

0,4998

0,4998

3,6

0,4998

0,4998

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

3,7

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

3,8

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

0,4999

3,9

0,5000

0,5000

0,5000

0,5000

0,5000

0,5000

0,5000

0,5000

0,5000

0,5000

212

Piana, Machado e Selau

Inferncia Estatstica

Tabela II. Limites da distribuio t de Student.

Limites bilaterais: P( t > t/2)

Graus de
Liberdade ()

Nvel de Significncia ()
0,50

0,20

0,10

0,05

0,025

0,02

0,01

0,005

1
2
3
4
5

1,000
0,816
0,715
0,741
0,727

3,078
1,886
1,638
1,533
1,476

6,314
2,920
2,353
2,132
2,015

12,706
4,303
3,183
2,776
2,571

25,542
6,205
4,177
3,495
3,163

31,821
6,965
4,541
3,747
3,365

63,657
9,925
5,841
4,604
4,032

127,320
14,089
7,453
5,598
4,773

6
7
8
9
10

0,718
0,711
0,706
0,703
0,700

1,440
1,415
1,397
1,383
1,372

1,943
1,895
1,860
1,833
1,813

2,447
2,365
2,306
2,262
2,228

2,969
2,841
2,752
2,685
2,634

3,143
2,998
2,896
2,821
2,764

3,707
3,500
3,355
3,250
3,169

4,317
4,029
3,833
3,690
3,581

11
12
13
14
15

0,697
0,695
0,694
0,692
0,691

1,363
1,356
1,350
1,345
1,341

1,796
1,782
1,771
1,761
1,753

2,201
2,179
2,160
2,145
2,132

2,503
2,560
2,533
2,510
2,490

2,718
2,681
2,650
2,624
2,602

3,106
3,055
3,012
2,977
2,947

3,497
3,428
3,373
3,326
3,286

16
17
18
19
20

0,690
0,689
0,688
0,688
0,687

1,337
1,333
1,330
1,328
1,325

1,746
1,740
1,734
1,729
1,725

2,120
2,110
2,101
2,093
2,086

2,473
2,458
2,445
2,433
2,423

2,583
2,567
2,552
2,539
2,528

2,921
2,898
2,878
2,861
2,845

3,252
3,223
3,197
3,174
3,153

21
22
23
24
25

0,686
0,686
0,685
0,685
0,684

1,323
1,321
1,319
1,318
1,316

1,721
1,717
1,714
1,711
1,708

2,080
2,074
2,069
2,064
2,060

2,414
2,406
2,398
2,391
2,385

2,518
2,508
2,500
2,492
2,485

2,831
2,819
2,807
2,797
2,787

3,135
3,119
3,104
3,091
3,078

26
27
28
29
30

0,684
0,684
0,683
0,683
0,683

1,315
1,314
1,313
1,311
1,310

1,706
1,703
1,701
1,699
1,697

2,056
2,052
2,048
2,045
2,042

2,379
2,373
2,369
2,364
2,360

2,479
2,473
2,467
2,462
2,457

2,779
2,771
2,763
2,756
2,750

3,067
3,057
3,047
3,038
3,030

40
60
120
...

0,681
0,679
0,677
0,674

1,303
1,296
1,289
1,282

1,684
1,671
1,658
1,645

2,021
2,000
1,980
1,960

2,329
2,299
2,270
2,241

2,423
2,390
2,358
2,326

2,705
2,660
2,617
2,576

2,971
2,915
2,860
2,807

0,25

0,10

0,05

0,025

0,0125

0,01

0,005

0,0025

Graus de
Liberdade ()

Nvel de Significncia ()
Limites unilaterais: P( t > t)

213

Piana, Machado e Selau

Inferncia Estatstica

Tabela III. Limites unilaterais da distribuio qui-quadrado (2).

Graus de
Liberdade
( )

Nvel de significncia ()
Esquerda (q)
0,025
0,05
0,00
0,00
0,05
0,10
0,22
0,35
0,48
0,71
0,83
1,15

0,1
0,02
0,21
0,58
1,06
1,61

0,1
2,71
4,61
6,25
7,78
9,24

0,05
3,84
5,99
7,81
9,49
11,07

Direita (q)
0,025
5,02
7,38
9,35
11,14
12,83

0,01
6,63
9,21
11,34
13,28
15,09

0,005
7,88
10,60
12,84
14,86
16,75

1,64
2,17
2,73
3,33
3,94

2,20
2,83
3,49
4,17
4,87

10,64
12,02
13,36
14,68
15,99

12,59
14,07
15,51
16,92
18,31

14,45
16,01
17,53
19,02
20,48

16,81
18,48
20,09
21,67
23,21

18,55
20,28
21,95
23,59
25,19

3,82
4,40
5,01
5,63
6,26

4,57
5,23
5,89
6,57
7,26

5,58
6,30
7,04
7,79
8,55

17,28
18,55
19,81
21,06
22,31

19,68
21,03
22,36
23,68
25,00

21,92
23,34
24,74
26,12
27,49

24,72
26,22
27,69
29,14
30,58

26,76
28,30
29,82
31,32
32,80

5,81
6,41
7,01
7,63
8,26

6,91
7,56
8,23
8,91
9,59

7,96
8,67
9,39
10,12
10,85

9,31
10,09
10,86
11,65
12,44

23,54
24,77
25,99
27,20
28,41

26,30
27,59
28,87
30,14
31,41

28,85
30,19
31,53
32,85
34,17

32,00
33,41
34,81
36,19
37,57

34,27
35,72
37,16
38,58
40,00

8,03
8,64
9,26
9,89
10,52

8,90
9,54
10,20
10,86
11,52

10,28
10,98
11,69
12,40
13,12

11,59
12,34
13,09
13,85
14,61

13,24
14,04
14,85
15,66
16,47

29,62
30,81
32,01
33,20
34,38

32,67
33,92
35,17
36,42
37,65

35,48
36,78
38,08
39,36
40,65

38,93
40,29
41,64
42,98
44,31

41,40
42,80
44,18
45,56
46,93

26
27
28
29
30

11,16
11,81
12,46
13,12
13,79

12,20
12,88
13,56
14,26
14,95

13,84
14,57
15,31
16,05
16,79

15,38
16,15
16,93
17,71
18,49

17,29
18,11
18,94
19,77
20,60

35,56
36,74
37,92
39,09
40,26

38,89
40,11
41,34
42,56
43,77

41,92
43,19
44,46
45,72
46,98

45,64
46,96
48,28
49,59
50,89

48,29
49,64
50,99
52,34
53,67

40
50
60
70
80
90
100

20,71
27,99
35,53
43,28
51,17
59,20
67,33

22,16
29,71
37,48
45,44
53,54
61,75
70,06

24,43
32,36
40,48
48,76
57,15
65,65
74,22

26,51
34,76
43,19
51,74
60,39
69,13
77,93

29,05
37,69
46,46
55,33
64,28
73,29
82,36

51,81
63,17
74,40
85,53
96,58
107,57
118,50

55,76
67,50
79,08
90,53
101,88
113,15
124,34

59,34
71,42
83,30
95,02
106,63
118,14
129,56

63,69
76,15
88,38
100,43
112,33
124,12
135,81

66,77
79,49
91,95
104,21
116,32
128,30
140,17

1
2
3
4
5

0,005
0,00
0,01
0,07
0,21
0,41

0,01
0,00
0,02
0,11
0,30
0,55

6
7
8
9
10

0,68
0,99
1,34
1,73
2,16

0,87
1,24
1,65
2,09
2,56

1,24
1,69
2,18
2,70
3,25

11
12
13
14
15

2,60
3,07
3,57
4,07
4,60

3,05
3,57
4,11
4,66
5,23

16
17
18
19
20

5,14
5,70
6,26
6,84
7,43

21
22
23
24
25

Nota: Se o teste for bilateral, o valor de deve ser dividido por dois.

214

Piana, Machado e Selau

Inferncia Estatstica

Tabela IV. Limites unilaterais superiores da distribuio F:


P[F > f]

1
2
1

10

11

12

15

20

24

30

40

60

120

Inf.

0,05
0,025
0,01
0,001

161,4
647,8
4052,
4053*

199,5
799,5
5000,
5000*

215,7
864,2
5403,
5404*

224,6
899,6
5625,
5625*

230,2
921,8
5764,
5764*

234,0
937,1
5859,
5859*

236,8
948,2
5928,
5929*

238,9
956,7
5982,
5981*

240,5
963,3
6022,
6023*

241,9
968,6
6056,
6056*

243,0
976,7
6082,
6084*

243,9
984,9
6106,
6107*

245,9
984,9
6157,
6158*

248,0
993,1
6209,
6209*

249,1
997,2
6235,
6235*

250,1
1001,
6261,
6261*

251,1
1006,
6287,
6287*

252,2
1010,
6313,
6313*

253,3
1014,
6339,
6340*

254,3
1018,
6366,
6366*

0,05
0,025
0,01
0,001

18,51
38,51
98,50
998,5

19,00
39,00
99,00
999,0

19,16
39,17
99,17
999,2

19,25
39,25
99,25
999,2

19,30
39,30
99,30
999,3

19,33
39,33
99,33
999,3

19,35
39,36
99,36
999,4

19,37
39,37
99,37
999,4

19,38
39,39
99,39
999,4

19,40
39,40
99,40
999,4

19,40
39,41
99,41
999,4

19,41
39,41
99,42
999,4

19,43
39,43
99,43
999,4

19,45
39,45
99,45
999,4

19,45
39,46
99,46
999,5

19,46
39,46
99,47
999,5

19,47
39,47
99,47
999,5

19,48
39,48
99,48
999,5

19,49
39,49
99,49
999,5

19,50
39,50
99,50
999,5

0,05
0,025
0,01
0,001

10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53
17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 39,43 14,17 14,12 14,08 14,04 13,99 13,95 13,90
34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,13 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,22 26,13
167,0 148,5 141,1 137,1 134,6 132,8 131,6 130,6 129,9 129,2 128,8 128,3 127,4 126,4 125,9 125,4 125,0 124,5 124,0 123,5

0,05 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,93 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63
0,025 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,66 8,56 8,51 8,46 8,41 8,36 8,31 8,26
0,01 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,56 13,46
0,001 74,14 61,25 56,18 53,44 51,71 50,53 49,66 49,00 48,47 48,05 47,70 47,41 46,76 46,10 45,77 45,43 45,09 44,75 44,40 44,05

0,05 6,61 5,79 5,41 5,19 5,05 4,95 4,88 8,82 4,77 4,74 4,70 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,36
0,025 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,46 6,33 6,28 6,23 6,18 6,12 6,07 6,02
0,01 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,11 9,02
0,001 47,18 37,12 33,20 31,09 29,75 28,84 28,16 27,64 27,24 26,92 26,64 26,42 25,91 25,39 25,14 24,87 24,60 24,33 24,06 23,79

0,05 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67
0,025 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,27 5,17 5,12 5,07 5,01 4,96 4,90 4,85
0,01 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,97 6,88
0,001 35,51 27,00 23,70 21,92 20,81 20,03 19,46 19,03 18,69 18,41 18,18 17,99 17,56 17,12 16,89 16,67 16,44 16,21 15,99 15,75

0,05 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 6,60 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23
0,025 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 3,51 4,47 4,42 4,36 4,31 4,25 4,20 4,14
0,01 12,25 9,55 8,45 7,85 4,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,74 5,65
0,001 29,25 21,69 18,77 17,19 16,21 15,52 15,02 14,63 14,33 14,08 13,88 13,71 13,32 12,93 12,73 12,53 12,33 12,12 11,91 11,70

10

11

12

0,05 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,12 3,08
0,025 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,10 4,00 3,95 3,89
0,01 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,74 5,67 5,52 5,36 5,28 5,20
0,001 25,42 18,49 15,83 14,39 13,49 12,86 12,40 12,04 11,77 11,54 11,35 11,19 10,84 10,48 10,30 10,11

3,04
3,84
5,12
9,92

3,01
3,78
5,03
9,73

2,97
3,73
4,95
9,53

2,93
3,67
4,86
9,33

0,05 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18
0,025 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03
0,01 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35
0,001 22,86 16,39 13,90 12,56 11,71 11,13 10,70 10,37 10,11

3,14
3,96
5,26
9,89

3,10
3,87
5,18
9,72

3,07
3,77
5,11
9,57

3,01
3,77
4,96
9,24

2,94
3,67
4,81
8,90

2,90
3,61
4,73
8,72

2,86
3,56
4,65
8,55

2,83
3,51
4,57
8,37

2,79
3,45
4,48
8,19

2,75
3,39
4,40
8,00

2,71
3,33
4,31
7,81

0,05 4,96 4,10 3,71 3,48 3,33


0,025 6,94 5,46 4,83 4,47 4,24
0,01 10,04 7,56 6,55 5,99 5,64
0,001 21,04 14,91 12,55 11,28 10,48

3,22
4,07
5,39
9,92

3,14
3,95
5,20
9,52

3,07
3,85
5,06
9,20

3,02
3,78
4,94
8,96

2,98
3,72
4,85
8,75

2,94
3,62
4,78
8,59

2,91
3,52
4,71
8,45

2,85
3,52
4,56
8,13

2,77
3,42
4,41
7,80

2,74
3,37
4,33
7,64

2,70
3,31
4,25
7,47

2,66
3,26
4,17
7,30

2,62
3,20
4,08
7,12

2,58
3,14
4,00
6,94

2,54
3,08
3,91
6,76

0,05 4,84 3,98 3,59 3,36


0,025 6,72 5,26 4,63 4,28
0,01 9,65 7,21 6,22 5,67
0,001 19,69 13,81 11,56 10,35

3,20
4,04
5,32
9,58

3,09
3,88
5,07
9,05

3,01
3,76
4,89
8,66

2,95
3,66
4,74
8,35

2,90
3,59
4,63
8,12

2,85
3,53
4,54
7,92

2,82
3,43
4,46
7,76

2,79
3,33
4,40
7,63

2,72
3,33
4,25
7,32

2,65
3,23
4,10
7,01

2,61
3,17
4,02
6,85

2,57
3,12
3,94
6,68

2,53
3,06
3,86
6,52

2,49
3,00
3,78
6,35

2,45
2,94
3,69
6,17

2,40
2,88
3,60
6,00

0,05 4,75 3,89 3,49


0,025 6,55 5,10 4,47
0,01 9,33 6,93 5,95
0,001 18,64 12,97 10,80

3,11
3,89
5,06
8,89

3,00
3,73
4,82
9,38

2,91
3,61
4,64
8,00

2,85
3,51
4,50
7,71

2,80
3,44
4,39
7,48

2,75
3,37
4,30
7,29

2,72
3,28
4,22
7,14

2,69
3,18
4,16
7,00

2,62
3,18
4,01
6,71

2,54
3,07
3,86
6,40

2,51
3,02
3,78
6,25

2,47
2,96
3,70
6,09

2,43
2,91
3,62
5,93

2,38
2,85
3,54
5,76

2,34
2,79
3,45
5,59

2,30
2,72
3,36
5,42

3,26
4,12
5,41
9,63

Estes valores devem ser multiplicados por 100.

Continua

215

Piana, Machado e Selau

Inferncia Estatstica

Continuao

1
2
13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

10

11

12

15

20

24

30

40

60

0,05 4,67 3,81 3,41


0,025 6,41 4,97 4,35
0,01 9,07 6,70 5,74
0,001 17,81 12,31 10,21

3,18
4,00
5,21
9,07

3,03
3,77
4,86
8,35

2,92
3,60
4,62
7,86

2,83
3,48
4,44
7,49

2,77
3,39
4,30
7,21

2,71
3,31
4,19
6,98

2,67
3,25
4,10
6,80

2,63
3,15
4,02
6,65

2,60
3,05
3,96
6,52

2,53
3,05
3,82
6,23

2,46
2,95
3,66
5,93

2,42
2,89
3,59
5,78

2,38
2,84
3,51
5,63

2,34
2,78
3,43
5,47

2,30
2,72
3,34
5,30

120
2,25
2,66
3,25
5,14

Inf.
2,21
2,60
3,17
4,97

0,05 4,60 3,74


0,025 6,30 4,86
0,01 8,86 6,51
0,001 17,14 11,78

3,34
4,24
5,56
9,73

3,11
3,89
5,04
8,62

2,96
3,66
4,69
7,92

2,85
3,50
4,46
7,43

2,76
3,38
4,28
7,08

2,70
3,29
4,14
6,80

2,65
3,21
4,03
6,58

2,60
3,15
3,94
6,40

2,56
3,05
3,86
6,26

2,53
2,95
3,80
6,13

2,46
2,95
3,66
5,85

2,39
2,84
3,51
5,56

2,35
2,79
3,43
5,41

2,31
2,73
3,35
5,25

2,27
2,67
3,27
5,10

2,22
2,61
3,18
4,94

2,18
2,55
3,09
4,77

2,13
2,49
3,00
4,60

0,05 4,54 3,68


0,025 6,20 4,77
0,01 8,68 6,36
0,001 16,59 11,34

3,29
4,15
5,42
9,34

3,06
3,80
4,89
8,25

2,90
3,58
4,56
7,57

2,79
3,41
4,32
7,09

2,71
3,29
4,14
6,74

2,64
3,20
4,00
6,47

2,59
3,12
3,89
6,26

2,54
3,06
3,80
6,08

2,51
2,96
3,73
5,94

2,48
2,86
3,67
5,81

2,40
2,86
3,52
5,54

2,33
2,76
3,37
5,25

2,29
2,70
3,29
5,10

2,25
2,64
3,21
4,95

2,20
2,59
3,13
4,80

2,16
2,52
3,05
4,64

2,11
2,46
2,96
4,47

2,07
2,40
2,87
4,31

0,05 4,49 3,63


0,025 6,12 4,69
0,01 8,53 6,23
0,001 16,12 10,97

3,24
4,08
5,29
9,00

3,01
3,73
4,77
7,94

2,85
3,50
4,44
7,27

2,74
3,34
4,20
6,81

2,66
3,22
4,03
6,46

2,59
3,12
3,89
6,19

2,54
3,05
3,78
5,98

2,49
2,99
3,69
5,81

2,45
2,89
3,61
5,67

2,42
2,79
3,55
5,55

2,35
2,79
3,41
5,27

2,28
2,68
3,26
4,99

2,24
2,63
3,18
4,85

2,19
2,57
3,10
4,70

2,15
2,51
3,02
4,54

2,11
2,45
2,93
4,39

2,06
2,38
2,84
4,23

2,01
2,32
2,75
4,06

0,05 4,45 3,59


0,025 6,04 4,62
0,01 8,40 6,11
0,001 15,72 10,66

3,20
4,01
5,18
8,73

2,96
3,66
4,67
7,68

2,81
3,44
4,34
7,02

2,70
3,28
4,10
6,56

2,61
3,16
3,93
6,22

2,55
3,06
3,79
5,96

2,49
2,98
3,68
5,75

2,45
2,92
3,59
5,58

2,41
2,82
3,52
5,44

2,38
2,72
3,46
5,32

2,31
2,72
3,31
5,05

2,23
2,62
3,16
4,78

2,19
2,56
3,08
4,63

2,15
2,50
3,00
4,48

2,10
2,44
2,92
4,33

2,06
2,38
2,83
4,18

2,01
2,32
2,75
4,02

1,96
2,25
2,65
3,85

0,05 4,41 3,55


0,025 5,98 4,56
0,01 8,29 6,01
0,001 15,38 10,39

3,16
3,95
5,09
8,49

2,93
3,61
4,58
7,46

2,77
3,38
4,25
6,81

2,66
3,22
4,01
6,35

2,58
3,10
3,84
6,02

2,51
3,01
3,71
5,76

2,46
2,93
3,60
5,56

2,41
2,87
3,51
5,39

2,37
2,77
3,44
5,25

2,34
2,67
3,37
5,13

2,27
2,67
3,23
4,87

2,19
2,56
3,08
4,59

2,15
2,50
3,00
4,45

2,11
2,44
2,92
4,30

2,06
2,38
2,84
4,15

2,02
2,32
2,75
4,00

1,97
2,26
2,66
3,84

1,92
2,19
2,57
3,67

0,05 4,38 3,52


0,025 5,92 4,51
0,01 8,18 5,93
0,00115,08 10,16

3,13
3,90
5,01
8,28

2,90
3,36
4,50
7,26

2,74
3,33
4,17
6,62

2,63
3,17
3,94
6,18

2,54
3,05
3,77
5,85

2,48
2,96
3,63
5,59

2,42
2,88
3,52
5,39

2,38
2,82
3,43
5,22

2,34
2,72
3,36
5,08

2,31
2,62
3,30
4,97

2,23
2,62
3,15
4,70

2,16
2,51
3,00
4,43

2,11
2,45
2,92
4,29

2,07
2,39
2,84
4,14

2,03
2,33
2,76
3,99

1,98
2,27
2,67
3,84

1,93
2,20
2,58
3,68

1,88
2,13
2,49
3,51

0,05 4,35
0,025 5,87
0,01 8,10
0,001 14,82

3,49
4,46
5,85
9,95

3,10
3,86
4,94
8,10

2,87
3,51
4,43
7,10

2,71
3,29
4,10
6,46

2,60
3,13
3,87
6,02

2,51
3,01
3,70
5,69

2,45
2,91
3,56
5,44

2,39
2,84
3,46
5,24

2,35
2,77
3,37
5,08

2,31
2,68
3,30
4,94

2,28
2,57
3,23
4,82

2,20
2,57
3,09
4,56

2,12
2,46
2,94
4,29

2,08
2,41
2,86
4,15

2,04
2,35
2,78
4,00

1,99
2,29
2,69
3,86

1,95
2,22
2,61
3,70

1,90
2,16
2,52
3,54

1,84
2,09
2,42
3,38

0,05 4,32
0,025 5,83
0,01 8,02
0,001 14,59

3,47
4,42
5,78
9,77

3,07
3,82
4,87
7,94

2,84
3,48
4,37
6,95

2,68
3,25
4,04
6,32

2,57
3,09
3,81
5,88

2,49
2,97
3,64
5,56

2,42
2,87
3,51
5,31

2,37
2,80
3,40
5,11

2,32
2,73
3,31
4,95

2,28
2,64
3,24
4,81

2,25
2,53
3,17
4,70

2,18
2,53
3,03
4,44

2,10
2,42
2,88
4,17

2,05
2,37
2,80
4,03

2,01
2,31
2,72
3,88

1,96
2,25
2,64
3,74

1,92
2,18
2,55
3,58

1,87
2,11
2,46
3,42

1,81
2,04
2,36
3,26

0,05 4,30
0,025 5,79
0,01 7,95
0,001 14,38

3,44
4,38
5,72
9,61

3,05
3,78
4,82
7,80

2,82
3,44
4,31
6,81

2,66
3,22
3,99
6,19

2,55
3,05
3,76
5,76

2,46
2,93
3,59
5,44

2,40
2,84
3,45
5,19

2,34
2,76
3,35
4,99

2,30
2,70
3,26
4,83

2,26
2,60
3,18
4,70

2,23
2,50
3,12
4,58

2,15
2,50
2,98
4,33

2,07
2,39
2,83
4,06

2,03
2,33
2,75
3,92

1,98
2,27
2,67
3,78

1,94
2,21
2,58
3,63

1,89
2,14
2,50
3,48

1,84
2,08
2,40
3,32

1,78
2,00
2,31
3,15

0,05 4,28
0,025 5,75
0,01 7,88
0,001 14,19

3,42
4,35
5,66
9,47

3,03
3,75
4,76
7,67

2,80
3,41
4,26
6,69

2,64
3,18
3,94
6,08

2,53
3,02
9,71
5,65

2,44
2,90
3,54
5,33

2,37
2,81
3,41
5,09

2,32
2,73
3,30
4,89

2,27
2,67
3,21
4,73

2,24
2,57
3,14
4,60

2,20
2,47
3,07
4,48

2,13
2,47
2,93
4,23

2,05
2,36
2,78
3,96

2,01
2,30
2,70
3,82

1,96
2,24
2,62
3,68

1,91
2,18
2,54
3,53

1,86
2,11
2,45
3,38

1,81
2,04
2,35
3,22

1,76
1,97
2,26
3,05

0,05 4,26
0,025 5,72
0,01 7,82
0,001 14,03

3,40
4,32
5,61
9,34

3,01
3,72
4,72
7,55

2,78
3,38
4,22
6,59

2,62
3,15
3,90
5,98

2,51
2,99
3,67
5,55

2,42
2,87
3,50
5,23

2,36
2,78
3,36
4,99

2,30
2,70
3,26
4,80

2,25
2,64
3,17
4,64

2,22
2,54
3,09
4,51

2,18
2,44
3,03
4,39

2,11
2,44
2,89
4,14

2,03
2,33
2,74
3,87

1,98
2,27
2,66
3,74

1,94
2,21
2,58
3,59

1,89
2,15
2,49
3,45

1,84
2,08
2,40
3,29

1,79
2,01
2,31
3,14

1,73
1,94
2,21
2,97

0,05 4,24
0,025 5,69
0,01 7,77
0,001 13,88

3,39
4,29
5,57
9,22

2,99
3,69
4,68
7,45

2,76
3,35
4,18
6,49

2,60
3,13
3,85
5,88

2,49
2,97
3,63
5,46

2,40
2,85
3,46
5,15

2,34
2,75
3,32
4,91

2,28
2,68
3,22
4,71

2,24
2,61
3,13
4,56

2,20
2,51
3,05
4,42

2,16
2,41
2,99
4,31

2,09
2,41
2,85
4,06

2,01
2,30
2,70
3,79

1,96
2,24
2,62
3,66

1,92
2,18
2,54
3,52

1,87
2,12
2,45
3,37

1,82
2,05
2,36
3,22

1,77
1,98
2,27
3,06

1,71
1,91
2,17
2,89

0,05 4,23
0,025 5,66
0,01 7,72
0,001 13,74

3,37
4,27
5,53
9,12

2,98
3,67
4,64
7,36

2,74
3,33
4,14
6,41

2,59
3,10
3,82
5,80

2,47
2,94
3,59
5,38

2,39
2,82
3,42
5,07

2,32
2,73
3,29
4,83

2,27
2,65
3,18
4,64

2,22
2,59
3,09
4,48

2,18
2,49
3,02
4,35

2,15
2,39
2,96
4,24

2,07
2,39
2,81
3,99

1,99
2,28
2,66
3,72

1,95
2,22
2,58
3,59

1,90
2,16
2,50
3,44

1,85
2,09
2,42
3,30

1,80
2,03
2,33
3,15

1,75
1,95
2,23
2,99

1,69
1,88
2,13
2,82

0,05 4,21
0,025 5,63
0,01 7,68
0,001 13,61

3,35
4,24
5,49
9,02

2,96
3,65
4,60
7,27

2,73
3,31
4,11
6,33

2,57
3,08
3,78
5,73

2,46
2,92
3,56
5,31

2,37
2,80
3,39
5,00

2,31
2,71
3,26
4,76

2,25
2,63
3,15
4,57

2,20
2,57
3,06
4,41

2,16
2,47
2,98
4,28

2,13
2,36
2,93
4,17

2,06
2,36
2,78
3,92

1,97
2,25
2,63
3,66

1,93
2,19
2,55
3,52

1,88
2,13
2,47
3,38

1,84
2,07
2,38
3,23

1,79
2,00
2,29
3,08

1,73
1,93
2,20
2,92

1,67
1,85
2,10
2,75

Continua

216

Piana, Machado e Selau

Inferncia Estatstica

Continuao

1
2
28

29

30

40

60

120

Inf.

10

11

12

15

20

24

30

40

60

120

Inf.

0,05 4,20
0,025 5,61
0,01 7,64
0,001 13,50

3,34
4,22
5,45
8,93

2,95
3,63
4,57
7,19

2,71
3,29
4,07
6,25

2,56
3,06
3,75
5,66

2,45
2,90
3,53
5,24

2,36
2,78
3,36
4,93

2,29
2,69
3,23
4,69

2,24
2,61
3,12
4,50

2,19
2,55
3,03
4,35

2,15
2,45
2,95
4,22

2,12
2,34
2,90
4,11

2,04
2,34
2,75
3,86

1,96
2,23
2,60
3,60

1,91
2,17
2,52
3,46

1,87
2,11
2,44
3,32

1,82
2,05
2,35
3,18

1,77
1,98
2,26
3,02

1,71
1,91
2,17
2,86

1,65
1,83
2,06
2,69

0,05 4,18
0,025 5,59
0,01 7,60
0,001 13,39

3,33
4,20
5,42
8,85

2,93
3,61
4,54
7,12

2,70
3,27
4,04
6,19

2,55
3,04
3,73
5,59

2,43
2,88
3,50
5,18

2,35
2,76
3,33
4,87

2,28
2,67
3,20
4,64

2,22
2,59
3,09
4,45

2,18
2,53
3,00
4,29

2,14
2,43
2,92
4,16

2,10
2,32
2,87
4,05

2,03
2,32
2,73
3,80

1,94
2,21
2,57
3,54

1,90
2,15
2,49
3,41

1,85
2,09
2,41
3,27

1,81
2,03
2,33
3,12

1,75
1,96
2,23
2,97

1,70
1,89
2,14
2,81

1,64
1,81
2,03
2,64

0,05 4,17
0,025 5,57
0,01 7,56
0,001 13,29

3,32
4,18
5,39
8,77

2,92
3,59
4,51
7,05

2,69
3,25
4,02
6,12

2,53
3,03
3,70
5,53

2,42
2,87
3,47
5,12

2,33
2,75
3,30
4,82

2,27
2,65
3,17
4,58

2,21
2,57
3,07
4,39

2,16
2,51
2,98
4,24

2,12
2,41
2,90
4,11

2,09
2,31
2,84
4,00

2,01
2,31
2,70
3,75

1,93
2,20
2,55
3,49

1,89
2,14
2,47
3,36

1,84
2,07
2,39
3,22

1,79
2,01
2,30
3,07

1,74
1,94
2,21
2,92

1,68
1,87
2,11
2,76

1,62
1,79
2,01
2,59

0,05 4,08
0,025 5,42
0,01 7,31
0,001 12,61

3,23
4,05
5,18
8,25

2,84
3,46
4,31
6,60

2,61
3,13
3,83
5,70

2,45
2,90
3,51
5,13

2,34
2,74
3,29
4,73

2,25
2,62
3,12
4,44

2,18
2,53
2,99
4,21

2,12
2,45
2,89
4,02

2,08
2,39
2,80
3,87

2,04
2,29
2,73
3,75

2,00
2,18
2,66
3,64

1,92
2,18
2,52
3,40

1,84
2,07
2,37
3,15

1,79
2,01
2,29
3,01

1,74
1,94
2,20
2,87

1,69
1,88
2,11
2,73

1,64
1,80
2,02
2,57

1,58
1,72
1,92
2,41

1,51
1,64
1,80
2,23

0,05 4,00
0,025 5,29
0,01 7,08
0,001 11,97

3,15
3,93
4,98
7,76

2,76
3,34
4,13
6,17

2,53
3,01
3,65
5,31

2,37
2,79
3,34
4,76

2,25
2,63
3,12
4,37

2,17
2,51
2,95
4,09

2,10
2,41
2,82
3,87

2,04
2,33
2,72
3,69

1,99
2,27
2,63
3,54

1,95
2,17
2,56
3,42

1,92
2,06
2,50
3,31

1,84
2,06
2,35
3,08

1,75
1,94
2,20
2,83

1,70
1,88
2,12
2,69

1,65
1,82
2,03
2,55

1,59
1,74
1,94
2,41

1,53
1,67
1,84
2,25

1,47
1,58
1,73
2,08

1,39
1,48
1,60
1,89

0,05 3,92
0,025 5,15
0,01 6,85
0,001 11,38

3,07
3,80
4,79
7,32

2,68
3,23
3,95
5,79

2,45
2,89
3,48
4,95

2,29
2,67
3,17
4,42

2,17
2,52
2,96
4,04

2,09
2,39
2,79
3,77

2,02
2,30
2,66
3,55

1,96
2,22
2,56
3,38

1,91
2,16
2,47
3,24

1,86
2,05
2,40
3,12

1,83
1,94
2,34
3,02

1,75
1,94
2,19
2,78

1,66
1,82
2,03
2,53

1,61
1,76
1,95
2,40

1,55
1,69
1,86
2,26

1,50
1,61
1,76
2,11

1,43
1,53
1,66
1,95

1,35
1,43
1,53
1,76

1,25
1,31
1,38
1,54

0,05 3,84
0,025 5,02
0,01 6,63
0,001 10,83

3,00
3,69
4,61
6,91

2,60
3,12
3,78
5,42

2,37
2,79
3,32
4,62

2,21
2,57
3,02
4,10

2,10
2,41
2,80
3,74

2,01
2,29
2,64
3,47

1,94
2,19
2,51
3,27

1,88
2,11
2,41
3,10

1,83
2,05
2,32
2,96

1,79
1,94
2,24
2,84

1,75
1,83
2,18
2,74

1,67
1,83
2,04
2,51

1,57
1,71
1,88
2,27

1,52
1,64
1,79
2,13

1,46
1,57
1,70
1,99

1,39
1,48
1,59
1,84

1,32
1,39
1,47
1,66

1,22
1,27
1,32
1,45

1,00
1,00
1,00
1,00

Fonte: Silva, 2000.

217

Piana, Machado e Selau

Inferncia Estatstica

6. Lista de respostas dos exerccios propostos


Unidade II - Estatstica Descritiva
2.1
j
1
2
3
4
5
6
7
8

Classe
0
1
2
3
4
5
6
7
Total

2.2. k = 7
j
1
2
3
4
5
6
7

Fj

Fj

fj

fj

20
7
7
3
2
0
0
1
40

20
27
34
37
39
39
39
40
-

0,50
0,18
0,18
0,08
0,05
0,00
0,00
0,03
1

0,50
0,68
0,85
0,93
0,98
0,98
0,98
1,00
-

i = 12,89
Classe

Fj

Fj

fj

f j

cj

3,11| 16,00
16,00| 28,89
28,89| 41,78
41,78| 54,67
54,67| 67,56
67,56| 80,45
80,45||93,34

8
20
6
8
3
1
4
50

8
28
34
42
45
46
50
-

0,16
0,4
0,12
0,16
0,06
0,02
0,08
1

0,16
0,56
0,68
0,84
0,9
0,92
1
-

9,555
22,445
35,335
48,225
61,115
74,005
86,895
-

2.3. Grfico
2.4. r = -0,7732
2.5. x = 9,75

Mo = 9

Md = 9,5

at = 8

2.6. Q1 = 58

Q2 = 67

Q3 = 70

aq = 12

s2 = 6,79

s = 2,61

2.7. x = 1,075
Mo = 0
Md = 0,5
s2 = 1,87
s = 1,31
m2 = 1,819
m3 = 2,815
m4 = 11,419
a3 = 1,147
Classificao: assimtrica positiva e leptocrtica.

CV = 26,72%

CV = 127,07%
a4 = 3,45

2.8. x = 34,56
Mo = 16,00 |-- 28,89
Md = 16,00 |-- 28,89
s2 = 491,06
CV = 64,12%
m2 =481,24
m3 =11011,7
m4 =755077
a3 =1,043
Classificao: assimtrica positiva e leptocrtica.

s = 22,16
a4 =3,260

2.9.
a) EI = 3,1
Q1 =
19,27
Md = 27,86
Q3 = 45,4
ES = 93,3
b) Os valores 85,76 ; 86,37 e 93,34 so considerados discrepantes
c) Grfico
d) Distribuio assimtrica negativa
2.10. Assimetria negativa
6| 32 55 75
7| 18 60 60 83 84
8| 26 31 34 39 42 54 65 65 66 86 88
9| 01 12 19 39 54 61
218

Piana, Machado e Selau

Inferncia Estatstica
Unidade III - Elementos de probabilidade

3.1. 0,5303
3.2. 0,3801
3.3. a) 0,6
e) 0,6

b) 0,4
f) 0,4

c) 0,75
g) 0,75

3.4. P(A|D) = 0,3623

d) 0,25
h) 0,25

P(B|D) = 0,4058

P(C|D) = 0,2319

3.5. 0,66
3.6. a) 0,7283
3.7. a) 1,20
g) 0,63

b) 0,2092
b) 0,90
h) -0,36

c) 2,10
i) 0,63

d) 0,30
j) 2,07

e) 0,70
f) 0,72
k) -0,5345

3.8. 0,6836
3.9. 0,0758
3.10. 0,2242
3.11. a) E(X) = 15
b) 0,4190

V(X) = 8,33

3.12. P(X > 50) = 0,5488

P(X > 100) = 0,5488

3.13. R$ 0,25
3.14. a) 0,4582

b) 0,2090

c) 0,1587

3.15. a) 0,6078

b) 0,0912

c) 447,6

3.16. nota mnima para A = 73,83


nota mxima para R = 70,33
Unidade IV - Inferncia Estatstica
4.1. (59.606; 63.378)
4.2.
4.3. a)
b) (-0,785; -0,115)
4.4. (; )
4.5. (0,0695; 0,1465)
4.6. a) t0,05 = 2,776 H0 no rejeitada
b) t0,025 = 3,495 H0 no rejeitada
c) t0,025 = 3,495 H0 no rejeitada
d) A varivel em estudo tem distribuio normal
219

Piana, Machado e Selau

Inferncia Estatstica

4.7. a) 5% = P (erro Tipo I)


b) 0,0975
c) 0,8063
4.8. a) 0,6513
b) 0,6126
4.9. t0,025 =
tc = (teste bilateral)
No se rejeita H0.
4.10. t0,005 =
zc = (teste bilateral)
No se rejeita H0.
4.11. f0,05 =
fc = (teste bilateral)
No se rejeita H0.
4.12. z0,05 = -1,645
zc = -0,5774 (teste unilateral)
No se rejeita H0.

220

Você também pode gostar