Você está na página 1de 18

Aula 1: Inferncia estatstica e distribuio amostral

Meta
Apresentar os conceitos fundamentais de inferncia estatstica e suas aplicaes,
bem como os conceitos de distribuio amostral comparativamente com distribuio
populacional.

Objetivos
Esperamos que, aps o estudo do contedo desta aula, voc seja capaz de:
1. Reconhecer o que inferncia estatstica, suas principais caractersticas e
aplicao.
2. Diferenciar a estatstica inferencial da estatstica descritiva.
3. Reconhecer as caractersticas e aplicar o modelo de distribuio amostral.

Pr-Requisitos
Ter cursado estatstica I (estatstica descritiva)

Introduo
A inferncia estatstica um ramo da estatstica cujo objetivo fazer afirmaes
acerca de uma populao, a partir de dados obtidos de amostra(s) desta mesma
populao. Por exemplo, nas eleies para presidente, governador, prefeito e outros
cargos polticos freqentemente nos depararam com resultados de pesquisa de
intenes de votos, que so publicadas durante o perodo de campanha. Obviamente
no seria possvel entrevistar todos os eleitores em cada pesquisa (no h tempo e o
custo seria muito elevado). Assim, a pesquisa feita com base em amostras da
populao (eleitores) e, a partir dos dados obtidos nestas, usando a teoria da
inferncia estatstica, fazem-se afirmaes e tiram-se concluses acerca de
parmetros de uma populao. Por exemplo: a inteno de votos no candidato A :
252%.
A figura 1.1 ilustra a definio de Inferncia estatstica:

Figura 1.1: Inferncia estatstica

O mesmo pode-se fazer, por exemplo, para avaliar as caractersticas dos produtos
de uma empresa, sem a necessidade de analisar toda a populao (resultados do
processo).
Em estatstica I, voc teve a oportunidade de calcular parmetros estatsticos bem
como a probabilidade de se selecionar ao acaso um indivduo de uma populao e o
resultado fosse maior ou menor que certo valor. Para tal necessrio se utilizar um
modelo (normal, por exemplo) e de posse de parmetros populacionais como mdia e
desvio padro, calcula-se esta probabilidade.
Agora, considere este mesmo raciocnio dentro de uma empresa qualquer. Como
os processos esto sujeitos a variaes de todos os tipos e a qualquer instante,
precisa-se (o engenheiro, o gerente do processo) avaliar constantemente os
parmetros populacionais para determinar se o processo continua normal, se teve
alguma alterao, se o produto satisfaz plenamente uma dada especificao, etc.

nesse ponto que lanamos mo da Estatstica Inferencial, para estimarmos os


parmetros da populao e tirarmos nossas concluses.

conceitos importantes

Nesta disciplina, usaremos vrios conceitos apresentados no curso de estatstica I,


como a determinao da mdia, desvio padro, determinao da varivel padronizada
(por ex. z), bem como a utilizao de tabelas de probabilidades. Vale a pena voc
fazer uma breve reviso destes assuntos estudados em estatstica I.

Reviso de algumas frmulas

a) Clculo de parmetros populacionais (medida que descreve certa


caracterstica dos elementos da populao)

Parmetro

Simbologia

Frmula para o clculo

X=

X 1 + X 2 + ... + X n 1
=
N
N

Mdia

Varincia

1
N

i =1

(X

)2

i =1

1 N
( X i )2
N i =1

Desvio-padro

b) Clculo de estatstica de amostras


Estatstica
(medida que
descreve certa
caracterstica dos
elementos da
amostra)

Mdia

Simbologia

Frmula para o clculo

X 1 + X 2 + ... + X n 1 n
= Xi
n
n i =1

Varincia

1 n
( X i X )2

n 1 i =1

1 n
( X i X )2
n 1 i =1

S
Desvio-padro

c) Varivel Normal Padronizada para indivduos


Z=

Estatistica inferencial versus estatstica descritiva


A inferncia estatstica diferente da estatstica descritiva (vista em estatstica I).
Na estatstica descritiva, aplicam-se vrias tcnicas para se organizar, descrever e
sumarizar um conjunto de dados, obtendo-se parmetros (referentes populao) ou
estatsticas (referentes s amostras), como mdia, varincia, e desvio padro, bem
como se estudam modelos de distribuio de probabilidades (normal, binomial,
Poisson, etc.) para a populao em estudo. Neste caso, os parmetros/estatsticas
determinados so inequivocamente representativos destes dados (populao ou
amostra).
Por exemplo, em estatstica descritiva, coletamos dados, organizamos estes e
fazemos clculos como no exemplo a seguir.
Clculo da mdia e desvio padro de amostra referentes s notas de um teste de
estatstica:

Dp
Media
7,2

7,4

5,8

6,3

4,5

8,2

3,5

9,5

6,5

Mdia:

X=

7,2 + 7,4 +.....+9,5+ 6,5


= 6,5
5

Desvio Padro:

S_ =
x

1
(7,2 6,5)2 + (7,4 6,5)2 + ........ + (6,5 6,5)2 = 1,72
(9 1)

Assim, a mdia e o desvio padro da amostra so 6,5 e 1,72, sem quaisquer grau
de incerteza.
Por outro lado, se quisermos estimar (ou inferir) valores para mdia e desvio padro
da populao a partir de amostras (tamanho muito menor que o da populao)
podemos usar os resultados da amostra (mdia e desvio padro amostral) para
inferir/fazer uma afirmativa sobre a mdia ou desvio padro da populao. Neste caso
a certeza desta afirmao no seria mais 100%, como para amostra. Na inferncia,
teramos associado um erro relativo ao mtodo de clculo.
Podemos usar a inferncia da estatstica para estimar intervalos possveis de
resultados ou verificar afirmativas acerca de uma populao (hipteses), o que muito
til na engenharia.
EXEMPO DE HIPOTESE
A partir de daos amostrais, com confiana de 98%, podemos afirmar que a
proporo de peas defeituosas menor que 1%.
Tambm muitas vezes precisamos de informaes importantes sobre a populao,
como a mdia e desvio padro populacional. Mas, quando no se conhece estes
valores ou determin-los demandariam muito tempo, O que fazer?
Estes parmetros da populao podem ser determinados (estatstica descritiva) ou
inferidos (inferncia estatstica). claro que a determinao do parmetro seria
prefervel em relao a sua estimativa (inferncia). Mas, na maioria das vezes, esta
determinao muito demorada e onerosa. Alm disto, processos de engenharia so
processos dinmicos, o que demanda seu acompanhamento dirio e contnuo. Neste
aspecto a inferncia estatstica exerce um papel crucial, pois permite obter, com certa
confiabilidade, estimativas destes parmetros da populao com menor tempo e custo.

A base da inferncia estatstica


A inferncia estatstica se baseia na retirada de amostra de tamanho n de uma
populao de tamanho N (n muito menor que N). A partir desta amostra podemos
estimar ou tirar concluses a respeito dos parmetros da populao.
Vejamos a atividade a seguir

Atividade 1
Um engenheiro precisa verificar se a mdia e a variao de espessura de um dado
produto continua dentro dos padres normais do processo (por ex. 2,5 e 0,040). Para
tal, ele coletou amostras (cinco produtos) retiradas aleatoriamente da populao, e
desta amostra foram calculados a mdia e desvio padro amostrais (a seguir).
DP
mdia
0,039121
2,552

2,467

2,524

2,482

2,462

2,498

A partir destes dados, podemos afirmar que a mdia e o desvio padro


obtidos so os da populao?
Resposta Comentada:
No, tanto a mdia quanto o desvio padro calculados so descries da
amostra obtida da populao, mas no exatamente da populao. Claro
que estes no devem estar muito longe dos resultados da populao (2.5 e
0.040), mas no so exatamente os parmetros desta.

Como as espessuras dos produtos do exemplo anterior so variveis aleatrias,


conseqentemente, tanto a media e desvio padro amostrais calculados (para esses
valores) tambm sero. Assim, cada amostra que retirarmos dar resultados
diferentes. Embora este fato parea dificultar a previso, pelo fato das mdias e
desvios padres amostrais serem tambm variveis aleatrias, poderemos aplicar a
teoria estatstica para fazermos previses a respeito dos respectivos parmetros
populacionais.

Atividade 2
Imagine que a tabela 1.1 represente a populao de espessuras de chapas
de ao produzidas por uma dada empresa. Imagine que so chapas no
estoque e escolha aleatoriamente cinco amostras (com 5 itens cada) e
calcule as mdias e o desvios padres para cada subgrupo. Para tal use a
tabela a seguir:

media

DP

Tabela 1.1: resultados de espessura para uma chapa de ao de espessura de 2,5


mm.
2,532
2,522

2,579

2,490

2,469

2,519

2,498

2,450

2,550

2,590

2,502

2,543

2,493

2,468

2,367

2,503

2,538

2,485

2,491

2,459

2,491

2,605

2,488

2,508

2,588

2,522

2,479

2,552

2,503

2,561

2,536

2,487

2,514

2,429

2,538

2,472

2,462

2,545

2,561

2,530

2,415

2,419

2,482

2,480

2,488

2,531

2,535

2,469

2,491

2,481

2,530

2,501

2,415

2,502

2,578

2,438

2,568

2,473

2,536

2,469

2,491

2,426

2,538

2,471

2,539

2,524

2,415

2,587

2,540

2,516

2,503

2,483

2,511

2,532

2,508

2,550

2,497

2,544

2,525

2,502

2,499

2,552

2,467

2,524

2,482

2,519

2,505

2,516

2,462

2,564

2,507

2,507

2,472

2,528

2,490

2,539

2,462

2,509

2,494

2,511

2,539

2,521

2,572

2,519

2,479

2,534

2,453

2,477

2,520

2,476

2,410

2,445

2,487

2,471

2,474

2,457

2,524

2,506

2,562

2,530

2,529

2,441

2,614

2,534

2,532

2,521

2,518

2,455

2,475

2,457

2,486

2,513

2,588

2,433

2,567
2,461
2,457
2,528
2,484
2,488
2,533
2,555
2,434
2,516
2,462
2,495
2,536
2,533
2,487
2,585
2,439
2,471

2,453
2,537

2,484

2,464

2,464

2,568

2,522

2,508

2,559

2,452

2,494

2,435

2,463

2,474

2,463

2,537

2,519

2,420

2,503

2,413

2,476

2,512

2,566

2,408

2,397

2,483

2,482

2,436

2,482

2,531

2,462

2,534

2,487

2,453

2,510

2,472

2,538

2,466

2,510

2,478

2,517

2,473

2,548

2,541

2,502

2,567

2,537

2,522

2,400

2,495

2,456

2,449

2,497

2,510

2,546

2,492

2,454

2,562

2,459

2,518

2,521

2,454

2,455

2,493

2,417

2,497

2,560

2,524

2,488

2,413

2,531

2,482

2,490

2,506

2,513

2,473

2,591

2,456

2,534

2,497

2,396

2,415

2,557

2,491

2,524

2,479

2,506

2,468

2,467

2,453

2,453

2,581

2,513

2,537

2,429

2,536

2,471

2,447

2,504

2,528

2,441

2,547

2,440

2,506

2,524

2,490

2,444

2,563

2,484

2,512

2,514

2,527

2,464

2,545

2,509

2,446

2,443

2,532

2,530

2,503

2,535

2,431

2,534

2,460

2,518

2,492

2,510

2,518

2,461

2,473

2,490

2,442

2,455

2,529

2,458

2,475

2,500

2,508

2,524

2,508

2,484

2,522

2,482

2,477

2,517

2,483

2,521

2,498

2,533
2,542
2,446
2,536
2,537
2,555
2,454
2,502
2,516
2,513
2,528
2,563
2,505
2,424
2,441
2,494
2,490
2,536
2,532
2,427

Resposta Comentada
Voc poder confirmar que os resultados das mdias e desvios padres
amostrais, calculados de amostras retiradas aleatoriamente da mesma

populao, tambm variaro e no so exatamente iguais ao da


populao.

Assim, a idia da estatstica inferencial usar esses dados (da amostra) e fazer
afirmaes (inferncia) acerca da populao.

EXEMPLO DE INFERNCIA:
A mdia da populao est entre 2,42 e 2,58 com 95% de confiana.

As metodologias para fazer tais inferncias ou afirmaes, para diferentes casos, o


que estudaremos nos prximos captulos.

Distribuio de Amostragem da Mdia


Nos j vimos em estatstica I, dados de uma populao podem ser representados
por seus parmetros e conseqente distribuies de probabilidades. Como exemplo,
temos as distribuies normal, exponencial, binomial, de Poisson, entre outras.
Normalmente estas populaes so de tamanhos considerveis (N) e os dados destas
so variveis aleatrias (x1, x2, x3, x4, x5, .....xN).
Como j comentamos, frequentemente, em engenharia precisamos afirmar ou
tirarmos concluses a respeito de uma dada populao (por exemplo, o dimetro
mdio de uma esfera de ao fabricado sob certa especificao e disponveis nos
estoques da empresa). Para tal, a princpio, poderamos simplesmente determin-las
diretamente a partir dos dados desta populao. Mas, imagine o trabalho que isto
daria e o tempo que levaria. Assim, para contornarmos este problema, fazemos uso de
modelos estatsticos e podemos tirar nossas concluses com muito menos tempo,
menos trabalho e consequentemente menor custo. Por outro lado, para utilizarmos
estes modelos (normal, exponencial, binomial, de Poisson e outros), precisamos de
parmetros desta populao como mdia, varincia, etc. A figura 1.2 ilustra este
processo para uma populao normal.

Classificao
destes dados
(distribuio de
freqncia)

Coleta de dados

Utilizao do
modelo para
fazer inferncia
estatstica

Determinao de
e

Utilizao do modelo (ex.


calculo das freqncias):

Validao do
modelo

2
_

1 x
f ( x) =
exp

2 2
2

Figura 1.2: Etapas para modelagem estatstica.

Note que em um primeiro instante temos que ter um trabalho relativamente grande
para determinao dos parmetros de interesse (neste caso e ), mas aps esta
determinao, passamos a tirar nossas concluses a partir deste modelo.
Mas, por outro lado, podemos ter variaes no processo que implicariam em novas
exaustivas medidas, o que seria um grande problema. Assim, na prtica do dia a dia
trabalha-se com amostras em vez de indivduos, o que levaria a termos uma
distribuio amostral em vez da distribuio dos indivduos.
Imagine que, por questes quaisquer (por ex. alta velocidade de produo), no
seja possvel para uma empresa produtora de esferas de ao fazer medidas sobre
todos os indivduos da populao (com mdia e desvio padro histricos de 50 e 1,0
respectivamente). Neste caso, lanamos mo de tcnicas de amostragens e nossos
resultados passam a ser estatsticas da amostra (ex. X e S). Assim cada dado deixa
de ser uma medida simples (de um indivduo) e passa a ser um resultado de uma
estatstica calculada sob a amostra. Por exemplo:
Amostra

diam.

Xi =

x1

x2

x3

x4

x5

49,2

50,5

53,6

45,2

50,0

49,2 + 50,5 + 53,6 + 45,2 + 50,0


= 49,70
5

10

Podemos ver que a mdia amostral difere ligeiramente da mdia populacional


esperada (=50). Mas, se retirarmos um nmero grande de amostras e fizermos uma
distribuio de frequncia das mdias amostrais, estas ficaro em torno da mdia
populacional, com a mdia das mdias sendo igual mdia da populao.
A figura 1.3 apresenta a distribuio de uma populao juntamente com a
distribuio de freqncia construda a partir de mdias obtidas da mesma populao.
0,6
0,5
0,4
0,3
0,2
0,1
0
-0,1
Figura 1.4: Distribuio de probabilidades das mdias amostrais ou simplesmente
distribuio das mdias (linha verde, contnua) juntamente com a distribuio da
populao (linha vermelha, pontilhada).

Outra aplicao de distribuio amostral o controle estatstico de processo. Para


se analisar a evoluo do processo, comum se usar grficos seqenciais como o da
figura 1.4, onde se avalia a tendncia central dos dados (mdia das mdias) e sua
variao (desvio padro das mdias).
Note que cada ponto representa a mdia de uma amostra tirada dos resultados do
processo e a linha central a media global de todos indivduos do processo ( mdia da
populao)

Figura 1.4: Exemplo de grfico de controle estatstico de processos.

11

Precisamos agora de mtodos para decidir se a tendncia central (mdia dos


resultados) ou a variao esto normais. Para tal, utilizaremos os mesmos modelos
estatsticos, s que agora para uma distribuio amostral.
Pode-se observar claramente na figura 1.3 que a mdia da distribuio da populao
() e a mdia das media ( X ) so iguais. Por outro lado, o desvio padro da
distribuio das amostras (linha contnua) menor que o da populao. A relao
entre estes e dada por:

X =

__

Onde n o tamanho das amostras.


Outro fato importante acerca das distribuies das mdias o Teorema do Limite
Central, ou seja, mesmo que a populao no tenha uma distribuio normal e
respectiva distribuio das mdias amostrais ser normal. Este fato bastante
interessante nas aplicaes de engenharia.
Assim o modelo da distribuio normal para as mdias amostrais :

f ( x) =

1
2 _x 2

2
_

x

exp
_
2 x

Em que a varivel normal padronizada :


_

zx =
_

_
x

ou
_

x
zx =
_

12

__

Onde
so mdias das amostras obtidas da populao,
das mdias e o desvio padro da populao.

_
x

o desvio padro

Lembre-se que a varivel padronizada z aquela definida na distribuio normal, a


partir da qual se calcula a probabilidade de um resultado ocorrer (Estatstica I). A nica
_
diferena aqui que usaremos
em vez de z, porque trataremos de distribuio

zx

das mdias.
Vamos a um exemplo prtico:

Um engenheiro foi designado para determinar o desvio padro das mdias em um


processo de empacotamento de saches de acar com 15 g e calcular a probabilidade
de uma amostra obtida ao acaso ter mdia inferior a 14,7g.
Dados histricos mostram que a mdia e o desvio padro da populao so
=15,00 e =0,35.
Assim, usando a equao abaixo:

__ =
x

0,35
= 0,1565
5

Para entendermos o significado deste parmetro, podemos utilizar os dados de 20


amostras aleatrias com 5 unidades cada, obtidas do mesmo processo. A tabela 1.2
apresenta estes dados, com as respectivas mdias calculadas.

Tabela 1.2
__

x
x1

x2

x3

x4

x5

14,45

15,12

14,30

14,81

14,67

15,20

14,46

15,22

15,16

14,87

14,76

15,25

15,22

14,89

15,06

15,17

15,17

15,00

15,31

14,36

14,75

14,96

14,83

15,28

14,76

14,99

15,04

14,78

15,50

15,14

14,96

15,32

15,04

15,24

14,83

14,73

15,14

15,06

14,93

15,43

14,54

14,97

15,45

14,83

14,67

14,67
14,98
15,04
15,00
14,92
15,09
15,08
15,06
14,89

13

14,96
10

15,13

14,97

15,34

14,98

14,37

11

14,49

14,78

14,77

14,94

14,97

12

14,88

14,49

15,75

14,79

14,69

13

14,83

14,85

14,03

15,23

15,36

14

15,43

14,99

15,29

14,78

15,09

15

15,47

15,25

15,15

15,08

15,20

16

15,28

14,46

14,74

15,37

14,62

17

15,00

14,71

15,34

15,31

15,01

18

15,34

15,39

15,28

14,99

14,86

19

15,20

14,94

15,14

14,70

14,77

20

15,13

14,97

15,14

15,56

15,07

21

14,76

15,09

14,83

15,38

15,36

22

15,01

14,86

14,32

14,14

14,75

23

14,78

14,94

14,74

15,13

15,23

24

15,16

15,09

15,24

15,46

15,24

25

14,89

15,43

14,80

15,73

15,10

26

15,46

14,95

15,15

14,99

14,99

27

14,85

15,02

14,80

14,57

15,08

28

14,56

14,74

15,97

15,12

14,75

29

14,87

14,87

15,23

15,50

15,26

30

14,56

14,92

15,02

15,05

14,93

14,79
14,92
14,86
15,12
15,23
14,89
15,07
15,17
14,95
15,18
15,08
14,62
14,96
15,24
15,19
15,11
14,86
15,03
15,14
14,90

Podemos ento calcular o desvio usando a frmula abaixo:

( xi X )2
S_ =
n 1
x

1/ 2

14

Onde x i so as mdias amostrais calculadas para cada amostra e X a mdia


global (mdia das mdias), dada por:

x i 14,67 + 14,98 + .... + 15,14 + 14,90


= =
= 15,00
n
20
Assim, substituindo na equao abaixo, temos:

S_ =
x

1
(14,67 15,0)2 + (15,98 15,0)2 + ........ + (14,90 15,0)2
19
S _ = 0,1526

x
Note que

S _ _ , o que quer dizer que S _


x

, a princpio, uma boa estimativa de

_.
x
Lembrando que

S_

uma estatstica obtida de dados amostrais, enquanto que

_
x

obtido a partir do desvio padro da populao.


Se fizermos uma suposio de que a populao pode ser representada pelos 150
dados (30x5) e que as 30 mdias podem representar a distribuio das mdias,
podemos construir as suas respectivas distribuies de freqncias. As figuras 1.5 a) e
b), representam os polgonos de freqncia da distribuio das mdias e da
populao, respectivamente. Podemos observar que a diferena bsica esta na
disperso dos dados (devido diferena no desvio padro), enquanto que as mdias
no diferem muito, o que est de acordo com esperado.

15

16
14
12
10
8
6
4
2
0
14

14,5

15

15,5

16

14

14,5

15

15,5

16

a)
40
35
30
25
20
15
10
5
0

B)
Figura 1.5: Polgono de frequncia de uma distribuio amostral(a) e uma distribuio
populacional (b).

Agora podemos calcular a probabilidade de uma amostra obtida ao acaso ter mdia
inferior a 14g.

Calculando a varivel normal padronizada:

16

x = 14,7 15 = 14,7 15 = 1,916


zx =
0,1565
_

0,35

Entrando na tabela normal para z = 1,916 obtemos:


_

P(

x <14,7)=0,0274

Ou seja, a probabilidade da mdia de uma amostra (n=5) ser menor que 14,7 de
2,74%.
Vale ressaltar que do mesmo modo que podemos dizer a probabilidade de uma
mdia amostral retirada de uma populao estar dentro de uma faixa de valores,
podemos tambm inferir uma faixa de valores para mdia populacional a partir de
dados de uma amostra.

Concluso
A inferncia estatstica um ramo da estatstica cujo objetivo fazer afirmaes
acerca de uma populao, a partir de dados obtidos de amostra(s) desta mesma
populao.
O modelo mais utilizado em estatstica inferencial a distribuio amostral, em que:
_

zx =
_

_
x

ou
_

zx =
_

Atividade Final
Um engenheiro obteve os resultados de um processo (30 amostras de 5
indivduos) apresentados na tabela a seguir.
A partir destes dados:
a) Determine as mdias das 30 amostras.
b) Determine o histograma destas mdias e o histograma da populao
(dos 150 indivduos)

17

c) Calcule o desvio padro das mdias (considerando as mdias obtidas)


d) Calcule o desvio padro das mdias, considerando o desvio padro da
populao (que normalmente 1,0)
e) Compare os resultados obtidos em b e c.
f) calcule a probabilidade de retiramos uma amostra (n=7) ao acaso e ela
ter valor menor que 4,0.

6,61
5,68
7,54
6,04
9,03
8,48
6,15
7,24
7,29
9,18
6,30
7,69
7,39
6,41
7,26
5,46
7,00
6,22
7,23
8,90
7,22
7,10
8,26
5,08
5,29
7,12
7,06
6,85
9,19
7,69

7,03
4,16
8,12
6,80
7,70
7,91
8,25
6,16
7,47
8,24
5,87
7,42
6,35
6,79
7,08
6,52
7,35
7,80
4,48
8,49
6,62
6,69
9,41
5,49
6,41
6,93
7,96
8,52
4,48
8,48

7,25
6,93
6,49
6,99
5,79
8,23
6,49
6,29
7,04
6,20
6,69
8,35
8,57
7,21
6,67
6,46
6,31
6,96
7,23
5,86
8,82
7,08
7,36
7,48
5,64
7,81
8,83
6,37
7,19
8,55

7,30
9,04
5,37
6,79
6,74
7,19
5,23
6,18
7,39
6,14
8,09
6,49
6,40
7,64
6,51
8,73
6,59
6,44
8,34
6,45
6,44
6,38
7,16
5,89
7,88
6,17
5,30
6,34
6,62
7,87

6,39
7,40
7,28
7,82
7,64
4,26
5,31
7,19
7,38
7,61
6,57
5,20
8,31
7,27
7,38
6,00
8,41
6,69
7,10
5,75
7,41
6,67
7,36
8,05
7,28
6,69
8,00
7,39
8,62
7,08

18