Você está na página 1de 72

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R.

Zanini

ANAELENA BRAGANA DE MORAES


LUCIANE FLORES JACOBI

ROSELAINE RUVIARO ZANINI

CADERNO DIDTICO

ESTATSTICA

Santa Maria
UFSM
2008

Departamento de Estatstica -UFSM UFS

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

E84e

Moraes, Anaelena B.
Estatstica : caderno didtico / Anaelena B. Moraes, Luciane
F. Jacobi, Roselaine R. Zanini. Santa Maria : UFSM, CCNE, De
partamento de Estatstica, 2001.
56 p.
1. Estatstica I. Jacobi, Luciane F. II. Zanini, Roselaine R.
III. Ttulo.
CDU : 519.22/.25:311

Ficha catalogrfica elaborada por Rosa Maria Fristsch Feij CRB-10/662


Biblioteca Central UFSM

Departamento de Estatstica -UFSM UFS

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Sumrio
1
1
1
1
2
2
2
2
3
4
5
5
6

1 - Conceitos Iniciais
1.1 Conceito de estatstica
1.2 Diviso da estatstica
1.3 Populao
1.4 Amostra
1.5 Dados estatsticos
1.6 Varivel
1.7 Nveis de mensurao de uma varivel
1.8 Arredondamento de dados
1.9 Mtodo estatstico
1.10 Representao tabular
1.11 Sries estatsticas
1.12 Representao grfica
2 Distribuies de Freqncias
Representao de variveis
1.1 Discretas
1.2 Contnuas
2 Alguns conceitos bsicos
2.1 Dados brutos
2.2 Rol
2.3 Amplitude total
2.4 Classe
2.5 Limites de classe
2.6 Amplitude de classe
2.7 Ponto mdio de classe
2.8 Tipos de freqncias
2.9 Exemplos de distribuies de freqncias
2.10 Grficos representativos de uma distribuio de freqncias em classes

8
8
8
8
9
9
9
9
9
9
9
9
9
10
10

3 Medidas Descritivas
Introduo
2 Medidas de tendncia central
2.1 Mdia aritmtica
2.2 Mediana
2.3 Moda
3 Separatrizes
3.1 Quartis
3.2 Decis
3.3 Percentis
4 Medidas de disperso
4.1 Amplitude de variao
4.2 Desvio mdio
4.3 Soma de quadrados
4.4 Varincia
4.5 Desvio padro

14
14
14
14
15
16
17
17
18
19
19
19
20
20
20
22
i

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

22
22
22
23

4.6 Coeficiente de variao


5 Assimetria e curtose
5.1 Assimetria
5.2 Curtose
4 Probabilidade
1 Introduo
2 Noes de experimento, espao amostral e eventos
2.1 Experimento aleatrio
2.2 Espao amostral
2.3 Evento
3 lgebra de eventos
4 Conceitos de probabilidade
4.1 Conceito emprico
4.2 Definio clssica de probabilidade
4.3 Definio axiomtica
5 Probabilidade condicionada
6 Independncia estatstica
7 Teorema de Bayes
8 Resumo das propriedades do clculo de probabilidades

25
25
25
25
25
25
25
26
26
26
27
27
28
29
29

5 Variveis Aleatrias
1 Noes sobre variveis aleatrias
2 Variveis aleatrias discretas
2.1 Funo de probabilidade
2.2 Valor esperado ou mdia de uma varivel aleatria discreta
2.3 Varincia de uma varivel aleatria discreta
3 Variveis aleatrias contnuas
3.1 Funo densidade de probabilidade
3.2 Valor esperado ou mdia de uma varivel aleatria contnua
3.3 Varincia de uma varivel aleatria contnua
4 Modelos probabilsticos para variveis aleatrias
4.1 Distribuio binomial
4.2 Distribuio de Poisson
4.3 Distribuio normal
4.4 Distribuio Qui-quadrado (2)
4.5 Distribuio t de Student
4.6 Distribuio F (Fisher)

30
30
30
30
30
31
31
31
32
32
32
32
33
34
35
36
36

6 Amostragem
1 Introduo
1.1 Definio de amostragem
1.2 Importncia da utilizao da amostragem
1.3 Situaes em que pode no valer pena a realizao de uma amostragem
1.4 Tipos de investigao
2 Tipos de amostragem probabilistica
2.1 Amostragem aleatria simples
2.2 Amostragem sistemtica
2.3 Amostragem estratificada
3 Distribuio por amostragem
3.1 Amostragem com ou sem reposio

37
37
37
37
37
37
38
38
38
39
39
40

ii

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

40
40
40
42

3.2 Distribuio amostral das mdias


4 Determinao do tamanho da amostra
4.1 Para estimar a mdia populacional
4.2 Para estimar uma proporo populacional
7 Estimao de Parmetros
1 Introduo
2 Estimativas pontuais e intervalares
3 Tipos de intervalos
3.1 Intervalo de confiana para a mdia
3.2 Intervalo de confiana para a proporo populacional p
3.3 Intervalo de confiana para a diferena de mdias populacionais 1 e 2
3.4 Intervalo de confiana para a diferena de propores populacionais p1 e p2

43
43
43
43
43
44
44
45

8 Testes de Hipteses Paramtricos


1 Introduo
2 Hipteses estatsticas
3 Testes de hipteses
3.1 Hipteses
3.2 Tipos de erros
3.3 Nvel de significncia do teste
3.4 Graus de liberdade
3.5 Teste bilateral
3.6 Teste unilateral
3.7 Probabilidade exata do teste
3.8 Procedimento para a realizao de um teste de hipteses
4 Testes de hipteses paramtricos
4.1 Teste para uma mdia com varincia populacional 2 conhecida
4.2 Teste para uma mdia com varincia populacional 2 desconhecida
4.3 Teste para a proporo populacional p
4.4 Teste para a diferena entre duas mdias populacionais independentes
4.5 Teste para a diferena entre duas amostras dependentes Teste t pareado
4.6 Teste para a diferena entre duas propores populacionais p1 e p2
4.7 Teste para a diferena entre duas varincias

46
46
46
46
46
46
47
47
47
47
47
48
48
48
48
49
49
52
52
53

9 Anlise de Varincia ANOVA


1 Introduo
2 Pressuposies bsicas aplicao da ANOVA
3 ANOVA Uma classificao: amostras de mesmo tamanho
4 ANOVA Uma classificao: amostras de tamanhos diferentes
5 Comparao de mdias
5.1 Teste de Tuckey

54
54
54
54
55
55
56

10 Testes de Hipteses No-Paramtricos


1 Teste de adequao
2 Teste qui-quadrado de independncia
3 Coeficiente de contingncia

57
57
58
59

11 Correlao e Regresso Linear Simples


1 Anlise de correlao linear simples
1.1 Estimativa do coeficiente de correlao

60
60
61
iii

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

62
63
63
65
66

1.2 Teste para o coeficiente de correlao


2 Regresso linear simples
2.1 Consideraes na anlise de regresso
3 Teste para verificar a significncia da regresso
4 Coeficiente de determinao ou explicao

66

Referncias Bibliogrficas

Telefone para contato: (055) 3220 8486 sub-ramais 32 ou 33 ou 3220 8612


Departamento de Estatstica CCNE UFSM
http://www.ufsm.br/estat e http://www.ufsm.br/ppgemq

iv

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

1 - Conceitos Iniciais
1.1 Conceito de estatstica
Existem muitas definies propostas por autores, objetivando estabelecer com clareza o que
estatstica, como por exemplo:
A estatstica um conjunto de mtodos destinados a coleta, organizao, resumo, apresentao e
anlise de dados de observao, bem como a tomada de decises razoveis baseadas em tais anlises;
A estatstica a matemtica aplicada aos dados de observao;
A estatstica um conjunto de processos ou tcnicas empregadas na investigao e anlise de
fenmenos coletivos ou de massa.
1.2 Diviso da estatstica

Estatstic a Descritiva
Estatstic a geral ou metodolgi ca
A estatstica divide-se em:
Estatstic a Indutiva ou Inferencia l
Estatstica aplic ada
Estatstica geral
Visa elaborar mtodos gerais aplicveis a todas as fases do estudo dos fenmenos de massa. A
estatstica matemtica a parte da estatstica geral que tem por finalidade o estudo das propriedades
matemticas dos fenmenos de massa e a deduo e demonstrao rigorosa dos procedimentos e frmulas
usadas. A estatstica geral ainda pode ser dividida em dois grandes campos:

Estatstica descritiva
Trata da coleta, da organizao, classificao, apresentao e descrio dos dados de observao.
Refere-se maneira de apresentar um conjunto de dados em tabelas e grficos e maneira de resumir,
atravs de certas medidas, as informaes contidas nestes dados.
Estatstica indutiva ou inferencial
Visa tirar concluses sobre a populao a partir de amostras. Refere-se maneira de estabelecer
concluses para toda uma populao quando se observar apenas parte desta populao.
Estatstica aplicada
todo o ramo do conhecimento cientfico que proceda, nica ou principalmente, por intermdio da
metodologia estatstica. Exemplos: Biometria (cincia que trata da mensurao da vida e dos processos
vitais), Demografia, Econometria, Psicometria (mensurao da personalidade, do desenvolvimento mental
e do comportamento de indivduos e grupos e seus ajustamentos a mudanas no meio ambiente),
Mecnica Estatstica, Sociometria (maneira como as pessoas vivem, sua cultura, opinies e atitudes, assim
como o relacionamento de uns com os outros).
Algumas aplicaes da estatstica
A estatstica uma cincia de mltiplas aplicaes e de fundamental importncia no campo da
investigao cientfica, sendo de utilizao cada vez mais acentuada em qualquer atividade profissional.
Ento, razovel que os profissionais de diversas reas adquiram um mnimo de conhecimento tcnico
sobre estatstica que possibilitem a compreenso de termos como: variabilidade, regresso, correlao,
significncia, etc. que aparecem com freqncia em artigos de publicaes especializadas.
1.3 Populao
todo o conjunto de elementos que possuam ao menos uma caracterstica comum observvel.
Obs.: elementos = objetos, animais, pessoas, material contnuo (slido, lquido ou gs).

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

1.4 Amostra
uma parte da populao, sendo que a mesma deve ser selecionada de acordo com algum critrio
para que possa ser representativa da populao.
1.5 Dados estatsticos
So as caractersticas observadas ou medidas nos elementos, sendo que os dados de observao
constituem a matria-prima da estatstica.
1.6 Varivel
um smbolo, como X, Y, Z, ..., que pode assumir resultados de um conjunto, que lhe so
atribudos, conjunto este chamado domnio da varivel. Se a varivel pode assumir somente um valor, ela
denominada constante.
As variveis podem ser classificadas em:
Variveis qualitativas ou atributos: indica alguma propriedade do fenmeno de observao;
Variveis quantitativas discretas: quando podem assumir apenas alguns valores de um conjunto;
Variveis quantitativas contnuas: quando podem assumir, teoricamente, qualquer valor de um
conjunto.
Em geral, as medies do origem a variveis contnuas, enquanto que as enumeraes ou
contagens resultam em variveis discretas.
Exemplo: Classifique as variveis em qualitativas ou quantitativas (discretas ou contnuas).
a) quantidade de alcatro em cigarros;
b) altitude de um avio;
c) nmero de assinantes de um servio de computador on-line;
d) precipitao pluviomtrica durante um ano;
e) salrio dos funcionrios de uma empresa;
f) gnero dos filhos de casais residentes em uma cidade.
Soluo: a) Varivel quantitativa contnua; b) Varivel quantitativa contnua; c) Varivel quantitativa
discreta; d) Varivel quantitativa contnua; e) Varivel quantitativa discreta; f) Varivel qualitativa.
1.7 Nveis de mensurao de uma varivel
Nvel de mensurao significa a escala em que foi medida a varivel, objeto de investigao. So
quatro os nveis de mensurao: nominal, ordinal, intervalar e de razo.
Nvel nominal
A mensurao, em seu mais baixo nvel, existe quando nmeros ou outros smbolos so utilizados
para classificar um elemento. Estes nmeros ou smbolos constituem uma escala nominal ou
classificadora. As nicas estatsticas aplicveis so: a moda e as freqncias.
Nvel ordinal
Pode ocorrer que os elementos em uma categoria de dada escala no sejam apenas diferentes dos
elementos de outras categorias da mesma escala, mas que guardem certo tipo de relao com eles. Isto
, a varivel em estudo partida em categorias ordenadas em graus convencionados havendo uma relao
entre categorias do tipo: maior do que. Pode-se calcular a mediana e todas as estatsticas de postos, alm
da moda e das freqncias.

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Nvel intervalar
Quando a escala tem todas as caractersticas de uma escala ordinal, e, alm disso, se conhecem as
distncias entre dois nmeros quaisquer da escala, ento se consegue uma mensurao consideravelmente
mais forte que a ordinal. Atribui-se varivel um nmero real, uma unidade constante e comum de
mensurao. A unidade de mensurao e o ponto zero so arbitrrios. A escala intervalar a primeira
escala verdadeiramente quantitativa. Neste nvel todas as estatsticas paramtricas comuns so aplicveis.
Nvel de razo
Quando uma escala tem todas as caractersticas de uma escala de intervalos e, alm disso, tem um
verdadeiro ponto zero como origem, chamada escala de razo. Como no nvel anterior, todas as
estatsticas so aplicveis.
Exemplo: Determine o nvel de mensurao mais adequado (nominal, ordinal, intervalar ou razo).
a) classificao como: acima da mdia, mdio ou abaixo da mdia para encontros marcados com
desconhecidos;
b) contedo de nicotina (em miligramas) de cigarros;
c) nmeros de inscrio do INSS;
d) temperaturas (em graus Celsius);
e) anos em que ocorreram eleies presidenciais;
f) graus finais (A, B, C, D, F) de estudantes de estatstica;
g) cdigos de endereamento postal (CEP);
h) rendas anuais de enfermeiras;
i) carros classificados como subcompacto, compacto, intermedirio ou grande;
j) cores de uma amostra de confetes M&M.
Soluo: a) Nvel ordinal; b) Nvel de razo; c) Nvel nominal; d) Nvel intervalar; e) Nvel intervalar;
f) Nvel ordinal; g) Nvel nominal; h) Nvel razo; i) Nvel ordinal; j) Nvel nominal.
1.8 Arredondamento de dados
Arredondar um nmero significa reduzir a quantidade de algarismos significativos aps a vrgula,
deste nmero. O objetivo reduzir os erros por arredondamento, quando grande o volume de nmeros a
arredondar. A Portaria 36, de 6 de agosto de 1965 do Instituto Nacional de Pesos e Medidas, estabelece os
seguintes critrios para o arredondamento de dados.
Regras de arredondamento
Quando o primeiro algarismo aps aquele que ser arredondado for 0, 1, 2, 3, 4, conserva-se o
algarismo a ser arredondado e desprezam-se os seguintes;
Quando o primeiro algarismo aps aquele que ser arredondado for 6, 7, 8, 9 ou 5, este ltimo seguido
de outros algarismos, onde pelo menos, um diferente de zero, aumenta-se uma unidade no algarismo
a ser arredondado e desprezam-se os seguintes;
Quando o primeiro algarismo aps aquele que ser arredondado for 5, seguido de zeros, conserva-se o
algarismo a ser arredondado se ele for par, ou aumenta-se uma unidade, se ele for mpar, desprezando
os seguintes.

Par

Conserva
0, 1, 2, 3 ou 4

mpar

Soma uma unidade


6, 7, 8, 9 ou 5+

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Dado os valores abaixo, fazer o arredondamento para dcimo.


a) 33,5630;
b) 9,5194;
c) 10,32500;
d) 63,4850000001;
e) 6,7153;
f) 0,9880;
Soluo: a) 33,56; b) 9,52; c)10,32; d) 63,49; e) 6,72; f) 0,99
1.9 Mtodo estatstico
Quando se pretende empreender um estudo estatstico completo, existem diversas fases do trabalho
que devem ser desenvolvidas para se chegar aos resultados finais do estudo.
Fases do mtodo estatstico
Definio do problema: a primeira fase do trabalho estatstico consiste em uma definio ou
formulao correta do problema a ser estudado. Alm de considerar detidamente o problema objeto do
estudo, o analista dever examinar outros levantamentos realizados no mesmo campo e anlogos, uma
vez que parte da informao de que necessita pode, muitas vezes, ser encontrada nesses ltimos.
Planejamento da pesquisa: o passo seguinte, aps a definio do problema, compreende a fase do
planejamento, que consiste em se determinar o procedimento necessrio para resolver o problema e, em
especial, como levantar informaes sobre o assunto objeto do estudo. nessa fase que ser escolhido
o tipo de levantamento a ser utilizado.
Outros elementos importantes que devem ser tratados nessa mesma fase so o cronograma das
atividades, atravs do qual so fixados os prazos para as vrias fases, os custos envolvidos, o exame das
informaes disponveis, o delineamento da amostra e a forma como sero escolhidos os dados.
Coleta ou levantamento dos dados: o terceiro passo essencialmente operacional, compreendendo a
coleta das informaes propriamente ditas. Formalmente, a coleta de dados se refere obteno,
reunio e registro sistemticos de dados, com um objetivo determinado.
Crtica e digitao dos dados: antes de comear a analisar os dados, conveniente que lhes seja dado
algum tratamento prvio, a fim de torn-los mais expressivos. um trabalho de condensao e de
tabulao dos dados, que chegam ao analista de forma desorganizada, tornando impossvel a tarefa de
apreender todo o seu significado pela simples leitura.
Organizao e representao dos dados: a apresentao ou exposio dos dados observados constitui a
quinta fase do mtodo estatstico. H duas formas de apresentao, que no se excluem mutuamente:
a) a apresentao tabular uma apresentao numrica dos dados. Consiste em dispor os dados em
linhas e colunas distribudas de modo ordenado, segundo algumas regras prticas adotadas pelos
diversos sistemas estatsticos;
b) a apresentao grfica dos dados numricos constitui uma apresentao geomtrica. Embora a
apresentao tabular seja de extrema importncia, no sentido de facilitar a anlise numrica dos dados,
no permite ao analista obter uma viso to rpida, fcil e clara do fenmeno e sua variao como a
conseguida atravs de um grfico.
Anlise dos dados e interpretao dos resultados: a ltima fase do trabalho estatstico a mais
importante e tambm a mais delicada. Nesta etapa, o interesse maior reside em tirar concluses que
auxiliem o pesquisador a resolver seu problema. A anlise dos dados estatsticos est ligada
essencialmente ao clculo de medidas, cuja finalidade principal descrever o fenmeno. Assim, o
conjunto de dados a ser analisado pode ser expresso por nmeros-resumos, as estatsticas, que
evidenciam caractersticas particulares desse conjunto.
4

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

1.10 Representao tabular


Consiste em dispor os dados em linhas e colunas distribudas de modo ordenado. A elaborao de
tabelas deve obedecer s normas editadas pelo Instituto Brasileiro de Geografia e Estatstica - IBGE.
Abaixo se apresenta uma tabela esquemtica sendo indicados os seus elementos.
Ttulo: O qu?; Onde?; Quando?
Cabealho
Coluna Indicadora

Total
Corpo da tabela

Total
Fonte :

*
Chama de Rodap
Nota :

No rodap de uma tabela podem aparecer, se necessrio: a fonte (entidade responsvel pelas
informaes contidas na tabela), notas (observaes gerais sobre a tabela) e/ou chamadas (observaes
feitas em relao a pontos especficos da tabela sendo os smbolos usados: *, **, ...; , , ...; i, ii, ... e k).
1.11 Sries estatsticas
Uma srie estatstica um conjunto de dados ordenados segundo uma caracterstica comum, sendo
apresentadas sob forma de tabela e/ou grfico.
A classificao de uma srie feita de acordo com a variao de trs elementos que a compem: a
espcie (o fenmeno), o local (o lugar onde o fenmeno acontece) e a poca (fator temporal ou
cronolgico a que se refere o fenmeno).
O nome da srie depende do(s) elemento(s) que varia(m). Assim, pode-se ter uma srie especfica,
geogrfica, temporal, mista ou uma distribuio de freqncias.
Exemplos de sries
Srie especfica (srie simples):
Tabela - Freqncias e porcentagens dos 2.000 empregados da
Companhia MB, segundo o grau de instruo
Porcentagem
Grau de instruo
Freqncia (ni)
Fundamental
650
32,50
Mdio
1.020
51,00
Superior
330
16,50
Total
2.000
100,00
Fonte: Dados hipotticos

Srie geogrfica-especfica (srie composta ou mista):


Tabela - Opinio da populao, por local de residncia, sobre um
projeto governamental
Local de residncia
Total
Opinio
Urbano
Suburbano
Rural
A favor
30
35
35
100
Contra
60
25
15
100
Total
90
60
50
200
5

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

1.12 Representao grfica


Um grfico toda a forma de representao das sries estatsticas que seja baseada no desenho.
O grfico deve ser atraente para cumprir sua finalidade de mostrar resultados e bem construdo
para permitir a anlise do fenmeno exposto. A fim de que isso acontea, deve-se observar alguns
aspectos bsicos como: simplicidade, clareza e veracidade.
Do mesmo modo que nas tabelas estatsticas, nos grficos, deve-se considerar um ttulo que
informe a espcie, o lugar e o tempo do fenmeno representado, bem como a fonte de onde foram
coletados os dados expostos.
Grficos analticos
Pontos
Linhas
Classificao
dos grficos
analticos

Simples
Sobrepostas
Justapostas

Barras
Superfcie

Simples
Sobrepostas
Justapostas

Colunas
Setores
Exemplos de grficos
Grfico de pontos
10

Varivel Y

8
6
4
2
0
0

Varivel X

Grfico de linha
10

Varivel Y

8
6
4
2
0
1

Varivel X

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Grfico de colunas
10

Varivel Y

8
6
4
2
0
1

Varivel X

Grfico de colunas justapostas


10

Varivel Y

8
6

Seqncia1
Seqncia2

4
2
0
1

Varivel X

Grfico de colunas sobrepostas


10

Varivel Y

8
6

Srie2
Srie1

4
2
0
1

Varivel X

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Grfico de barras
Varivel B

7
6
5
4
3
2
1
0

Varivel A

Grfico de setores
A
B
C

2 Distribuies de Freqncias
Uma distribuio de freqncia uma tabela que rene o conjunto de dados, conforme as
freqncias ou as repeties de seus valores. Esta tabela pode representar os dados em classes ou no, de
acordo com a classificao dos dados em discretos ou contnuos.
1 Representao de variveis
1.1 Discretas
Neste caso, representam-se as observaes numa tabela de freqncias, no agrupadas em classes,
designadas de sries de magnitude por ponto. til quando a srie apresenta poucos valores distintos.
1.2 Contnuas
Neste caso, utiliza-se tambm a tabela de freqncias, mas sob forma de intervalos, mesmo que
isto sacrifique algum detalhe na ordenao de valores individuais. til quando a srie apresenta muitos
valores distintos.
8

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

2 Alguns conceitos bsicos


2.1 Dados brutos
So os valores originais conforme eles foram coletados, no estando ainda prontos para anlise,
pois no esto numericamente organizados ou tabelados.
2.2 Rol
uma lista, onde as observaes so dispostas em uma determinada ordem: crescente ou
decrescente. O objetivo da ordenao tornar possvel a visualizao das variaes ocorridas, uma vez
que os valores extremos so percebidos de imediato, e tambm facilitar a construo da distribuio de
freqncias.

rol crescente
Xmx
Xmn
2.3 Amplitude total [Simbologia: H, At ou R]
a diferena entre o maior e o menor valor observado da varivel em estudo: H = Xmx - Xmn
2.4 Classe
cada um dos grupos ou intervalos de valores em que se subdivide a amplitude total do conjunto
de tamanho n.
Para a determinao do nmero de classes, existem diversos mtodos, dentre os quais destaca-se a
regra de Sturges, que estabelece que o nmero de classes (k) calculado por: k = 1 + 3,3 log n.
O analista dever ter em mente que a escolha do nmero de classes depender antes da natureza
dos dados e da unidade de medida em que eles forem expressos, do que de regras muitas vezes arbitrrias
e pouco flexveis. Recomenda-se considerar 4 k 12.
2.5 Limites de classe
So os dois valores extremos de cada classe.
Limite inferior (Li.): o menor valor da classe considerada;
Limite superior (Ls.): o maior valor da classe considerada.
2.6 Amplitude de classe [Simbologia: h]
a diferena entre o limite superior e o limite inferior da classe, ou seja:
h = Ls Li, quando a distribuio de freqncias j existe; ou
h = H/k, para a determinao da amplitude das classes de uma distribuio de freqncias a ser
construda.
2.7 Ponto mdio de classe [Simbologia: Xi]
a mdia aritmtica dos limites da classe. o valor representativo da classe: X i =

L ii + L si
2

2.8 Tipos de freqncias


Para construo de uma tabela de distribuio de freqncia necessrio conhecer alguns de seus
termos:

Absoluta
Simples
Relativa

Absoluta
Tipos de freqncia s
Crescente
Relativa
Acumulada

Decrescent e Absoluta

Relativa

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Freqncia absoluta [Simbologia: fi]


o nmero de observaes que aparece em uma classe ou valor individual.
Freqncia relativa [Simbologia: fri]
o quociente entre a freqncia absoluta e o nmero total de observaes, sendo que:

f ri =

fi

ou

f
i =1

f ri % =

fi

100 , onde: 0 < fr < 1;

f
i =1

f
i =1

ri

= 1.

Freqncia acumulada crescente [Simbologia: faci ou Fci]


a soma de todas as freqncias anteriores com a freqncia do intervalo considerado.
2.9 Exemplos de distribuies de freqncias
Por ponto:
Freqncias (fi)
7
12
14
8
10
51

Valores
10
15
20
25
30
Total

Por intervalo:
Preo, em R$, de certo produto
Classes
Preo (R$)

6 8
8 10

10 12
Limites inferiores

fi
2

5
10

12 14

16 18
Total

14 16

Freqncias das classes

3
25

Limites superiores
?
2.10 Grficos representativos de uma distribuio de freqncias em classes
Histograma
um grfico de colunas justapostas, cujas alturas so proporcionais s freqncias absolutas e
cujas bases correspondem ao intervalo de classe da distribuio.
10

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini


Histograma
11
10
9
8

Freqncias

7
6
5
4
3
2
1
Expected
Normal

0
0

10

12

14

16

18

20

Classes

Polgono de freqncias
um grfico de linha, cujos vrtices so proporcionais s freqncias absolutas e correspondem
aos pontos mdios das classes da distribuio.
Polgono de freqncias
11
10
9
8

Freqncias

7
6
5
4
3
2
1
0
0

10

12

14

16

18

20

Pontos mdios das classes

Ogiva

um grfico de linha, cujos vrtices so proporcionais s freqncias acumuladas e correspondem


aos limites inferiores das classes da distribuio.
Ogiva
28
26
24
Freqncias acumuladas

22
20
18
16
14
12
10
8
6
4
2
0
0

10

12

14

16

18

20

Classes

11

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo 1: A tabela abaixo apresenta as vendas dirias de um determinado aparelho eltrico, durante
um ms, por uma firma comercial. Construa uma distribuio de freqncia por pontos: 14 12 11
13 14 13 12 14 13 14 11 12 12 14 10 13 15 11 15 13 16 17 14 14.
Soluo:
N de vendas
10
11
12
13
14
15
16
17
Total

fi
1
3
4
5
7
2
1
1
24

fri
0,042
0,125
0,167
0,208
0,292
0,083
0,042
0,042
1

Fci
1
4
8
13
20
22
23
24

O histograma e polgono de freqncia so dados por:

Assim como o grfico das freqncias acumuladas (ogiva):

12

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo 2: Dado o rol de 50 notas (dadas em crditos), agrupar os elementos em classe e construir os
grficos: 33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60
60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77
78 80 81 84 85 85 88 89 91 94 97
Soluo: Amplitude total: H = 97 33 = 64
Nmero de classes: k = 1 + 3,3 log 50 = 1 + 3,3 (1,7) 7 classes
Amplitude de classe: h = 64/7 10
A primeira classe inicia-se por 33. Assim, a distribuio de freqncia ser:
Classes
33 43
43 53
53 63
63 73
73 83
83 93
93 103
Total

fi
7
5
9
11
10
6
2
50

fri
0,14
0,10
0,18
0,20
0,20
0,12
0,04
1

Fci
7
12
21
32
42
48
50

O histograma e o polgono de freqncia para os dados esto a seguir:

Histograma
Polgono de
freqncias

Assim como o grfico das freqncias acumuladas (ogiva):

13

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

3 Medidas Descritivas
1 Introduo
A estatstica descritiva visa descrever os dados disponveis da forma mais completa possvel sem,
no entanto, se preocupar em tirar concluses sobre um conjunto maior de dados (populao). As medidas
descritivas bsicas mais importantes so as de posio e as de disperso ou variabilidade.
Classificao das medidas descritivas:

Tendencia central
Posio
Separatrizes

Medidas descritivas
Absoluta
Disperso Relativa

Momentos, Assimetria e Curtose


2 Medidas de tendncia central
Quando se trabalha com dados numricos observa-se uma tendncia destes de se agruparem em
torno de um valor central. Isto indica que algum valor central caracterstica dos dados e que o mesmo
pode ser usado para descrev-los e represent-los.
As medidas de tendncia central so: mdia, mediana e moda.
populao
2.1 Mdia aritmtica [Simbologia:
]
X amostra
a mais utilizada das medidas de tendncia central para descrever, resumidamente, um conjunto
de dados.

Mdia aritmtica para dados no-tabelados


A mdia aritmtica consiste na soma de todas as observaes Xi dividida pelo nmero "n" de
observaes do grupo.
n

X + X 2 + ... + X n
=
X= 1
n

X
i =1

Propriedades da mdia aritmtica:


A soma dos desvios em relao mdia nula;

(X

X) = 0

A mdia de uma constante igual constante; X ( k ) = k


A mdia do produto de uma constante por uma varivel igual ao produto da constante pela mdia da
varivel; X (kX i ) = k [ X (X i )]
A soma dos quadrados dos desvios em relao mdia um mnimo.
2
2
(X i X ) < (X i a ) , a X
Exemplo: Para os dados do Exemplo 1, determinar a mdia aritmtica.

X=

X
i =1

14 + 12 + 11 + 13 + 12 + 14 + 13 + 14 + 11 + 12 + 12 + 14 + 10 + 13 + 15 + 11 + 15 + 13 + 16 + 17 + 14 + 14
= 13,21
24
14

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Mdia aritmtica para dados tabelados


Se os dados estiverem agrupados em uma tabela de freqncias, pode-se obter a mdia aritmtica
da distribuio, calculando-se:
k
onde: Xi = ponto mdio da classe i;
Xifi

fi = a freqncia absoluta da classe i;


k
X = i =1
n
fi = n
i =1

Exemplo: Para os dados do Exemplo 1 e 2, determinar a mdia aritmtica


Soluo:
X i f i 10 x1 + 11x 3 + 12 x 4 + 13x 5 + 14 x 7 + 15x 2 + 16 x1 + 17 x1
=
= 13,2
n
24
i =1
k
Xf
38x 7 + 48x 5 + 58x 9 + 68x11 + 78x10 + 88x 6 + 98x 2
No exemplo 2: X = i i =
= 65,6
n
50
i =1
k

No exemplo 1: X =

~
2.2 Mediana [Simbologia: Md ou X ]
A mediana divide em duas partes o conjunto das observaes ordenadas. Colocando-se os valores
em ordem crescente ou decrescente, a mediana o elemento que ocupa o valor central.

50% Md 50%

rol crescente
Xmx
Xmn
Mediana para dados no-tabelados
Procedimento no caso de dados brutos:

1. Colocam-se os dados em ordem (rol);

n +1
;
2
3. Se "n" for par, a mediana ser a mdia aritmtica entre os dois elementos centrais que ocupam as
n n
posies e + 1 do rol.
2 2

2. Se o nmero de elementos "n" for mpar, a mediana ser o elemento central que ocupa a posio

Exemplo: Determinar a mediana para os dados do Exemplo 1.


Soluo:
Primeiro se faz o rol: 10 11 11 11 12 12 12 12 13 13 13 13 13 14 14 14 14
14 14 14 15 15 16 17.
Como n = n par, encontra-se os elementos que ocupam as posies: n/2 e n/2 + 1.
n 24
n
24
PMd = =
= 12 PMd = + 1 =
+ 1 = 13
2
2
2
2
Os nmeros que ocupam as posies 12 e 13 so 13 e 13. Assim a mediana ser igual a 13.
Mediana para dados tabelados
a) Procedimento no caso de distribuio por ponto:
15

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

n +1
n
(n par) ou PMd =
(n mpar);
2
2
2. Se n mpar, a mediana ser o valor de Xi correspondente primeira Fci PMd;
3. Se n par, a mediana ser o valor de Xi correspondente primeira Fci > PMd. Caso Fci = PMd, ser a
mdia entre o valor de Xi correspondente a esta Fci e o prximo valor de Xi.

1. Calcula-se a posio da mediana: PMd =

Exemplo: Determinar a mediana para os dados do Exemplo 1.


Soluo:
n 24
=
= 12
2
2
Procura-se a 1 Fci maior que 12. A mediana ser o Xi (valor) correspondente a essa Fci, logo Md = 13.

Calcula-se PMd, como n = n par, obtm-se o termo n/2; PMd =

b) Procedimento no caso de distribuio por classe:


n
1. Calcula-se a posio da mediana: PMd = ;
2
2. A mediana estar localizada na classe onde, pela primeira vez, Fci PMd;

3. Para encontrar o valor da mediana aplica-se a seguinte frmula:


onde:

h (PMd Fc i )
M d = Li +
f Md

Li = limite inferior da classe que contm a mediana;


Fci = freqncia acumulada da classe anterior classe que
contm a mediana;
h = amplitude da classe que contm a mediana;
fMd = freqncia da classe que contm a mediana.

Exemplo: Determinar a mediana para os dados do Exemplo 2.


Soluo: Determina-se em qual posio est a mediana: PMd =
Md = L i +

h (PMd Fc i )
10 x (25 21)
= 63 +
= 66,64
f Md
11

n 50
=
= 25 elemento (4 classe).
2 2

]
2.3 Moda [Simbologia: Mo ou X
A moda de um grupo de observaes definida como a medida de freqncia mxima ou (so)
o(s) valor(es) que se repete(m) mais vezes. Pode ser utilizada para dados qualitativos.

Moda para dados no-tabelados


A moda ser o valor mais freqente no conjunto de dados, podendo, este mesmo conjunto, possuir
mais de uma moda (bimodal ou plurimodal), ou ainda, no apresentar moda (amodal).

Exemplo: Ache as modas dos seguintes conjuntos de dados. a) 5,40 1,10 0,42 0,73
b) 27 27 27 55 55 55 88 88 99
c) 1 2 3 6 7 8 9 10

0,48

1,10

Soluo:
a) O nmero 1,10 a moda porque o valor que ocorre mais freqentemente.
b) Os nmeros 27 e 55 so ambos modas, porque ocorrem com a mesma maior freqncia. Esse conjunto
de dados bimodal porque tem duas modas.
c) No h moda, porque nenhum valor se repete.
16

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Moda para dados tabelados


Quando a distribuio por ponto, a determinao da moda imediata pela simples inspeo da
tabela, j que a Mo o valor de freqncia mxima.
Quando a distribuio de freqncias por intervalo, pode-se calcular a moda bruta que o ponto
mdio da classe de maior freqncia (mtodo rudimentar).

Exemplo: Determinar a moda para os dados do Exemplo 1 e 2.


Soluo:
No exemplo 1, a moda o elemento com a maior freqncia, o 14.
No exemplo 2, a moda o valor de Xi da classe onde ocorre a maior freqncia, neste caso o 68.
Observaes importantes:
No h regra fixa para se escolher entre a mdia, a mediana e a moda. Entretanto algumas
observaes podem ser feitas quanto utilizao das mesmas.
A mdia aritmtica a medida de tendncia central mais utilizada, principalmente quando no h
valores aberrantes (muito extremos) no conjunto de dados, sendo a medida mais conveniente para
clculos posteriores;
A mediana deve ser usada, sempre que possvel, como medida representativa de distribuies
fortemente assimtricas, ou seja, quando os valores extremos do conjunto so muito distantes dos
outros, pois o seu valor no afetado por estes valores;
A moda usada quando h interesse em saber o ponto de concentrao do conjunto ou o tipo de
distribuio que se est analisando, sendo que o seu valor, em se tratando de dados agrupados,
fortemente afetado pela maneira como as classes so constitudas.
3 Separatrizes
So valores de posio, que dividem o rol. As principais medidas separatrizes so: mediana,
quartis, decis e centis ou percentis.
3.1 Quartis [Simbologia: Qi]
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
0%
25%
50%
75%
100%
|--------------------|--------------------|--------------------|--------------------|
Q1
Q2 =Md
Q3

onde: Q1 = primeiro quartil e separa os primeiros 25% dos 75% restantes;


Q2 = segundo quartil ou mediana e separa o conjunto de dados em 2 partes iguais;
Q3 = terceiro quartil e separa os primeiros 75% dos 25% restantes.
Quartis para dados no-tabelados
Procedimento no caso de dados brutos:

1. Colocam-se os dados em ordem (rol);


n
2. Calcula-se a posio do quartil atravs da frmula: PQi = i . ;
4
3. O quartil ser o valor que ocupa, no rol, a posio calculada anteriormente.

Exemplo: Determinar Q1 e Q3 para os dados do Exemplo 1.


Soluo:
24
24
Calcula-se as posies dos quartis. PQ1 = 1x
= 6 e PQ 3 = 3x
= 18
4
4
O 6 e 18 elementos so Q1 = 12 e Q3 = 14 respectivamente.
17

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Quartis para dados tabelados


a) Procedimento no caso de distribuio por ponto:
k

fi

n
;
4
2. O quartil ser o valor de Xi correspondente primeira Fci PQi.

1. Calcula-se a posio do quartil PQi = i . n =1 = i .


4

Exemplo: Determinar Q1 e Q3 para os dados do Exemplo 1.


Calcula-se a posio do elemento.
24
24
P = 3x
= 18
= 6
Q
3
4
4
O 6 e 18 elementos so Q1 = 12 e Q3 = 14 respectivamente.

Q1

= 1x

b) Procedimento no caso de distribuio por classe:


k

fi

n
=i. ;
4
4
2. O quartil estar localizado na classe onde, pela primeira vez, Fci PQi;

1. Calcula-se a posio do quartil PQi = i .

n =1

3. Para encontrar o valor do quartil aplica-se a seguinte frmula:


onde:

Li = limite inferior da classe que contm o respectivo quartil;


Fci = freqncia acumulada da classe anterior classe que
contm o quartil;
h = amplitude da classe que contm o quartil;

h P Fc
Qi
i
Q =L +
i
i
f
Qi

fQi = freqncia da classe que contm o quartil.


Exemplo: Determinar Q1 e Q3 para os dados do Exemplo 2.
Soluo:
No exemplo 2, calcula-se a posio do elemento.

Q1

= 1x

50
= 12,5
4

Q3

= 3x

50
= 37,5
4

Aps verifica-se a classe onde se encontra cada elemento que ocupam essas posies. O Q1
encontra-se na 3 classe e o Q3 encontra-se na 5 classe. Assim:
Q = 53 +
1

10x (12,5 12)


= 53,56
9

Q = 73 +

10x (37,5 32)


= 78,5
10

3.2 Decis [Simbologia: Di]


So valores que dividem o conjunto das observaes em 10 (dez) partes iguais. Para encontrar o
valor do decil desejado, procede-se como no caso dos quartis, sendo que para o clculo da posio do
decil, a frmula ser:
18

Departamento de Estatstica - UFSM

PDi = i .

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

10

=i.

n
10

Para encontrar o valor do decil quando os dados esto agrupados em classe, a frmula ser:

Di = Li +

h (PDi Fc i )
f Di

3.3 Percentis [Simbologia: Pi]


So valores que dividem o conjunto das observaes em 100 partes iguais. Para encontrar o valor
do percentil desejado, procede-se como no caso dos quartis, sendo que para o clculo da posio do
percentil, a frmula ser:
Ppi = i .

100

=i.

n
100

Para encontrar o valor do percentil quando os dados esto agrupados em classe, a frmula ser:

Pi = L i +

h (PPi Fc i )
f Pi

4 Medidas de disperso
As medidas de disperso visam descrever os dados no sentido de informar o grau de disperso ou
afastamento dos valores observados em torno de um valor central. Elas indicam se um conjunto
homogneo (pouca ou nenhuma variabilidade) ou heterogneo (muita variabilidade).
A descrio do conjunto de dados mais completa quando se considera alm de uma medida de
tendncia central, uma medida de disperso ou variao, porque comum encontrar-se sries que, apesar
de apresentarem a mesma mdia, so compostas de maneiras diferentes, o que mostra que as medidas de
tendncia central so insuficientes para descrever adequadamente uma srie estatstica.
Algumas medidas de variao so: a amplitude de variao, o desvio mdio, a soma de quadrados,
a varincia, o desvio padro e o coeficiente de variao.
Classificao das medidas de disperso:

Amplitude

Absoluta Desvio mdio

Desvio padro
Medidas de disperso
Varincia

Relativa { Coeficiente de variao


4.1 Amplitude de variao [Simbologia: H]
a diferena entre o maior e o menor valor do conjunto, sendo a mais simples das medidas de
disperso, porm de grande instabilidade, porque considera somente os valores extremos do conjunto.
Tambm chamada de desvio extremo.
H = Xmx. - Xmn.
19

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Determinar a amplitude H para os dados do Exemplo 1 e 2.


Soluo: Para o exemplo 1: H = 17 10 = 7
Para o exemplo 2: H = 98 38 = 60

4.2 Desvio mdio [Simbologia: Dm]


a mdia aritmtica dos valores absolutos dos desvios tomados em relao mdia ou mediana.
Considera-se o mdulo de cada desvio, di = Xi X , evitando-se, com isso, que

di = 0 .
i =1

Desvio mdio para dados no tabelados


Dm =

i =1

i =1

Xi X
=

di
n

Desvio mdio para dados tabelados


k

Dm =

X
i =1

X .f i
n

O desvio mdio preferido em relao ao desvio padro, quando esse for indevidamente
influenciado pelos desvios extremos.
Exemplo: Determinar o desvio mdio Dm para os dados do Exemplo 1 e 2.
n

Soluo: Para o exemplo 1: Dm =


k

Para o exemplo 2; Dm =

X
i =1

X
i =1

X
=

X .f i
n

10 13,21 + 11 13,21 + ... + 17 13,21


24

= 1,31

38 65,6 7 + 48 65,6 5 + ... + 98 65,6 2


50

697,6
= 13,95
50

4.3 Soma de quadrados [Simbologia: SQ]


A soma de quadrados refere-se a soma dos quadrados dos desvios em relao mdia:

SQ = X X
i =1

) = (X X ) + (X
2

X + ...... + X X
n

i
n
i =1

= X2
i
n
i =1

2 populao
]
4.4 Varincia [Simbologia 2
s amostra
A varincia populacional (2) a soma de quadrados dividida pelo nmero de observaes N:

20

Departamento de Estatstica - UFSM

SQ
=
N

2 =

(X i X )

i =1

i =1

X2
i

n
X
i =1 i

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Quando a varincia calculada a partir de uma amostra para fins de estimao, o denominador
passa a ser (n - 1), o que nos fornece uma estimativa imparcial da varincia populacional.

Varincia para dados no-tabelados


n

(X i X) 2

s2 =

i =1

i =1

2
i

( X i ) 2
i =1

n 1
n 1
O denominador (n - 1) denominado de "graus de liberdade" dessa estimativa.
Exemplo: Determinar a varincia para os dados do Exemplo 1.

(X

X)

Soluo: s 2 =

i =1

n 1

(10 13,21)2 + (11 13,21)2 + (11 13,21)2 ... + (17 13,21)2


24 1

= 2,78

Propriedades da varincia
A varincia de uma constante zero;
s2(k) = 0
A varincia da soma ou diferena de uma constante k com uma varivel igual a varincia da varivel;
s2(k + X) = s2(X)
A varincia da soma de variveis independentes igual a soma das varincias das variveis;
s2(X + Y) = s2(X) + s2(Y)
A varincia do produto de uma constante por uma varivel igual ao produto do quadrado da
constante pela varincia da varivel.
s2(k.X) = k2. s 2 (X)
Varincia para dados tabelados
k

s2 =

(X
i =1

X) fi
2

n 1

ou

Xifi
k

X i2 f i i =1

n
s2 = i =1
n 1

Exemplo: Determinar a varincia para os dados do Exemplo 1 e 2.


Soluo: No exemplo 1,
k

s2 =

(X
i =1

X ) .f i
2

n 1
No exemplo 2,

(X
k

s2 =

i =1

X ) .f i

(10 13,21)2 1 + (11 13,21)2 x 3 + (12 13,21)2 x 4... + (17 13,21)2 x1 = 2,78

(38 65,6)2 x 7 + (48 65,6)2 x5 + (58 65,6)2 x9... + (98 65,6)2 x 2 = 288

n 1

24 1

50 1

21

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

populao
4.5 Desvio padro [Simbologia
]
s amostra
O desvio padro uma das medidas mais teis da variao de um grupo de dados. A vantagem do
desvio padro sobre a varincia, que este permite uma interpretao direta da variao do grupo, pois o
mesmo expresso na mesma unidade em que esto expressas as medidas observadas.

O desvio padro a raiz quadrada da varincia, ento, calculado por: s = s 2 .


Para os dados de medio, especialmente em grandes amostras (n 30), verifica-se que, cerca de
68% das observaes estaro entre X s ; 95% das observaes estaro entre X 2s e praticamente
100% entre X 3s .
Exemplo: Determinar o desvio padro amostral para os dados do Exemplo 1 e 2.
Soluo: No exemplo 1, s = s 2 = 2,78 = 1,67 .
No exemplo 2, s =

s2 =

288 = 16 ,97 .

4.6 Coeficiente de variao [Simbologia: CV ou CV%]


O coeficiente de variao uma medida de disperso relativa, utilizada quando se deseja comparar
a variao de conjuntos de dados que apresentem diferentes unidades de medio e ou tamanhos
diferentes, pois o coeficiente de variao independe da unidade de medida dos dados. O coeficiente de
variao pode tambm ser expresso como percentagem da mdia.
s
s
CV % = 100
CV =
ou
X
X
Exemplo: Determinar o CV para os dados do Exemplo 1 e 2.

s
1,67
x100 =
x100 = 12,62%
X
13,21
s
16,97
No exemplo 2, CV = x100 =
x100 = 25,87%
X
65,6
Soluo: No exemplo 1, CV =

5 Assimetria e curtose
As medidas de assimetria e curtose complementam as medidas de posio e de disperso no
sentido de proporcionar uma descrio e compreenso mais completa das distribuies de freqncias.
Estas distribuies no diferem apenas quanto ao valor mdio e variabilidade, mas tambm quanto a sua
forma (assimetria e curtose).
5.1 Assimetria
Assimetria o grau de desvio, afastamento da simetria ou grau de deformao de uma distribuio
de freqncias. Se a curva de uma distribuio tem uma "cauda" mais longa direita da ordenada mxima
do que esquerda, diz-se que a distribuio desviada para a direita ou que ela tem assimetria positiva. Se
ocorrer o inverso, diz-se que ela desviada para a esquerda ou tem assimetria negativa.
Os coeficientes de assimetria servem para medir o grau de deformao da distribuio.

22

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Coeficiente de assimetria de Pearson [Simbologia: C.A.]

C.A. =

X Mo
s

Intensidade da assimetria:
Coeficiente < 0,2: simetria;
0,2 < Coeficiente < 1,0: assimetria fraca;
Coeficiente > 1,0: assimetria forte.
Interpretao:
Coeficiente negativo: distribuio assimtrica negativa ( esquerda), sendo X < Md < Mo;
Coeficiente nulo: distribuio simtrica, sendo X = Md = Mo;
Coeficiente positivo: distribuio assimtrica positiva ( direita), sendo X > Md > Mo.

Exemplo: Determinar a assimetria para os dados do Exemplo 1 e 2.


X Mo 13,21 14
=
= 0,474 assimetria fraca.
s
1,668
X Mo 65,6 68
No exemplo 2: C.A. =
=
= 0,1414 simetria.
s
16,97

Soluo: No exemplo 1: C.A. =

5.2 Curtose
o grau de achatamento (afilamento) de uma curva em relao curva normal, tomada como
padro. Uma distribuio pode ser classificada quanto curtose, como segue:

Platicrtica: a curva mais achatada do que a normal ( ou s grandes);


Mesocrtica: a curva normal ( ou s intermedirios);
Leptocrtica: a curva mais alta do que a normal ( ou s pequenos).
Para medir o grau de curtose de uma distribuio, podem-se usar dois tipos de medidas:
23

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Coeficiente centlico de curtose [Simbologia: K]

Q 3 Q1
K=
2 ( D 9 D1 )

onde:

Q1 = o primeiro quartil;
Q3 = o terceiro quartil;
D1 = o primeiro decil;
D9 = o nono decil.

Interpretao:

K < 0,263 curva leptocrtica;


K = 0,263 curva mesocrtica;
K > 0,263 curva platicrtica.

Exemplo: Determinar a curtose para os dados do Exemplo 1 e 2


Soluo:
No exemplo 1, primeiro se encontra o D1 e D9:
24
24
PD1 = 1.
= 2,4 ou seja, o D1 = 11 e PD9 = 9.
= 21,6 ou seja, o D9 = 15
10
10
Aps calcula-se o coeficiente centlico de curtose
Q 3 Q1
14 12
K=
=
= 0,25 , conclui-se ento que a curva leptocrtica.
2 (D 9 D1 ) 2(15 11)
No exemplo 2, primeiro se encontra o D1 e D9:
h (PD1 Fc )
50
10 (5 0 )
= 5 ou seja, D1 = L1 +
PD1 = 1 .
= 33 +
= 40,14
7
f D1
10
h (PD9 Fc)
10 (45 42)
50
= 83 +
= 88
PD9 = 9 .
= 45 ou seja, D 9 = L 9 +
f D9
6
10
Aps calcula-se o coeficiente centlico de curtose:
Q3 Q1
78,5 53,56
K=
=
= 0,2606 , conclui-se ento que a curva leptocrtica.
2 (D9 D1 ) 2(88 40,14 )

24

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

4 Probabilidade
1 Introduo
O trabalho estatstico se desenvolve a partir da observao de determinados fenmenos e emprega
dados numricos relacionados aos mesmos, para tirar concluses que permitam conhec-los e explic-los
a ponto de poder, com determinado grau de crena, obter o desenvolvimento terico do fenmeno. Para
tanto necessrio que se formule um modelo que ajude a melhor elucid-lo.
No campo da estatstica, os modelos matemticos utilizados so denominados, modelos nodeterminsticos ou probabilsticos, ou seja, que avaliam com que probabilidade os resultados podem
ocorrer.
2 Noes de experimento, espao amostral e eventos
2.1 Experimento aleatrio [Simbologia: E]
uma das realizaes do fenmeno sob observao. Se o fenmeno seguir um modelo nodeterminstico, tem-se um experimento aleatrio, com as seguintes caractersticas:
O experimento pode ser repetido;
Embora no seja possvel afirmar que resultado em particular ocorrer, possvel descrever o conjunto
de todos os resultados possveis do experimento;
medida que aumenta o nmero de repeties aparece uma certa regularidade que torna possvel a
construo de um modelo matemtico.

2.2 Espao amostral [Simbologia: S]


o conjunto de todos os possveis resultados de um experimento aleatrio.
2.3 Evento [Simbologia: A, B, C, ...]
qualquer subconjunto do espao amostral de um experimento.
Tipos de eventos:
1. Eventos mutuamente exclusivos: dois eventos A e B so denominados mutuamente exclusivos, se eles
no puderem ocorrer juntos, isto , AB = ;
2. Eventos complementares: so os eventos que se completam em relao ao espao amostral, isto ,
A A = S, onde A o evento complementar de A;
3. Eventos impossveis: so eventos que no possuem elementos no espao amostral, isto , A = e
P(A) = 0;
4. Eventos certos: so eventos que possuem todos os elementos do espao amostral, isto , A = S e
P(A) = 1;
5. Eventos independentes: so eventos que podem ocorrer simultaneamente, isto , AB e
P(AB) = P(A) . P(B)
6. Eventos dependentes: so eventos em que a ocorrncia de um deles est condicionada ocorrncia de
outro, acontece um evento se o outro j ocorreu, isto , AB e P(AB) = P(A) . P(B/A), com
P(A) 0.
3 lgebra de eventos
Podem-se combinar os eventos da mesma maneira que se faz com os conjuntos:
1. Se A e B forem dois eventos, A B significa que A e B ocorrem;
2. Se A e B forem dois eventos, A B significa que A ou B ocorrem
25

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Lance um dado e uma moeda.


a) Construa o espao amostral
b) Enumere os seguintes eventos
A = {marcado por nmero par, coroa}
B = {marcado por nmero mpar, cara}
C = {mltiplos de 3}
c) Expresse os eventos
i. B
ii. A ou B ocorrem
iii. B e C ocorrem
iv. A B
d) Verifique dois a dois os eventos A, B e C e diga quais so mutuamente exclusivos.
Soluo: C = coroa e K = cara
a) S = {(1,C); (2,C); (3,C); (4,C); (5,C); (6,C); (1,K); (2,K); (3,K); (4,K); (5,K); (6,K)};
b) A = {(2,C); (4,C); (6,C)};
B = {(1,K); (3,K); (5,K)};
C = {(3,C); (6,C); (3,K); (6,K)}.
c)
i) B = {(1,C); (2,C); (3,C); (4,C); (5,C); (6,C); (2,K); (4,K); (6,K)};
ii) A B = {(2,C); (4,C); (6,C); (1,K); (3,K); (5,K)};
iii) B C = {(3,K)};
iv) A B = {(1,C); (3,C); (5,C); (2,K); (4,K); (6,K)}.
d) A B = , so mutuamente exclusivos;
A C = {(6,C)}, no so mutuamente exclusivos;
B C = {(3,K)}, no so mutuamente exclusivos.

4 Conceitos de probabilidade
Interpretao como freqncia relativa, definio clssica e definio axiomtica.
O problema fundamental da probabilidade consiste em: atribuir um nmero a cada evento A, o
qual avaliar as chances de ocorrncia de A quando o experimento for realizado.
4.1 Conceito emprico
uma interpretao da probabilidade como freqncia relativa.
Repetindo-se um experimento E um grande nmero de vezes e calculando-se a freqncia relativa
do evento A, obtm-se um nmero "p" que pode ser tomado como a probabilidade da ocorrncia de A, que
nesse caso, poderia ser tomada como:
P(A) = p =

f (A )
n

lim
n

4.2 Definio clssica de probabilidade


vlida para espaos amostrais finitos e equiprovveis. Se todos os resultados de um espao
amostral finito forem igualmente provveis, ou seja, admitindo-se que S possa ser escrito sob a forma S =
{a1, a2, .... , ak}, ento, a cada evento formado por um resultado simples (ai) associa-se um nmero "pi",
denominado probabilidade de A, que satisfaa as seguintes condies:
pi 0;
P(S) = p1 + p2 + .... + pk =

p
i =1

= 1;
26

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

1
, j que todos os resultados so igualmente provveis.
k
Disto decorre que, para qualquer evento A constitudo de r resultados simples, tem-se:
r
P(A) = r . 1/k = , sendo que:
k
n de casos favorveis a A pelos quais E pode ocorrer
P(A) =
= r/k
n total de casos pelos quais E pode ocorrer

pi =

Pela definio clssica de probabilidade devida a Laplace: seja E um experimento aleatrio que d
origem a k resultados mutuamente excludentes e igualmente possveis. Seja A um evento constitudo por r
resultados de E. A probabilidade de ocorrer o evento A definida como sendo a razo r/k.

4.3 Definio axiomtica


Seja E um experimento e S um espao amostral associado a E. A cada evento A associa-se um
nmero real representado por P(A) e denominado probabilidade de A, que satisfaa aos seguintes
axiomas:
1. 0 P(A) 1;
2. P(S) = 1;
3. Se A e B forem eventos mutuamente excludentes, ento: P(A B) = P(A) + P(B);
4. Se A1, A2, ... , An,... forem dois a dois eventos mutuamente excludentes, ento:
P( i =1 Ai) = P(A1) + P(A2) + ... + P(An) + ...
Exemplo: Um lote formado por 10 peas boas, 4 com defeitos leves e duas com defeitos graves. Uma
pea escolhida ao acaso. Calcule a probabilidade de que: a) ela no tenha defeitos graves; b) ela no
tenha defeitos; c) ela seja boa ou tenha defeitos graves.
Soluo: Adotando dl = pea com defeito leve; b = pea boa; dg = pea com defeito grave: a) P( dg ) =
P(dlb) = P(dl) + P(b) = 10/16 + 4/16 = 14/16; b) P(b) = 10/16; c) P(bdg) = 10/16 + 2/16 = 12/16.

Teoremas fundamentais:
Teorema 1: se for um evento (conjunto) vazio, ento: P() = 0;
Teorema 2: se A for um evento complementar de A, ento: P( A ) = 1 - P(A);
Teorema 3: se A e B forem eventos quaisquer, ento: P(A B) = P(A) + P(B) - P(A B);
Teorema 4: se A e B forem eventos de um espao amostral S e se A B, ento: P(A) P (B).
Exemplo: A probabilidade de uma mulher estar viva daqui a 30 anos 3/4 e de seu marido 3/5.
Calcular a probabilidade de: a) apenas o homem estar vivo; b) somente a mulher estar viva; c) pelo
menos um estar vivo; d) ambos estarem vivos.
Soluo: Adotando os eventos: M = a mulher estar viva daqui h 30 anos; H = o homem estar vivo daqui
h 30 anos. a) P( M H) = P( M ) x P(H) = 1/4 x 3/5 = 3/20; b) P(M H ) = P(M) x P( H ) = 3/4 x 2/5 = 6/20;
c) P(HM) = P(H) + P(H) P(HM) = 3/5 + 3/4 - 3/5 x 3/4 = 18/20; d) P(MH) = P(M) x P(H) = 3/4 x
3/5 = 9/20

5 Probabilidade condicionada
Seja A e B dois eventos associados a um experimento E. Denota-se por P(B/A), a probabilidade do
evento B, condicionada a ocorrncia do evento A.
27

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Sempre que se calcula a P(B/A), se est, essencialmente, calculando P(B) em relao ao espao
reduzido A e utiliza-se a seguinte frmula, onde P(A) 0:
P(A B)
com P(A) 0, pois A j ocorreu.
P(B/A) =
P( A )
Pode-se escrever tambm, atravs do teorema do produto:
P(AB) = P(A/B) . P(B)
e
P(BA) = P(B/A) . P(A)
Que representa uma alternativa para o clculo da probabilidade da interseo de dois eventos.
Exemplo: Uma urna contm cinco bolas pretas, trs vermelhas e duas brancas. Foram extradas 3 bolas
sem reposio. Qual a probabilidade de terem sido duas bolas pretas e uma vermelha?
Soluo: Sendo os eventos: P = bolas pretas, V = bolas vermelhas e B = bolas brancas;
5 4 3 5 3 4 3 5 4 60
+ + =
3 = 0,25
P(P P V) + P(P V P) + P(V P P) =
10 9 8 10 9 8 10 9 8 720

6 Independncia estatstica
Se a ocorrncia ou no do evento A, no afetar a probabilidade de ocorrncia do evento B e viceversa, diz-se que A e B so independentes.
compreensvel que os eventos A e B sejam inteiramente no relacionados. Saber que B ocorreu
no fornece qualquer informao sobre a ocorrncia de A. De fato, o clculo seguinte mostra isso:
Se A e B forem independentes, pode-se escrever:
P(A/B) = P(A)

P(B/A) = P(B)

Nesse caso, usando-se a expresso anterior para P(AB), tem-se:


P(AB) = P(A/B) . P(B) = P(A) . P(B)
P(AB) = P(B/A) . P(A) = P(A) . P(B)
Chegando-se condio de independncia, na qual A e B sero eventos independentes se e
somente se:
P(AB) = P(A) . P(B)
Exemplo: As probabilidades de 3 jogadores marcarem um penalty so respectivamente 2/3 , 4/5 e 7/10. Se
cada um cobrar uma nica vez, qual a probabilidade de: a) todos acertarem; b) apenas uma certar; c)
todos errarem.
Soluo: Considerando A: o jogador 1 acertar, B: o jogador 2 acertar e C: o jogador 3 acertar, temos:
2 4 7 56
= 0,3733
a) P(A B C) = =
3 5 10 150
2 1 3 1 4 3 1 1 7
+ + =
b) P(A B C ) + P( A B C ) + P( A B C) =
3 5 10 3 5 10 3 5 10
6 + 12 + 7 25
=
= 0,1667
=
150
150
1 1 3
3
=
= 0,02
c) P( A B C ) =
3 5 10 150
28

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

7 Teorema de Bayes
P(B1/A) =

P(B1 A)
,
P(A)

onde: P(A) = P(A/B1) . P(B1) + P(A/B2) . P(B2) + ... + P(A/Bk) . P(Bk) = probabilidade total
P(A / B1 ).P(B1 )
P(B1/A) =
P( A )
P(A / B ).P(B )
1

P(B1/A) = P(A / B ) P(B ) + P(A / B ) P(B ) + P(A / B ) P(B )


1
1
2
2
3
3
Generalizando-se essa aplicao para Bi:
P A P(Bi )
onde: P(Bi) = probabilidades priori (conhecidas);
Bi
P(Bi /A) = n
P(A/ Bi) = probabilidades condicionais (conhecidas);

A
P(Bi/A) = probabilidades posteriori.
P
P(Bi )

Bi
i =1

Esse resultado conhecido como teorema de Bayes. tambm denominada frmula da


probabilidade das causas ou dos antecedentes. Desde que os Bi`s constituam uma partio do espao
amostral, um e somente um, dos eventos Bi ocorrer. Portanto, a expresso acima nos d a probabilidade
de um particular Bi dado que o evento A tenha ocorrido. A fim de aplicar esse teorema, deve-se conhecer
os valores dos Bi`s, sendo que, se esses valores so desconhecidos, fica impossibilitada a sua aplicao.
Exemplo: Trs mquinas, A, B e C produzem respectivamente 0,4; 0,5 e 0,1 do total de peas de uma
fbrica. As porcentagens de peas defeituosas nas respectivas mquinas so de 3%, 5% e 2%. Uma pea
sorteada ao acaso e verifica-se que defeituosa. Qual a probabilidade de que a pea tenha vindo da
mquina B?
Soluo: P(A) = 0,4; P(B) = 0,5; P(C) = 0,1; P(def/A) = 0,03; P(def/B) = 0,05; P(def/C) = 0,02;
P(B).P(def )
0,5 0,05
B
= 0,641
=
P(B/def) =
P(A) P(A
) + P(B) P(def ) + P(C) P(def ) 0,4 0,03 + 0,5 0,05 + 0,1 0,02
def
B
C

8 Resumo das propriedades do clculo de probabilidades

29

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

5 Variveis Aleatrias
1 Noes sobre variveis aleatrias
Ao descrever o espao amostral de um experimento, nem sempre o resultado individual ser um
nmero, embora, muitas vezes haja interesse na mensurao de alguma caracterstica e no seu registro
numrico.
Para que seja possvel a utilizao dos recursos da estatstica descritiva, necessria uma funo,
que transforme o espao amostral no-numrico em um espao amostral numrico. Sendo assim,
considerando-se E um experimento e S o espao amostral associado ao experimento, a funo X, que
associa a cada elemento s S, um nmero real, X(s) denominada varivel aleatria.
Desse modo, tem-se uma funo definida no espao amostral, chamada de varivel aleatria.
2 Variveis aleatrias discretas [Simbologia: VAD]
Seja X uma varivel aleatria. Se o nmero de valores possveis de X, Rx (contra-domnio de X)
for finito ou infinito numervel (nmeros naturais ou inteiros), denomina-se X de varivel aleatria
discreta.
As variveis aleatrias discretas surgem, em geral, de medidas de enumerao ou contagem, como
por exemplo, nmero de pontos obtidos em um teste, nmero de insetos por planta, nmero de peas boas,
nmero de pessoas que votam, nmero de erros em contas, etc.
X

S = { s1, s2, ... , sn } RX

2.1 Funo de probabilidade [Simbologia: f(X)]


a probabilidade de que a varivel aleatria assuma o valor x. Se X uma varivel aleatria, a
cada possvel valor xi de X (x1, x2, x3, ....), associa-se um nmero p(xi) = P(X = xi), ou ainda, P(X=x1),
P(X=x2), P(X= x3), denominado probabilidade de xi. A funo que associa probabilidades no-nulas aos
possveis valores da varivel aleatria e zero aos demais valores denominada funo de probabilidade.
X
P(X)

x1
p(x1 )

x2
p(x2)

x3
p(x3)

...
...

xn
p(xn )

Os nmeros p(xi) devem satisfazer as seguintes condies: p(xi) > 0, i; p(xi) = 1.

Representao grfica: grfico de bastes

P(X)
p(x3)
p(x2)
p(x1)
x1

x2

x3

2.2 Valor esperado ou mdia de uma varivel aleatria discreta [Simbologia: E(X) ou (X)]

Se X uma VAD, define-se valor esperado de X, como: E(X) =

x
i =1

30

p(x i )

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

2.3 Varincia de uma varivel aleatria discreta [Simbologia: V(X) ou 2]


Se X uma VAD, define-se a varincia de X, como:

V(X) =

[x i E(X)] p(x i ) = E(X 2 ) [E(X)]2

onde: E(X2) =

x
i =1

i =1

2
i

p( x i )

Exemplo: Para o lanamento de duas moedas determine a distribuio de probabilidades do nmero de


caras e aps encontre a E(X) e V(X).
Soluo: Fazendo C = cara e K = coroa e sendo x igual ao nmero de caras obtidas, tem-se: S = {(C,C);
(C,K); (K,C); (K,K)}. Associando: x = 0 (nenhuma cara); x = 1 (uma cara) e x = 2 (duas caras), tem-se:
x
p(x)

0
1/4

1
2/4 = 1/2

2
1/4

Graficamente

1
1
1
+ 1 + 2 = 1 cara
4
2
4
i =1
1
1
1

2
2
V(X) = E ( X 2 ) [E ( X )] = 0 2 + 12 + 2 2 (1) = 1,5 1 = 0,5 cara2
4
2
4

E(X) =

p(x i ) = 0

3 Variveis aleatrias contnuas [Simbologia: VAC]


Seja X uma varivel aleatria. Suponha que Rx (contradomnio de X), seja um intervalo ou uma
coleo de intervalos. Neste caso, diz-se que X uma varivel aleatria contnua.
As variveis aleatrias contnuas, geralmente, surgem de dados de medies, como por exemplo,
comprimento, peso, altura, temperatura, etc..
3.1 Funo densidade de probabilidade [Simbologia: f(X)]
Seja X uma VAC, a funo densidade de probabilidade f(x), uma funo que satisfaz as
condies:
f(x) 0, x Rx;

f (x )dx = 1.

Alm disso, para qualquer c < d em RX: P(c < X <d) = f ( x )dx .
c

Comentrios:
31

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

P (c < X < d) representa a rea sob a curva da funo, f(x) entre X = c e X = d;


k

P(X = k) = f ( x )dx = 0 ;
k

P(c < X < d) = P (c X d) = P (c < X d) = P (c X < d).

3.2 Valor esperado ou mdia de uma varivel aleatria contnua [Simbologia: E(X) ou (X)]
Se X uma VAC, o valor esperado de X definido por:
+

E(X) =

x f ( x )dx

3.3 Varincia de uma varivel aleatria contnua [Simbologia: V(X) ou 2]


Se X uma VAC, define-se a varincia de X, como:
V(X) = E ( X 2 ) [E ( X )]

onde: E(X2) =

f(x)dx

1
x+K
se 0 x 3
Exemplo: Seja f(x) = 6
0 em qualquer outro caso
Pede-se: a) encontrar K; b) encontrar P(1 x 2); c) determinar E(X) e V(X);
Soluo:
3

1 32
1 3
1
1 2
1

3
a) x + K dx = x.dx + K dx = 1 .x + [K.x ]0 = 1 + 0 + K.3 = 1 K = ;
0 6
0
0
6 2
12
6

6 0

b) P(1 x 2) =

2
2
1 x 2
1
1
1 1 2
1 3
1 12 1 1
x+
= x.dx + dx = . + .x = + (2 1) =
1
0
4
6
12 6
12
6 2 1 12 1 6 2 2 12

3 1
1 x3 1 x 2
1
1
1
+
c) E(X) = x f ( x )dx = x . x + dx = x 2 + x dx =
= 1,875
0 6
12
12

6
6 3 12 2 0
0

1
1
V(X) = E ( X ) [E ( X )] = x 2 f ( x )dx - 1,8752 = x 2 x + dx - 3,516 = 4,12 3,516 = 0,604.
12
6

0
2

4 Modelos probabilsticos para variveis aleatrias


Os valores possveis de uma varivel aleatria e suas respectivas probabilidades determinam a
distribuio de probabilidade da varivel aleatria. Algumas, por apresentarem caractersticas
semelhantes, nos permitem estabelecer um modelo terico para determinar a soluo de certos problemas.
Para variveis aleatrias discretas, os modelos estudados sero: Binomial e Poisson.
4.1 Distribuio binomial Notao: X ~ b(n, p)
A distribuio binomial tem as seguintes caractersticas:
So realizadas n repeties independentes e do mesmo tipo do experimento E (n ensaios de Bernoulli);
Cada repetio do experimento E admite apenas 2 resultados: sucesso ou fracasso;
A probabilidade de sucesso em cada repetio do experimento sempre igual a p.
Assim, considerando n tentativas independentes de um mesmo experimento aleatrio, uma
particular amostra aleatria conter k sucessos e (n-k) fracassos, com probabilidades associadas p e q,
respectivamente. A probabilidade total ser dada por p + q =1.

32

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Como qualquer seqncia com k sucessos e (n-k) fracassos ter a mesma probabilidade de
ocorrncia, resta-nos saber quantas se pode formar. Para isto calcula-se C kn , que o nmero de
seqncias possveis que podem ocorrer.
Definio: A varivel aleatria discreta X tem comportamento binomial com n repeties de E e
probabilidade de sucesso p, cuja funo de probabilidade dada por:
onde:

P(X = k ) = C p q
k
n

n k

n!
k!(n k )!
k = 0, 1, 2, ..., n;
k! = 1 . 2 . 3 . ... . k.
C kn =

A esperana e a varincia so dadas por: E(X) = n.p e VAR(X) = n.p.q


Exemplo: Uma moeda no viciada lanada 8 vezes. Encontre a probabilidade de ocorrer: a) 5 caras;
b) pelo menos uma cara; c) no mximo 2 caras.
Soluo: Sabe-se que: n = 8, p = 1/2 e q = 1/2. X = nmero de caras (sucesso).
5

1 1
a) P (X = 5) = C
2 2
5
8

85

= 0,22 ;
0

1 1
b) P ( X 1) = 1 P ( X = 0) = 1 C
2 2
0
8

8 0

= 0,996
0

1 1
1 1
1 1
c) P (X 2) = P (X = 0) + P (X = 1) + P (X = 2) = C + C18 + C 82 = 0,14
2 2
2 2
2 2
0
8

4.2 Distribuio de Poisson Notao: X ~ P()


Esta distribuio muito usada quando se deseja contar o nmero de eventos de um certo tipo, que
ocorrem em um intervalo de tempo, superfcie ou volume, como por exemplo: nmero de falhas em um
computador em certo dia; nmero de chamadas telefnicas durante meio dia; nmero de relatrios de
acidentes enviados a uma seguradora em uma semana, etc..
Sua aplicao aparece freqentemente em problemas de fila de espera, controle de estoques,
controle de qualidade, programao de equipamentos, etc.. O modelo foi desenvolvido pelo matemtico
francs Poisson.
Definio: A varivel aleatria X tem distribuio de Poisson, com parmetro > 0, se:
P( X = k ) =

e k
k!

onde:

o nmero mdio de eventos ocorridos no intervalo considerado;


k = 0, 1, 2, 3, .......;
e 2,7183;
k! = 1 . 2 . 3 . ... . k.

A esperana e a varincia so dadas por: E(X) = e VAR(X) =


A distribuio binomial pode ser aproximada para a Poisson, fazendo-se = n . p, quando o
tamanho da amostra grande (n ) e a probabilidade p pequena (p 0). Na prtica, quando n > 30
e p < 0,05.
Exemplo: Em mdia h 2 chamadas por hora num certo telefone. Calcular: a) a probabilidade de se
receber no mximo 3 chamadas em 2 horas; b) a probabilidade de nenhuma chamada em 90 minutos.
Soluo: = 2 chamadas/hora.
33

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

e 4 (4)
e 4 (4 ) e 4 (4 )
e 4 (4)
=
+
+
+
0!
1!
2!
3!
0

a) P(X 3 (2h)) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) =

0,0183 + 0,0732 + 0,1464 + 0,1953 = 0,433.


0
e 3 (3)
b) P(X = 0 (1,5h)) =
= 0,0498.
0!
A seguir, so apresentados alguns modelos para variveis aleatrias contnuas.

4.3 Distribuio normal Notao: X ~ N (, 2)


A distribuio normal tambm conhecida como distribuio de Gauss. um dos mais
importantes modelos de probabilidade para variveis aleatrias contnuas, sendo aplicado em inmeros
fenmenos e muito utilizado no desenvolvimento terico em na rea de inferncia estatstica.
Definio: A varivel aleatria contnua X tem distribuio normal, se a funo densidade de
probabilidade for:

f (x) =

1
2

2 2

= mdia populacional;
2 = varincia populacional.

onde:

( x ) 2

< x <

A esperana ou mdia e a varincia so os parmetros da distribuio normal, dados por: E(X) =


e VAR(X) = 2.

A distribuio normal tem as seguintes caractersticas:


A curva da distribuio tem forma de sino e simtrica em relao mdia ;
Na medida em que os pontos se afastam da mdia , a curva torna-se assinttica, ou seja, ela se
aproxima bastante do eixo horizontal, mas no chega a toc-lo;
A rea total sobre a curva 1, devido ao fato da mesma ser uma funo densidade de probabilidade;
O ponto mximo da funo corresponde mdia .
3

50%

50 %

0
-2

z=0

10

12

14

Para calcular uma probabilidade associada distribuio normal faz-se:


P (a < X < b) =

( x ) 2

22

dx

Para evitar o uso de integrais, os principais valores das probabilidades podem ser encontrados
numa tabela da curva normal, construda atravs de uma padronizao.
Esta padronizao transforma qualquer valor da varivel X numa escala Z, sendo que Z representa
nmero de desvios padres de afastamento em relao mdia.
X
sendo que os valores de Z e suas
A frmula para a padronizao de X em Z : Z =

respectivas reas de probabilidade esto tabelados.

34

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Um teste padronizado de escolaridade tem distribuio normal com mdia 100 e desvio padro
10. Determine a probabilidade de um indivduo submetido ao teste ter nota: a) maior que 120; b) maior
que 80; c) entre 85 e 115; d) maior que 100; e) entre 110 e 120; f) menor que 75; g) igual a 90.
Soluo:
120 100
a) Z1 =
= 2 P(X > 120) = P(Z > Z1) = P(Z > 2) = 0,5 0,4772 = 0,0228.
10
80 100
= 2 P(X > 80) = P(Z > Z1) = P(Z > -2) = 0,5 + 0,4772 = 0,9772.
b) Z1 =
10
85 100
115 100
= 1,5 e Z2 =
c) Z1 =
= 1,5
10
10
P(75 < X < 115) = P(Z1 < Z < Z2) = P(-1,5 < Z < 1,5) = 0,4332 + 0,4332 = 0,8664.
100 100
d) Z1 =
= 0 P(X > 80) = P(Z > Z1) = P(Z > 0) = 0,5 + 0,0000 = 0,5000.
10
110 100
120 100
e) Z1 =
= 1 e Z2 =
=2
10
10
P(110 < X < 120) = P(Z1 < Z < Z2) = P(1 < Z < 2) = 0,4772 - 0,3413 = 0,1359.
75 100
f) Z 1 =
= 2,5 P(X < 75) = P(Z < Z1) = P(Z < -2,5) = 0,5 0,4938 = 0,0062.
10
g) No possvel calcular a rea sobre um ponto, portanto a probabilidade zero.
Exemplo: Certo produto tem peso mdio de 10g e desvio-padro 0,5g. embalado em caixas de 120
unidades que pesam em mdia 150g e desvio-padro 8g. Qual a probabilidade de que uma caixa cheia
pese mais de 1.370g?
Soluo: Peso do produto: p = 10 e p = 0,5; Peso da caixa: c = 150 e c = 8.
A mdia da caixa cheia total = 120x10 + 150 = 1350g.
A varincia da caixa cheia 2total = 120x(0,5)2 + (8)2=140,8. O desvio-padro ser total= 140,8 =11,86g.
1370 1350
Ento: Z1 =
= 1,69 P(X > 1.370) = P (Z > Z1) = P(Z > 1,69) = 0,5 0,4545 = 0,0455.
11,86

4.4 Distribuio Qui - Quadrado (2)


Sejam X1, ....., Xn, variveis aleatrias independentes, normalmente distribudas, com mdia zero e
varincia 2.
Uma varivel aleatria: 2 = X12 + .....+ Xn2, ou seja, a soma quadrtica das variveis normais e
independentes, segue a distribuio de Qui-quadrado, com graus de liberdade.
Esta distribuio possui aplicaes muito importantes em Inferncia Estatstica, em testes noparamtricos, testes de aderncia e independncia, entre outras.
A distribuio Qui-quadrado (2) tem as seguintes caractersticas:
sempre positiva e assimtrica;
Para n , a distribuio Qui-quadrado aproxima-se da normal;
Para = 1, a distribuio Qui-quadrado igual normal.
A esperana e a varincia so dadas por: E(X) = e VAR(X) = 2
Uso da tabela: o corpo da tabela fornece valores de 2, a partir de uma probabilidade e do
nmero de graus de liberdade .
Exemplo: Considere uma distribuio Qui-quadrado, com 23 graus de liberdade. Determine: a) a mdia;
b) a varincia; c) o desvio-padro.
Soluo: a) E(X) = 23; b) VAR(X) = 2x23 = 46; c) DP(X) =
35

46 = 6,78.
Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

4.5 Distribuio t de Student


A distribuio normal depende de dois parmetros e 2, mas muitas vezes, no se conhece a
varincia da populao (2) e as investigaes e anlises so feitas a partir de amostras, que so extradas
desta populao. Nessas condies, o desvio padro da amostra ser um estimador de , e ento utiliza-se
a distribuio t de Student.
A distribuio t de Student tem as seguintes caractersticas:
usada no caso de pequenas amostras (n<30); a partir de amostras maiores que 30, pode-se usar a
distribuio normal, pois ambas tornam-se praticamente iguais;
Sua curva representativa semelhante da normal, sendo simtrica em relao ordenada mxima,
apresentando as extremidades com maior comprimento;
A rea sob a curva da distribuio t igual a 1;
n 1
A esperana e a varincia so dadas por: E(X) = 0 e VAR(X) =
n 3
Uso da tabela: corpo da tabela fornece valores de t, a partir de uma probabilidade e do
nmero de graus de liberdade .
Exemplo: Considere uma distribuio t com parmetro 23. Determine: a) a mdia; b) a varincia; c) o
desvio-padro.
Soluo: a) E(X) = 0; b) VAR(X) =

23
= 1,095 ; c) DP(X) = 1,095 = 1,046 ;
23 2

4.6 Distribuio F (Fisher)


Sejam duas amostras independentes, retiradas de populaes que seguem a distribuio normal. Se
as amostras fornecem varincias s12 e s22 e deseja-se conhecer a distribuio amostral do quociente entre
as mesmas, pode-se utilizar a distribuio F de Snedecor, conhecendo-se os graus de liberdade 1 e 2,
respectivamente:
12

F= 2 1
2
2
Esta distribuio usada num dos testes mais importantes em estatstica, que a Anlise de
Varincia. A curva da distribuio tem origem no zero e assimtrica.
Uso da tabela: na 1a linha encontra-se o nmero de graus de liberdade do numerador 1 e na 1a
coluna, o nmero de graus de liberdade do denominador 2. No corpo da tabela, onde ocorre o
cruzamento dos graus de liberdade, est o valor crtico que deixa sua direita, determinada rea .
2 22 (1 + 2 2)
2
A esperana e a varincia so dadas por: E(X) =
e VAR(X) =
2
2 2
1 ( 2 4)( 2 2)
Para cada valor de tem-se uma tabela.

Exemplo: Admite uma distribuio F com v1 = 8, v2 = 10 e = 5%. Determine a) a mdia; b) a varincia;


c) o desvio-padro.
Soluo: a) E(X) =

2 10 2 (8 + 10 2) 3200
10
=
= 1,042 ;
= 1,25 ; b) VAR(X) =
2
3072
10 2
8(10 4)(10 2)

c) DP(X) = 1,042 = 1,021

36

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

6 Amostragem
1 Introduo
Em pesquisas cientficas, quando se deseja conhecer caractersticas de uma populao, comum se
observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra, obter valores
aproximados ou estimativas para as caractersticas populacionais de interesse. Esse tipo de pesquisa
usualmente chamado de levantamento por amostragem.
Num levantamento por amostragem, a seleo dos elementos que sero observados, deve ser feita
sob uma metodologia adequada, de tal forma que os resultados da amostra sejam representativos de toda a
populao.
1.1 Definio de amostragem
A amostragem definida como sendo o processo de seleo de amostra(s) de uma populao,
podendo ser probabilstica ou no-probabilstica.
A amostragem probabilstica quando a seleo da amostra feita de forma aleatria, sendo que
cada elemento da populao tem uma probabilidade conhecida de participar desta amostra.
A amostragem no-probabilstica quando h uma escolha deliberada dos elementos da amostra.
Este tipo de amostragem pode prejudicar a representatividade da mesma em relao populao.
1.2 Importncia da utilizao da amostragem
Quatro razes para o uso de amostragem em levantamentos de grandes populaes:
Economia: em geral, torna-se bem mais econmico o levantamento de somente uma parte da
populao;
Tempo: numa pesquisa eleitoral, faltando trs dias para a eleio, no haveria tempo suficiente para
pesquisar toda a populao de eleitores do pas, mesmo que houvesse recursos financeiros em
abundncia;
Confiabilidade dos dados: quando se pesquisa um nmero reduzido de elementos, pode-se dar mais
ateno aos casos individuais, evitando erros nas respostas;
Operacionalidade: mais fcil realizar operaes de pequena escala. Um dos problemas tpicos nos
grandes censos o controle dos entrevistadores.
1.3 Situaes em que pode no valer pena a realizao de uma amostragem
Populao pequena: sob o enfoque de amostragens aleatrias, se a populao for pequena, para uma
amostra ser capaz de gerar resultados precisos para os parmetros da populao, necessrio que ela
seja relativamente grande (em torno de 80% da populao);
Caracterstica de fcil mensurao: talvez a populao no seja to pequena, mas a varivel que se quer
observar de to fcil mensurao, que no compensaria investir num plano de amostragem;
Necessidade de alta preciso: a cada dez anos o IBGE realiza um censo demogrfico para estudar
diversas caractersticas da populao brasileira. Dentre estas caractersticas tem-se o parmetro nmero
de habitantes residentes no pas, que fundamental para um bom planejamento. Desta forma, o
parmetro: nmero de habitantes precisa ser avaliado com grande preciso e, por isto, se pesquisa toda
a populao.

Para se construir um plano de amostragem deve-se ter bem definidos: os objetivos da pesquisa, a
populao a ser amostrada, bem como os parmetros necessrios a serem estimados para que os objetivos
da pesquisa sejam alcanados. Num plano de amostragem deve constar a definio da unidade de
amostragem, a forma de seleo dos elementos da populao e o tamanho da amostra.
1.4 Tipos de investigao
Segundo o critrio da participao do investigador:
37

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Levantamento: observao sem interferncia no processo que est ocorrendo;


Experimento: quando h interferncia no processo para verificar como ele ocorre.
Segundo o critrio do objetivo:
Descritivo: apenas para conhecer o universo;
Analtico: desejando analisar possveis relaes.
2 Tipos de amostragem probabilstica
2.1 Amostragem aleatria simples
Para a seleo de uma amostra aleatria simples necessrio ter o conjunto de todos os elementos
da populao e enumer-los. Este tipo de amostragem consiste em selecionar a amostra atravs de um
sorteio, sem restrio.
Na amostragem aleatria simples, cada elemento da populao tem a mesma probabilidade de
pertencer amostra, sendo que as tabelas de nmeros aleatrios facilitam o processo de seleo dos
nmeros que identificaro os elementos que iro compor a amostra. Estas tabelas so formadas por
sucessivos sorteios de algarismos do conjunto {0, 1, 2, ..., 9}, com reposio.
Considera-se: N = nmero de elementos (tamanho) da populao;
n = nmero de elementos (tamanho) da amostra.

Exemplo: Dada a seguinte populao:


Aristteles (2)
Ernestino (7)
Joana (2)
Anastcia (5)
Endevaldo (2)
Joaquim (22)
Arnaldo (2)
Francisco (0)
Joaquina (3)
Bartolomeu (1)
Felcio (10)
Jos (4)
Bernadino (11)
Fabrcio (5)
Jos Paulo (2)
Cardoso (16)
Geraldo (8)
Josefa (1)
Carlito (3)
Gabriel (8)
Josefina (5)
Cludio (1)
Getlio (2)
Maria Jos (3)
Emlio (13)
Hiraldo (9)
Maria Cristina (3)
Erclio (10)
Joo (4)
Mauro (0)
Extraia uma amostra aleatria simples de 10 funcionrios.

Paula (4)
Paulo Czar (2)

Soluo: a) 3 (Arnaldo); 4 (Bartolomeu); 23 (Joaquina); 28 (Maria Jos); 32 (Paulo Cezar); 11


(Ernestino); 16 (Geraldo); 13 (Francisco); 24 (Jos); 9 (Emlio).
2.2 Amostragem sistemtica
Muitas vezes possvel obter uma amostra de caractersticas parecidas com a amostra aleatria
simples, atravs do processo de amostragem sistemtico, de maneira mais rpida e fcil, desde que a
populao se encontre, naturalmente, ordenada.
Procedimento:
1. Calcula-se o intervalo de amostragem k = N/n, aproximando-o para o inteiro mais prximo;
2. Utilizando-se a tabela dos nmeros aleatrios, sorteia-se um nmero x dentro do primeiro intervalo de
amostragem (1 a k);
3. A amostra ser composta pelos elementos correspondentes aos nmeros x, x + k, x + 2k,..., x + (n-1)k.

Exemplo: Seleciona uma amostra sistemtica de tamanho 10, para os dados do exemplo anterior.
Soluo: k = N/n = 32/10 = 3,2 3, como o nico valor entre 1 e 3 2, inicia-se pelo 2 elemento.
2 (Anastcia); 5 (Bernadino); 8 (Cludio); 11 (Endevaldo); 14 (Felcio); 17 (Gabriel); 20 (Joana); 23
(Joaquina); 26 (Josefa); 29 (Mauro).
38

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

2.3 Amostragem estratificada


A tcnica da amostragem estratificada consiste em dividir a populao em k subgrupos
denominados de estratos. Estes estratos devem ser internamente mais homogneos do que a populao
toda, com respeito as variveis em estudo.
Sobre os diversos estratos da populao, so realizadas selees aleatrias, de forma independente.
A amostra completa obtida atravs da agregao das amostras de cada estrato, considerando-se:
k

N = N1 + N2 + ... + Nk =

i =1
k

n = n1 + n2 + ... + nk =

i =1

onde: k = nmero de estratos.


Amostragem estratificada proporcional
Neste caso particular de amostragem estratificada, a proporcionalidade do tamanho de cada estrato
da populao mantida na amostra, pois:

n / N = ni / Ni
Quando, no problema em estudo, so identificados estratos, uma amostra obtida atravs do
processo de amostragem estratificada proporcional tende a gerar resultados mais precisos, quando
comparada com uma amostra aleatria simples.
Amostragem estratificada uniforme
A amostragem estratificada uniforme costuma ser usada em situaes em que o maior interesse
obter estimativas separadas para cada estrato, quando os estratos tm aproximadamente o mesmo tamanho
(N1 N2 ... Nk), ou ainda, quando se deseja comparar diversos estratos. Sendo assim, seleciona-se a
mesma quantidade de elementos em cada estrato, ou seja, n1 = n2 = ... = nk , sendo ni calculado utilizandose a seguinte frmula: ni = n / k

Exemplo: Como o objetivo de levantar o estilo de liderana preferido pela comunidade de uma escola,
vamos realizar um levantamento por amostragem. A populao a seguinte:
Professores: P1, P2, P3, P4, P5, P6, P7, P8, P9, P10
Servidores: S1, S2, S3, S4, S5, S6, S7, S8, S9, S10
Alunos: A1, A2, A3, A4, A5, A6, A7, A8, A9, A10, A11, A12, A13, A14, A15, A16, A17, A18, A19, A20, A21, A22,
A23, A24, A25, A26, A27, A28, A29, A30
Suponha que a preferncia quanto ao estilo de liderana possa ser relativamente homogneo dentro de
cada categoria. Identifique quais sero os professores, os servidores e os alunos que faro parte da amostra
de tamanho 10, por meio de uma a.a.s. utilizando a 1 linha da tabela.
Soluo: 50/10 = 5, 20% da populao so de professores, 20% de servidores e 60% de alunos, portanto
retira-se 2 professores, 2 servidores e 6 alunos. Assim: P3, P4, S9, S6, A7, A20, A12, A28, A19, A9.
3 Distribuio por amostragem
Consideram-se todas as possveis amostras de tamanho n retiradas da populao. Para cada
amostra calcula-se a estatstica de interesse, obtendo-se, desta maneira, uma distribuio desses resultados,
originando uma Distribuio por Amostragem. Assim, podem-se obter as distribuies por amostragem da
mdia, da varincia, da proporo e de outras estatsticas.

39

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

3.1 Amostragem com ou sem reposio


Se o processo de retirada for com reposio, N n = nmero de amostras de tamanho n que podero ser
extradas da populao de tamanho N;
Se o processo de retirada for sem reposio, o nmero combinatrio CnN = nmero de amostras de
tamanho n, que podero ser extradas da populao de tamanho N.
3.2 Distribuio amostral das mdias
Admita-se que todas as amostras possveis de tamanho n so retiradas, sem reposio, de uma
populao finita de tamanho N.
Se a mdia e o desvio padro da distribuio amostral das mdias forem designados por
( X ) e ( X ) , e os valores correspondentes da populao o forem por e , respectivamente, ento:

Nn
n N 1
Se a populao for infinita, ou se a amostragem for tomada com reposio, os resultados anteriores

( X ) =
reduzem-se a: ( X ) =
n
onde: ( X ) = erro padro da distribuio amostral das mdias, indicando a disperso da distribuio,
sendo que, quanto maior a amostra, menor o erro padro da amostragem.
( X ) =

( X ) =

4 Determinao do tamanho da amostra


Em pesquisas, uma etapa de grande importncia a determinao do tamanho da amostra que ser
utilizada para o levantamento dos dados.
A determinao do tamanho da amostra depende de trs fatores:
Nvel de confiana (1-): o pesquisador que vai determinar o nvel de confiana que deseja;
Preciso (eo): em toda experimentao ou pesquisa, a utilizao da amostragem est condicionada a um
erro amostral, que corresponde diferena entre as estimativas amostrais e os parmetros
populacionais;
Tipo de investigao: depende das caractersticas populacionais a serem investigadas.

Sero apresentadas aqui as frmulas para o clculo do tamanho de amostras quando se deseja
estimar a mdia ou a proporo de uma populao.

4.1 Para estimar a mdia populacional


Varincia populacional conhecida
Populao Infinita
(z )
n= 2
eo

Populao Finita

n=

(z ) 2 2 N
2

e o2 ( N 1) + (z ) 2 2
2

Exemplo: Que tamanho deve ter uma amostra para que possamos estimar a mdia da glicemia em pessoas
normais, com 99% de confiana, desejando que os limites do intervalo no difiram entre si de mais de 2
mg/100ml e sabendo que o desvio padro deve estar em torno de 4 mg/100ml.
2

2,58 4
10,32
Soluo: n =
=
= 26,6256 27 pessoas.

2
2

40

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Suponha que a varivel escolhida num estudo seja o peso de certa pea e que a populao tenha
600 peas e que pelas especificaes do produto, o desvio padro de 10 Kg. Determine o tamanho de
amostra de peas admitindo um nvel de confiana de 95% e um erro amostral de 1,5 Kg.
Soluo: n =

1,96 2 10 2 600
230496
=
= 133,08 134 peas.
2
2
2
1731,91
1,5 (600 1) + 1,96 10

Quando no se conhece o desvio padro da populao, pode-se substitu-lo pelo da amostra, que
obtido atravs de uma pr-amostra (amostra piloto), de tamanho n1. Assim, tem-se:

Varincia populacional desconhecida


Populao Infinita
(t , ) s
2
n=
e o

Populao Finita
(t , ) 2 s 2 N

n=

e o2 ( N 1) + ( t , ) 2 s 2
2

onde: = n1 1 graus de liberdade.


Consideraes aps o clculo do tamanho da amostra:
Se n < n1, ento a pr-amostra (amostra piloto) selecionada, de tamanho n1, foi suficiente para garantir a
preciso desejada;
Se n > n1, deve-se completar a pr-amostra, acrescentando elementos at atingir o valor de n, que
garanta a preciso desejada.
Exemplo 1: Uma pr-amostra de 20 elementos, retirada ao acaso de uma populao aproximadamente
normal, apresentou a distribuio de freqncia a seguir. Qual deve ser o tamanho da amostra que
avalie a mdia populacional com erro mximo de 0,5 unidades e = 10%?
Classes
fi
0 |- 2
1
2 |- 4
5
4 |- 6
10
6 |- 8
3
8 |- 10
1
Soluo: Calcula-se primeiro a mdia e a varincia para achar o desvio padro da pr-amostra;
k
Xf
1x1 + 3x5 + 5x10 + 7x3 + 9x1 96
X= i i =
=
= 4,8
n
20
20
i =1

(X
k

s =
2

i =1

X ) .f i
2

n 1

2
2
2
2
2
(
1 4,8 ) 1 + (3 4,8 ) 5 + (5 4,8 ) 10 + (7 4,8 ) 3 + (9 4,8 ) 1 63,5
=
=

20 1

19

s = 3,34 = 1,83
2

(1,7291) 1,83
n=
= 6,328 2 = 40,04 40 elementos.

0,5

41

Departamento de Estatstica - UFSM

= 3,3 4

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Para estimar o preo mdio, uma amostra de 6 produtos foi retirada, sem reposio, de uma
populao aproximadamente normal, com 150 produtos e forneceu s2= R$ 10,00. Qual deve ser o tamanho
de uma amostra, para que a estimativa do preo mdio fornea um erro de R$ 2,00, no mximo, com 90%
de confiana?
Soluo: n =

(2,015) 2 10 150
6090,3375
=
= 9,57 10 produtos.
2
2
2 (150 1) + 2,015 10 596 + 40,60225

4.2 Para estimar uma proporo populacional


Populao Infinita
(z
n=

Populao Finita

) 2 p q
2

e2

(z
n=

) 2 pq N
2

e 2 ( N 1) + (z
o

) 2 p q
2

onde: p = proporo amostral (pode ser obtida atravs de uma pr-amostra de n1 elementos).
Comentrios:
Aqui tambm valem as duas consideraes a respeito da pr-amostra, vistas anteriormente;
s vezes, no se tem informao a respeito de p . Neste caso, adota-se p = q = 50%, o que levar a um
tamanho de amostra superavaliado, mas garantindo a preciso desejada, embora podendo ter como
conseqncia, aumentos no custo e no tempo de amostragem e, conseqentemente, na pesquisa;
Como a varincia aparece no numerador das frmulas, conclui-se que quanto mais heterognea for a
populao em estudo, maior dever ser o valor de n.

Exemplo: Qual deve ser o tamanho da amostra para que possamos estimar a porcentagem de pessoas
portadoras de problemas de viso em uma determinada cidade, de modo que o intervalo entre os valores
estimados no exceda 2% para um nvel de confiana de 95%, sabendo que esta porcentagem deve estar
em torno de 40%?

Soluo: n =

(z ) 2 p q
2

e o2

1,96 2 0,4 0,6


= 2304,96 2305 pessoas.
0,02 2

Exemplo: Um fiscal de Imposto de Renda pretende estimar a proporo de declaraes com devoluo de
um grupo de 500 declaraes de certa categoria profissional. Para isto, selecionou ao acaso, 50
declaraes e verificou que 20 delas solicitavam devoluo. Determine o tamanho da amostra necessrio
para estimar a proporo de declaraes com devoluo neste grupo, com nvel de confiana de 90% e
erro mximo de 5%.
1,64 2 0,4 0,6 500
Soluo: n =
= 170,5 171 declaraes.
0,05 2 (500 1) + 1,64 2 0,4 0,6

42

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

7 Estimao de Parmetros
1 Introduo
O objetivo da Estatstica a realizao de inferncias acerca de uma populao, baseadas nas
informaes amostrais. Como as populaes so caracterizadas por medidas numricas descritivas,
denominadas parmetros, a inferncia estatstica diz respeito realizao de inferncias sobre esses
parmetros populacionais.
Os mtodos utilizados para a realizao de inferncias a respeito dos parmetros pertencem a duas
categorias. Pode-se estimar ou prever o valor do parmetro ou pode-se tomar decises relativas ao mesmo,
atravs de um teste de hiptese.
A estimao o processo que consiste em utilizar dados amostrais para estimar os valores de
parmetros populacionais desconhecidos. Qualquer caracterstica de uma populao pode ser estimada a
partir de uma amostra aleatria. Entre as mais comuns, esto a mdia, o desvio padro e a proporo
populacional.
2 Estimativas pontuais e intervalares
As estatsticas amostrais so utilizadas como estimadores de parmetros populacionais. Assim uma
mdia amostral usada como estimativa de uma mdia populacional.
Tais estimativas chamam-se estimativas pontuais, porque originam uma nica estimativa do
parmetro.
A amostragem aleatria apresenta tendncia a gerar amostras em que as mdias amostrais no so
iguais mdia da populao, embora os valores, em geral, sejam prximos. Em virtude desta variabilidade
amostral, usual incluir uma estimativa intervalar, com certo nvel de confiana (1-) ou de significncia
, para acompanhar a estimativa pontual. Essa nova estimativa proporciona um intervalo, de possveis
valores do parmetro populacional, denominado intervalo de confiana.
3 Tipos de intervalos
3.1 Intervalo de confiana para a mdia
P ( X - eo < < X + eo ) = 1 -
Caso 1: Varincia populacional 2 conhecida

e o = (z )
2
n

Exemplo: Uma amostra de 80 motoristas de determinado estado indica que um automvel anda, em
mdia, 22.000 km por ano, com desvio padro de 3.800 km. Construa um intervalo de 98% de confiana
para a distncia anual mdia percorrida pelos carros.


3800

Soluo: P X Z .
= 98% ; P(22.000 989,91) = 98% ;
= 1 ; P 22.000 2,33
2
n
80

P(21.010,1 < < 22.989,9) = 98% .

Interpretao: Estima-se, com uma confiana de 98%, que a mdia anual de rodagem dos carros ,
aproximadamente, um valor entre 21.010 km e 22990 km.
Caso 2: Varincia populacional 2 desconhecida
s
onde: = nmero de graus de liberdade.
n
e o = (t , )
2
n
43

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Observao: quando n > 30 (amostra grande) pode-se utilizar o intervalo de confiana do caso 1.
Exemplo: Suspeita-se que um certo fiscal tende a favorecer os devedores, atribuindo multas mais leves.
Fazendo-se uma auditoria numa amostra aleatria de oito empresas, verificaram-se os seguintes valores
que deixaram de ser cobrados, em reais: 200 300 180 0 420 100 460 340
Construa um intervalo de 95% de confiana para o parmetro .

Soluo:

X=

2040
= 255 ;
8

701600
s=

(2040)2
8

P X t , v .
= 1 ;
2
n

= 160,98 ;

160,98

P(120,40 < < 389,60) = 95%


P 255 2,365.
= 95% ; P(255 134,60) = 95% ;
8

Interpretao: Estima-se que a mdia de valores no cobrados est entre R$ 120,40 e R$ 389,60, com
confiana de 95%.
3.2 Intervalo de confiana para a proporo populacional p
P ( p - eo < p < p + eo ) = 1 -

e0 = Z
2

p q
n

onde: p e q = propores amostrais;


q = 1 - p .
Exemplo: Selecionados, aleatoriamente, e pesquisados 500 universitrios, verificou-se que 135 deles
tinham computadores pessoais. Determine: a) a estimativa pontual da verdadeira proporo de todos os
universitrios que tm computador pessoal; b) um intervalo de confiana de 95% para a verdadeira
proporo de todos os universitrios que tm computador pessoal.
135
= 0,27
Soluo: a) p =
500

p.q
0,27.0,73
= 1 ;
= 95% ; P(0,27 0,039) = 95% ;
P 0,27 1,96
b) P p Z

2
n
500

P(0,231 p 0,309) = 95% .


Interpretao: Existe 95% de confiana de que a proporo de todos os universitrios que tm
computador pessoal est entre 23,1% e 30,9%.
3.3 Intervalo de confiana para diferena de mdias populacionais 1 e 2

P [ ( X1 - X 2 ) - eo < 1 - 2 < ( X1 - X 2 ) + eo ] = 1 -
Caso 1: Varincias populacionais 12 e 22 conhecidas

eo = z

12
+
n1

22
n2
44

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: O estresse afeta a capacidade de memorizao de testemunhas oculares? Este problema foi
estudado em um experimento que testou a memria visual de uma testemunha uma semana aps o
interrogatrio normal de um suspeito que cooperava, e um interrogatrio exaustivo de um suspeito que
no cooperava. Os nmeros de detalhes lembrados uma semana aps o incidente esto resumidos aqui. No
nvel de 0,10 de significncia, encontre um intervalo de confiana para a diferena de mdias.
Sem estresse: n 1 = 40 ; X1 = 53,3 ; s1 = 11,6 .
Com estresse: n 2 = 40 ; X 2 = 45,3 ; s 2 = 13,2 .
Soluo: eo = z

12
+
n1

11,6 2
13,2 2
22
= 4,57
+
1
,
645
=
40
40
n2

P [ ( X1 - X 2 ) - eo < 1 - 2 < ( X1 - X 2 ) + eo ] = 1 - ;

P (3,43 < 1 - 2 < 12,57) = 0,90

Caso 2: Varincias populacionais 1 2 e 2 2 desconhecidas e iguais

1
+
n1

eo = ( t , ) S'
2

(n 1 1) s12 + (n 2 1) s 22
n1 + n 2 2
= n1 + n2 2 graus de liberdade.

onde: S' =

1
n2

Exemplo: Em um experimento destinado a testar os efeitos do lcool, registraram-se os erros em um


teste de habilidade visual e motora para um grupo que bebeu lcool, e outro grupo a quem foi dado um
placebo. Os resultados constam na tabela a seguir. No nvel de 0,05 de significncia, determine o IC
para a diferena entre as mdias.
Grupo lcool: n1 = 22; X 1 = 4,20 ; s1 = 2,20.
Grupo placebo: n2 = 22; X 2 = 1,71 ; s2 = 0,72.
Soluo: S' =

(n 1 1)s12 + (n 2 1)s 22
=
n1 + n 2 2

(22 1) 2,2 2 + (22 1)0,72 2


= 1,637
22 + 22 2

= n1 + n2 2 = 42 graus de liberdade.
1
1
1
1
e o = (t v, )S'
+
+
= 2,021 1,637
= 0,998
2
n1 n 2
22 22

P [ ( X1 - X 2 ) - eo < 1 - 2 < ( X1 - X 2 ) + eo ] = 1 - ;

P (1,492 < 1 - 2 < 3,488) = 0,95

Caso 3: Varincias populacionais 1 2 e 2 2 desconhecidas e diferentes


s2
s2
onde: V1 = 1 e V2 = 2 ;
eo = ( t , ). V1 + V2
2
n1
n2

(V1 + V2 ) 2
2 graus de liberdade.
V12
V22
+
n1 + 1 n 2 + 1

3.4 Intervalo de confiana para diferena de propores populacionais p1 e p2

P [ ( p1 - p 2 ) - eo < p1 - p2 < ( p1 - p 2 ) + eo ] = 1 -
eo = z

p1q1
+
n1

p 2 q 2
n2
45

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Com o nvel de 0,05 de significncia, determine o intervalo de confiana para a diferena
entre a percentagem de homens e mulheres multados por excesso de velocidade.
Multados por excesso de velocidade
Sim
No
Homens (1)
26
224
Mulheres (2)
27
473

27 473

= 0,0511
Soluo: p1q 1 = 26 224 = 0,93184 ; p 2 q 2 =
500 500
250 250
eo = 1,96 0,931 + 0,0511 = 0,0869 ;
P (- 0,0369 < p1 - p2 < 0,1369) = 0,95.
250
500

8 Testes de Hipteses Paramtricos


1 Introduo
Muitas vezes o pesquisador tem alguma idia ou conjectura, sobre o comportamento de uma
varivel. Neste caso, o planejamento da pesquisa deve ser de tal forma que permita, com os dados
amostrais, testar a veracidade de suas idias sobre a populao em estudo. Considera-se que a populao
seja o mundo real e as idias sejam as hipteses de pesquisa, que podero ser testadas por tcnicas
estatsticas denominadas de testes de hipteses ou testes de significncia.
2 Hiptese estatstica
uma suposio quanto ao valor de um parmetro populacional, que ser verificada por um teste
paramtrico ou uma afirmao quanto a outras caractersticas da populao, que ser verificada por um
teste no-paramtrico.
3 Teste de hipteses
uma regra de deciso para aceitar ou rejeitar uma hiptese estatstica, com base nos elementos
amostrais.
3.1 Hipteses
Hiptese nula (H0): afirma que quaisquer diferenas entre duas ou mais observaes, grupos, etc., se
devem ao acaso e no a uma variao sistemtica. a hiptese inicial.
Hiptese alternativa (H1): afirma que uma variao sistemtica ocorrer entre duas ou mais observaes
ou tratamentos. a hiptese contrria hiptese nula.

Observe que Ho e H1 so hipteses mutuamente excludentes, ou seja, aceitando-se uma das


hipteses como sendo a verdadeira, a outra, automaticamente, ser rejeitada.
3.2 Tipos de erros
Quando se realiza um teste de hipteses, podem-se cometer dois tipos de erro: tipo I ou tipo II.
Erro tipo I: consiste em rejeitar H0, quando ela verdadeira. Pode ser limitado pela escolha de ;
Erro tipo II: consiste em aceitar H0, quando ela falsa. a potncia do teste.

O quadro a seguir mostra as possibilidades de se cometer os erros tipo I e tipo II.


Realidade Deciso
Ho verdadeira
Ho falsa

Aceitar Ho
Deciso correta (1-)
Erro tipo II ()
46

Rejeitar Ho
Erro tipo I ()
Deciso correta (1-)
Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Nos testes de hipteses controlam-se os erros do tipo I e II, enquanto que, nos testes de
significncia, controla-se apenas o erro do tipo I.
3.3 Nvel de significncia do teste [Simbologia: ]
a probabilidade de se cometer o erro tipo I, ou seja, rejeitar uma hiptese verdadeira.
3.4 Graus de liberdade [Simbologia: ]
Os graus de liberdade referem-se liberdade de variao num conjunto de escores. Por exemplo,
numa amostra de 6 escores, 5 deles tm liberdade de variar, enquanto 1 fixo. Assim, g. l. = = n 1.
3.5 Teste bilateral
Consideram-se ambas as extremidades da distribuio por amostragem como regio de rejeio
(RR). As hipteses sero formuladas da seguinte maneira:

H 0 : = 0
H 1 : 0

onde: 0 = valor suposto para o parmetro.


3

RA Ho
1

RR Ho

RR Ho

1-
0
-2

Valor tabelado

10

12

14

Valor tabelado

Neste tipo de teste, aceita-se Ho se o valor calculado, com base na amostra, estiver entre os dois
valores tabelados, mostrados na figura acima.
3.6 Teste unilateral
Considera-se apenas uma extremidade da distribuio por amostragem como regio de rejeio
(RR). Ver curvas abaixo.
Neste tipo de teste, aceita-se Ho se o valor calculado com base na amostra for maior que o valor
tabelado, no caso de teste unilateral esquerda e menor que o valor tabelado no caso de teste unilateral
direita.
Unilateral direita: H0: = 0
Unilateral esquerda: H0: = 0
H 1 : < 0
H 1: > 0
3

RA Ho

RA Ho

1-

RR Ho

1-

RR Ho

0
-2

Valor tabelado

10

12

14

-2

10

12

Valor tabelado

14

3.7 Probabilidade exata do teste [Simbologia: p]


a rea, abaixo de uma curva de probabilidade, compreendida entre a estatstica calculada e o
infinito mais prximo, no caso do teste ser unilateral. Se o teste for bilateral, considera-se este valor
multiplicado por dois. Se p < , rejeita-se H0 (quanto menor o valor de p, mais significativo o teste), e se
p > , aceita-se H0.
47

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

3.8 Procedimento para a realizao de um teste de hipteses


1. Formular as hipteses Ho e H1;
2. Identificar a estatstica do teste;
3. Calcular a estatstica do teste, utilizando os valores amostrais;
4. Definir as reas de aceitao e de rejeio de Ho;
5. Comparar a estatstica calculada com a estatstica tabelada;
6. Decidir e concluir.
4 Testes de hipteses paramtricos
A seguir, so apresentados alguns destes testes e as estatsticas que devem ser calculadas para
serem comparadas com as respectivas estatsticas tabeladas.
4.1 Teste para uma mdia com varincia populacional 2 conhecida
e
H1: 0, ou
Hipteses:
H0: = 0
H1: > 0, ou
H1: < 0.
Estatstica calculada:
zc =

onde: Ztab = valor da tabela da distribuio normal padronizada (depende de );


0 = valor suposto para o parmetro na hiptese H0.

X o

Exemplo: O desvio-padro de uma populao conhecido e igual a 22 unidades. Se uma amostra de cem
elementos, retirada dessa populao, forneceu X = 115,8 , podemos afirmar que a mdia dessa populao
inferior a 120 unidades, ao nvel de 5% de significncia? Qual a significncia do resultado obtido, face
s hipteses testadas?
Soluo: Vamos testar as hipteses: H 0 : = 120 e H1 : < 120 , pois, se rejeitarmos H0, poderemos
inferir, no nvel de confiana desejado, que a mdia da populao inferior a 120.
Temos: z = 115,8 120 = 4,2 = 1,91
2,2
22 100
Como zc < -z5%, = -1,645, rejeita-se H0 ao nvel de = 5%. Portanto, pode-se inferir, nesse nvel de
significncia, que a mdia da populao inferior a 120 unidades.
4.2 Teste para uma mdia com varincia populacional 2 desconhecida

Hipteses:

H0: = 0

Estatstica calculada:

tc =

X o
s

H1: 0, ou
H1: > 0, ou
H1: < 0.

onde: ttab = valor da tabela t de Student, com e = n - 1 graus de liberdade.

n
Observao: se n > 30, pode-se utilizar o teste (4.1), usando s = .

48

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Em indivduos sadios, o consumo renal de oxignio distribui-se normalmente em torno de 12


cm3/min. Deseja-se investigar, com base em cinco indivduos portadores de certa molstia, se esta tem
influncia no consumo renal mdio de oxignio. Os consumos medidos para os cinco pacientes foram:
14,4 12,9 15,0 13,7 13,5
Qual a concluso ao nvel de 1% de significncia?
Soluo: Admitindo que tambm entre os portadores da molstia o consumo de oxignio se distribua
normalmente, vamos testar, para os pacientes, as hipteses H 0 : = 12cm 3 /min e H 1 : 12cm 3 /min .
Destaca-se que o teste deve ser bilateral, de acordo com o que se deseja investigar. oportuno lembrar
que os resultados experimentais no devem, em caso algum, influenciar a deciso quanto s hipteses a
13,90 12
5,21
testar. Para a amostra de n = 5 valores tm-se X = 13,90 e s 2 = 0,665 . Logo: t c =
0,665 5
Como o valor crtico t4; 0,5% = 4,604, rejeitamos H0. A evidncia amostral indica, ao nvel de 1% de
significncia, que a referida molstia tem influncia no consumo renal mdio de oxignio.
4.3 Teste para a proporo populacional p

Hipteses:

H 0: p = p 0

H1: p p0, ou
H1: p > p0, ou
H 1: p < p 0.

Estatstica calculada:
p p o
zc =
poqo
n
onde: Ztab = valor da tabela da distribuio normal padronizada o qual depende de ;
po = valor suposto para o parmetro na hiptese H0.
Exemplo: Desconfiando-se de que uma moeda fosse viciada, realizou-se um experimento que consistiu em
lanar essa moeda cem vezes, observando-se 59 caras e 41 coroas. Ao nvel de 5% de significncia, podese afirmar a existncia de vcio na moeda?
Soluo: as hipteses a testar referem-se proporo p de vezes (ou probabilidade) em que ocorre, por
exemplo, cara. Se ela no possui vcio, tal proporo deve ser igual a 0,5. Logo, as hipteses so:
H 0 : p = 0,5 ; H1 : p 0,5
f
59
= 0,59
A freqncia relativa de caras observadas foi: p = =
n 100
Pela expresso, temos:
0,59 0,50
zc =
= 1,80
0,50(1 0,50) 100
Como z/2 = z2,5% = 1,960, aceita-se a hiptese H0. Logo, ao nvel de = 5%, no ficou comprovada a
existncia de vcio na moeda.

4.4 Teste para a diferena entre duas mdias populacionais independentes


H1: 1 - 2 (bilateral), ou
H1: 1 - 2 > (unilateral direita), ou
H1: 1 - 2 < (unilateral esquerda).
onde: = 0, no caso do teste de hiptese de igualdade entre duas mdias.

Hipteses:

H0: 1 - 2 = = 0

49

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Caso 1: Varincias populacionais com e conhecidas


2
1

Estatstica calculada:
(X X2 )
zc = 1
12 22
+
n1 n 2

onde:

2
2

ztab = valor da tabela da distribuio normal padronizada


= 1 2 = 0

Exemplo: O estresse afeta a capacidade de memorizao de testemunhas oculares? Este problema foi
estudado em um experimento que testou a memria visual de uma testemunha uma semana aps o
interrogatrio normal de um suspeito que cooperava e um interrogatrio exaustivo de um suspeito que no
cooperava. Os nmeros de detalhes lembrados uma semana aps o incidente esto resumidos aqui. No
nvel de 0,01 de significncia, teste a afirmao do artigo de que o cansao concorre para diminuir a
quantidade de detalhes lembrados.
Sem Estresse: n1 = 40 ; X1 = 53,3 ; s1 = 11,6 .
Com estresse: n 2 = 40 ; X 2 = 45,3 ; s 2 = 13,2 .
Soluo: H 0 : 1 = 2 e H1 : 1 > 2
Estatstica calculada: z c =

X1 X 2
2

+ 2
n1
n2

; zc =

53,3 45,3
11,6 2 13,2 2
+
40
40

8
= 2,88
2,778

Estatstica tabelada: (unilateral): z tab = z 0,01 = 2,33


Deciso: z c > z tab Rejeita-se H0, (p < )
Concluso: O cansao concorre para diminuir significativamente a quantidade de detalhes lembrados, ao
nvel de 1%.

Caso 2: Varincias populacionais com 12 e 22 desconhecidas e iguais


Estatstica calculada:

tc =

( X1 X 2 )
1
1
S'
+
n1 n 2

onde:

(n 1 1) s12 + (n 2 1) s 22
n1 + n 2 2
= valor da tabela t de Student, com e = n 1 + n 2 2 graus de liberdade.

S' =

t tab

= 1 2 = 0

Exemplo: Em um experimento destinado a testar os efeitos do lcool, registraram-se os erros em um teste


de habilidade visual e motora para um grupo que bebeu lcool, e outro grupo a quem foi dado um placebo.
Os resultados constam na tabela a seguir. No nvel de 0,05 de significncia, teste a afirmao de que os
dois grupos provm de populaes com a mesma mdia. Esses resultados apiam a crena geral de que a
bebida prejudicial para motoristas, pilotos, capites de navio e outros?
Grupo lcool: n1 = 22 ; X1 = 4,20 ; s1 = 2,20 .
Grupo placebo: n 2 = 22 ; X 2 = 1,71 ; s 2 = 0,72 .
Soluo: H 0 : 1 = 2 e H1 : 1 2
50

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini


2

(n 1 1)s 1 + (n 2 1)s 2
(22 1).2,20 2 + (22 1).0,72 2
=
= 1,64
n1 + n 2 2
22 + 22 2

S' =

Estatstica calculada: t c =

X1 X 2
1
1
S.
+
n1 n 2

Estatstica tabelada: (bilateral) t

v,

=t

42 ,

4,20 1,71
1
1
1,64
+
22 22

0 , 05
2

= 5,04

= 2,021

Deciso: t c > t tab Rejeita-se H0 (p< )


Concluso: A mdia de erros significativamente maior no grupo que bebeu lcool.

Caso 3: Varincias populacionais com 12 e 22 desconhecidas e diferentes


Estatstica calculada:
tc =

( X1 X 2 )

onde:

s12 s 22
+
n1 n 2

V1 =

s12
s2
e V2 = 2 ;
n1
n2

ttab = valor da tabela t de Student, com e =

(V1 + V2 ) 2
2 graus de liberdade.
V12
V22
+
n1 + 1 n 2 + 1

Exemplo: Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o mesmo peso mdio
por pacote. Entretanto, como uma das mquinas nova e a outra velha, razovel supor-se que
trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponveis
constam de 6 pacotes produzidos pela mquina nova e 9 produzidos pela mquina velha. Os pesos, em
quilogramas, desses pacotes esto abaixo. Qual a concluso, ao nvel de 5% de significncia?
Mquina nova
0,82 0,82 0,79 0,81 0,81 0,80
Mquina velha
0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78
Soluo: H 0 : 1 = 2 e H1 : 1 2 .
Calculando as mdias e as varincias, temos:
s 2 0,00020
X 1 = 0,81 ; s12 = 0,00020 (n1 = 6); V1 = 1 =
= 3,33 10 5
n1
6
s 22 0,00135
=
= 15 10 5
X 2 = 0,78 ; s = 0,00135 (n2 = 9); V2 =
n2
9
2
2

tc =

( X1 X 2 )
s12 s 22
+
n1 n 2

0,81 0,78
(3,33 + 15) 10 5

= 2,216

(V1 + V2 ) 2
(3,33 + 15) 2 10 10
2=
2 = 11,95 12
V12
V22
3,33 2 + 15 2 10 10
+

7
10
n1 + 1 n 2 + 1
O valor crtico ser t12;2,5% = 2,179. Logo, rejeitamos H0 e conclumos, com = 5%, que as mdias dos
pesos diferem entre as mquinas.
O grau de liberdade =

51

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

4.5 Teste para a diferena entre duas amostras dependentes - Teste t pareado
Neste teste, as observaes aparecem aos pares, sendo que a mdia e o desvio padro so
calculados utilizando-se, como dados, os valores das diferenas (di) entre cada par.

H0: d = 0

Hipteses:

H1: d 0, ou
H1: d > 0, ou
H1: d < 0.

Estatstica calculada:
tc =

Xd d
sd
n

onde:

X d = mdia das diferenas entre os pares; sd = desvio padro das diferenas;


d = mdia das diferenas da hiptese; n = nmero de pares de dados;
ttab = valor da tabela t que depende de e = n - 1 graus de liberdade.

Exemplo: Dez cobaias adultas foram submetidas ao tratamento com certa rao durante uma semana.
Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais.
Os pesos, em gramas, no princpio e no fim da semana, designados respectivamente por xi e yi, so
dados a seguir. Ao nvel de 1% de significncia, podemos concluir que o uso da rao contribuiu para o
aumento do peso mdio dos animais?
Cobaia 1
2
3
4
5
6
7
8
9
10
xi
635 704 662 560 603 745 698 575 633 669
yi
640 712 681 558 610 740 707 585 635 682

Soluo: H 0 : d = 0 e H1 : d > 0
n

Xd =

d
i =1

(640 635) + (712 704) + ... + (682 669) 66


=
= 6,6 ;
10
10
2

n
di
n
i =1
(66) 2
2
d

882

i
n
10 = 49,60 ; s = 7,043 ; t = X d d = 6,6 0 = 2,96 ;
s d2 = i =1
=
d
c
sd
7,043
n 1
9
10
n
Como t9;1% = 2,821, rejeitamos H0 ao nvel de 1% de significncia. Logo, conclumos, a esse nvel, que o
uso da rao contribui para o aumento do peso mdio dos animais.

4.6 Teste para a diferena entre duas propores populacionais p1 e p2


Estatstica calculada:

zc =

(p1 p 2 )
p1 q1 p 2 q 2
+
n2
n1

onde: = 0, no caso do teste de hiptese de igualdade entre duas propores;


ztab = valor da tabela da distribuio normal padronizada o qual depende de ;
n1 e n2 > 30

52

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Exemplo: Com o nvel de 0,05 de significncia, teste a afirmao de que a percentagem de mulheres
multadas por excesso de velocidade inferior a dos homens. Pode-se concluir que os homens, de modo
geral, correm mais do que as mulheres?
Multados por excesso de velocidade
Sim
No
Homens (1)
26
224
Mulheres (2)
27
473
Soluo: H 0 : p1 = p 2 ( p1 p 2 = 0 ) e H1 : p1 > p 2 ( p1 p 2 > 0 )
p1 p 2
0,104 0,054
Estatstica calculada: z c =
=
= 2,22
0,104 0,896 0,054 0,946
p1 .q 1 p 2 .q 2
+
+
250
500
n1
n2

Estatstica tabelada: z tab = z 0, 05 = 1,65


Deciso: z c > z Rejeita-se H0 (p< )
Concluso: A proporo de homens multados por excesso de velocidade significativamente maior do
que a proporo de mulheres, para o nvel de 5%.

4.7 Teste para a diferena entre duas varincias

2
2
Hipteses: H o : 1 = 2

12 22

H 1 : 12 > 22
2 < 2
2
1

A varivel escolhida F de Snedecor com 1 = n1 1 graus de liberdade no numerador e 2 = n2 1


graus de liberdade no denominador.
Calculo da varivel:
s2 2
s2
F = 12 22 , mas como 12 = 22 : F = 12 .
s 2 1
s2
Exemplo: Dois programas de treinamento de funcionrios foram efetuados. Os 21 funcionrios treinados
no programa antigo apresentaram uma varincia 146 em suas taxas de erro. No novo programa, 13
funcionrios apresentaram uma varincia de 200. Sendo = 5%, pode-se concluir que a varincia
diferente para os dois programas?
Soluo: H o : 12 = 22
H 1 : 12 22
F=

s12 146
=
= 0,73
s 22 200

= 0,025, v1 = 20, v 2 = 12 F = 3,07


2
.
Da tabela F
0
,
975
,
v
20
,
v
12
F

=
=
=

= 0,374
1
2
1

2
Concluso: aceita-se H0, pois Fcalc < F e Fcalc > F1 .
2

53

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

9 Anlise de Varincia - ANOVA


1 Introduo
A anlise de varincia foi inicialmente desenvolvida por Fisher, como instrumento para a anlise
de experimentos agrcolas.
A ANOVA um mtodo poderoso para identificar diferenas entre as mdias populacionais
devido a vrias causas atuando, simultaneamente, sobre os elementos da populao. A variao total dos
dados analisada em duas partes: a variao dentro do tratamento (intragrupo) = QMR e a variao entre
os tratamentos (entre grupos) = QMTr.
2 Pressuposies bsicas aplicao da ANOVA
As k populaes tenham a mesma varincia 2 - condio de homocedasticidade;
A varivel de interesse seja normalmente distribuda em todas as populaes.
3 ANOVA - Uma classificao: amostras de mesmo tamanho
As hipteses a serem testadas so:
H0: 1 = 2= ... = k = no existe diferena entre as mdias;
H1: existe pelo menos uma mdia diferente da outra.
A idia, na anlise de varincia, comparar a variao devida aos tratamentos com a variao
devido ao acaso ou resduo. Para fazer uma anlise de varincia preciso proceder a uma srie de
clculos. Mas a aplicao das frmulas exige conhecimento da notao.
Na Tabela 1, apresenta-se um experimento com k tratamentos ou amostras de tamanho r. A
soma dos resultados das r repeties de um mesmo tratamento constitui o total desse tratamento. As
mdias dos tratamentos foram indicados por y1 , y 2 , y 3 ,..., y k .
O total geral dado pela soma dos totais dos tratamentos.
Tabela 1 - Um experimento inteiramente ao acaso

Total
No de repeties
Mdia

1
y11
y12
y13
.
.
.
y1r
T1
r
y1

Tratamento ou amostra
2
3
...
y21
y31
y22
y32
y23
y33
.
.
.
.
.
.
y2r
y3r
...
T2
T3
...
r
r
...
y2
y3
...

Total
k
yk1
yk2
yk3
.
.
.
ykr
Tk
r

T = y
n = kr

yk

onde: yij (i = 1, 2, ..., k; j = 1, 2, ..., r).


Para fazer a anlise de varincia de um experimento, ao acaso, preciso calcular as seguintes
quantidades:
a) Graus de liberdade:

dos tratamentos = k-1;


dos resduos = k . (r-1);
do total = (k.r) - 1.

54

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

( y )

b) C = fator de correo: C =

n
c) SQT = soma de quadrados total: SQT = y 2 C ,

SQT = SQTr + SQR

T
d) SQTr = soma de quadrados dos tratamentos: SQTr =

e) SQR = soma de quadrados dos resduos: SQR = SQT - SQTr


2
= QMTr ): QMTr =
f) QMTr = quadrado mdio (varincia) dos tratamentos ( Tr

g) QMR = quadrado mdio (varincia) dos resduos ( 2r = QMR ): QMR =

h) Fc = valor calculado da estatstica do teste: Fc =

SQTr
k 1

SQR
k (r 1)

QMTr
QMR

Note que os quadrados mdios (varincias) so obtidos, dividindo as somas de quadrados pelos
respectivos graus de liberdade. Todas as quantidades calculadas so apresentadas numa tabela de anlise
de varincia, conforme a Tabela 2, a seguir:
Tabela 2 - Anlise de varincia de um experimento inteiramente ao acaso
Causas de variao
GL
SQ
QM
F
Tratamentos
k-1
SQTr
QMTr
Fc
Resduo
k(r - 1)
SQR
QMR
kr - 1
SQT
Total
Para testar as hipteses utilizada a estatstica F de Snedecor, com (k1) graus de liberdade no
numerador e k . (r1) graus de liberdade no denominador. Se Fc > F ,1 2 , rejeita-se Ho e conclui-se que
existe pelo menos uma mdia que difere de outra.
Para verificar quais as mdias que diferem entre si necessrio utilizar um teste de comparao de
mdias.

4 ANOVA - Uma classificao: amostras de tamanhos diferentes


A anlise estatstica de um experimento, inteiramente ao acaso, com nmero diferente de
repeties no apresenta maior dificuldade. Todos os clculos so feitos da maneira j apresentada
anteriormente, com exceo da soma de quadrados dos tratamentos. A soma de quadrados dos tratamentos
dada pela frmula:
T12 T22
Tk2
SQTr =
+
+ ... +
C
r1
r2
rk

5 Comparao de mdias
Quando a anlise de varincia de um experimento mostra que as mdias dos tratamentos no so
estatisticamente iguais, apenas lgico perguntar: Quais so as mdias que diferem entre si? Para
responder a esta pergunta o pesquisador precisa de um mtodo que fornea a diferena mnima
55

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

significante entre duas mdias. Toda vez que o valor absoluto da diferena entre duas mdias igual ou
maior que a diferena mnima significante, as mdias so consideradas estatisticamente diferentes, ao
nvel de significncia estabelecido.
Foram propostas diversas maneiras de calcular a diferena mnima significante. Cada proposta ,
na realidade, um teste que, em geral, leva o nome de seu autor. No existe um procedimento para a
comparao de mdias que seja definitivamente melhor que todos os outros.

5.1 Teste de Tukey


Para obter o valor da diferena mnima significante (d.m.s.) pelo teste de Tukey, basta calcular:
5.1.1

Para amostras de mesmo tamanho


onde: q k , , = valor tabelado da amplitude studentizada;
QMR
d.m.s. = q
= k . (r 1);
r
R = nmero de repeties do tratamento ou tamanho da amostra.

5.1.2

Para amostras de tamanho diferentes


onde: QMR = quadrado mdio do resduo da anlise de varincia;
1 1 QMR
d.m.s. = q +
ri e rj = nmero de repeties dos tratamentos em comparao
r r 2
j
i

De acordo com o teste, duas mdias so estatisticamente diferentes toda vez que o valor absoluto
da diferena entre elas for igual ou maior do que a d.m.s., ou seja:

Se X i X m d. m. s. , ento X i X m ;

Se X i X m < d. m. s., ento X i = X m .


Exemplo: Um ensaio de trao mede a qualidade de uma solda a ponto de um material revestido de
alumnio. A fim de determinar se h um efeito de mquina quando se solda um material de bitola
especificada, obtm-se as seguintes amostras de trs mquinas ( = 0,05):
Mquina A: 3,2; 4,1; 3,5; 3,0; 3,1; Mquina B: 4,9; 4,5; 4,5; 4,0; 4,2; Mquina C: 3,0; 2,9; 3,7; 3,5; 4,2.
Existe diferena significativa entre as mquinas?

H : = B = C
Soluo: 0 A
H1 : pelo menos uma mdia difere
Mquina
A
B
3,2
4,9
4,1
4,5
3,5
4,5
3,0
4,0
3,1
4,2
Total
16,9
22,1
N de Repeties
5
5
Mdia
3,38
4,42

( y )
C=

C
3,0
2,9
3,7
3,5
4,2
17,3
5
3,46

56,3
15

(56,3)2

= 211,321 ;
15
SQT = y 2 C = 3,2 2 + 4,12 + 3,5 2 + ... + 4,2 2 211,321 = 217,05 211,321 = 5,729 ;
n

Total

56

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

(16,9) + (22,1) + (17,3)


211,321 = 3,341 ;
r
5
SQTr 3,341
=
= 1,6705 ;
SQR = SQT SQTr = 5,729 3,341 = 2,388; QMTr =
k 1
3 1
SQR
2,388
QMTr 1,6705
QMR =
=
= 0,199 ; Fc =
=
= 83944,724 .
k (r 1)
12
QMR
0,199
SQTr =

C =

Quadro de ANOVA
Causas de variao
Tratamentos
Resduo
Total

GL
2
12
14

SQ
3,341
2,388
5,729

QM
1,6705
0,199

F
8,394

F(2,12, 5%) = 3,89


Deciso: Como 3,89 < 8,394, rejeita-se H0, ou seja, pelo menos uma mdia diferente das outras.
Teste de Tukey
QMR
0,199
d.m.s. = q
= 3,58
= 0,714 ;
5
r
X A X B = 3,38 4,42 = 1,04 d. m. s. , ento X A X B ;
X A X C = 3,38 3,46 = 0,08 d. m. s. , ento X A = X C ;
X B X C = 4,42 3,46 = 0,96 d. m. s. , ento X B X C .

10 Testes de Hipteses No-Paramtricos


A Estatstica no-paramtrica no exige suposies quanto distribuio da populao da qual se
tenha retirado amostras para anlise. Como o prprio nome sugere, este tipo de anlise independe de
parmetros populacionais (, 2, , p,...) e de suas respectivas estimativas ( X , s2, s, p*, ...).
Um dos testes no-paramtricos mais utilizados o teste do qui-quadrado, pois no depende dos
parmetros populacionais, nem de suas respectivas estimativas. Aqui sero apresentados alguns testes de
interesse.

1 Teste de adequao
Este teste utilizado para colocar prova hipteses sobre a ocorrncia de discrepncias entre as
freqncias observadas na amostra e as freqncias esperadas. As hipteses a serem testadas so:
Ho: as freqncias observadas no diferem das esperadas;
H1: as freqncias observadas diferem das esperadas.
A estatstica do teste :
(fo i fe i )2 onde: foi = freqncia observada da clula i;
2
c =
fei = freqncia esperada da clula i, calculada com base na hiptese Ho;
fe i
i =1
k

Deve-se considerar o seguinte valor: = k 1, para graus de liberdade, sendo k = nmero de


categorias em que foi subdividida a amostra.
Destacam-se a seguir os passos para a efetivao desse teste:
1. Enunciar as hipteses Ho e H1;
57

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

2. Fixar o nvel de significncia , bem como o valor do qui-quadrado, com graus de liberdade,
observando a regra para o seu clculo;
3. Determinar a regio de rejeio (RR) e de aceitao (RA) de H0. Se H0 verdadeira, espera-se que as
freqncias observadas (foi) sejam bem prximas das freqncias esperadas (fei); portanto o valor de
2 ser pequeno. Logo, valores pequenos de 2 nos levaro aceitao de H0. A regio de rejeio de
H0 dever, ento, estar concentrada direita de certo valor crtico tabelado;
4. Avaliar as freqncias esperadas com base na hiptese H0. Caso existam categorias que no satisfaam
a condio fei 5, estas devero ser somadas s classes adjacentes, originando-se novas categorias;
5. Deciso: se 2c 2tab conclui-se que as freqncias observadas diferem das esperadas e rejeita-se H0,
ao nvel de significncia correspondente. Caso contrrio, aceita-se H0.
6. Concluso.
Exemplo: Deseja-se testar, ao nvel de 5% de significncia se o nmero de acidentes numa rodovia se
distribui igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados:
Dia da semana
Dom
Seg
Ter
Qua
Qui
Sex
Sb
N acidentes
33
26
21
22
17
20
36
Soluo:
1. H0 : as freqncias so iguais em todos os dias da semana.
H1: as freqncias so diferentes.
2. = 5%. Procurar na tabela qui-quadrado ( = k1 = 71 = 6 graus de liberdade) 2tab =12,6
3. Determinao de RA e RR.
4. Clculo do valor da varivel
foi
33
26
31
22
17
20
36
25
25
25
25
25
25
25
fei
Observe: fei = 1/7 x 175 = 25 (a mesma para todos os dias da semana)
(33 25) 2 (26 25) 2 (21 25) 2 (22 25) 2 (17 25) 2 (20 25) 2 (36 25) 2
+
+
+
+
+
+
= 12,0
25
25
25
25
25
25
25
5. Concluso: como c2 < 12,6, no se pode rejeitar H0, logo as freqncias de acidentes no so diferentes
para os dias da semana.
c =

Teste qui-quadrado de independncia


Uma importante aplicao do teste do 2 ocorre quando o objetivo estudar as relaes entre duas
ou mais variveis de classificao. A representao das freqncias observadas, neste caso, pode ser feita
por meio de uma tabela de contingncia, onde as freqncias observadas ocupam h linhas e k colunas.
A cada freqncia observada na tabela de contingncia tem-se uma freqncia esperada, que ser
calculada com base na hiptese H0 e com as regras das distribuies conjuntas de probabilidade. Para
investigar a concordncia entre freqncias observadas e freqncias esperadas, procede-se da seguinte
maneira:
1. Formular as seguintes hipteses:
H0: as variveis so independentes (as variveis no esto associadas);
H1: as variveis so dependentes (as variveis esto associadas).
2. Fixar e o valor tabelado do 2, com = (h-1)(k-1) graus de liberdade;
onde: h = nmero de linhas;
k = nmero de colunas da tabela de contingncia.
58

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini


2

3. Calcular a estatstica que dada por:


h

c2 =

(Fo

i =1 j=1

Fe ij )

ij

Fe ij

onde: fo ij = freqncias observadas;


fe ij =

(soma da linha i)(soma da coluna j)


= freqncias esperadas;
total de observaes

4. Deciso: se c2 < 2tab , aceita-se H0, ou seja, as variveis so independentes;


5. Concluso.
Comentrios:
Se alguma feij < 5, deve-se agrupar as classes adjascentes;
Se a tabela 2x2 e feij < 5, o nmero de graus de liberdade = 1 e, portanto no se pode fazer
qualquer reagrupamento de dados. Em tal caso deve-se usar a correo de Yates, dada por:
k ( fo fe 0,5) 2
2
i
i
c =
fe i
i =1
O teste no pode ser aplicado em tabelas 2x2, quando alguma freqncia esperada for menor que 1 ou
a freqncia total for menor do que 20.

3 Coeficiente de contingncia
No caso de haver dependncia entre as variveis, pode-se calcular uma medida que nos informa o
grau de relacionamento entre as mesmas, atravs do coeficiente de contingncia.

C=

c2
c2 + n

Quanto maior o valor do coeficiente C, maior o grau de associao. 0 C 1.


Exemplo: Testar se h associao entre as preferncias por sabor da pasta de dente do bairro ( = 5%).
Sabor da pasta
Limo
Chocolate
Hortel
Outros
Total

A
70
50
10
20
150

Bairros
B
44
30
6
20
100

Total
C
86
45
34
85
250

200
125
50
125
500

Soluo:
1. H0: A preferncia pelo sabor independe do bairro e H1: A preferncia pelo sabor depende do bairro
2. = 5%. 2 com = (4 1) (3 1) = 6gl
3. A tabela das freqncias esperadas dada por:

59

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Sabor da pasta
(1)
(2)
(3)
(4)

Limo
Chocolate
Hortel
Outros

Bairros
A(1)

B(2)

C(3)

60
37,5
15
37,5

40
25
10
25

100
62,5
25
62,5

Onde, por exemplo,


(soma da linha 1) (soma da coluna 1)
(150)(200)
fe11 =
=
= 60
total de observaes
500
Assim:
(70 60) 2 (50 37,5) 2 (10 15) 2 (20 37,5) 6 (44 40) 2 (30 25) 2 (6 10) 2
c2 =
+
+
+
+
+
+
+
60
37,5
15
37,5
40
25
10
+

( 20 25) 2 (86 100) 2 ( 45 62,5) 2 (34 25) 2 (85 62,5) 2


+
+
+
+
= 37,88
25
100
62,5
25
62,5

3. Concluso: como c2 > 12,6, rejeita-se H0, concluindo-se, com uma significncia de 5%, que existe
associao entre sabor da pasta de dentes e o bairro.
Como se rejeitou H0, calcula-se o coeficiente de contingncia que ir dar uma idia do grau de

37,88
c2
= 0,265
= C=
2
37,88 + 500
c + n
Observa-se que o grau de associao entre as variveis no muito forte.

associao entre as variveis C =

11 Correlao e Regresso Linear Simples


1 Anlise de correlao linear simples
Um problema de correlao simples surge toda vez que se deseja verificar se h alguma relao
entre variabilidades de duas variveis aleatrias. A medida de correlao entre duas variveis dada pelo
coeficiente de correlao, definido por:
xy =

Cov(X, Y)
V(X ) V (Y )

E (XY) E (X)E (Y)


V(X) V(Y)

onde: Cov(X,Y) = covarincia;


V(X) = varincia de X;
V(Y) = varincia de Y;
E(X) = mdia de X;
E(Y) = mdia de Y.

Campo de variao do coeficiente XY: -1 XY 1


Interpretao: depender do valor numrico e do sinal.
60

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

XY = 1
0 < XY < 1
XY = 0
-1 < XY < 0
XY = -1

correlao perfeita positiva;


correlao positiva;
correlao nula;
correlao negativa;
correlao perfeita negativa.

Diagramas de disperso
Correlao Positiva
24

20

20

16

16

12

12

Y2

Y1

Correlao Perfeita Positiva


24

0
0

10

12

Correlao Negativa

20

20

20

16

16

16

12

12

12

Y5

24

0
2

10

10

12

Correlao Perfeita Negativa

24

Y4

Y3

Correlao Nula
24

12

0
0

10

12

10

12

A interpretao do coeficiente de correlao como uma medida do grau de associao linear


existente entre duas variveis uma interpretao matemtica o que no implica, necessariamente, em
uma relao de causa e efeito entre elas.
O estudo da correlao linear consiste em verificar, atravs da disposio dos n pares (Xi, Yi) em
torno de uma reta, o comportamento dos dados. Tal grfico chamado de diagrama de disperso. Por
meio do mesmo possvel determinar se as duas variveis esto ou no relacionadas de forma linear,
adotando rxy como a estimativa de xy ,que o grau dessa relao.

~
xy populaao
1.1 Estimativa do coeficiente de correlao [Simbologia:
]
rxy amostra
A estimativa do coeficiente de correlao linear obtida atravs do coeficiente de correlao de
Pearson, e calculada a partir de uma amostra de pares(Xi, Yi), definido por:

rxy =

XY

X Y
n

( Y ) 2
( X ) 2
2
2
X
Y

n
n

S xy
S xx S yy

onde: X e Y = variveis do estudo,


n = nmero de pares de dados.
61

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

1.2 Teste para o coeficiente de correlao


Pode-se testar a significncia da correlao linear entre duas variveis, atravs do teste t.
Hipteses:

H0: = 0 (no h correlao linear);


H1: 0 ou > 0 ou < 0 (h correlao linear).

Estatstica calculada:
rxy n 2
tc =
1 rxy2
onde: t tab = valor da tabela de t de Student, com e = n - 2 graus de liberdade.
Conclui-se, com (1-)% de confiana, que no h correlao linear se uma das trs situaes a
seguir, for identificada:
( t tab

< t c < t tab ) ou ( t c < t tab ) ou ( t c > t tab )

Exemplo: Uma empresa, estudando como varia a procura de certo produto em funo de preo de
venda, obteve as informaes contidas na tabela. Com esses dados pretende-se: a) definir o diagrama de
disperso; b) encontrar o coeficiente de correlao e test-lo ( = 0,05).
250
275

Preo venda (R$) = Xi


Procura (unidade) = Yi
Soluo:

X : 1500; X

: 456250;

275
213

300
152

Y : 750; Y

325
85

: 151948;

350
25

XY : 209300; n: 5

a)

b) rxy =

XY

X Y

( X) 2
2
X

1500 750
5
n
=
2
2

750 2
( Y)
1500
2

456250 5 151948 5
n

209300

62

= 0,99989

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

Hipteses: H0: = 0 (no h correlao linear);


H1: 0 ou > 0 ou < 0 (h correlao linear).

tc =

rxy n 2
1 rxy2

0,99989 5 2
1 0,99989 2

= 116,76

Sendo = 5% e 3 graus de liberdade ( t tab = 3,182). Conclui-se que h correlao linear significativa.

2 Regresso linear simples


Um dos problemas freqentemente encontrados na prtica descrever e predizer fenmenos
observados. Isto pode ser resolvido atravs da construo de um modelo matemtico que relacione as
variveis envolvidas no fenmeno, podendo este modelo, ser utilizado para fins de predio.
Suponha que Y seja uma varivel que nos interessa estudar e prever seu comportamento.
esperado que os valores da varivel Y (dependente) sofram influncia dos valores de um nmero finito de
variveis X1, X2, ....., Xn (independentes) e que exista uma funo g que expresse tal dependncia, ou
seja: Y = g (X1, X2, .X3...., Xn)
fcil perceber que se torna impraticvel a utilizao de todas as n variveis, ou por
desconhecimento de algumas ou pela dificuldade de mensurao e tratamento de outras.
2.1 Consideraes na anlise de regresso
Especificao do modelo
Sabe-se que muitas variveis independentes influenciam a varivel dependente. O problema
encontrar o tipo de funo: linear, polinomial, exponencial, etc. que relacionem estas variveis.
Pode-se identificar a relao funcional, quando considerada apenas uma varivel independente,
atravs do diagrama de disperso. Basta representar os pares (Xi, Yi). Observando este grfico, tem-se
uma idia da relao funcional entre as variveis.
Considerando-se o modelo linear: Y = + X + i
onde: (coeficiente linear) e (coeficiente angular) = parmetros da reta;

Y = Y/X = + X ;

i representa a influncia de outros fatores, ou seja, a componente aleatria (erro ou resduo) do


modelo.
Convm ressaltar que a varivel independente X no , necessariamente, aleatria podendo ser
uma varivel aleatria controlada, onde os resduos i~N(0, 2) so variveis aleatrias independentes.

Estimao dos parmetros


Consiste em estimar o valor dos parmetros que aparecem no modelo especificado. Se o modelo
= a + bX = Y
- Y = b (X - X )
da forma linear, tem-se: Y
= estimador de Y;
onde: Y
a = estimador de ;
b = estimador de .
As estimativas a e b, sero obtidas atravs do Mtodo dos Mnimos Quadrados.

Mtodo dos mnimos quadrados


$ seja to prxima quanto possvel
Retirada uma amostra de n pares (Xi, Yi), deseja-se que a reta Y
dos pontos observados. Isto significa, minimizar as diferenas existentes entre os valores reais Y e os
$ na reta estimada. O mtodo faz com que a soma dos desvios ao quadrado seja mnima:
correspondentes Y
63

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini


GRFICO DA RETA ESTIMADA
24

Valor Estimado pela Reta

20

Dn

VARIVEL Y

16
*

Valor Observado
12
*

Valor Observado

8
D1
4
D2
*
0
1

10

VARIVEL X
n

S=

D
i =1

2
i

D12 + D 22 + D 32 + ........+ D 2n = soma mnima

S=

(Y Y) 2 =
i =1

(Y a bX)

i =1

Esta soma ser mnima quando suas derivadas parciais em relao a a e b forem nulas. Assim:
n
n
S
S
= 2 (Y a bX ) = 0
= 2 (Y a bX) = 0 e
b
a
i =1
i =1

(Y a bX) = 0

(XY aX bX2 ) = 0

i =1
n

i =1

i =1

i =1

i =1

i =1

i =1

XY a X b x 2 = 0

Y na b x = 0

Resolvendo as equaes anteriores, obtm-se:


n

i =1

XY i =1

b=

X Y

i =1

n
X

n
2 i =1
X

n
i =1

(X X )(Y _ Y )

i =1

(X X )

a=

Y
i =1

X
i =1

i =1

Reescrevendo-se:
2

n
X
n
2
Sxx = X i=1 =
n
i =1

(X X )2

i =1

64

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini


2

n
Y
n
n
i =1

2
(Y Y )2

Syy = Y
=
i =1
n
i =1
n

X Y

i =1

i =1
Sxy = XY

i =1

(X X)(Y Y)

covarincia entre X e Y

i =1

Assim, para encontrar os valores de a e b, atravs do Mtodo dos Mnimos Quadrados,


utilizam-se as frmulas:
a = Y bX
n

Sxy
b=
=
Sxx

X Y
i =1

X Y
i =1

i =1

Xi
n
2
X i i =1

n
i =1

= a + bX.
E a estimativa da reta de regresso : Y

Exemplo: Para o exemplo anterior: a) encontre a equao de regresso linear; b) qual a procura do
produto se o preo for R$ 260,00.
Soluo:
= a + bX, sendo a = Y bX e b = Sxy .
a) Y
Sxx
Sxy 15700
= 903,6 2,512X.
=
= 2,512 e a = Y bX = 150 b.300 = 903,6. Assim: Y
b=
Sxx
6250
= 903,6 2,512(260) = 250,48 unidades.
b) Y

3 Teste para verificar a significncia da regresso


Pode-se verificar a existncia de regresso linear (modelo Y = +X + i), atravs do teste t.

Hipteses:

H0: = 0 (no h regresso);


H1: 0 (h regresso).

Estatstica calculada:
b S xx
tc =
S

onde:

S=

S yy b S xy
n2

ttab = valor da tabela t de Student, para e = n - 2 graus de liberdade.


Conclui-se com (1-)% de confiana que se ( t tab < t c < t tab ), aceita-se H0, ou seja, no h
regresso significativa.
Exemplo: Para o exemplo teste o coeficiente de regresso.
Soluo:
Hipteses: H0: = 0 (no h regresso) e H1: 0 (h regresso).
65

Departamento de Estatstica - UFSM

Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini

S yy b S xy

b S xx

39448 2,512 15700


2,512 6250
= 1,7889 , t c =
= 111,013 ,
1,7889
52
S
n2
Para = 5% e 3 graus de liberdade, tem-se t tab = 3,182.
Assim, ao nvel de 5% de significncia, rejeita-se H0, ou seja, o coeficiente de regresso significativo.
S=

e tc =

, S=

4 Coeficiente de determinao ou de explicao [Simbologia: R2]


Alm de testes de hipteses e de intervalos de confiana, pode-se usar o coeficiente de
determinao para avaliar a qualidade do ajuste de um modelo. Ele indica quantos por cento da variao
explicada pela regresso representa da variao total.

R =
2

S 2xy
S xx S yy

=b

S xy
S yy

= (rxy)2

Campo de variao de R2: 0 R2 1 ou 0% R2% 100%.


Interpretao de R2:
Se R2 = 1, todos os pontos observados esto sobre a reta estimada. Neste caso, as variaes de Y so
100% explicadas pelas variaes de X, atravs da funo especificada, no havendo desvios em torno
da funo (reta neste estudo) estimada.
Se R2 = 0, conclui-se que as variveis de Y so puramente aleatrias e a incluso da varivel X no
modelo no trar informao alguma sobre as variaes de Y.

Exemplo: Para o exemplo encontre o coeficiente de determinao e interprete-o


Soluo:
S xy
15700
R2= b
= 2,512
= 0,9997
39448
S yy
Como R2 1, todos os pontos observados esto praticamente sobre a reta estimada. Neste caso, as
variaes de Y so quase 100% explicadas pelas variaes de X, por meio da funo especificada,
havendo o mnimo desvio em torno da reta estimada.

Referncias Bibliogrficas
BARBETTA, P. A. Estatstica Aplicada s Cincias Sociais. UFSC, Florianpolis, 1994.
BUSSAB, W. O. & MORETTIN, P. A. Estatstica Bsica, 3a edio. Atual, So Paulo, 1986.
COSTA NETO, P. L. O. Estatstica, 2a edio. Edgard Blcher, So Paulo, 2002.
FONSECA, J. S. & MARTINS, G. A. Curso de Estatstica, 6a edio. Atlas, So Paulo, 1996.
HOEL, P. G. Estatstica Matemtica, 4a edio. Guanabara Coogan, Rio de Janeiro,1971.
LOPES, P. A. Probabilidades e Estatstica. Reichmann & Affonso, Rio de Janeiro, 1999.
MEYER, P. L., Probabilidade Aplicaes Estatstica, 2a edio. Livros Tcnicos e Cientficos, Rio de
Janeiro, 1983.
SIEGEL, S. Estatstica No-paramtrica. McGraw-Hill do Brasil, 1975.
TOLEDO, G. L. & OVALLE, I. I. Estatstica Bsica, 2 edio. Atlas, So Paulo, 1985.
TRIOLA, M. F. Introduo Estatstica 7a edio. Livros Tcnicos e Cientficos, Rio de Janeiro, 1999.
66

Departamento de Estatstica - UFSM