Escolar Documentos
Profissional Documentos
Cultura Documentos
Aulas Teóricas - PEX502 (Estatística Básica)
Aulas Teóricas - PEX502 (Estatística Básica)
AULAS TEÓRICAS
LAVRAS
2021
0
1- INTRODUÇÃO À ESTATÍSTICA
1.1- INTRODUÇÃO
Ao praticar a atividade científica, o pesquisador se depara com situações onde
ele deve analisar e entender um conjunto de dados referente ao seu objeto de estudo.
Assim, ele terá que manipular os dados para obter informações, compará-las com outros
resultados, ou ainda, julgar sua adequação a alguma teoria. A estatística surge então
como uma ferramenta que auxilia o pesquisador neste trabalho, fornecendo
metodologias adequadas de coleta, redução, análise e modelagem dos dados.
Diante do exposto, podemos entender a estatística como a ciência que se ocupa
com as técnicas de coleta, organização, análise e interpretação de dados, tendo um
modelo por referência.
1.2.1- POPULAÇÃO
Entende-se por população ao conjunto de elementos que têm uma determinada
característica em comum. Uma população pode ser finita quando esta possui um
número limitado (ou enumerável) de indivíduos, ou infinita, quando não conseguimos
enumerar os seus elementos, uma vez que temos um número ilimitado de indivíduos.
Exemplos: Alunos matriculados na UFLA no 2º sem/2016 (POPULAÇÃO FINITA)
Peças produzidas por lote (POPULAÇÃO FINITA)
Plantas de uma espécie de Pinus (POPULAÇÃO INFINITA)
Clientes potenciais de uma empresa (POPULAÇÃO INFINITA)
Em complemento, quando coletamos informações de todos os elementos de uma
população finita, dizemos que foi realizado um censo.
Adotaremos, na disciplina, a notação N para representar a quantidade de
elementos em uma população finita.
1.2.2- AMOSTRA
1
Na verdade, a grande maioria dos trabalhos de pesquisa é realizado através de
amostras. Alguns dos motivos que levam os pesquisadores a trabalharem com amostras são:
uma população infinita só pode ser estudada através de amostras;
as populações finitas muito grandes também devem ser estudadas por meio de
amostras;
redução de tempo e custo da pesquisa;
o estudo cuidadoso de uma amostra tem mais valor científico do que o estudo
sumário de toda a população.
1.2.3- VARIÁVEIS
Quando realizamos um levantamento de dados, temos o interesse em conhecer
ou avaliar uma determinada característica da população, como por exemplo, o peso, o
diâmetro, o número de defeitos por peça, a produtividade de madeira de uma espécie de
Pinus, a escolaridade dos indivíduos de uma comunidade, dentre outras. Essas
características são chamadas de variáveis e visam descrever a população sob estudo. As
variáveis podem ser classificadas em:
a) Qualitativas: Correspondem a atributos ou categorias. Elas são subdivididas em
nominais quando suas categorias não são passíveis de ordenação, e ordinais, no caso de
existir uma ordenação natural para seus atributos.
Exemplos: Sexo (Masculino, Feminino) – VQN
Substâncias Químicas (Ácidos, Bases, Hidrocarbonetos, etc) - VQN
Tipos de Linguagem de programação (Java, PHP, R, Delphi, MATLAB
dentre outros) – VQN
Escolaridade (Fundamental, Médio e Superior) – VQO
Classe Social: (Alta, Média e Baixa) - VQO
b) Quantitativas: Correspondem a números resultantes de contagens ou medidas.
Quando se trata de contagens a variável é dita discreta (sendo representada por números
inteiros não-negativos). No caso de medidas, a variável é classificada como contínua
(sendo que seus valores podem ser representados por quaisquer números reais).
Exemplos: Número de peças com defeito – VQD
Temperatura – VQC
Diâmetro de barras de aço – VQC
2
Esta classificação é extremamente importante na análise de dados, uma vez que,
o tipo de variável a ser trabalhada é um ponto de partida para se determinar os métodos
de análise mais apropriados ou mesmo válidos.
2- APRESENTAÇÃO DE DADOS
2.1- Introdução
a) Frequência: Medida que quantifica a ocorrência dos valores de uma variável. Pode
ser classificada em: absoluta (fa), relativa(fr) e percentual (fp).
a.1) Frequência Absoluta: para variáveis qualitativas, nada mais é do que o número de
observações ocorridas em cada classe da variável sob estudo.
a.2) Frequência Relativa: é obtida pela divisão da frequência absoluta pelo número
total de dados ou observações.
a.3) Frequência Percentual: é calculada multiplicando-se o valor da frequência
relativa por 100.
a) Variáveis Qualitativas
Exemplo: Em 2006 a Associação Nacional de Comerciantes de Material de Construção
(ANAMACO) solicitou uma pesquisa para determinar o perfil de produtos do setor da
3
construção civil com maior saída nas lojas. Foram visitadas 30 lojas e os produtos mais
vendidos em cada uma estão no quadro abaixo.
Tintas Tubos Cerâmica Cimento Cimento Argamassa
Cimento Tubos Tintas Tubos Tintas Cerâmica
Tubos Cerâmica Tintas Cimento Cimento Tintas
Cimento Tintas Cimento Cerâmica Cimento Tubos
Argamassa Cimento Cimento Tintas Cimento Cimento
Obter:
a) as frequências absolutas;
b) as frequências relativas;
c) as frequências percentuais;
d) montar a tabela de distribuição de frequências.
Solução:
12 7
cimento = 0, 40 t int as 0, 23
30 30
5 4
tubos = 0,17 cerâmicas = 0,13
30 30
2
argamassa = 0, 07
30
5
Solução:
Tabela 2: Distribuição de frequências referente aos níveis de defeito de caixas de
transmissão automotivas.
Defeitos fa fr fp(%)
Leves 10 0,50 50
Moderados 6 0,30 30
Graves 4 0,20 20
Totais 20 1,00 100
Fonte: Dados Fictícios.
b) Variáveis Quantitativas Discretas
Conjuntos de dados referentes a variáveis quantitativas, de um modo geral,
podem ser descritos de duas maneiras:
Distribuição de frequência;
Medidas numéricas descritivas (média, variância, etc).
O uso de medidas numéricas descritivas será assunto de capítulos futuros.
Quanto às distribuições de frequência de uma variável quantitativa discreta, sua
representação é bastante semelhante à das variáveis qualitativas, pois os valores inteiros que
a variável assume podem ser considerados como “categorias” ou “classes naturais”.
Exemplo: Durante o mês de setembro de 1995, o número de acidentes por dia em certo
trecho da rodovia MG-53 apresentou o seguinte conjunto de dados:
2 0 1 2 3 1 5 1 0 0
1 2 2 1 2 0 1 4 2 3
0 1 0 2 1 2 4 1 1 1
Represente-o através de sua distribuição de frequência. Apresente fa, fr e fp.
Tabela 3: Dist. de frequência do no de acidentes por dia em um trecho da rodovia 32 no
mês de setembro de 1995.
No de acidentes por dia fa fr fp(%)
0 6 0,20 20
1 11 0,37 37
2 8 0,26 26
3 ou mais 5 0,17 17
TOTAIS 30 1,00 100
Fonte: Dados fictícios.
6
C) Variáveis Quantitativas Contínuas
C.1) Amplitude Total: corresponde à diferença entre o maior valor e o menor valor de
um conjunto de dados. Em geral, é simbolizada por “A”.
A
c
k 1
onde: k é o número de classe adotado.
k n
onde: n = número de observações.
A
c
k 1
7
c
LI1 mvo
2
Passo 5: O limite superior da 1ª classe (LS1) é obtido por:
LS1 LI1 c
Obs: O LS1 é o limite inferior da 2ª classe: LS1 = LI2.
E assim, sucessivamente, as classes vão sendo construídas.
Passo 6: Construídas as classes, são contados quantos dados estão contidos em cada
classe (frequências absolutas de cada classe).
8
3o passo:Amplitude de classe, c=A/(K-1)
4opasso:LI1 = mvo-(c/2)
5o passo: calcular os demais limites inferior e superior.
6o passo: calcular fa, fr ou fp.
9
2.3 – Representação gráfica
Figura 1: Gráfico de barras verticais dos veículos hath médios mais vendidos em 2013.
Figura 2: Gráfico de barras verticais dos veículos hath médios mais vendidos em 2013.
10
Figura 3: Gráfico de barras horizontais do nível de atendimento de recepcionistas de
uma construtora.
11
2.3.2- Gráfico de Setores
12
2.3.3- Histograma
14
3- MEDIDAS DE POSIÇÃO
3.1- INTRODUÇÃO
X i
x i 1
n
Para exemplificar o cálculo da média aritmética, vamos utilizar os seguintes
pesos, em kg, de 10 recém-nascidos:
3,2 2,8 3,2 2,1 2,9 3,1 3,2 3,0 3,5 4,0
X i
3, 2 2,8 3, 2 2,1 2,9 ... 4, 0 31
x i 1
3,1 kg
n 10 10
k fa i pmi k
x ou x fri pmi
i 1 n i 1
15
onde: fai : frequência absoluta da classe i;
pmi : ponto médio da classe i;
n : tamanho da amostra.
fri : frequência relativa da classe i.
LIi LSi
Lembrando que: pmi
2
a) Complete a tabela.
b) Calcule a renda média desses empregados.
16
3.2.2- PROPRIEDADES
x x 0
n
i
i 1
pX i i
Xp i 1
n
p
i 1
i
Em que:
pi - Peso atribuído a nota de índice i.
X i - i-ésima nota.
17
3.4- MEDIANA (Md)
3 4 6 8 9 10 37
Md(x) = 8
3 7 8 10 12 25
8 10
Md(x) = =9
2
(n / 2) Fa Anterior
Md(x) LI Md c Md
fa Md
18
EXEMPLO: Considerando a variável Salário dos empregados da seção de orçamentos
da Companhia MB, temos os seguintes dados:
PROPRIEDADES:
19
3.5- MODA (Mo)
Trata-se de uma medida que indica o valor ou a gama de valores nos quais a
concentração dos dados amostrais ou populacionais é máxima.
Se os dados forem considerados realizações de uma variável discreta, a moda é o
valor dos dados que ocorre com maior freqüência.
1 2 2 2 3 4 5
Mo(x) = 2
OBS: Para variáveis contínuas a moda é definida como o valor que possui maior
densidade de frequência na tabela de distribuição de frequências. Seu cálculo segue os
seguintes passos:
Passo 1: Selecionar a classe que contém maior freqüência. Esta será a classe que
contém o valor da moda.
Passo 2: Calcular a moda nesta classe através da seguinte expressão:
1
Mo( X ) LI Mo cMo
1 2
20
EXEMPLO: Considerando a variável Salário dos empregados da seção de orçamentos
da Companhia MB, temos os seguintes dados:
PROPRIEDADES:
21
4- MEDIDAS DE DISPERSÃO
Para entender o que é dispersão, imagine que quatro alunos obtiveram, em cinco
provas, as notas apresentadas na Tabela 4.1.
Todos os alunos obtiveram média igual a 5, mas a dispersão das notas em torno
da média não é a mesma para todos os alunos. A Tabela 4.1 mostra claramente que:
a) As notas de Antônio não variaram (a dispersão é nula).
b) As notas de João variaram menos do que as notas de José (a dispersão das notas
de João é menor do que a dispersão das notas de José).
c) As notas de Pedro variaram mais do que as notas de todos os outros (a dispersão
das notas de Pedro é maior).
4.1- AMPLITUDE
22
A = 10 - 0 = 10,
A amplitude nem sempre capta certas diferenças. No caso das notas dos alunos,
a amplitude mostra, acertadamente, que as notas de Antônio não variaram ( a = 0) e que
as notas de João variaram menos do que as notas de José ( a = 2, no primeiro caso, e
a = 10, no segundo). Entretanto a amplitude não mostra que as notas de Pedro variaram
mais do que as notas de José ( a = 10, nos dois casos).
A amplitude não mede bem a dispersão dos dados porque, em seu cálculo, usam-se
apenas os valores extremos – e não todos os dados. De qualquer forma, a amplitude é
muito usada, principalmente porque é fácil de calcular e fácil de interpretar.
4.2- VARIÂNCIA
s 2
(x x ) 2
n 1
( x) 2
x n 2
s2
n 1
Embora esta fórmula pareça, à primeira vista, difícil, ela na verdade facilita o
trabalho de cálculo. Para conferir esta informação, calcule a variância dos dados 0, 4, 6,
8 e 7, usando esta fórmula. Os cálculos intermediários estão apresentados na Tabela 4.2.
23
Tabela 4.2 – Cálculos intermediários para obtenção da variância.
x x2
0 0
4 16
6 36
8 64
7 49
x 25 x
2
165
252
165
s2 5 10, 0
4
Para entender que a variância mede a dispersão dos dados em torno da média,
convém observar novamente as notas apresentadas na Tabela 4.1 e verificar que as
variâncias são os valores dados na Tabela 4.3. Veja que a variância mede a dispersão
porque:
24
4.3- DESVIO PADRÃO
25
4.5- BOXPLOT
Turma B
50 52 52 53 54 56 60 60 61 62
62 65 66 67 68 70 71 72 72 99
26
Medidas descritivas
TURMAS Média 1º quartil Mediana 3º quartil DP Mín. Máx.
A 70,35 48,75 82,00 90,75 26,11 20,00 98,00
B 63,60 55,50 62,00 68,50 10,96 50,00 99,00
27
5- TÉCNICAS DE AMOSTRAGEM
5.1- INTRODUÇÃO
Uma amostra deve descrever, indiretamente, a população sob estudo. Para que
os dados fornecidos por uma amostra sejam confiáveis é necessário que esta seja
coletada de forma a conservar as características da população em seus elementos, ou
seja, uma amostra deve ser representativa.
Em nosso curso, estudaremos algumas técnicas de amostragem denominadas
probabilísticas. Essas técnicas são:
Amostragem Aleatória Simples
Amostragem Aleatória Estratificada
Amostragem Aleatória por Conglomerados
Amostragem Sistemática
28
Quantas amostras diferentes poderiam ser obtidas nesta situação?
2) Usando a tabela anterior coletar uma amostra de 12 elementos a partir de uma
população com N = 80 (sem reposição).
30
6- NOÇÕES SOBRE PROBABILIDADES
a) Probabilidade
É a frequência relativa associada a uma variável descritora de uma população infinita.
b) Espaço Amostral
É o conjunto de todos os resultados possíveis de um experimento, sendo geralmente,
simbolizado pelas letras S ou Ω.
c) Evento
Um evento é um subconjunto do espaço amostral e representa um conjunto de
resultados de interesse do pesquisador. Geralmente é representado por letras latinas.
d) Cálculo de Probabilidades
Como as probabilidades são freqüências relativas, a probabilidade de um evento A
ocorrer é a divisão do número de elementos deste evento pelo número total de
elementos do espaço amostral.
n( A)
P( A)
n( S )
Exemplos:
v) P ( A ) 1 P ( A) , para o complemento de A.
C
32
6.3- Probabilidade Condicional
P( A B)
P( A B)
P( B)
33
6.4- Eventos Independentes
P( A B) P( A) P( B)
Sejam A1, A2,..., An eventos que formam uma partição do espaço amostral S.
Seja B um evento desse espaço.
S
B
A1 A2 A3 A4
Então:
n n
P( B) Ai B P( Ai ).P( B Ai )
i 1 i 1
34
b) Teorema de Bayes
Sejam A1, A2,..., An eventos que formam uma partição do espaço amostral S.
P( Aj ).P( B Aj )
P( Aj B) n
, j 1,...n.
P( A ).P( B A )
i 1
i i
EXEMPLO: Um certo programa pode ser usado com uma entre duas sub-rotinas A e
B, dependendo do problema. A experiência tem mostrado que a sub-rotina A é usada
40% das vezes e B é usada 60% das vezes. Se A é usada, existe 55% de chance de que o
programa chegue a um resultado dentro do limite de tempo. Se B é usada, a chance é de
70%. Considere que em um teste, o programa gerou o resultado dentro do limite de
tempo. Qual a probabilidade de que a sub-rotina A tenha sido escolhida?
35
7- DISTRIBUIÇÕES DE PROBABILIDADE
7.1.1- Conceito
Considere que um casal deseja ter três filhos. O espaço amostral correspondente
ao sexo desses filhos é:
S = {(M, M, M), (F, F, F), (M, F, F), (F, M, F), (F, F, M), (F, M, M), (M, F, M), (M, M, F)}
Podemos organizar os eventos desse espaço amostral de acordo com a
quantidade X de mulheres (sexo feminino - F).
Observe que para cada evento Ai, associamos um valor de X, de acordo com o
número de mulheres em cada um dos resultados do evento. E, cada valor de X está
associado a um valor de probabilidade P(X).
Portanto, podemos dizer que X é uma variável aleatória, pois para cada evento
de interesse, associamos um valor correspondente X. Ainda, cada valor associado ao
evento também está associado a uma probabilidade de ocorrência.
Então, uma variável aleatória é uma função que associa a todo evento
pertencente a uma partição do espaço amostral um único número real.
OBS:
36
7.1.2- Função de Probabilidade
I) P( X x) 0;
II) P( X x ) 1.
i
i
37
0, se ocorrer "fracasso"
X
1, se ocorrer "sucesso"
n
P(X x) .p x .(1 p) n x , X 0,1, 2,..., n
x
onde: n n!
x x!(n x)! e n! n.(n 1).(n 2).....2.1
38
Exemplo: Suponha que 20% dos clientes de uma empresa sejam inadimplentes. Se 10
pessoas dessa população forem escolhidas ao acaso, determine:
(a) O nº esperado de inadimplentes.
(b) A probabilidade de selecionar exatamente 3 pessoas inadimplentes.
(c) A probabilidade de selecionar no máximo 3 inadimplentes.
39
As probabilidades, calculadas agora para todos os números inteiros não
negativos k = 0, 1, 2, ... são dadas da seguinte forma:
e . x
P(X x) , x 0,1, 2,....
x!
Notação: X ~ P(x, λ)
40
7.2.4- OUTRAS DISTRIBUIÇÕES DISCRETAS
a) Distribuição Geométrica
b) Distribuição Hipergeométrica
r N r
x n x
P(X x) , X 0,1,2,... parâmetros : N, r, n
N
n
onde: r é o número de elementos de N com uma característica de interesse e x é o número
de elementos com a característica de interesse na amostra de n elementos tomada.
41
7.3- DISTRIBUIÇÕES DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS
7.3.1- DEFINIÇÕES
x2
II) P( x1 X x2 ) x1
f ( x)dx , para quaisquer x1 e x2 .
I) F ( xk ) P( X xi ) , para v. a. discretas.
i 1
x
II) F ( x) f ( x)dx , para v.a. contínuas.
2
E( X ) e Var ( X ) .
2 12
Uma das principais aplicações da distribuição uniforme consiste na geração de
números aleatórios, de 0 a 1, implementados na maioria das linguagens de programação,
planilhas e softwares estatísticos. Esses números são chamados de pseudo-aleatórios,
pois é possível repetir uma mesma sequência de números gerados, a partir da mesma
semente.
e x , x0 ;
f ( x; )=
0 , caso contrário.
43
EXEMPLO: Uma empresa que produz processadores de computador determinou que a
vida média de um dos seus processadores é de 8.000 horas. Sabendo-se que este tempo
segue uma distribuição exponencial, qual a probabilidade de que essa empresa tenha
que substituir um processador gratuitamente, se ela oferecer uma garantia de:
a) 4.000 horas?
b) 2.000 horas?
44
a) Função Densidade de Probabilidade da Distribuição Normal
( x ) 2
1
f (x; , ) .e 2. , - x
2
2.
Notação : X ~ N(, 2 )
Propriedades:
45
( x )
2
1
b
.e 2. dx
2
2.
a
X
Z
EXEMPLOS:
1) Uma variável aleatória X segue uma distribuição normal com média igual a 100 e
variância igual a 64. Calcule as seguintes probabilidades:
a) a probabilidade de X estar entre 100 e 110;
b) a probabilidade de X estar entre 88 e 114;
c) a probabilidade de X ser maior que 118;
d) a probabilidade de X ser menor que 112.
46
2) Uma máquina que produz rolamentos, inicialmente foi configurada para que o
diâmetro real médio dos rolamentos produzidos seja de 0,500 polegadas. Um rolamento
é aceitável se o diâmetro está dentro de 0,004 polegadas desse valor-alvo. Suponha,
entretanto, que a configuração das máquinas produtoras tenha sido alterada durante o
curso da produção, de forma que os rolamentos tenham diâmetros com distribuição
normal com média 0,499 polegadas e desvio padrão de 0,002 polegadas. Que
porcentagem dos rolamentos produzidos não será aceitável?
47
8- DISTRIBUIÇÕES DE AMOSTRAGEM
8.1- INTRODUÇÃO
48
b) Teorema do Limite Central (TLC)
49
Assim, essa condição de normalidade da variável aleatória x dá condição para
que ela possa ser expressa na forma padronizada z, através de:
x
z
2
n
x
t
s2
n
50
8.4 - DISTRIBUIÇÃO APROXIMADA DA PROPORÇÃO AMOSTRAL p̂
2 np(1 p) .
p(1 p)
pˆ N p,
n
51
retirados de uma população normal com média e desvio padrão , esses valores de
xi poderão ser expressos por uma variável z (normal padronizada). Assim, temos que
xi
2
i 1
zi ,
i 1
2 2
n 2 n 2
n
xi x
2 xi x n 1 xi x n 1 .s 2
i 1
i 1
2
2 . i 1
n 1
2
n21 ,
52
8.6 - DISTRIBUIÇÃO DA RAZÃO ENTRE DUAS VARIÂNCIAS AMOSTRAIS
s12 / s22
2 1
F1 , 2 2 1
2
2
t2 2, F ; 1 1, 2 ,
53
9 – TEORIA DA ESTIMAÇÃO
9.1- Introdução
Parâmetro (θ): medida usada para descrever uma característica da população. Função
dos dados populacionais.
Estimativa: valor aproximado de um parâmetro populacional desconhecido. Função
dos dados amostrais.
Estimador: corresponde à expressão algébrica que permite obter uma estimativa.
Geralmente é simbolizado por letras latinas ou por letras que representam o parâmetro
populacional acompanhadas de um acento circunflexo ( ˆ ).
Estimação: o ato de obter uma estimativa.
Exemplos de estimadores:
Y X i
pˆ i i 1
p̂ é o estimador da proporção populacional p.
n n
1 n
ˆ X Xi
n i 1 X é o estimador da média populacional µ.
1 n
S2
n 1 i 1
( X i X )2
S 2 é o estimador da variância populacional
2
( N 1)
(X i X )2
ˆ 2 i 1
N n 1 ̂ 2 é o estimador da variância populacional 2
para populações finitas.
b) Precisão: está relacionada com o fato de que se temos dois estimadores para um
mesmo parâmetro populacional, como é o caso da variância, por exemplo, o estimador
mais preciso desse parâmetro será aquele que possuir menor variância entre suas
estimativas.
55
Exemplo – Proporção de pessoas que tem animal doméstico
Numa amostra de 3000 domicílios de Porto Alegre - RS, 600 tinham pelo menos um
animal doméstico (cão ou gato). Estime pontualmente a proporção de domicílios que
tem pelo menos um cão ou gato.
600 1
pˆ ou 0, 20 ou 20%
3000 5
IC1 ( ) : ˆ e
Lê-se: existe probabilidade de 1 de que o verdadeiro valor do parâmetro esteja no
56
Devemos definir primeiro o nível de significância , geralmente 10%, 5% ou
1%. Feito isto, calculamos o nível de confiança do intervalo 1 . Se, por exemplo,
=5%, o intervalo de confiança será de 1 – 0,05 = 0,95 ou 95%.
Depois, estimamos pontualmente o valor da média ( X ). Calculamos o erro padrão
n e finalmente, obtemos o valor tabelado de Z . O IC será então dado por:
2
IC1 ( ) : X Z
2 n
b) Quando a variância
2
é desconhecida.
Deve-se proceder da mesma forma que o item a, porém além de estimar
pontualmente a média deve-se também estimar a variância s2. Nesse caso, troca-se a
distribuição normal padrão Z pela distribuição t de Student, obtendo-se o valor tabelado
de t .
; n 1
2
Com esses valores, podemos obter o intervalo de confiança para a média, através
das fórmulas:
s
IC1 ( ) : X t , (para populações infinitas)
2
; (n-1) n
ou
s N n
IC1 ( ) : X t . (populações finitas)
; n 1 n N
2
OBS: os termos que são somados e subtraídos da média amostral X , nesses intervalos
constituem o erro de estimação da média. Portanto, para populações infinitas, com
variância desconhecida, o erro é dado por:
s s2
e t
ou e 2 t 2
.
; n 1 n ; n1 n
2 2
57
A estimativa pontual para uma proporção é dada diretamente pela proporção
amostral. É muito útil construirmos um intervalo em torno da estimativa pontual que
possua uma probabilidade conhecida de conter a verdadeira proporção populacional.
pˆ (1 pˆ )
IC1 ( p) : pˆ Z
2
n
pˆ (1 pˆ ) N n
IC1 ( p) : pˆ Z .
2
n N
(para populações finitas)
Se:
= 10%, Z Z 0,05 1, 645 ;
2
pˆ (1 pˆ )
e Z
2
n
Trabalhando esta expressão, podemos dimensionar tamanhos de amostra, utilizando:
Z2 2 pˆ (1 pˆ )
n
e2
OBS: quando p não é estimado, utilizamos o valor 0,5 como estimativa para p. Dessa
forma, atribuída uma margem de erro e , encontramos um tamanho de amostra máximo
( nmáx ) para um dado estudo.
58
Seja uma variável aleatória X ~ N ( , 2 ) associada a uma população da qual é
retirada uma amostra aleatória de tamanho n. Um intervalo de confiança para o
parâmetro 2 , obtido a partir dessa amostra será:
(n 1) s (n 1) s
2 2
IC1 ( 2 ) : 2 ; 2
2 ; (n-1) 1 ; (n-1)
2
Supondo que se queira um intervalo para 2 com nível de confiança de 90%, isto é cujo
0,10 , temos que consultar dois valores de qui-quadrado. O primeiro com
EXEMPLOS
59
2) Em 15 unidades amostrais de leite enviadas para a análise físico-química no
laboratório de controle de qualidade de um laticínio, observou-se uma variância do pH
igual a 0,16. Assumindo que o pH do leite segue uma distribuição normal, construa um
IC de 95% para 2 . (Dado: 0,025;
2
14 5, 629 e 0,975; 14 26,119 )
2
60
10- TEORIA DA DECISÃO
10.1- INTRODUÇÃO
Hipótese nula
Hipótese alternativa
A hipótese nula deve ser comparada com uma hipótese alternativa, denominada
H1, complementar à afirmativa feita na hipótese nula, claro que, envolvendo as
possibilidades do espaço paramétrico. Para cada situação existem muitas hipóteses
alternativas adequadas. Em geral a hipótese alternativa é expressa por três formas
dferentes:
H1 : A B ou H1 : A B ou H1 : A B .
H0 : A B H0 : A B
H1 : A B
(Teste Bilateral) (Teste Unilateral)
H1 : A B
62
10.2.2- ERROS ASSOCIADOS
I) Estabelecer as hipóteses:
63
H 0 : 0
, onde 0 é o valor que se quer testar para .
H1 : 0
II) Se a variância populacional 2 for conhecida, a média amostral X seguirá uma
distribuição normal. Portanto, a estatística de teste será:
X 0
Zc
n
III) Obter o valor tabelado de Z , caso o teste seja bilateral. Se o teste for unilateral
2
encontrar o quantil Z .
I) Estabelecer as hipóteses:
H 0 : 0
, onde 0 é o valor que se quer testar para .
H1 : 0
II) Se a variância populacional 2 for desconhecida, deve-se estimá-la através de s2.
Neste caso, a média amostral X seguirá uma distribuição t de Student com v = n-1
graus de liberdade. Estabelecer o nível de significância / 2 para testes bilaterais e
para testes unilaterais. A estatística de teste será:
X 0
tc
s
n
III) Obter o valor tabelado de t , caso o teste seja bilateral. Se o teste for
, v n 1
2
64
IV) Regra de decisão: Rejeitar a hipótese nula se tc t ou tc t . Caso
, v=n-1 , v=n-1
2 2
I) Estabelecer as hipóteses:
H 0 : p p0
, onde p0 é o valor que se quer testar para p .
H1 : p p0
pˆ p0
Zc
p0 (1 p0 )
n
III) Obter o valor tabelado de Z , caso o teste seja unilateral. Se o teste for bilateral
encontrar o quantil Z .
2
I) Estabelecer as hipóteses:
H 0 : 2 02
, onde 0 é o valor que se quer testar para .
2 2
H1 : 0
2 2
65
II) A distribuição de s2 segue uma distribuição de qui-quadrado com v = n-1 graus de
liberdade.. Estabelecer o nível de significância para testes unilaterais e / 2 e
1 ( / 2) para testes bilaterais. A estatística de teste será:
(n 1) s 2
2
c
02
III) Obter o valor tabelado de , v=n-1 , caso o teste seja unilateral. Se o teste for
2
EXEMPLOS:
2) Um relatório de uma companhia afirma que 40% de toda a água obtida através de
poços artesianos em uma região é salobra. Há muitas controvérsias sobre essa
afirmação, alguns dizem que a proporção é maior, outros que é menor. Para verificar
esta afirmação, coletou-se amostras em 400 poços artesianos da região, dentre os quais,
66
120 forneceram água salobra. Assim, ao nível de significância de 5%, a afirmação da
companhia procede?
3) Um fabricante de baterias automotivas afirma que a vida útil delas tem distribuição
aproximadamente normal, com variância de 0,81 ao ano, mas acredita-se que essa
variância seja maior. Em uma amostra aleatória de 10 dessas baterias observou-se uma
variância de 1,44 ao ano. Verifique, ao nível de significância de 5%, se a afirmação do
fabricante é verdadeira.
67
10.4- TESTE t PARA DUAS POPULAÇÕES
10.4.1- INTRODUÇÃO
Às vezes é preciso comparar dois grupos cuja variável analisada possui uma
resposta contínua e não mais em proporções. Nestes casos utilizamos o chamado teste t
de Student.
Este teste é aplicado quando temos duas amostras constituídas por indivíduos, ou
elementos diferentes e o interesse está na comparação entre as médias das duas
populações A e B do qual cada amostra foi retirada. Para isto, a estatística de teste é:
t
X A X B A B
X A XB 0
1 1 1 1
s2 s2
nA nB nA nB
XA XB
t
1 1
s2
nA nB
nA 1 s A2 n B 1 sB2
Onde, s
2
é a chamada variância ponderada, X A e
nA nB 2
68
H 0 : A B
H1 : A B
E, o critério de decisão consiste em rejeitar H0 se o valor do t calculado, em
módulo, for maior ou igual ao valor do t tabelado. O valor do t tabelado é obtido de
acordo com o nível de significância /2 estabelecido pelo pesquisador (em geral α =
0,05) e por n1+n2-2 graus de liberdade.
XA XB
t
s A2 sB2
nA nB
2
s A2 sB2
v A2 B 2
n n
s A2 sB2
nA nB
nA 1 nB 1
conhecida como fórmula de Satterthwaite.
Se, o teste estabelecido for unilateral, por exemplo,
H 0 : A B
,
1
H : A B
69
10.4.3- TESTE t PARA OBSERVAÇÕES PAREADAS
d
t
sd2
n
em que, d é a média das diferenças entre os resultados de antes e depois do tratamento.
Cada valor de diferença dos dados do i-ésimo indivíduo é: di = xinício(i) – xfinal(i).
Para verificar se o tratamento é eficiente, montamos o seguinte teste de
hipóteses:
EXEMPLOS:
1) Considere o peso, em gramas, de duas espécies de esquilo (1: esquilo-cinzento e 2:
esquilo-peruano). Da espécie 1, foram capturados 9 indivíduos e da espécie 2 foram
capturados 6 indivíduos.
Tabela 2: Pesos, em quilogramas, dos animais capturados.
1 498 505 501 498 518 515 510 495 505
Espécies
2 495 504 496 502 510 505 - - -
70
Considerando um nível de significância de 5%, realizar o teste t para verificar se existe ou
não diferença entre os pesos médios das duas espécies. Considere variâncias populacionais
iguais.
H 0 : 1 2
H1 : 1 2
I) Estimativa da média de cada amostra.
4545 3012
X1 X2
9 6
II) Estimativa da variância de cada amostra.
45452 30122
2295733- 1512186
s12 = 9 = s 22 6
8 5
n1 1 s12 n 2 1 s22
s
2
n1 n2 2
X1 X 2
t
1 1
s2
n1 n2
CONCLUSÃO:
71
2) O consumo de alimentos ricos em vitamina C, como laranja, kiwi e acerola, auxiliam
na eliminação de ácido úrico. Para avaliar a efetividade destes alimentos na redução dos
níveis de ácido úrico, uma amostra de 12 pessoas, com ácido úrico elevado, foi
selecionada. A tabela a seguir mostra os níveis de ácido úrico dos 12 participantes no
início e no fim do programa. Ao nível de significância de 5%, a dieta foi eficaz na
redução do ácido úrico?
Programa
Indivíduos
Início (x1) Final (x2)
1 7,9 7,2
2 7,2 7,0
3 6,1 6,5
4 6,5 6,4
5 5,8 6,0
6 5,9 5,5
7 7,0 6,0
8 7,5 6,8
9 6,8 6,0
10 6,5 6,1
11 7,3 7,3
12 7,5 6,5
H 0 : início final 0
H1 : início final 0
0, 7 0, 2 0, 4 0,1 0, 2 0, 4 1 0, 7 0,8 0, 4 0 1
d
12
(4, 7) 2
4,19
sd2 12
12 1
d
t
sd2
n
72
CONCLUSÃO:
H 0 : p A pB 0
H1 : p A p B 0
A estatística de teste será:
pˆ A pˆ B
Z
pˆ A (1 pˆ A ) pˆ B (1 pˆ B )
nA nB
H 0 : A2 B2
H1 : A B
2 2
10.7.1- INTRODUÇÃO
74
Tabela 3: Sexo e idade das pessoas de uma amostra com n = 200.
Escolaridade
Sexo Totais
Fundamental Médio Superior
Masculino 15 48 37 100
Feminino 8 52 40 100
Totais 23 100 77 200
Considere que temos uma população P e desejamos verificar se ela segue uma
distribuição especificada P0. Em termos de teste de hipóteses, temos:
H 0 : P P0
H1 : P P0
O teste compara o número de casos observados na amostra avaliada (ou
observada) com os resultados do número de casos que seriam esperados de acontecer,
sob o modelo de distribuição em teste.
Temos, portanto, dois conjuntos de valores: as frequências observadas ( Oi )
constituída do conjunto de dados reais obtidos do experimento e as frequências
esperadas ( Ei ) calculadas segundo o modelo que se quer avaliar.
Se as proporções forem iguais nos dois grupos ( hipótese H0 ), a discrepância
entre os dois conjuntos de dados não deve ser grande. Pearson, importante estatístico do
início do século XX, propôs medir a discrepância entre os valores esperados e
observados através da expressão:
Oi Ei
2
k
2
i 1 Ei
Assim, para se tomar uma decisão sobre a igualdade ou não dos modelos, é
preciso comparar o valor calculado de 2 com o seu valor tabelado, considerando (k-1)
grau de liberdade e o nível de significância estabelecido pelo pesquisador (que em
geral é de 0,05 ou 5%). Se o valor do 2 calculado for maior ou igual ao valor do 2
tabelado, deve-se rejeitar a hipótese H0 e concluir que modelos são diferentes, isto é,
75
não há aderência ao modelo avaliado. Caso contrário, 2 calculado menor do que 2
tabelado, aceita-se H0 e concluí-se que a característica segue o modelo.
EXEMPLO:
Suponha o estudo da herança da cor e textura da semente do milho em que foram
obtidas uma amostra de 480 sementes, assim distribuídas: 268 amarelas e lisas, 86
amarelas e enrugadas, 97 brancas e lisas e 29 brancas e enrugadas. Considerando que os
dois genes apresentam distribuições independentes, verificar, ao nível de 5% de
significância, se os valores observados se ajustam a uma distribuição de 9:3:3:1.
Resolução:
H 0 : P P0
H1 : P P0
I) Obter os valores esperados.
9 3 3 1
480. 480. 480. 480.
16 16 16 16
Oi Ei
2
k
2
i 1 Ei
76
10.7.3- TESTE DE QUI-QUADRADO 2 (INDEPENDÊNCIA)
H 0 : X e Y são independentes
H1 : X e Y são dependentes
A tabela a seguir apresenta dados genéricos de uma situação envolvendo a
observação de duas variáveis X (com “l” categorias) e Y (com “c” categorias) em que a
resposta de interesse é dicotômica: a ocorrência ou não de um evento.
m1 n1 m2 n1 m1 n2 m2 n2
a b c d
n n n n
Tendo os dados observados (Oij) organizados em uma tabela de contingência,
calculamos o valor da estatística qui-quadrado, através de:
O Eij
2
l c
2
ij
i 1 j 1 Eij
A regra de decisão sobre a independência entre X e Y, passa pela comparação do
valor calculado de 2 com o seu valor tabelado, considerando (L-1)(c-1) grau de
77
liberdade e o nível de significância estabelecido pelo pesquisador (que em geral é de
0,05 ou 5%). Se o valor do 2 calculado for maior ou igual ao valor do 2 tabelado,
deve-se rejeitar a hipótese H0 e concluir que não há independência entre X e Y. Caso
contrário, 2 calculado menor do que 2 tabelado, aceita-se H0 e concluí-se que há
independência.
Resolução:
H 0 : são independentes
H1 : são dependentes
I) Obter os valores esperados.
Oij Eij
2
l c
2
i 1 j 1 Eij
79