Teresina – PI
2010-2
SUMÁRIO
CARGA
ASSUNTO
HORÁRIA
1. Conceitos Fundamentais em Estatística. Organização de
dados quantitativos. Estatística descritiva. População e
amostra. Distribuições de frequências. Tabelas. Gráficos. 04 h
Histogramas. Medidas de tendência central e de dispersão:
média, mediana, moda, variância, desvio-padrão. Freqüência
relativa e probabilidade.
2. Aplicação da Matemática à Estatística. Variável aleatória.
Distribuições de probabilidade. A distribuição normal.
Esperança. Variância. Distribuição amostral das médias.
Estatística inferencial. Teste de hipóteses. Hipótese nula. 12 h
Testes unilaterais e bilaterais. Erros do tipo I e do tipo II. Nível
de significância. Teste Z. Teste t. Teste F. Intervalos de
confiança.
3. Métodos Gráficos e Numéricos. Diagramas de dispersão.
Correlação linear. Coeficiente de correlação de Pearson, r.
Coeficiente de determinação, r2. Teste de hipóteses sobre a 04 h
correlação. Regressão linear simples. Método dos mínimos
quadrados. Análise de resíduos.
4. Fontes de Erro em Análise Química. Algarismos
significativos. Erro e desvio de uma medida. Exatidão e
precisão. Tipos de erros: determinados e indeterminados.
Precisão de uma medida. Limite de confiança da média. 10 h
Propagação de erros. Rejeição de resultados: teste Q.
Amostragem. Padronização. Calibração. Validação. Certificação
da qualidade.
Capítulo 1. Conceitos Fundamentais em Estatística.
Introdução
Estatística é a ciência que faz uso efetivo dos dados numéricos relativos a
grupos de indivíduos ou experimentos. Nesse sentido, ela trata de todos os aspectos,
incluindo não só a coleta, organização, análise e interpretação dos dados, mas
também o planejamento da coleta de dados. Importante dizer que todos os métodos
estatísticos baseiam-se na teoria das probabilidades. A Estatística é bastante útil para
orientar a tomada de decisões baseada na análise de um número muito grande de
dados, tal como pesquisas de opinião pública e de mercado. A palavra estatística
também pode ser usada para significar o próprio conjunto de dados, ou as grandezas
a ele associadas, tais como a média e o desvio-padrão. Assim, num conjunto de
dados, podemos dizer que a média é uma estatística.
Apesar de sua origem peculiar, a Estatística é hoje utilizada nas mais diversas
áreas. Ela está presente nas teorias mais fundamentais da Física Moderna, como a
Mecânica Quântica, e hoje se sabe que a natureza das partículas fundamentais é
governada por leis estatísticas. Nas áreas de Saúde, a Estatística é conhecida como
Bioestatística. O nome pode ser diferente, mas os métodos são os mesmos, sendo
apenas as aplicações específicas para as áreas de Saúde. A Química utiliza bastante
a Estatística, em suas diversas áreas. Entretanto, a área que mais faz uso da
Estatística é a Química Analítica. Nesse sentido, a compreensão da teoria de erros
e da obtenção de retas de regressão, pelo método dos mínimos quadrados, estão
entre os pontos mais relevantes. Reconhecer os tipos de erros em análises
químicas, saber como é a propagação dos erros e como eles afetam o resultado é
de suma importância para o químico. As retas de regressão são bastante usadas nas
curvas de calibração, empregadas em diversas técnicas de análises quantitativas.
População e Amostra
Uma população pode ser finita ou infinita. Nos casos acima, as populações
são finitas. Se uma moeda é jogada uma única vez, a população, P é constituída pelo
conjunto de todos os resultados possíveis, ou seja, P = {cara;coroa}. Se uma moeda é
jogada duas vezes, a população, P é constituída pelo conjunto de todos os resultados
possíveis, ou seja, P = {cara/cara; cara/coroa; coroa/cara; coroa/coroa}. Nesses dois
exemplos, as populações são finitas. No primeiro caso, a população tem 21 = 2 (dois)
elementos. No segundo caso, a população tem 22 = 4 (quatro) elementos. Entretanto,
considere uma moeda sendo jogada várias vezes, indefinidamente. A cada jogada, dá
cara ou coroa. A população, nesse caso é infinita, pois consiste nas infinitas
possibilidades de resultados possíveis. Se uma moeda for jogada n vezes, o tamanho
da população será dado por 2n.
Exercício Resolvido.
Se uma moeda for jogada três vezes (n=3), primeiro calcule o tamanho da população e depois escreva o
conjunto de resultados P que representa a população.
Resolução:
No caso de uma moeda que foi jogada apenas duas vezes (n=2), apesar do
tamanho da população ser pequeno (22=4), a quantidade de amostras possíveis é bem
grande, pois cada subconjunto é uma amostra. Só para se ter uma idéia, e lembrando
que o conjunto vazio { }, bem como o conjunto todo, são sempre subconjuntos de
qualquer conjunto, podemos escrever aqui apenas algumas das amostras possíveis
para essa pequena população: P={cara/cara; cara/coroa; coroa/cara; coroa/coroa}.
Teremos amostras com zero, um, dois, três e quatro elementos. O tamanho da
amostra é o número de elementos da amostra. Este exemplo foi colocado para ilustrar
que há sempre uma enorme quantidade de amostras, para qualquer população.
• Amostras (subconjuntos) possíveis para uma população onde uma moeda foi
jogada duas vezes:
A01 = { }
A02 = {cara/cara}
A03 = {cara/coroa}
A04 = {coroa/cara}
A05 = {coroa/coroa}
A06 = {cara/cara; cara/coroa}
A07 = {cara/cara; coroa/cara}
A08 = {cara/cara; coroa/coroa}
A09 = {cara/cara; cara/coroa; coroa/cara}
A10 = {cara/cara; cara/coroa; coroa/coroa}
∂
Afinal = {cara/cara; cara/coroa; coroa/cara; coroa/coroa}.
Organização de Dados Quantitativos
254
253 253
252 252 252
251 251 251 251
250 250 250 250 250
249 249 249 249
248 248 248
247 247
246
=
1+2+3+4+5+4+3+2+1 = 25
=
= 1
0,20
0,15
0,10
fr
0,05
0,00
246 247 248 249 250 251 252 253 254
-
[Cl ]/mg/L
x1 = 40 x4 = 43
x2= 41 x5 = 44
x3 = 42 x6 = 45
Vamos considerar que os dados acima sejam uma amostra. Então a média
amostral será dada por:
1
=
+ + + + +
6
1
= 40 + 41 + 42 + 43 + 44 + 45
6
1
= 255
6
= 42,5
1
=
1
=
1
=
• Fórmula para a média amostral, usando as frequências relativas, Neste
caso, não é preciso dividir pelo tamanho da amostra.
=
1
= 1246 + 2247 + 3248 + 4249 + 5250 + 4251 + 3252 + 2253 + 1254#
25
1
= 6250#
25
= 250
= 0,04246 + 0,08247 + 0,12248 + 0,16249 + 0,20250 + 0,16251 + 0,12252
+ 0,08253 + 0,04254#
= 250
+1
$%&'çã% *+ ,-*'++ =
2
40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50
A posição da mediana será: (10+1)/2 = 5,5. Isso significa que a mediana está
entre o 5º e o 6º lugar. Neste caso, o valor da mediana é a média entre os valores que
estão no 5º e no 6º lugar. Logo, o valor da mediana será (44+45)/2 = 44,5.
Dia 1 2 3 4 5 6 7 8 9 10
Vendas 48 47 52 320 50 45 46 53 44 49
1
= 48 + 47 + 52 + 320 + 50 + 45 + 46 + 53 + 44 + 49#
10
1
= 754#
10
= 75,4
Vamos calcular a mediana, agora. Mas, para isso, primeiro temos que colocar
os dados em ordem crescente, na Tabela 3.
Dia 9 6 7 2 1 10 7 3 8 4
Vendas 44 45 46 47 48 49 50 52 53 320
A média é 75,4 e a mediana, 48,5. Qual dessas duas medidas reflete melhor as
vendas diárias da lanchonete? É óbvio que é a mediana. E sabe por quê? Porque a
mediana não é afetada por valores extremos. Já o valor da média ficou bem alto,
justamente por causa do valor extremo, 320. Nem sempre a média é a melhor medida.
Medidas de Dispersão
1
.+ = / = −
• Fórmula para a variância amostral. A variância amostral é representada pelo
quadrado da letra romana s minúscula. O tamanho da amostra é N.
1
& = −
− 1
x1 = 40 x4 = 43
x2= 41 x5 = 44
x3 = 42 x6 = 45
1
/ = 40 − 42,5 + 41 − 42,5 + 42 − 42,5 + 43 − 42,5 + 44 − 42,5 + 45 − 42,5 #
6
1
/ = 17,5#
6
/ = 2,91666 …
23 ≈ 3, 43
Se o conjunto de dados acima for uma amostra de media
= 42,5 e tamanho
N=6, então a variância amostral é calculada da seguinte forma:
1
& = 40 − 42,5 + 41 − 42,5 + 42 − 42,5 + 43 − 42,5 + 44 − 42,5
6 − 1
+ 45 − 42,5 #
1
& = 17,5#
5
53 = 6, 7
.+ = 888
−
O valor de 888
é obtido a partir da média dos quadrados dos valores de x.
888 1
= 1600 + 1681 + 1764 + 1849 + 1936 + 2025
6
888 1
= 10855
6
888
= 1809,1666 …
888 ≈ 1809,17
Assim, a variância é calculada pela diferença:
888 −
.+ =
9:; = 3, 43
• Desvio-padrão populacional:
/ = </ = <.+
• Desvio-padrão amostral:
& = <&
1
888
= 160516 + 261009 + 361504 + 462001 + 562500 + 463001 + 363504
25
+ 264009 + 164516#
1
888
= 1562600#
25
888
3 = >37=?
.+ = 888
2 −
2
9:; = ?
0,20
0,15
fr
0,10
0,05
0,00
246 247 248 249 250 251 252 253 254
-
[Cl ] / mg/L
1
= 1246 + 1247 + 2248 + 8249 + 8250 + 8251 + 2252 + 1253 + 1254#
25
1
= 8000#
32
= 37=
3 = 37=3 = >37==
1
888
= 160516 + 161009 + 261504 + 862001 + 862500 + 863001 + 263504
32
+ 164009 + 164516#
1
888
= 2000082#
32
888
3 = >37=3, 7>37
.+ = 888
2 −
2
9:; = 3, 7>37
0,20 0,25
0,20
0,15
0,15
0,10
fr
fr
0,10
0,05
0,05
0,00 0,00
246 247 248 249 250 251 252 253 254 246 247 248 249 250 251 252 253 254
- -
[Cl ]/mg/L [Cl ] / mg/L
20
frequência absoluta
15
10
0
64 65 66 67 68 69 70 71
pesos / kg
1
=
1
= 1665 + 2168 + 271#
40
1
= 2610#
40
= >7, 37
10
Frequência Absoluta
0
64 65 66 67 68 69 70 71 72
Pesos / kg
1
= 364 + 565 + 866 + 1167 + 768 + 3 ∗ 69 + 370 + 172#
40
1
= 2747#
40
= >E, >E
Probabilidade
Experimento Aleatório
Cara = K
Coroa = C
Desde já vamos deixar bem claro que a jogada de uma única moeda M vezes
e uma única jogada de M moedas são experimentos aleatórios completamente
equivalentes, com os mesmos espaços amostrais.
A1 = {K, C}
A2 = {KK, KC, CK, CC}
A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC}
Evento
E3,3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK}: Sair no máximo duas coroas.
E3,4 = {KKK, KKC, KCK, CKK}: Sair pelo menos duas caras.
Probabilidade de um Evento
K
JK =
L
K 4 1
JK = = = = 0,50
L 8 2
O resultado foi PE=0,50 ou seja, há 50% de chance de sair pelo menos duas
caras no lançamento de três moedas.
Exercício Resolvido.
Uma moeda é jogada 2 vezes. Calcule a probabilidade de sair cara na primeira jogada e coroa na segunda.
Resolução:
Primeiro escrevem-se o espaço amostral e o evento, com os respectivos tamanhos.
N
=
N 48
= = = 0,48
100
Verifique que o valor obtido aproxima-se bastante do valor calculado para a
probabilidade (P=0,50). De fato, o valor da frequência relativa tende para o valor da
probabilidade, quando o experimento aleatório for repetido um número muito grande
de vezes. Por isso, é válida a seguinte definição de probabilidade, que utiliza o
conceito de limite, quando N tender a infinito (∞).
N
J = lim W X
T→V
A = {1,3,5,7,9}
B = {0,2,4,6,8}
A»B = {0,1,2,3,4,5,6,7,8,9}
Pode-se ver que os eventos E2,1 e E2,2 são mutuamente excludentes, pois não
apresentam nenhum elemento em comum. Então podemos calcular a probabilidade da
união dos dois eventos pela equação acima. Primeiro, calculamos as probabilidades
dos eventos individuais.
\K,
] 1
J\K,
] = = = 0,25
L 4
\K, ] 2
J\K, ] = = = 0,50
L 4
A = {1,2,5,6,9}
B = {0,2,4,6,8}
A…B = {2,6}
Consideremos uma moeda sendo jogada três vezes. Já vimos que o espaço
amostral é dado pelo conjunto abaixo:
E3,1 = {KKC, CCK}: Sair duas caras ou duas coroas, nas duas primeiras jogadas.
E2,1…E2,2 = {KKC}
JL %Y Z = JL ∪ Z = JL + JZ − JL ∩ Z
Por exemplo, considere, agora, uma moeda sendo jogada duas vezes. Já
vimos que o espaço amostral é dado pelo conjunto abaixo:
E2,1…E2,2 = {KK}
1 3 1 3
J\K2,1 ∪ K2,2 ] = + − = = 0,75
4 4 4 4
Exercício Resolvido.
Uma dado de seis faces é jogado 2 vezes. Calcule (a) a probabilidade de sair 1 na primeira jogada e 2 na
segunda jogada; (b) a probabilidade de sair 1 na primeira jogada ou 2 na segunda jogada.
Resolução:
Primeiro escrevem-se o espaço amostral e os eventos, com os respectivos tamanhos.
A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44, 45, 46, 51, 52, 53,
54, 55, 56, 61, 62, 63, 64, 65, 66}; N(A2) = 36
E2,1 = {11, 12, 13,14, 15, 16}: Sair 1 na primeira jogada. N(E2,1) = 6
E2,2 = {12, 22, 32, 42, 52, 62}: Sair 2 na segunda jogada. N(E2,1) = 6
Os eventos não são mutuamente excludentes. Eles têm um elemento em comum. A interseção entre os
eventos é o conjunto: E2,1… E2,2 = {12}. N(E2,1… E2,2) = 1
(b) A probabilidade de sair 1 na primeira jogada ou 2 na segunda jogada é a probabilidade da união entre
os dois eventos, ou seja, é dado pelo cálculo abaixo:
J\K,
∪ K, ] = J\K,
] + J\K, ] − JK,
∩ K,
\K,
] \K, ] K,
∩ K,
J\K,
∪ K, ] = + −
L L L
6 6 1
J\K,
∪ K, ] = + − = 0,167 + 0,167 − 0,0278 = 0,306
36 36 36
Jogando um dado duas vezes, há uma chance de 30,6% de sair 1 na primeira jogada ou 2 na segunda
jogada.
Amostragem com Reposição
1
J= = 1,07 × 10b
9,31 × 10a
Considere que há sete camisas em uma gaveta, para serem usadas durante a
semana, uma cada dia. Suponha que, a cada dia, uma camisa é retirada da gaveta,
mas não é devolvida, pois vai para o cesto de roupas para serem lavadas. No
domingo, há sete camisas. Na segunda-feira, haverá seis. Na terça-feira, cinco. E
assim por diante. No sábado só haverá uma camisa na gaveta. De quantas maneiras
diferentes podem-se escolher as camisas para os sete dias da semana?
7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 = 5 040
Caso a escolha tivesse sido feita com reposição, esse número seria bem maior:
7
7 =823 543.
0! =1
1! = 1
2! =2x1 =2
3! = 3x2x1 = 6
4! = 4x3x2x1 = 24
5! = 5x4x3x2x1 = 120
6! = 6x5x4x3x2x1 = 720
7! = 7x6x5x4x3x2x1 = 5 040
8! = 8x7x6x5x4x3x2x1 = 40 320
10 x 9 x 8 x 7 x 6 x 5 x 4=604 800
10 × 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1 10! 10!
= = = 604 800
3×2×1 3! 10 − 7!
!
Lh =
i
− j!
Combinações
Esse resultado seria calculado pela fórmula do arranjo d>>= , dada abaixo.
O único problema com esse cálculo é o seguinte. Suponha que tenha saído as
dezenas: 01, 05, 23, 25, 37, 39. Esse cálculo conta todas as permutações possíveis
dessas dezenas. Então, temos de dividir o resultado pelo número de
permutações, ou seja 6! = 720. Isto porque a ordem em que os resultados saem
não importa.
Assim, a fórmula para a combinação W j X de n objetos, tomados j de cada vez é
!
WjX =
j! − j!
L ∩ Z JL ∩ Z
JL|Z = =
Z JZ
Note que se a interseção A…B for vazia, então a probabilidade condicional será
zero, ou seja, PA|B=0.
A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44,
45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66}
K,
∩ K, 1
J\K,
mK,] = = = 0,167
K, 6
JL|Z = JL
JL ∩ Z
JL =
JZ
Lembrando que P(A…B)=P(A e B), essa última expressão pode ser rearranjada
na forma abaixo.
JL - Z = JL ∙ JZ (eventos independentes)
A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44,
45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66}. N(A2) = 36
E2,1 = {31, 32, 33, 34, 35, 36}: Aparecer 3 na primeira jogada. N(E2,1)=6
E2,2 = {15, 25, 35, 45, 55, 65}: Aparecer 5 na segunda jogada. N(E2,2)=6
6 6 1 1 1
J\K,
- K, ] = J\K,
] ∙ J\K, ] = ∙ = ∙ = = 0,0278
36 36 6 6 36
(a) A={28, 22 , 33, 30, 100, 28, 25, 30, 27, 28}
(b) B={213, 210, 215, 213, 220, 1018, 214, 213, 211, 213, 215}
(a) A={70, 72, 75, 78, 74, 73, 79, 71, 77, 76}
(b) B={1010, 1015, 1017, 1014, 1018, 1020, 1011}
11. Uma moeda é jogada três vezes. Calcule a probabilidade dos eventos abaixo. Dica:
escreva os conjuntos que representam o espaço amostral e os eventos.
12. Uma moeda é jogada três vezes. Calcule as probabilidades que se pedem abaixo.
13. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) amostragem com
reposição; (b) amostragem sem posição; (c) fatorial de um número; (d) permutação;
(e) arranjo; (e) combinação.
14. De quantas formas distintas 9 pessoas podem ficar dispostas em fila indiana?
16. Em uma prova com 10 questões de múltipla escolha, com 4 alternativas cada, qual
é a probabilidade de um candidato responder a prova e acertar todas a questões
apenas no palpite?
17. Se você tem 15 camisas em uma gaveta, para serem usadas durante a semana (7
dias), uma cada dia, sem reposição, de quantas maneiras diferentes pode-se
escolher as camisas para os sete dias da semana?
A Distribuição Binomial
Uma variável aleatória discreta é aquela que pode ser descrita por meio de
números inteiros. Por exemplo, quando se joga uma moeda 20 vezes, podemos definir
uma variável aleatória X discreta como sendo o número de vezes que sai o resultado
cara. Assim, os valores possíveis de X podem ser: X = 0, 1, 2, 3, ..., 20.
Jr = ' = W X $ 1 − $hb
'
!
W X=
' '! − '!
Exemplo da Jogada de 20 moedas
20!
Jr = 1 = 0,5
1 − 0,5ab
= 0,0000190735
1! 20 − 1!
i PX=i
0 0,0000009537
1 0,0000190735
2 0,0001811980
3 0,0010871900
4 0,0046205500
5 0,0147858000
6 0,0369644000
7 0,0739288000
8 0,1201340000
9 0,1601790000
10 0,1761970000
11 0,1601790000
12 0,1201340000
13 0,0739288000
14 0,0369644000
15 0,0147858000
16 0,0046205500
17 0,0010871900
18 0,0001811980
19 0,0000190735
20 0,0000009537
0.18
0.16
0.14
0.12
P(X=i)
0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
Kr = ∙ $
t+r = ∙ $ ∙ 1 − $
Kr = 20 ∙ 0,5 = 10
30!
Jr = 30 = 0,2a 1 − 0,2aba = 1,07 × 10b
30! 30 − 30!
30!
Jr = 15 = 0,2
1 − 0,2ab
= 0,000179
15! 30 − 15!
Kr = 30 ∙ 0,2 = 6
t+r = 30 ∙ 0,2 ∙ 1 − 0,2 = 4,8
30!
Jr = 6 = 0,2 1 − 0,2ab = 0,179
6! 30 − 6!
Para se acertar 6 questões na sorte, a probabilidade é máxima e é igual a
17,9%. O desvio padrão é igual à √4,8 = ±2,2. Portanto, espera-se que a 18% dos
candidatos que façam a prova no puro palpite acertem 6±2 questões.
A Distribuição Normal
Uma variável aleatória contínua é aquela que pode ser descrita por meio de
números reais. Por exemplo, a concentração dos íons cloreto em amostras de água.
1 b
wbxy
= - 23
2√2v
E(x) = µ
Var(x) = σ2
A Figura 6 apresenta duas curvas gaussianas, ambas com µ=0. Uma das
curvas possui σ=1,0 e a outra, σ=2,0. A curva com σ maior é mais larga e menos alta.
Figura 6. Curva gaussiana para µ=0, σ=1,0 e σ=2,0.
−
z=
/
1
z = - b z
2
√2v
1,47 − 1,60 ,
z
= = −0,65
0,20 ,
1,68 − 1,60 ,
z = = +0,40
0,20 ,
~y
Jz
< z < z
= | } *}
~
1 ~y −1 ~y
Jz
< z < z
= | - 2 *}
√2v ~
Figura 7. Área abaixo da curva gaussiana reduzida (µ=0, σ=1) na faixa –2 < Z < 2.
A área total sob a curva é 1, significando 100% (vide Figura 7). Em outras
palavras, a probabilidade de a variável Z assumir valores na faixa –∞ < Z < +∞ é P=1.
Essa é a denominada condição de normalização, expressa pela equação abaixo.
V
| } *} = 1
bV
1 − 0,9545 0,04550
Jz > 2 = = = 0,02275
2 2
Jz = + = | } *} = 0
Neste caso, queremos a probabilidade P(0,141 ppm < X > 0,142 ppm).
Vamos transformar em variáveis reduzidas primeiro.
− 0,141 − 0,14
z
= = = 0,100
/ 0,01
− 0,142 − 0,14
z = = = 0,200
/ 0,01
K
=
/
t+
=
/
&
= <t+
=
√
A Figura 10 ilustra a idéia por trás do Teorema do Limite Central, usando o
experimento aleatório da jogada de n dados. Quando se joga apenas 1 (um) dado, as
probabilidades são todas iguais para os seis números, ou seja P=1/6. Quando se joga
mais de um dado, as probabilidades de se obter cada número vão ficando diferentes,
podendo ser calculadas pela distribuição binomial. À medida que o número de jogadas
aumenta, a distribuição se aproxima da distribuição normal.
Suponha que a concentração do gás poluente SO2 apresente uma distribuição populacional desconhecida
em uma cidade brasileira. A média da concentração é µ = 0,140 ppm e o desvio-padrão, σ = 0,010 ppm
são conhecidos na população. Você coletou uma amostra aleatória de tamanho n=100, na cidade e mediu
o teor de SO2. Qual a probabilidade de a média amostral ter um valor entre 0,141 ppm e 0,142 ppm, ou
seja, calcule a seguinte probabilidade: P(0,141 ppm <
< 0,142 ppm) = ?
Resolução:
Pelo Teorema do Limite Central, temos que a média amostral segue uma distribuição aproximadamente
/
normal, com esperança, K
= 0,14 ppm e desvio-padrão, &
= =
a,a
a
√ √
aa
ppm = 0,001 ppm.
−
z= /
√
0,141 − 0,14
z
= = 1,00
0,001
0,142 − 0,14
z = = 2,00
0,001
A probabilidade que se quer pode ser obtida da tabela de probabilidades, através do seguinte cálculo:
Resposta: A probabilidade de a média amostral ter um valor entre 0,141 ppm e 0,142 ppm, na população
considerada, será de 13,59%.
Teste de Hipóteses
• Rejeitar a hipótese nula Ho, quando de fato ela for verdadeira, é definido como
erro do tipo I.
Vamos supor que hipótese nula seja Ho: µ = 0 e que chegássemos, através de
um teste de hipótese, à conclusão de que ela devesse ser rejeitada. Nesse caso,
haveria uma probabilidade de cometer o erro do tipo I. Essa probabilidade é
denotada por a (alfa). O valor dessa probabilidade é denominado nível de
significância do teste e deve ser fixado pelo estatístico logo no início do teste de
hipótese. Normalmente, o nível de significância é estabelecido em 1% ou 5%, ou seja,
a = 0,01 ou a = 0,05.
verdadeira,
terá distribuição normal com média µ = 0 e desvio-padrão & = = =
a,
a
√h √
aa
0,010. Portanto, a estatística de teste escolhida, denominada teste Z, será a distribuição normal
reduzida: z =
w
b
.
√
− 0,10 − 0
z. = / = 0,01 = 100
√ √100
(6) Decisão. Compara-se a estatística de teste calculada com o valor crítico. No
caso, verifica-se que |Zcalc.|>Zcrit. Em outras palavras, o valor de Zcalc. cai na
região de rejeição de Ho (vide Figura 11). Por isso, rejeita-se Ho com nível de
significância de 5% (α=0,05). Isso significa que a probabilidade de estarmos
rejeitando Ho, dado que de fato ela é verdadeira, ou seja, a probabilidade de
estamos cometendo um erro do tipo I é de 5%.
(7) Conclusão. No exemplo dado, pelos dados amostrais e pelo teste de hipótese
efetuado, não temos razões significativas (α=0,05) para supor que a média
populacional seja zero.
Valor p
Erros do Tipo I e II
Tipo I
• Rejeitar a hipótese nula Ho, quando de fato ela for verdadeira, é definido como
erro do tipo I.
• Vimos que, em um teste de hipótese, essa probabilidade é o nível de
significância do teste e deve ser pré-estabelecida pelo estatístico.
Tipo II
• Não rejeitar a hipótese nula Ho, quando de fato ela não for verdadeira, é
definido como erro do tipo II.
Para se calcular β é necessário ter uma hipótese alternativa bastante
específica. Vamos usar um exemplo para calcular a probabilidade de erro do tipo II.
Exemplo:
(a) Testar a hipótese nula de que a média populacional seja = 0,140 ppm. Fixar
nível de significância em 5%.
(b) Calcular o valor p.
(b) Calcular a probabilidade, β de erro do tipo II, caso a média populacional de fato
fosse µ = 0,147 ppm.
Resolução:
(1) Hipótese nula e alternativa: Ho: µ = 0,140 ppm; H1: µ ∫ 0,140 ppm
w
b
(3) Estatística de teste: z =
√
a,
ba,
a
(5) Cálculo da estatística de teste. z. = , = 1,75
√
(6) Decisão. |Zcalc.|<Zcrit. Como Zcalc. está na zona de aceitação, não se rejeita Ho.
(7) Conclusão. Não há razão significativa para rejeitar Ho. Portanto, não há razão
para não supor que a média populacional da concentração de SO2 seja
= 0,140 ppm.
(c) Cálculo de β :
: = 0,140 ppm
: = 0,147 ppm
−
z= /
√
/
= z +
√
0,04
= −1,96 + 0,147 = 0,13916
√100
0,04
= +1,96 + 0,147 = 0,15484
√100
A Figura 13 ilustra o significado da probabilidade de cometer o erro do
tipo II, ou seja, o valor de β. Trata-se da probabilidade condicional da variável
aleatória
assumir valores na faixa 0,13916 <
< 0,15484, dado que
é
verdadeira, ou seja, β é dada pelas expressões abaixo.
= =, B64B> <
< =, B7?E?|B : x = =, B? ppm)
1 a,
b
w
ba,
y
= | - a,aay = 0,950
0,004√2v a,
= = 0,975 − 0,025
= = 0,950
1. O tamanho da região crítica sempre pode ser reduzida pela seleção apropriada
do valor de α (alfa).
−
= &
√
Resolução:
(6) Decisão. |tcalc.|>tcrit. Como tcalc. está na região de rejeição, rejeita-se Ho com nível
de significância de 5%.
(7) Conclusão. Pelos dados amostrais e pelo teste de hipótese, não há razão
significativa (α=0,05) para supor que a média populacional tenha sido extraída
de uma população com distribuição normal com média = 100 kg.
Problemas
• Teste Z para uma média. Nos problemas abaixo, utilize como critério de
decisão no teste de hipótese tanto o valor crítico Zcrit. quanto o valor p.
Correlação
120
100
80
y
60
40
20
0 2 4 6 8 10
equação abaixo.
¤
L = −%
a £ ¥
¤a
L =¦∙∙§
A Tabela 10 mostra os dados de uma análise química, onde foi medida a
absorbância, A para cada concentração c de um analito em solução.
L̈ = 2,048 § − 0,003
0.20
0.15
Absorbância
0.10
0.05
0.00
Figura 16. Diagrama de dispersão para os dados da Tabela 10. Em vermelho está a
curva de regressão dos dados, que corresponde à curva de calibração.
Coeficiente de Correlação Linear
∑ « − ∑ ∑ «
=
<∑ − ∑ <∑ « − ∑ «
=0 Nula
= −1 Perfeita Negativa
Vamos agora calcular o valor de r para os dados da Tabela 10. Vamos chamar
a concentração de x e a absorbância de y. Vamos reescrever a Tabela 10, abaixo,
acrescentando as colunas xy, x2 e y2 e depois calcular as somatórias que aparecem na
equação para r: Σx, Σy, Σxy, Σx2, Σy2. No caso, o número de pontos é n = 10.
x y xy x2 y2
0.01 0.012 0.00012 0.0001 0.000144
0.02 0.048 0.00096 0.0004 0.002304
0.03 0.052 0.00156 0.0009 0.002704
0.04 0.088 0.00352 0.0016 0.007744
0.05 0.092 0.00460 0.0025 0.008464
0.06 0.128 0.00768 0.0036 0.016384
0.07 0.132 0.00924 0.0049 0.017424
0.08 0.168 0.01344 0.0064 0.028224
0.09 0.172 0.01548 0.0081 0.029584
0.10 0.208 0.02080 0.0100 0.043264
Σx = 0,55 Σy = 1,1 Σxy = 0,0774 Σx = 0,0385
2 Σy2 = 0,15624
De acordo com a Tabela 11, trata-se de uma correlação forte positiva. Isto é
bastante adequado para uma curva de calibração.
Regressão Linear
« = + + ¬
A regressão linear é feita através do método dos mínimos quadrados. Neste
método, chamam-se yi os valores experimentais da variável y e chamam-se (yi)calc, os
valores de y calculados pela regressão linear, ou seja:
« = + + ¬
* = « − « #
∑*' 2
=0
+
∑*' 2
=0
¬
2
∑®«' − +' − ¬¯
=0
+
2
∑®«' − +' − ¬¯
=0
¬
\«' − +' − ¬] = 0
\«' ] − + − ¬ 1 = 0
∑ « − ∑ ∑ «
+=
∑ − ∑
∑ ∑ « − ∑ ∑ «
¬=
∑ − ∑
x y xy x2 y2
0.01 0.012 0.00012 0.0001 0.000144
0.02 0.048 0.00096 0.0004 0.002304
0.03 0.052 0.00156 0.0009 0.002704
0.04 0.088 0.00352 0.0016 0.007744
0.05 0.092 0.00460 0.0025 0.008464
0.06 0.128 0.00768 0.0036 0.016384
0.07 0.132 0.00924 0.0049 0.017424
0.08 0.168 0.01344 0.0064 0.028224
0.09 0.172 0.01548 0.0081 0.029584
0.10 0.208 0.02080 0.0100 0.043264
Σx = 0,55 Σy = 1,1 Σxy = 0,0774 Σx2 = 0,0385 Σy2 = 0,15624
Vamos usar as equações para a e b.
«° = 2,048 − 0,003
Capítulo 4. Fontes de Erro em Análise Química.
Precisão e Exatidão
¤§--}+ L¬&%Y+
¤§--}+ ±-+'.+ =
t+% *+ ²-*'*+
Algarismos Significativos
(1) Uma massa foi determinada como 3,2 g em uma balança com incerteza de
±0,1 g e outra massa foi determinada como 0,2032 g em uma balança com
incerteza de ±0,0001 g. Calcule a soma das duas massas.
3,2
+0,2032
______
3,4032
O resultado deve ser expresso com uma casa decimal, ou seja, 3,4 g.
(2) A massa de um material foi determinada como 7,31 g em uma balança com
incerteza de ±0,01 g. Cortou-se um pedaço do material e a massa desse
pedaço foi determinada como 1,2058 g em uma balança com incerteza de
±0,0001 g. Calcule a massa do restante do material.
7,31
–1,2058
______
6,1042
O resultado deve ser expresso com duas casas decimais, ou seja, 6,10 g.
Arredondamento
(1) Uma massa foi determinada como 3,2 g em uma balança com incerteza de
±0,1 g e outra massa foi determinada como 0,4532 g em uma balança com
incerteza de ±0,0001 g. Calcule a soma das duas massas.
3,2
+0,4532
______
3,6532
O resultado deve ser expresso com uma casa decimal e deve ser arredondado,
aumentando uma unidade na primeira casa decimal, ou seja, 3,7 g.
(2) A massa de um material foi determinada como 7,31 g em uma balança com
incerteza de ±0,01 g. Cortou-se um pedaço do material e a massa desse
pedaço foi determinada como 1,1226 g em uma balança com incerteza de
±0,0001 g. Calcule a massa do restante do material.
7,31
–1,1226
______
6,1874
O resultado deve ser expresso com duas casas decimais, aumentando uma
unidade na segunda casa decimal, ou seja, 6,19 g.
Multiplicação e Divisão com Algarismos Significativos
• Erros aleatórios (ou indeterminados). São devidos a variáveis que não estão
sob controle durante o experimento. A probabilidade de o erro aleatório ser
positivo ou negativo é a mesma. Este tipo de erro sempre está presente e
não pode ser corrigido. Uma pessoa, lendo a mesma escala de um
instrumento diversas vezes, provavelmente obterá leituras diferentes a cada
vez, devido às interpolações subjetivas que são feitas entre as marcações da
escala. Ruídos elétricos aleatórios em equipamentos também levam a
flutuações positivas e negativas nas medidas. Por sua natureza aleatória,
este tipo de erro pode ser tratado estatisticamente.
Propagação da Incerteza, a partir do Erro Aleatório
Adição e Subtração
- = ¾- + - + -
- = <0,0017
- = ±0,04
Normalmente, utiliza-se representar o primeiro algarismo não significativo como
subscrito (±0,041) para evitar erros de arredondamento nos cálculos subseqüentes
que utilizem esse número.
0,04
%- = × 100% = 1, %
3,06
Multiplicação e Divisão
0,03
%-
= × 100% = 1, %
1,76
0,02
%- = × 100% = 1,
%
1,89
0,02
%- = × 100% = 3, %
0,59
Calcula-se, assim, o valor da incerteza relativa percentual %e4, do resultado da
operação acima, conforme mostrado abaixo.
%- = <15,66
%- = 4,a %
%-
- = × .+% *% -&Y+*%
100
4,0
- = × 5,64
100
- = ±0, 2
1
=
1
&=¿ −
− 1
/
=
± }
√
&
=
±
√
Solução: Usaremos a Tabela A1 do apêndice. Temos de encontrar o valor de z cuja área entre -z
e +z seja de 95%. Nesse caso, a área fora desse intervalo é dada pelo cálculo 1–0,95 = 0,05.
Logo, a área acima de z é dada por 0,05/2 = 0,025. A Tabela A1 fornece as áreas abaixo de z.
Portanto, temos de encontrar o valor de z cuja área à esquerda seja 1–0,025 = 0,975. Procurando
na Tabela A1, encontramos z = 1,96. Portanto a média populacional está no intervalo de
confiança abaixo, com probabilidade de 95%.
0,03
= 3,78 ± 1,96 ×
√9
0,03
= 3,78 ± 1,96 ×
3
= 3,78 ± 0,01
Solução: Usaremos a Tabela A3 do apêndice. Temos de encontrar o valor de t cuja área entre -t
e +t seja de 95%, com N–1 = 9–1 = 8 graus de liberdade (gl). Procurando na Tabela A3, para
95% e gl=9, encontramos t = 2,306. Portanto a média populacional está no intervalo de
confiança abaixo, com probabilidade de 95%.
0,03
= 3,78 ± 2,306 ×
√9
0,03
= 3,78 ± 2,306 ×
3
= 3,78 ± 0,02a
Probabilidades à Esquerda
P(Z<a)
a
a | 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
----+-------------------------------------------------------------------------------
0.0 | 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 | 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 | 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 | 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 | 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 | 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 | 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 | 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 | 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 | 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 | 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 | 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 | 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 | 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 | 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 | 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 | 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 | 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 | 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 | 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 | 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 | 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 | 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 | 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 | 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 | 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 | 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 | 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 | 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 | 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 | 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
graus de liberdade.
A2. Tabela de probabilidades para a distribuição t de Student unilateral com