Você está na página 1de 91

MIISTÉRIO DA EDUCAÇÃO

UIVERSIDADE FEDERAL DO PIAUÍ


CETRO DE CIÊCIAS DA ATUREZA
DEPARTAMETO DE QUÍMICA

ESTATÍSTICA APLICADA À QUÍMICA

Prof. Dr. Alexandre Araujo de Souza

Teresina – PI
2010-2
SUMÁRIO

CARGA
ASSUNTO
HORÁRIA
1. Conceitos Fundamentais em Estatística. Organização de
dados quantitativos. Estatística descritiva. População e
amostra. Distribuições de frequências. Tabelas. Gráficos. 04 h
Histogramas. Medidas de tendência central e de dispersão:
média, mediana, moda, variância, desvio-padrão. Freqüência
relativa e probabilidade.
2. Aplicação da Matemática à Estatística. Variável aleatória.
Distribuições de probabilidade. A distribuição normal.
Esperança. Variância. Distribuição amostral das médias.
Estatística inferencial. Teste de hipóteses. Hipótese nula. 12 h
Testes unilaterais e bilaterais. Erros do tipo I e do tipo II. Nível
de significância. Teste Z. Teste t. Teste F. Intervalos de
confiança.
3. Métodos Gráficos e Numéricos. Diagramas de dispersão.
Correlação linear. Coeficiente de correlação de Pearson, r.
Coeficiente de determinação, r2. Teste de hipóteses sobre a 04 h
correlação. Regressão linear simples. Método dos mínimos
quadrados. Análise de resíduos.
4. Fontes de Erro em Análise Química. Algarismos
significativos. Erro e desvio de uma medida. Exatidão e
precisão. Tipos de erros: determinados e indeterminados.
Precisão de uma medida. Limite de confiança da média. 10 h
Propagação de erros. Rejeição de resultados: teste Q.
Amostragem. Padronização. Calibração. Validação. Certificação
da qualidade.
Capítulo 1. Conceitos Fundamentais em Estatística.

Introdução

Estatística é a ciência que faz uso efetivo dos dados numéricos relativos a
grupos de indivíduos ou experimentos. Nesse sentido, ela trata de todos os aspectos,
incluindo não só a coleta, organização, análise e interpretação dos dados, mas
também o planejamento da coleta de dados. Importante dizer que todos os métodos
estatísticos baseiam-se na teoria das probabilidades. A Estatística é bastante útil para
orientar a tomada de decisões baseada na análise de um número muito grande de
dados, tal como pesquisas de opinião pública e de mercado. A palavra estatística
também pode ser usada para significar o próprio conjunto de dados, ou as grandezas
a ele associadas, tais como a média e o desvio-padrão. Assim, num conjunto de
dados, podemos dizer que a média é uma estatística.

A etimologia, ou origem da palavra Estatística, mostra que ela deriva da


palavra Estado. De fato, a expressão em Latim Moderno, statisticum collegium
(conselho de Estado) e a palavra em Italiano, statista (homem de Estado, Político),
fizeram com que o filósofo alemão Gottfried Achenwall (1719-1772) introduzisse o
termo em Alemão, Statistik, em 1749, significando “análise dos dados sobre o Estado”.
Assim, a Estatística foi originalmente desenvolvida para resolver questões de Estado,
tais como taxas de nascimento e de mortalidade, impostos, heranças, fortunas, etc.

Apesar de sua origem peculiar, a Estatística é hoje utilizada nas mais diversas
áreas. Ela está presente nas teorias mais fundamentais da Física Moderna, como a
Mecânica Quântica, e hoje se sabe que a natureza das partículas fundamentais é
governada por leis estatísticas. Nas áreas de Saúde, a Estatística é conhecida como
Bioestatística. O nome pode ser diferente, mas os métodos são os mesmos, sendo
apenas as aplicações específicas para as áreas de Saúde. A Química utiliza bastante
a Estatística, em suas diversas áreas. Entretanto, a área que mais faz uso da
Estatística é a Química Analítica. Nesse sentido, a compreensão da teoria de erros
e da obtenção de retas de regressão, pelo método dos mínimos quadrados, estão
entre os pontos mais relevantes. Reconhecer os tipos de erros em análises
químicas, saber como é a propagação dos erros e como eles afetam o resultado é
de suma importância para o químico. As retas de regressão são bastante usadas nas
curvas de calibração, empregadas em diversas técnicas de análises quantitativas.
População e Amostra

População é o conjunto de todos os elementos, ou resultados, do grupo em


que estamos interessados em estudar alguma característica. Um exemplo são todos
os brasileiros do sexo feminino. Elas constituem uma população, caso queiramos
estudar alguma característica delas, por exemplo, a estatura. Outro exemplo, se
formos fabricantes de postes de concreto para iluminação e tivermos de testar a
resistência à ruptura dos postes, para atender às normas técnicas, então toda a
produção será a nossa população. Repare que, coletar os dados de uma população,
muitas vezes é inviável, pois o custo é muito alto, como no caso da pesquisa com
todas as brasileiras. Em outros casos, a coleta de dados da população destruiria toda
a população, como no caso dos postes de concreto para iluminação. O ensaio de
resistência à tração danifica os postes. Não é sensato realizar esse experimento na
população, pois se trata de toda a sua produção.

Uma população pode ser finita ou infinita. Nos casos acima, as populações
são finitas. Se uma moeda é jogada uma única vez, a população, P é constituída pelo
conjunto de todos os resultados possíveis, ou seja, P = {cara;coroa}. Se uma moeda é
jogada duas vezes, a população, P é constituída pelo conjunto de todos os resultados
possíveis, ou seja, P = {cara/cara; cara/coroa; coroa/cara; coroa/coroa}. Nesses dois
exemplos, as populações são finitas. No primeiro caso, a população tem 21 = 2 (dois)
elementos. No segundo caso, a população tem 22 = 4 (quatro) elementos. Entretanto,
considere uma moeda sendo jogada várias vezes, indefinidamente. A cada jogada, dá
cara ou coroa. A população, nesse caso é infinita, pois consiste nas infinitas
possibilidades de resultados possíveis. Se uma moeda for jogada n vezes, o tamanho
da população será dado por 2n.

Exercício Resolvido.

Se uma moeda for jogada três vezes (n=3), primeiro calcule o tamanho da população e depois escreva o
conjunto de resultados P que representa a população.

Resolução:

Tamanho da população = 23 = 8 (oito)

P = {cara/cara/cara; cara/cara/coroa; cara/coroa/cara; coroa/cara/cara; coroa/cara/coroa; coroa/coroa/cara;


cara/coroa/coroa; coroa/coroa/coroa}
Amostra é um subconjunto de uma população. É uma fração de elementos,
coletada da população, para fins de análise. Os dados geralmente são coletados a
partir de amostras. Esse processo de coleta de dados é denominado amostragem. A
amostra deve ser representativa da população. Por exemplo, se resolvermos
pesquisar apenas brasileiras de uma cidade onde a média das mulheres é mais alta
que a média nacional, então chegaremos à conclusão errada de que a mulher
brasileira é mais alta do que realmente é. Esse é um exemplo de uma amostra que
não é representativa. Uma amostra representativa deve conter brasileiras de diversas
cidades, de regiões bem distintas do Brasil, com estaturas médias bastante variadas.
No caso da produção de postes de concreto para iluminação, apenas uma pequena
fração da produção (amostra) deverá ser sacrificada para atender à norma técnica.

No caso de uma moeda que foi jogada apenas duas vezes (n=2), apesar do
tamanho da população ser pequeno (22=4), a quantidade de amostras possíveis é bem
grande, pois cada subconjunto é uma amostra. Só para se ter uma idéia, e lembrando
que o conjunto vazio { }, bem como o conjunto todo, são sempre subconjuntos de
qualquer conjunto, podemos escrever aqui apenas algumas das amostras possíveis
para essa pequena população: P={cara/cara; cara/coroa; coroa/cara; coroa/coroa}.
Teremos amostras com zero, um, dois, três e quatro elementos. O tamanho da
amostra é o número de elementos da amostra. Este exemplo foi colocado para ilustrar
que há sempre uma enorme quantidade de amostras, para qualquer população.

• Amostras (subconjuntos) possíveis para uma população onde uma moeda foi
jogada duas vezes:

A01 = { }
A02 = {cara/cara}
A03 = {cara/coroa}
A04 = {coroa/cara}
A05 = {coroa/coroa}
A06 = {cara/cara; cara/coroa}
A07 = {cara/cara; coroa/cara}
A08 = {cara/cara; coroa/coroa}
A09 = {cara/cara; cara/coroa; coroa/cara}
A10 = {cara/cara; cara/coroa; coroa/coroa}

Afinal = {cara/cara; cara/coroa; coroa/cara; coroa/coroa}.
Organização de Dados Quantitativos

Os dados quantitativos são representados por números e são denominados


variáveis aleatórias. Para se utilizar a Estatística, os dados devem ser organizados
em tabelas e gráficos. O exemplo a seguir trata da análise de íons cloreto [Cl–] da
água tratada em um município brasileiro. Os valores das concentrações de cloreto na
água, medidos em 25 coletas são apresentados abaixo, em mg/L.

Concentrações de íons cloreto [Cl–] medidas em 25 coletas de água tratada em um município


brasileiro. As unidades estão em mg/L.

254
253 253
252 252 252
251 251 251 251
250 250 250 250 250
249 249 249 249
248 248 248
247 247
246

Os dados acima estão desorganizados. Vamos colocá-los na forma de uma


tabela. A Tabela 1 apresenta os dados obtidos de forma organizada, colocando
para cada valor obtido, a frequência absoluta, f com que ele é observado. Por
exemplo, o valor 250 foi observado em 5 (cinco) coletas. Portanto, a frequência
absoluta do valor 250 é f = 5. A frequência relativa, fr representa a fração que o valor
é observado. Por exemplo, o valor 250 é observado numa fração de fr = 0,20. Ou seja,
em 20% das observações.

A frequência relativa, fr é calculada dividindo-se a frequência absoluta , f


pelo tamanho da amostra, N.


 =


Tabela 1. Concentração de íons cloreto [Cl–] medidos na água tratada de um município


brasileiro. As unidades de concentração estão em mg/L. Tamanho da amostra,
=25. f = frequência absoluta. fr =frequência relativa.
[Cl–] 246 247 248 249 250 251 252 253 254
f 1 2 3 4 5 4 3 2 1
fr 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
A somatória de todas as frequências absolutas é numericamente igual ao
tamanho da amostra. Podemos ver isso no exemplo da Tabela 1, fazendo a conta:

1+2+3+4+5+4+3+2+1 = 25

Essa igualdade é representada pela equação abaixo, onde foi utilizado o


símbolo de somatória, representado pela letra grega sigma maiúscula, Σ.

 = 

A somatória de todas as frequências relativas é numericamente igual à


unidade. Podemos ver isso no exemplo da Tabela 1, fazendo a conta:

0,04 + 0,08 + 0,12 + 0,16 + 0,20 + 0,16 + 0,12 + 0,08 + 0,04 = 1

Essa igualdade é representada pela equação abaixo, onde foi utilizado o


símbolo de somatória, representado pela letra grega sigma maiúscula, Σ.

  = 1

Os dados da Tabela 1 podem ser visualizados na forma gráfica. Uma forma


bastante usual é o histograma de frequências. Nesse gráfico, a grandeza medida, ou
variável aleatória, é colocada no eixo horizontal (abscissa) e a frequência absoluta,
ou a relativa, no eixo vertical (ordenada). A Figura 1 mostra o histograma de
frequências para os dados da Tabela 1.

0,20

0,15

0,10
fr

0,05

0,00
246 247 248 249 250 251 252 253 254
-
[Cl ]/mg/L

Figura 1. Histograma de frequências para os dados da Tabela 1.


Observa-se, no histograma de frequências da Figura 1, que a
distribuição dos valores da variável aleatória é simétrica em relação a um
valor central, igual a 250 mg/L. Esse comportamento é compatível com um
tipo de distribuição de probabilidade que será visto mais adiante, denominada
distribuição normal.

Medidas de Tendência Central

Um conjunto de dados pode ser representado por um único número,


denominado média. Trata-se de uma medida de tendência central cujo significado vai
ficar mais claro à medida que os exemplos forem sendo dados.

Considere o seguinte conjunto de dados:

x1 = 40 x4 = 43

x2= 41 x5 = 44

x3 = 42 x6 = 45

A média aritmética simples de um conjunto de dados, ou simplesmente


média é definida pela soma entre todos os elementos do conjunto, com a subsequente
divisão pelo número de elementos do conjunto.

Se o conjunto de dados for uma população, a média populacional é


representada pela letra grega mi minúscula, µ. Caso o conjunto de dados seja uma
.
amostra, a média amostral é representada pela por um  com uma barra em cima, 
Quem vai determinar se o conjunto de dados é uma população ou uma amostra é a
pessoa que está fazendo a estatística dos dados.

Vamos considerar que os dados acima sejam uma amostra. Então a média
amostral será dada por:

1

=  +  +  +  +  +  
6

1

= 40 + 41 + 42 + 43 + 44 + 45
6
1

= 255
6


= 42,5

A fórmula geral da média aritmética simples é dada pelas equações abaixo,


onde o i que aparece é denominado índice e é um número inteiro que varia, por
exemplo, de 1 a n, no caso de uma população, ou seja: i = 1, 2, 3, ..., n...

• Fórmula para a média populacional. O tamanho da população é n.

1
=  



• Fórmula para a média amostral. O tamanho da amostra é N.

1

=  



No caso de dados, como os da Tabela 1, em que temos as frequências, o


cálculo da média pode ser feito de uma das seguintes formas:

• Fórmula para a média amostral, usando as frequências absolutas, . O


tamanho da amostra é N.

1

=   


• Fórmula para a média amostral, usando as frequências relativas,  Neste
caso, não é preciso dividir pelo tamanho da amostra.


=   


Façamos os cálculos com os dados da Tabela 1, das duas formas. Primeiro


usando as frequências absolutas:

1

= 1 246 + 2 247 + 3 248 + 4 249 + 5 250 + 4 251 + 3 252 + 2 253 + 1 254#
25

1

= 6250#
25


= 250

Agora, refaçamos o cálculo da média, usando as frequências relativas:


= 0,04 246 + 0,08 247 + 0,12 248 + 0,16 249 + 0,20 250 + 0,16 251 + 0,12 252
+ 0,08 253 + 0,04 254#


= 250

Observem que os valores calculados para as médias foram o mesmo, pelos


dois métodos, ou seja, obteve-se uma média de 
= 250 mg/L para a concentração de
íons cloreto na água tratada desse município brasileiro. Olhando para o histograma de
frequências da Figura 1, vemos que esse valor coincide com o valor central da
distribuição de frequências. Para uma distribuição simétrica como essa, a média
coincide com o valor central da distribuição. Isso ocorre na distribuição normal, a
qual será vista mais adiante. Por esta razão, a média é considerada uma medida de
tendência central.

Outras medidas de tendência central são a moda e a mediana. A moda é


simplesmente o valor da variável que possui a maior frequência. No caso dos
dados da Tabela 1, a moda é 250 mg/L, pois é o valor que possui a maior frequência.
A mediana é o valor central, que divide o conjunto de dados em partes iguais.
Os valores dos dados devem ser previamente colocados em ordem crescente.
Sendo N o tamanho da amostra, a posição da mediana pode ser encontrada pela
equação abaixo.

+1
$%&'çã% *+ ,-*'++ =
2

Considere o seguinte conjunto, com um número ímpar de dados (N=11):

40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50

A posição da mediana será: (11+1)/2 = 6º lugar. O valor da mediana será 45.

Considere, agora, o seguinte conjunto, com um número par de dados (N=10):

40, 41, 42, 43, 44, 45, 46, 47, 48, 49

A posição da mediana será: (10+1)/2 = 5,5. Isso significa que a mediana está
entre o 5º e o 6º lugar. Neste caso, o valor da mediana é a média entre os valores que
estão no 5º e no 6º lugar. Logo, o valor da mediana será (44+45)/2 = 44,5.

A mediana é bastante útil quando temos um valor muito discrepante dos


demais. Por exemplo, as vendas de hambúrguer numa lanchonete foram medidas num
período de 10 dias. Entretanto, em um determinado dia, no 4º dia, houve uma grande
festa na lanchonete e a venda foi muito mais alta. Vejamos os dados na Tabela 2.

Tabela 2. Número de hambúrgueres vendidos, em uma determinada lanchonete, em


um período de 10 dias.

Dia 1 2 3 4 5 6 7 8 9 10
Vendas 48 47 52 320 50 45 46 53 44 49

Vamos calcular a média para os dados acima:

1

= 48 + 47 + 52 + 320 + 50 + 45 + 46 + 53 + 44 + 49#
10

1

= 754#
10


= 75,4
Vamos calcular a mediana, agora. Mas, para isso, primeiro temos que colocar
os dados em ordem crescente, na Tabela 3.

Tabela 3. Número de hambúrgueres vendidos, em uma determinada lanchonete, em


um período de 10 dias. Dados colocados em ordem crescente.

Dia 9 6 7 2 1 10 7 3 8 4
Vendas 44 45 46 47 48 49 50 52 53 320

A posição da mediana será: (10+1)/2 = 5,5. Então, a mediana está entre o 5º e


o 6º lugar. Neste caso, o valor da mediana é a média entre os valores que estão no 5º
e no 6º lugar, na Tabela 3. Logo, o valor da mediana será (48+49)/2 = 48,5.

A média é 75,4 e a mediana, 48,5. Qual dessas duas medidas reflete melhor as
vendas diárias da lanchonete? É óbvio que é a mediana. E sabe por quê? Porque a
mediana não é afetada por valores extremos. Já o valor da média ficou bem alto,
justamente por causa do valor extremo, 320. Nem sempre a média é a melhor medida.

Medidas de Dispersão

A dispersão de um conjunto de dados pode ser representado por um único


número, denominado variância cujo significado vai ficar mais claro à medida que os
exemplos forem sendo dados. A variância é calculada de forma diferente, caso o
conjunto de dados seja uma população, ou uma amostra. E lembre-se que é a pessoa
que está fazendo a estatística dos dados que vai determinar se o conjunto de dados é
uma população ou uma amostra.

• Fórmula para a variância populacional, var(x)=σ 2. A variância populacional é


representada pelo quadrado da letra grega sigma minúscula, σ. O tamanho da
população é n.

1
.+  = /  =   − 


• Fórmula para a variância amostral. A variância amostral é representada pelo
quadrado da letra romana s minúscula. O tamanho da amostra é N.

1
& =   − 

 − 1


A variância tem o significado de ser uma média dos quadrados dos


desvios entre cada valor e a média amostral, ou populacional. Se todos esses
desvios fossem zero,  − 
 = 0, a variância seria zero. Verifique que, se o tamanho
da amostra for muito grande, não fará diferença usar N–1 ou N no denominador da
última equação para s2. A diferença só é relevante para amostras pequenas.

Considere o seguinte conjunto de dados abaixo, cuja média é 42,5.

x1 = 40 x4 = 43

x2= 41 x5 = 44

x3 = 42 x6 = 45

Se o conjunto de dados acima for uma população de media µ=42,5 e tamanho


n=6, então a variância populacional é calculada da seguinte forma:

1
/ =  40 − 42,5 + 41 − 42,5 + 42 − 42,5 + 43 − 42,5 + 44 − 42,5 + 45 − 42,5 #
6

1
/ = 17,5#
6

/  = 2,91666 …

23 ≈ 3, 43
Se o conjunto de dados acima for uma amostra de media 
= 42,5 e tamanho
N=6, então a variância amostral é calculada da seguinte forma:

1
& =  40 − 42,5 + 41 − 42,5 + 42 − 42,5 + 43 − 42,5 + 44 − 42,5
6 − 1
+ 45 − 42,5 #

1
& = 17,5#
5

53 = 6, 7

Existe uma fórmula prática para calcular a variância populacional, que é a


seguinte.

.+  = 888
  − 


É fácil obter o valor de 


 = 42,5 = 1806,25.

O valor de 888
  é obtido a partir da média dos quadrados dos valores de x.

x12 = (40)2= 1600 x42 = (43)2= 1849

x22= (41)2= 1681 x52 = (44)2= 1936

x32 = (42)2= 1764 x62 = (45)2= 2025

888 1
  = 1600 + 1681 + 1764 + 1849 + 1936 + 2025
6

888 1
  = 10855
6
888
  = 1809,1666 …

888 ≈ 1809,17

Assim, a variância é calculada pela diferença:

888 − 

.+  = 

.+  = 1809,17 − 1806,25

9:;  = 3, 43

A variância tem a desvantagem de ter unidades da variável ao quadrado. Por


isso, define-se uma medida de dispersão muito utilizada denominada desvio-padrão
como sendo a raiz quadrada da variância. Assim, teremos as seguintes equações.

• Desvio-padrão populacional:

/ = </  = <.+ 

• Desvio-padrão amostral:

& = <& 

Vamos agora comparar dois conjuntos de dados amostrais, com variâncias


distintas. Primeiramente, vamos utilizar os dados da Tabela 1. Na Tabela 4,
reproduzimos esses dados e acrescentamos os quadrados das concentrações de
cloreto, para ficar mais fácil calcular a variância. Vamos supor, somente por
simplicidade de cálculo, que esses dados sejam referentes a uma população.

Tabela 4. Concentração de íons cloreto [Cl–] medidos na água tratada de um município


brasileiro. As unidades de concentração estão em mg/L. Tamanho da amostra,
=25. f = frequência absoluta. fr =frequência relativa.
[Cl–] 246 247 248 249 250 251 252 253 254
[Cl–]2 60516 61009 61504 62001 62500 63001 63504 64009 64516
f 1 2 3 4 5 4 3 2 1
fr 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
3 = 37=3 = >37==


1
888
 = 1 60516 + 2 61009 + 3 61504 + 4 62001 + 5 62500 + 4 63001 + 3 63504
25
+ 2 64009 + 1 64516#

1
888
 = 1562600#
25
888
3 = >37=?

.+  = 888
2 − 
2

.+  = 62504 − 62500

9:;  = ?

• Desvio-padrão populacional: 2 = √? = ±3 mg/L

Os dados da Tabela 1 constituem uma distribuição simétrica, muito similar a


uma distribuição normal e possuem média 250 mg/L e desvio-padrão ±2 mg/L.

Vamos calcular, agora, a média e a variância para o conjunto de dados da


Tabela 5, assumindo que se trata de uma população. A Figura 2 apresenta o
histograma de frequências para os dados da Tabela 5.

Tabela 5. Concentração de íons cloreto [Cl–] medidos na água tratada de um município


brasileiro. As unidades de concentração estão em mg/L. Tamanho da amostra,
=25. f = frequência absoluta. fr =frequência relativa.
[Cl–] 246 247 248 249 250 251 252 253 254
[Cl–]2 60516 61009 61504 62001 62500 63001 63504 64009 64516
f 1 1 2 8 8 8 2 1 1
fr 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
0,25

0,20

0,15

fr
0,10

0,05

0,00
246 247 248 249 250 251 252 253 254
-
[Cl ] / mg/L

Figura 2. Histograma de frequências para os dados da Tabela 5.

1

= 1 246 + 1 247 + 2 248 + 8 249 + 8 250 + 8 251 + 2 252 + 1 253 + 1 254#
25
1

= 8000#
32

= 37=


3 = 37=3 = >37==


1
888
 = 1 60516 + 1 61009 + 2 61504 + 8 62001 + 8 62500 + 8 63001 + 2 63504
32
+ 1 64009 + 1 64516#

1
888
 = 2000082#
32
888
3 = >37=3, 7>37

.+  = 888
2 − 
2

.+  = 62502,5625 − 62500

9:;  = 3, 7>37

• Desvio-padrão populacional: 2 = <3, 7>37 = ±B, >


Os dados da Tabela 5 constituem uma distribuição simétrica, muito similar à
uma distribuição normal e possuem média 250 mg/L e desvio-padrão ±1,6 mg/L. Com
relação aos dados da Tabela 1, a média manteve-se a mesma. Entretanto, o desvio-
padrão apresentou-se menor no segundo caso. Esse fato pode ser visualizado pela
comparação dos histogramas de frequência das Figuras 1 e 2. No primeiro caso, os
dados estão mais dispersos, enquanto que, no segundo caso, os dados estão mais
concentrados em torno do valor central. Em outras palavras, a dispersão dos dados é
maior no primeiro caso e esse fato é medido pelo valor maior do desvio-padrão da
distribuição de frequências.

0,20 0,25

0,20
0,15

0,15

0,10
fr

fr

0,10

0,05
0,05

0,00 0,00
246 247 248 249 250 251 252 253 254 246 247 248 249 250 251 252 253 254
- -
[Cl ]/mg/L [Cl ] / mg/L

Figura 1. Histograma de frequências Figura 2. Histograma de frequências


para os dados da Tabela 1. para os dados da Tabela 5.

µ = 250 mg/L ; σ = ±2,0 mg/L µ = 250 mg/L ; σ = ±1,6 mg/L


Dados Agrupados

Muitas vezes, os dados aparecem na forma de dados agrupados, como


ocorre na Tabela 6.

Tabela 6. Peso de pessoas que trabalham em certa companhia. (N=40)

Peso / kg Frequência Absoluta


64-66 16
67-69 21
70-72 2

Para se calcular a média em um conjunto de dados como esse, devemos fazer


a suposição de que a distribuição dos pesos é uniforme dentro de cada classe. O
histograma de frequências da Figura 3 ilustra esse conceito.

20
frequência absoluta

15

10

0
64 65 66 67 68 69 70 71

pesos / kg

Figura 3. Histograma de frequências para os dados agrupados da Tabela 6.

Assim, a média da distribuição pode ser calculada através da equação abaixo,


onde C é o ponto médio de cada classe. Façamos o cálculo para o exemplo da
Tabela 6.

1

=   


1

= 16 65 + 21 68 + 2 71#
40


1

= 2610#
40

= >7, 37


Vamos supor que tivéssemos acesso aos dados mais completos e


pudéssemos construir a tabela de dados agrupados mostrada na Tabela 7.

Tabela 7. Peso de pessoas que trabalham em certa companhia. (N=40)

Peso / kg Frequência Absoluta


64 3
65 5
66 8
67 11
68 7
69 3
70 2
72 1

Agora podemos calcular a média e comparar com aquela anteriormente feita,


com a suposição de que a distribuição dos pesos é uniforme dentro de cada classe. O
histograma de frequências da Figura 4 mostra a real distribuição dos pesos.

10
Frequência Absoluta

0
64 65 66 67 68 69 70 71 72

Pesos / kg

Figura 4. Histograma de frequências para os dados da Tabela 7.


1

=   



1

= 3 64 + 5 65 + 8 66 + 11 67 + 7 68 + 3 ∗ 69 + 3 70 + 1 72#
40
1

= 2747#
40

= >E, >E


Comparando com os resultados da médias calculadas com os dados


agrupados das Tabelas 6 e 7, verificamos que há um erro: ∆
= 68,68 − 65,25 = 3,43.
O mesmo se dará ao se calcular a variância. Esse erro se deveu ao fato de termos
poucos dados agrupados na Tabela 6 e de termos feito a suposição de que a
distribuição dos pesos é uniforme dentro de cada classe. Entretanto, não há outra
suposição razoável que se possa fazer. Logo, muitas vezes, pela falta de dados,
temos de aceitar o fato de que haverá um erro.

Probabilidade

Experimento Aleatório

No experimento exemplificado anteriormente, a concentração de íons cloreto


foi medida na água tratada de um município brasileiro. O que se obteve como
resultado foi uma distribuição de valores. Por que não se obteve um valor único? Por
várias razões. Talvez a concentração dos íons cloreto seja realmente diferente em
cada ponto de coleta, ou então pode ter havido erros de vários tipos durante as
determinações quantitativas. Quando um experimento pode resultar em uma
distribuição de resultados possíveis, ele é denominado experimento aleatório.
Esse é o tipo de experimento que interessa para a Estatística. Uma variável medida
em um experimento aleatório, como a concentração dos íons cloreto, é denominada
variável aleatória. A jogada de uma moeda, M vezes, também é um experimento
aleatório, pois resulta em uma distribuição de resultados possíveis, caras e coroas,
que são as variáveis aleatórias.
Espaço Amostral

O conjunto de todos os resultados possíveis para a variável aleatória é


denominado espaço amostral. Nesse sentido, o espaço amostral tem o mesmo
sentido da população definida anteriormente. No caso das concentrações de íons
cloreto, esse conjunto tem um tamanho infinito, pois há uma quantidade infinita de
valores possíveis para os resultados. Entretanto, há espaços amostrais de tamanho
finito, como é o caso do experimento aleatório de uma moeda sendo jogada M vezes.
O tamanho do espaço amostral, neste caso, será dado por 2M. Para simplificar a
notação, representaremos o resultado cara pela letra K e coroa pela letra C.

Cara = K
Coroa = C

Desde já vamos deixar bem claro que a jogada de uma única moeda M vezes
e uma única jogada de M moedas são experimentos aleatórios completamente
equivalentes, com os mesmos espaços amostrais.

O espaço amostral, para a jogada de uma moeda, possui 21 = 2 elementos é


dado pelo conjunto, A1 abaixo. O espaço amostral, para a jogada de duas moedas,
possui 22 = 4 elementos é dado pelo conjunto, A2 abaixo. O espaço amostral, para a
jogada de três moedas, possui 23 = 8 elementos e é dado pelo conjunto, A3 abaixo.

A1 = {K, C}
A2 = {KK, KC, CK, CC}
A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC}

Evento

Evento é todo subconjunto de um espaço amostral. Nesse sentido, evento


tem o mesmo sentido da amostra definida anteriormente. Usando o exemplo acima, da
jogada de três moedas, podemos escrever alguns eventos abaixo, em relação ao
espaço amostral A3, com seus significados escritos ao lado.
E3,1 = {KKK, KKC, KCK, KCC}: Sair cara no lançamento da primeira moeda.

E3,2 = {KKC, KCK, CKK}: Sair exatamente uma coroa.

E3,3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK}: Sair no máximo duas coroas.

E3,4 = {KKK, KKC, KCK, CKK}: Sair pelo menos duas caras.

E3,5 = {KKK}: Não sair nenhuma coroa.

Probabilidade de um Evento

Para chegar ao conceito de probabilidade, vamos usar os exemplos vistos


anteriormente. Considere o espaço amostral para o lançamento de três moedas, A3 e
o evento que seja sair pelo menos duas caras, E3,4.

A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC}


E3,4 = {KKK, KKC, KCK, CKK}: Sair pelo menos duas caras.

A pergunta é a seguinte: no lançamento de três moedas, qual é a


probabilidade de sair pelo menos duas caras?

A maneira formal de definir probabilidade considera o seguinte:

N E = número de elementos do evento.


N A = número de elementos do espaço amostral.

Assim, a probabilidade, P(E) de ocorrência do evento E, no espaço


amostral A, é dada pela seguinte razão:

 K
J K =
 L

Para o exemplo acima, o cálculo da probabilidade fica assim:

 K 4 1
J K = = = = 0,50
 L 8 2

O resultado foi P E=0,50 ou seja, há 50% de chance de sair pelo menos duas
caras no lançamento de três moedas.
Exercício Resolvido.
Uma moeda é jogada 2 vezes. Calcule a probabilidade de sair cara na primeira jogada e coroa na segunda.
Resolução:
Primeiro escrevem-se o espaço amostral e o evento, com os respectivos tamanhos.

A2 ={KK, KC, CK, CC}; N(A) = 4; E2,1 = {KC}; N(E) = 1

A seguir, calcula-se a probabilidade do evento, pela equação abaixo.


 K 1
J K = = = 0,25
 L 4
Logo, há 25% de chance de sair cara na primeira jogada e coroa na segunda.

Frequência Relativa e Probabilidade

Uma segunda forma de definir probabilidade é através do conceito de


frequência relativa. Neste caso, definimos as seguintes grandezas:

nE = número de vezes que o evento E é observado.


N = números de vezes que o experimento aleatório é repetido.

Assim, a frequência relativa, f de ocorrência do evento E, no experimento


aleatório, é dada pela seguinte razão:

N
=


No lançamento de três moedas, a frequência relativa de sair pelo menos duas


caras depende do número de repetições e do que foi observado. Se o experimento foi
repetido N=100 vezes e obtiveram-se pelo menos duas caras em nE = 48 vezes, então
a frequência relativa de sair pelo menos duas caras, neste caso foi f=0,48.
Acompanhe o cálculo abaixo.

N 48
= = = 0,48
 100
Verifique que o valor obtido aproxima-se bastante do valor calculado para a
probabilidade (P=0,50). De fato, o valor da frequência relativa tende para o valor da
probabilidade, quando o experimento aleatório for repetido um número muito grande
de vezes. Por isso, é válida a seguinte definição de probabilidade, que utiliza o
conceito de limite, quando N tender a infinito (∞).

N
J = lim W X
T→V 

Probabilidade da União de dois Eventos Mutuamente Excludentes

A união de dois conjuntos A e B, simbolizada por A«B, é o conjunto que


contém todos os elementos dos dois conjuntos. Por exemplo, considere os
conjuntos A e B a seguir:

A = {1,3,5,7,9}

B = {0,2,4,6,8}

Os conjuntos A e B acima não contêm nenhum elemento em comum. São


assim chamados conjuntos disjuntos, ou mutuamente excludentes. Diz-se que a
interseção entre eles é vazia, ou seja; A…B = { }. A união A»B será o conjunto dado
abaixo:

A»B = {0,1,2,3,4,5,6,7,8,9}

Agora vamos tratar da probabilidade da união de dois eventos mutuamente


excludentes. A probabilidade da união de dois eventos A e B, mutuamente
excludentes, é igual à soma das probabilidades de cada evento individual.

A probabilidade da união de dois eventos A e B é interpretada como a


probabilidade de ocorrência do evento A ou do evento B.

J L %Y Z = J L ∪ Z = J L + J Z (Eventos mutuamente excludentes)


Considere, agora, uma moeda sendo jogada duas vezes. Já vimos que o
espaço amostral é dado pelo conjunto abaixo:

A2 = {KK, KC, CK, CC}

Vamos considerar dois eventos que sejam mutuamente excludentes. Por


exemplo:

E2,1 = {KK}: Sair duas caras.

E2,2={KC,CK}: Sair exatamente uma cara (ou uma coroa).

A união desses dois eventos é o seguinte conjunto:

E2,1»E2,2 = {KK, KC, CK}

Pode-se ver que os eventos E2,1 e E2,2 são mutuamente excludentes, pois não
apresentam nenhum elemento em comum. Então podemos calcular a probabilidade da
união dos dois eventos pela equação acima. Primeiro, calculamos as probabilidades
dos eventos individuais.

\K, ] 1
J\K, ] = = = 0,25
 L  4

\K, ] 2
J\K, ] = = = 0,50
 L  4

A seguir, aplicamos a equação da soma, para calcular a probabilidade da união


dos eventos.

J\K2,1 ∪ K2,2 ] = J\K2,1 ] + J K2,2 

J\K2,1 ∪ K2,2 ] = 0,25 + 0,50

J\K2,1 ∪ K2,2 ] = 0,75

Interpretamos a resposta assim: a probabilidade de sair duas caras ou


exatamente uma cara (ou uma coroa) é de 75%. Também podemos dizer que a
probabilidade de ocorrência do evento união E2,1»E2,2 é de 75%. Essa conta só foi
válida dessa forma porque os dois eventos eram mutuamente excludentes. Vamos
aprender, mais a frente, a calcular a probabilidade da união de eventos que não são
mutuamente excludentes.
Probabilidade da Interseção de dois Eventos

A interseção de dois conjuntos A e B, simbolizada por A»B, é o conjunto


que contém todos os elementos que pertencem simultaneamente aos dois
conjuntos. Por exemplo, considere os conjuntos A e B a seguir:

A = {1,2,5,6,9}

B = {0,2,4,6,8}

A interseção entre os conjuntos A e B acima é o conjunto dado abaixo:

A…B = {2,6}

Como se vê, os conjuntos A e B acima possuem dois elementos em comum.


Portanto não são disjuntos, ou seja, não são mutuamente excludentes.

Não há uma fórmula geral para calcular a probabilidade da interseção entre


dois eventos A e B. Por isso, teremos de obter a interseção e contar seu número de
elementos. A partir daí, a interseção passa a ser vista como um evento e a
probabilidade é calculada com a fórmula da probabilidade de um evento.

A probabilidade da interseção de dois eventos A e B é interpretada como


a probabilidade de ocorrência do evento A e do evento B.

Consideremos uma moeda sendo jogada três vezes. Já vimos que o espaço
amostral é dado pelo conjunto abaixo:

A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC}

Vamos considerar os dois eventos seguintes;

E3,1 = {KKC, CCK}: Sair duas caras ou duas coroas, nas duas primeiras jogadas.

E3,2 = {KKC, KCK, CKK}: Sair exatamente duas caras.

A interseção desse dois eventos é dada pelo conjunto abaixo:

E2,1…E2,2 = {KKC}

Logo, a probabilidade da interseção desses dois eventos é calculada pela


equação abaixo.
\E2,1 …E2,2 ] 1
J\E2,1 …E2,2 ] = = = 0,125
 L  8

Interpretamos a resposta assim: a probabilidade de sair duas coroas, nas duas


primeiras jogadas e sair exatamente duas caras é igual a 12,5%. Também podemos
dizer que a probabilidade de ocorrência do evento interseção E2,1…E2,2 é de 12,5%.

Probabilidade Geral da União de dois Eventos

Agora estamos em condições de formular a equação que estabelece a


probabilidade da união de dois eventos A e B, sejam eles mutuamente excludentes, ou
não. A fórmula é bastante geral e é dada abaixo.

J L %Y Z = J L ∪ Z = J L + J Z − J L ∩ Z

No caso dos eventos mutuamente excludentes, o termo P A…B=0 e a


equação torna-se igual àquela que foi vista anteriormente. Assim, vê-se que aquela
equação é um caso particular desta última.

Por exemplo, considere, agora, uma moeda sendo jogada duas vezes. Já
vimos que o espaço amostral é dado pelo conjunto abaixo:

A2 = {KK, KC, CK, CC}

Vamos considerar dois eventos que não sejam mutuamente excludentes, ou


seja, que tenham pelo menos um elemento em comum. Por exemplo:

E2,1 = {KK}: Sair duas caras.

E2,2 = {KK, KC,CK}: Sair pelo menos uma cara.

A interseção entre os eventos é dada pelo conjunto abaixo:

E2,1…E2,2 = {KK}

Vamos agora calcular a probabilidade da união dos dois eventos, usando a


última equação.

J\K2,1 ∪ K2,2 ] = J\K2,1 ] + J\K2,2 ] − J K2,1 ∩ K2,2 


\K2,1 ] \K2,2 ]  K2,1 ∩ K2,2 
J\K2,1 ∪ K2,2 ] = + −
 L   L   L 

1 3 1 3
J\K2,1 ∪ K2,2 ] = + − = = 0,75
4 4 4 4

Interpretamos a resposta assim: a probabilidade de sair duas caras ou de sair


pelo menos uma cara é de 75%. Note que, se não fosse a subtração do termo de
probabilidade de interseção, a soma teria chegado a 100%, dando um resultado
errado.

Exercício Resolvido.
Uma dado de seis faces é jogado 2 vezes. Calcule (a) a probabilidade de sair 1 na primeira jogada e 2 na
segunda jogada; (b) a probabilidade de sair 1 na primeira jogada ou 2 na segunda jogada.

Resolução:
Primeiro escrevem-se o espaço amostral e os eventos, com os respectivos tamanhos.

A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44, 45, 46, 51, 52, 53,
54, 55, 56, 61, 62, 63, 64, 65, 66}; N(A2) = 36

E2,1 = {11, 12, 13,14, 15, 16}: Sair 1 na primeira jogada. N(E2,1) = 6
E2,2 = {12, 22, 32, 42, 52, 62}: Sair 2 na segunda jogada. N(E2,1) = 6

Os eventos não são mutuamente excludentes. Eles têm um elemento em comum. A interseção entre os
eventos é o conjunto: E2,1… E2,2 = {12}. N(E2,1… E2,2) = 1

(a) A probabilidade de sair 1 na primeira jogada e 2 na segunda jogada é a probabilidade da interseção


entre os dois eventos, ou seja, é dado pelo cálculo abaixo:
 K, ∩ K,  1
J\K, ∩ K, ] = = = 0,0278
 L  36
Jogando um dado duas vezes, há uma chance de 2,78% de sair 1 na primeira jogada e 2 na segunda
jogada.

(b) A probabilidade de sair 1 na primeira jogada ou 2 na segunda jogada é a probabilidade da união entre
os dois eventos, ou seja, é dado pelo cálculo abaixo:
J\K, ∪ K, ] = J\K, ] + J\K, ] − J K, ∩ K, 
\K, ] \K, ]  K, ∩ K, 
J\K, ∪ K, ] = + −
 L   L   L 
6 6 1
J\K, ∪ K, ] = + − = 0,167 + 0,167 − 0,0278 = 0,306
36 36 36
Jogando um dado duas vezes, há uma chance de 30,6% de sair 1 na primeira jogada ou 2 na segunda
jogada.
Amostragem com Reposição

Amostragem significa escolher alguns elementos da população. Ela pode ser


feita com reposição, ou sem reposição. Na amostragem com reposição, uma vez
que o elemento é escolhido uma vez, ele pode voltar a ser escolhido novamente.
Esse é o caso das jogadas de moedas e dados. Uma vez que deu resultado cara, na
jogada de uma moeda, nada impede que dê cara novamente na próxima jogada.

Quando se joga uma moeda M vezes, o número de resultados possíveis é dado


por 2M. Da mesma forma, quando se joga um dado M vezes, o número de resultados
possíves é dado por 6M. De um modo geral, quando escolhemos M objetos, com
reposição, de uma população de A objetos, teremos AM maneiras distintas de
selecionar os objetos.

Vamos analisar um exemplo interessante, usando amostragem com


reposição.Considere uma prova com 30 questões de múltipla escolha, com cinco
alternativas em cada questão. Qual é a probabilidade de tirar a nota máxima na prova,
apenas na sorte?

Neste caso, podemos considerar que estamos escolhendo M=30 questões,


com reposição, de uma população de A=5 alternativas. O número total de respostas
possíveis é dado por AM = 530 = 9,31 x 1020. Como há apenas uma maneira de se
responder a prova para tirar a nota máxima, essa probabilidade será dada pela conta
abaixo. Verifica-se que o resultado P=10–21 é extremamente baixo para que alguém
consiga acertar a prova toda, apenas na sorte.

1
J= = 1,07 × 10b
9,31 × 10a

Amostragem sem Reposição

Veremos agora a amostragem sem reposição. Na amostragem sem


reposição, uma vez que o elemento é escolhido uma vez, ele não pode voltar a
ser escolhido novamente.

Considere que há sete camisas em uma gaveta, para serem usadas durante a
semana, uma cada dia. Suponha que, a cada dia, uma camisa é retirada da gaveta,
mas não é devolvida, pois vai para o cesto de roupas para serem lavadas. No
domingo, há sete camisas. Na segunda-feira, haverá seis. Na terça-feira, cinco. E
assim por diante. No sábado só haverá uma camisa na gaveta. De quantas maneiras
diferentes podem-se escolher as camisas para os sete dias da semana?

No domingo, há 7 escolhas possíveis de camisas. Na segunda-feira, há 6


escolhas possíveis. Então, haverá 7x6=42 escolhas possíveis para os dois primeiros
dias. Continuando o processo, podemos concluir que haverá o seguinte número de
escolhas possíveis de camisas para toda a semana;

7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 = 5 040

Em outras palavras, há 5040 maneiras diferentes de se escolher as camisas


durante a semana, assumindo que a retirada das camisas é sem reposição. Este é
uma caso de permutação de 7 camisas.

Caso a escolha tivesse sido feita com reposição, esse número seria bem maior:
7
7 =823 543.

O valor 7! é denominado fatorial de 7. O fatorial de um número é muito


importante na teoria das probabilidades. Abaixo estão os valores dos fatoriais de zero
a dez, dando a idéia do conceito. Os valores dos fatoriais crescem muito depressa e
números grandes têm fatoriais gigantescos, por exemplo, 70! ≈ 10100.

Por definição, o fatorial de zero é 1.

0! =1

1! = 1

2! =2x1 =2

3! = 3x2x1 = 6

4! = 4x3x2x1 = 24

5! = 5x4x3x2x1 = 120

6! = 6x5x4x3x2x1 = 720

7! = 7x6x5x4x3x2x1 = 5 040

8! = 8x7x6x5x4x3x2x1 = 40 320

9! = 9x8x7x6x5x4x3x2x1 = 362 880

10! = 10x9x8x7x6x5x4x3x2x1 = 3 628 800


Arranjos

Vamos considerar ainda a amostragem sem reposição. Entretanto, considere


agora que há dez camisas em uma gaveta, para serem usadas durante a semana,
uma cada dia. Note que, neste caso, nem todas as camisas serão usadas. De quantas
maneiras diferentes podem-se escolher as camisas para os sete dias da semana?

Há 10 escolhas para o domingo, 9 para a segunda, 8 para a terça, e assim por


diante. No sábado haverá 4 camisas na gaveta. Podemos concluir que haverá o
seguinte número de escolhas possíveis de camisas para toda a semana:

10 x 9 x 8 x 7 x 6 x 5 x 4=604 800

Em outras palavras, há 604 800 maneiras diferentes de se escolher as camisas


durante a semana, assumindo que a retirada das camisas é sem reposição. Este é
uma caso de arranjo de 10 camisas durante os 7 dias da semana.

Podemos escrever uma fórmula conveniente para arranjos, em termos de


fatoriais. Vamos usar o último exemplo para deduzir essa fórmula. Note que a última
expressão pode ser reescrita na forma abaixo:

10 × 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1 10! 10!
= = = 604 800
3×2×1 3! 10 − 7!

A expressão acima mostra que a fórmula para o arranjo, de de j objetos,


f

escolhidos sem reposição, de uma população de n objetos pode ser escrita na


forma abaixo.

!
Lh =
i
 − j!

Combinações

Vamos considerar ainda a amostragem sem reposição. Vamos considerar uma


exemplo bastante conhecido na loteria, a Mega-Sena. São 60 dezenas e você tem de
acertar seis. A pergunta é, de quantas formas distintas pode-se escolher as seis
dezenas?
Poderíamos pensar em um arranjo. No início tem-se 60 dezenas. Depois de
sorteada a primeira dezena, sobram 59. Depois de sorteada a segunda, sobram 58. E
assim por diante. Pode-se pensar no seguinte cálculo de arranjo:

60 x 59 x 58 x57 x56 x55 = 36 045 979 200

Esse resultado seria calculado pela fórmula do arranjo d>>= , dada abaixo.

60! 60! 60 × 59 × 58 × 57 × 56 × 55 × 54!


La = = = = 36 045 979 200
60 − 6! 54! 54!

O único problema com esse cálculo é o seguinte. Suponha que tenha saído as
dezenas: 01, 05, 23, 25, 37, 39. Esse cálculo conta todas as permutações possíveis
dessas dezenas. Então, temos de dividir o resultado pelo número de
permutações, ou seja 6! = 720. Isto porque a ordem em que os resultados saem
não importa.

Assim, a fórmula para a combinação W j X de n objetos, tomados j de cada vez é

dada pela fórmula abaixo.

 !
WjX =

j! − j!

Fazendo o cálculo da combinação de 60 objetos, tomados 6 de cada vez,


chegamos ao número de formas distintas que se pode escolher as seis dezenas na
Mega-Sena.

60 60! 60! 60 × 59 × 58 × 57 × 56 × 55 × 54! 36 045 979 200


W X= = = = = 50 063 860
6 6! 60 − 6! 6! 54! 6! 54! 720
Probabilidade Condicional

Dados dois eventos A e B, a probabilidade condicional P A|B é a


probabilidade de ocorrência do evento A, dado que o evento B tenha ocorrido.

Considere N A…B o número de elementos e P A…B a probabilidade de


ocorrência da interseção entre os eventos A e B. Considere, também N B o número
de elementos e P B a probabilidade de ocorrência do evento B. A expressão para o
cálculo da probabilidade condicional P A|B é dada abaixo.

 L ∩ Z J L ∩ Z
J L|Z = =
 Z J Z

Note que se a interseção A…B for vazia, então a probabilidade condicional será
zero, ou seja, P A|B=0.

Um exemplo é a jogada de um dado duas vezes. O espaço amostral tem


N(A2)=36 elementos e é dado pelo conjunto abaixo.

A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44,
45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66}

Considere os seguintes eventos:

E2,1 = {12, 21}: Obter soma 3 nas duas jogadas. N(E2,1)=2


E2,2 = {21, 22, 23, 24, 25, 26}: Obter 2 na primeira jogada. N(E2,2)=6

A interseção entre os dois eventos é dada pelo conjunto abaixo:

E2,1…E2,2 = {21}. N(E2,1…E2,2) = 1

A probabilidade condicional J\K, mK, ] é dada pela equação abaixo.

 K, ∩ K,  1
J\K, mK,] = = = 0,167
 K,  6

Então, a probabilidade condicional de obter soma 3 nas duas jogadas, dado


que se obteve 2 na primeira jogada é de 16,7%.
Eventos Independentes

Dois eventos A e B são independentes se a equação abaixo for


verdadeira:

J L|Z = J L

Considere que apareça um 3 na primeira jogada de um dado. No que isso afeta


a probabilidade de aparecer qualquer outro número na próxima jogada? A resposta é
que não afeta em nada. Nesse caso, os eventos são independentes.

Portanto, para eventos independentes pode-se escrever a expressão abaixo.

J L ∩ Z
J L =
J Z

Lembrando que P(A…B)=P(A e B), essa última expressão pode ser rearranjada
na forma abaixo.

J L - Z = J L ∙ J Z (eventos independentes)

Por exemplo, na jogada de dois dados, qual é a probabilidade de aparecer 3 na


primeira jogada e 5 na segunda jogada?

A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44,
45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66}. N(A2) = 36

Considere os seguintes eventos independentes:

E2,1 = {31, 32, 33, 34, 35, 36}: Aparecer 3 na primeira jogada. N(E2,1)=6
E2,2 = {15, 25, 35, 45, 55, 65}: Aparecer 5 na segunda jogada. N(E2,2)=6

6 6 1 1 1
J\K, - K, ] = J\K, ] ∙ J\K, ] = ∙ = ∙ = = 0,0278
36 36 6 6 36

Então, na jogada de dois dados, a probabilidade de aparecer 3 na primeira


jogada e 5 na segunda jogada é de 2,78%.
Problemas

1. Quais são os significados da palavra Estatística?


2. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) população; (b)
amostra; (c) população de tamanho infinito; (d) população de tamanho finito; (e)
amostra representativa; (f) amostra não representativa.
3. Considere os conjuntos de dados amostrais A e B, abaixo. Para cada um, calcule a
média, a mediana e a moda.

(a) A={28, 22 , 33, 30, 100, 28, 25, 30, 27, 28}
(b) B={213, 210, 215, 213, 220, 1018, 214, 213, 211, 213, 215}

4. Para as populações de dados abaixo, calcule as respectivas variâncias e desvios-


padrão, usando as duas fórmulas, a da definição e a fórmula prática.

(a) A={70, 72, 75, 78, 74, 73, 79, 71, 77, 76}
(b) B={1010, 1015, 1017, 1014, 1018, 1020, 1011}

5. Os visitantes do Parque Nacional de Yellowstone, nos Estados Unidos,


consideram uma erupção do gêiser Old Faithful uma atração que não pode ser
perdida. A tabela de freqüências a seguir resume uma amostra de tempos (em
minutos) entre erupções, Construa um histograma para a tabela de frequências
dada. Se um guia turístico deseja garantir que seus turistas presenciem uma
erupção, qual o tempo mínimo que devem permanecer no parque? Calcule a
média e o desvio-padrão da distribuição de frequências.
Tempo / minutos Freqüência
40-49 8
50-59 44
60-69 23
70-79 6
80-89 107
90-99 11
100-109 1
6. Obtiveram-se, em uma universidade brasileira, os dados da tabela abaixo,
referentes ao número de carros de estudantes e de professores e servidores e
seus respectivos anos de uso. Construa um histograma de freqüências relativas
para cada um dos dois conjuntos de dados. Com base nos resultados, quais são
as diferenças perceptíveis entre as duas amostras? Calcule as médias e os
desvios-padrão para cada distribuição de frequências.

Ano do carro Estudantes Professores e Servidores


0-2 anos 23 carros 30 carros
3-5 33 47
6-8 63 36
9-11 68 30
12-14 19 8
15-17 10 0
18-20 1 0
21-23 0 1

7. A tabela de freqüências a seguir dá as velocidades, de motoristas multados pela


polícia de uma cidade brasileira, onde o limite de velocidade estabelecido era de
40 km/h. Construa um histograma para essa tabela de freqüências. O que essa
distribuição sugere sobre o limite fixado comparado com o limite de velocidade
constatado? Calcule as médias e os desvios-padrão para cada distribuição de
frequências.

Freqüência Absoluta Velocidade / km/h


14 42-43
11 44-45
8 46-47
6 48-49
4 50-51
3 52-53
1 54-55
2 56-57
1 58-59

8. As companhias de seguro pesquisam continuamente as idades e as causas de


morte. Construa um histograma de frequências relativas correspondente à tabela de
freqüências abaixo. Os dados se baseiam em um estudo da revista Veja sobre
vítimas fatais de armas de fogo no Brasil, durante uma semana. O que o
histograma sugere quanto às idades dessas vítimas fatais? Calcule as médias e os
desvios-padrão para cada distribuição de frequências.

Freqüência Idade na Morte


22 16-25
10 26-35
6 36-45
2 46-55
4 56-65
5 66-75
1 76-85
9. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) experimento
aleatório; (b) variável aleatória; (c) espaço amostral; (d) evento; (e) união de
eventos (f) interseção de eventos; (g) eventos mutuamente excludentes.

10. Discuta a diferença conceitual entre as duas definições de probabilidade de um


T N h
evento apresentadas, ou seja: J K = T o e J = limT→V W Tp X. Utilize um exemplo,
diferente daquele dado no texto, para ilustrar sua discussão.

11. Uma moeda é jogada três vezes. Calcule a probabilidade dos eventos abaixo. Dica:
escreva os conjuntos que representam o espaço amostral e os eventos.

(a) Sair exatamente uma cara.

(b) Sair no máximo duas caras.

(c) Sair coroa no lançamento da primeira moeda.

(d) Não sair nenhuma cara.

12. Uma moeda é jogada três vezes. Calcule as probabilidades que se pedem abaixo.

(a) Sair três caras ou três coroas.


(b) Sair três caras e três coroas.
(c) Sair duas caras ou duas coroas.
(d) Sair duas caras e duas coroas.
(e) Sair uma cara e uma coroa.
(f) Sair uma cara ou uma coroa.

13. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) amostragem com
reposição; (b) amostragem sem posição; (c) fatorial de um número; (d) permutação;
(e) arranjo; (e) combinação.

14. De quantas formas distintas 9 pessoas podem ficar dispostas em fila indiana?

15. Quantos anagramas podemos formar com a palavra TEORIA?

16. Em uma prova com 10 questões de múltipla escolha, com 4 alternativas cada, qual
é a probabilidade de um candidato responder a prova e acertar todas a questões
apenas no palpite?

17. Se você tem 15 camisas em uma gaveta, para serem usadas durante a semana (7
dias), uma cada dia, sem reposição, de quantas maneiras diferentes pode-se
escolher as camisas para os sete dias da semana?

18. Em um campeonato de futebol, participam 20 times. Quantos resultados são


possíveis para os 3 primeiros lugares?
Capítulo 2. Aplicação da Matemática à Estatística.

A Distribuição Binomial

Uma variável aleatória discreta é aquela que pode ser descrita por meio de
números inteiros. Por exemplo, quando se joga uma moeda 20 vezes, podemos definir
uma variável aleatória X discreta como sendo o número de vezes que sai o resultado
cara. Assim, os valores possíveis de X podem ser: X = 0, 1, 2, 3, ..., 20.

A distribuição binomial é uma distribuição de probabilidade para variável


discreta. Ela é caracterizada por dois parâmetros, apenas (n,p). O parâmetro n é
o número de vezes que o experimento é executado.

Por exemplo, no lançamento de uma moeda, a moeda pode ser lançada n = 1,


2, 3, 4, 5, ... vezes. O parâmetro p é a probabilidade de sucesso em cada vez que
o experimento é executado. Por exemplo, no lançamento de uma moeda, p=½ pode
representar a probabilidade de sair cara (ou coroa). Por consequência, 1–p é a
probabilidade de fracasso.

Uma distribuição de frequência coloca a variável aleatória no eixo horizontal


(abscissa) e a probabilidade de ocorrência de cada valor da variável no eixo vertical
(ordenada). Seja X uma variável aleatória. A probabilidade P X=i de se obter X=i
sucessos, em uma distribuição binomial (n, p), é dada pela equação abaixo.


J r = ' = W X $ 1 − $hb
'

Na equação acima, foi utilizada a notação de combinação, dada abaixo.

 !
W X=
' '!  − '!
Exemplo da Jogada de 20 moedas

Vamos calcular a distribuição binomial n, p = 20, ½ para uma jogada de 20


(vinte) moedas. A probabilidade de sucesso, em cada jogada, pode ser definida
arbitrariamente como a probabilidade de sair cara e seu valor é p = ½.

Por exemplo, P X=1, a probabilidade de sair cara em apena 1 moeda e coroa


nas outras 19 moedas, pela distribuição binomial 20, ½ é calculada da forma abaixo.

20!
J r = 1 = 0,5 1 − 0,5ab = 0,0000190735
1! 20 − 1!

A Tabela 8 e a Figura 5 mostram os resultados de todos os cálculos.

Tabela 8. Distribuição binomial n, p = 20, ½. Seja X a variável aleatória e P X=i, a


probabilidade de se obter X=i sucessos. O valor central X=10 está
destacado.

i P X=i
0 0,0000009537
1 0,0000190735
2 0,0001811980
3 0,0010871900
4 0,0046205500
5 0,0147858000
6 0,0369644000
7 0,0739288000
8 0,1201340000
9 0,1601790000
10 0,1761970000
11 0,1601790000
12 0,1201340000
13 0,0739288000
14 0,0369644000
15 0,0147858000
16 0,0046205500
17 0,0010871900
18 0,0001811980
19 0,0000190735
20 0,0000009537
0.18

0.16

0.14

0.12
P(X=i)
0.10

0.08

0.06

0.04

0.02

0.00
0 2 4 6 8 10 12 14 16 18 20

Figura 5. Distribuição binomial n, p = 20, ½. Seja X a variável aleatória e P X=i, a


probabilidade de se obter X=i sucessos.

Como interpretamos a distribuição de probabilidades acima? Ao jogarmos 20


(vinte) moedas, a probabilidade de se obter 10 caras (X=10) é máxima, ou seja,
P X=10 = 0,176197 é o valor máximo. As probabilidades diminuem à medida que X se
distancia de 10.

A esperança (valor médio), E X e a variância, Var X de uma variável aleatória


com distribuição binomial são calculadas a partir dos valores dos parâmetros n e p, de
acordo com as equações abaixo.

K r =  ∙ $

t+ r =  ∙ $ ∙ 1 − $

No exemplo dado acima, n, p = 20, ½. Portanto, a esperança e a variância


de X possuem os seguintes valores.

K r = 20 ∙ 0,5 = 10

t+ r = 20 ∙ 0,5 ∙ 1 − 0,5 = 5

Logo, é de se esperar o valor central X=10 para a distribuição binomial acima,


já que este é o valor da esperança de X.
Exemplo das 30 questões de múltipla escolha

Outro exemplo de utilização da distribuição binomial foi o caso abordado


anteriormente de uma prova de múltipla escolha, com 30 questões e 5 alternativas em
cada questão. Vimos que há um total de 530 = 9,31 x 1020 respostas possíveis.

Considerando X o número de questões que um candidato acertou na prova, os


valores possíveis para essa variável aleatória discreta serão: X = 0, 1, 2, 3, ..., 30.
Podemos considerar que essa variável siga uma distribuição binominal (n,p) = (30,1/5).
Como há 5 alternativas, a probabilidade de sucesso, ou seja, de acertar uma questão
é p=1/5. Assim, podemos calcular a probabilidade de acertar qualquer número de
questões, apenas na sorte, usando a fórmula da distribuição binomial.

Vamos calcular a probabilidade de acertar a prova inteira na sorte, ou seja,


vamos calcular P(X=30), usando a distribuição binomial, com n=30 e p=1/5=0,2.

30!
J r = 30 = 0,2a 1 − 0,2aba = 1,07 × 10b
30! 30 − 30!

Esse é o mesmo resultado encontrado anteriormente, da ordem de P=10–21.


Vamos agora encontrar a probabilidade de acertar metade da prova na sorte, ou seja,
vamos calcular P(X=15), usando a mesma distribuição binomial.

30!
J r = 15 = 0,2  1 − 0,2ab  = 0,000179
15! 30 − 15!

A probabilidade encontrada é muitas vezes maior que a anterior. De fato, para


alguém acertar metade da prova, na sorte, a probabilidade é de 0,0179%. O valor
continua sendo pequeno para que alguém consiga acertar na sorte, mas já é possível
que alguém consiga, pois esta probabilidade é bem maior que as de muitas loterias!

Calculemos a esperança e a variância de X para este caso.

K r = 30 ∙ 0,2 = 6
t+ r = 30 ∙ 0,2 ∙ 1 − 0,2 = 4,8

Vamos calcular a probabilidade de acertar apenas 6 (seis) questões, na sorte,


ou seja, vamos calcular P(X=6), usando a mesma distribuição binomial.

30!
J r = 6 = 0,2 1 − 0,2ab = 0,179
6! 30 − 6!
Para se acertar 6 questões na sorte, a probabilidade é máxima e é igual a
17,9%. O desvio padrão é igual à √4,8 = ±2,2. Portanto, espera-se que a 18% dos
candidatos que façam a prova no puro palpite acertem 6±2 questões.

A Distribuição Normal

Uma variável aleatória contínua é aquela que pode ser descrita por meio de
números reais. Por exemplo, a concentração dos íons cloreto em amostras de água.

A distribuição normal é uma distribuição de probabilidade para variável


contínua. Ela é caracterizada por dois parâmetros populacionais (µ, σ). Ela é uma
distribuição simétrica, em forma de sino, sendo que o valor central é a média da
população, µ e a medida da dispersão é o desvio-padrão, σ da população.

A distribuição normal é dada pela curva gaussiana, nome dado em


homenagem ao matemático alemão Johann Carl Friedrich Gauss (1777-1855). Seja x
uma variável aleatória contínua. A curva gaussiana é a função densidade de
probabilidade, f x para a variável aleatória x e é dada pela equação abaixo.

1 b
wbxy
  = -  23
2√2v

A esperança E(x) e a variância Var(x) da variável aleatória contínua x, em uma


distribuição normal, são dadas pelas equações abaixo, respectivamente.

E(x) = µ

Var(x) = σ2

A Figura 6 apresenta duas curvas gaussianas, ambas com µ=0. Uma das
curvas possui σ=1,0 e a outra, σ=2,0. A curva com σ maior é mais larga e menos alta.
Figura 6. Curva gaussiana para µ=0, σ=1,0 e σ=2,0.

A Distribuição Normal Reduzida

Qualquer conjunto de dados {x}, com media µ e desvio-padrão σ, pode ser


transformado em outro conjunto de dados {Z}, com média µ=0 e desvio padrão σ=1,
mediante o uso da equação de transformação abaixo.

−
z=
/

Aplicando a transformação acima para uma função gaussiana, obtemos a


equação abaixo, denominada distribuição normal reduzida: (µ, σ) = (0, 1).

1
 z = - b z
2

√2v

Note que a Figura 6 apresenta o gráfico da distribuição normal reduzida.


Vejamos um exemplo. Consideremos as estaturas de uma população de
mulheres. As estaturas são representadas pela variável aleatória x. Vamos supor que
essa variável siga uma distribuição normal e que a média e o desvio padrão dessa
população sejam, respectivamente: µ = 1,60 m; σ = 0,20 m. Neste caso, duas
mulheres da população que tivessem estaturas x1 = 1,47 m e x2 = 1,68 m na
distribuição normal, passariam a ter as seguintes estaturas na distribuição normal
reduzida:

1,47 − 1,60 ,
z = = −0,65
0,20 ,

1,68 − 1,60 ,
z = = +0,40
0,20 ,

Os valores na distribuição normal reduzida podem ser positivos ou


negativos, indicando se são maiores ou menores que a média. Na distribuição normal
reduzida, o valor Z=0 significa que a variável tem o valor médio. Além disso, a
distribuição normal reduzida é adimensional, ou seja, os valores não têm unidade,
são números puros.
Probabilidade de uma variável aleatória contínua

Para discutir a probabilidade de uma variável aleatória contínua assumir um


determinado valor, vamos usar a distribuição normal reduzida.

A função gaussiana f Z dá a densidade de probabilidade para a variável


reduzida Z. O valor da probabilidade P da variável reduzida Z assumir um valor entre
Z1 e Z2 é dado pela integral definida abaixo.

~y
J z < z < z  = |  } *}
~

A Equação acima significa que a probabilidade P da variável reduzida Z assumir


um valor entre Z1 e Z2 é dada pela área abaixo da curva de f Z, entre os valores Z1 e
Z2. Usando a expressão da distribuição gaussiana reduzida, a última equação assume
a forma dada abaixo. A equação abaixo é integrada numericamente. Na prática,os
valores são tabelados. Por exemplo, a Figura 7 mostra que a probabilidade de a
variável reduzida Z assumir valores entre -2 < Z < 2 é de 95,45%.

1 ~y −1 ~y
J z < z < z  = | - 2 *}
√2v ~

Figura 7. Área abaixo da curva gaussiana reduzida (µ=0, σ=1) na faixa –2 < Z < 2.
A área total sob a curva é 1, significando 100% (vide Figura 7). Em outras
palavras, a probabilidade de a variável Z assumir valores na faixa –∞ < Z < +∞ é P=1.
Essa é a denominada condição de normalização, expressa pela equação abaixo.

€V
|  } *} = 1
bV

A partir da condição de normalização, podemos calcular, por exemplo, a


probabilidade de a variável Z assumir valores maiores que 2, ou seja, P(Z>2).
Observando a Figura 7, vemos que a probabilidade de Z estar na faixa -2>Z>2 é dada
por: 1 – 0,9545 = 0,0455. Como a função é simétrica, a probabilidade de Z ser maior
que 2 é metade desse valor, ou seja:

1 − 0,9545 0,04550
J z > 2 = = = 0,02275
2 2

Se quisermos saber a probabilidade de Z assumir valores menores que 2, ou


seja, P(Z>2) é só fazer o seguinte cálculo:

J z < 2 = 1 − 0,02275 = 0,97725

Há uma série de valores de probabilidade que podemos calcular para os


valores da variável reduzida Z. Uma coisa é importante notar. Que, como a
probabilidade é uma área sob a curva, a probabilidade de a variável assumir um
determinado valor seria zero, pois a área sob a curva seria zero.

‚
J z = + = |  } *} = 0
‚

Na prática são utilizadas tabelas de probabilidades. No Apêndice A1 é


mostrada a tabela para a probabilidade de Z assumir valores menores que a, P(Z<a).
Vamos aprender a usar as tabelas de probabilidades para distribuição normal
reduzida, com exemplos.

Suponha que a concentração do gás poluente SO2 apresente uma distribuição


normal em uma cidade brasileira e que a média da concentração seja µ = 0,14 ppm e
o desvio-padrão σ = 0,01 ppm. Calcule o que se pede abaixo:

(a) A probabilidade de que a concentração de SO2 seja maior do que a média.

Neste caso, queremos a probabilidade P(X>0,14 ppm). Vamos


transformar em variável reduzida primeiro.
 −  0,14 − 0,14
z= = = 0,00
/ 0,01
Agora, o problema é determinar a probabilidade P(Z>0,00). Na tabela de
probabilidades, encontramos P(Z<0,00) = 0,5000. Como a área total sob a
curva é 1, ou seja, como a curva é normalizada, então a probabilidade que se
deseja calcular é dada pelo cálculo abaixo.

J r > 0,00 = 1 − J r < 0,00 = 1 − 0,5000 = 0,5000

Concluímos que a probabilidade de que a concentração do gás poluente


SO2 venha a assumir um valor acima da média, na cidade, é de 50%, como
mostra a Figura 8.

Figura 8. Probabilidade de que a variável Z assuma valores acima da média,


ou seja, P(Z>0)=0,5000.
(b) A probabilidade de a concentração de SO2 ser maior que 0,15 ppm.

Neste caso, queremos a probabilidade P(X>0,15 ppm). Vamos


transformar em variável reduzida primeiro.
 −  0,15 − 0,14
z= = = 1,00
/ 0,01
Agora, o problema é determinar a probabilidade P(Z>1,00). Na tabela de
probabilidades, encontramos P(Z<1,00) = 0,8413. Como a área total sob a
curva é 1, ou seja, como a curva é normalizada, então a probabilidade que se
deseja calcular é dada pelo cálculo abaixo.

J r > 0,00 = 1 − J r < 0,00 = 1 − 0,8413 = 0,1587

Concluímos que a probabilidade de que a concentração do gás poluente


SO2 venha a assumir um valor acima de 0,15 ppm, na cidade, é de 15,87%,
como mostra a Figura 9.

Figura 9. Probabilidade de que a variável Z assuma valores acima de 1,00. Ou


seja, P(Z>1,00)=0,1587.
(c) A probabilidade da concentração de SO2 ser maior do que 0,17 ppm.

Neste caso, queremos a probabilidade P(X>0,17 ppm). Vamos


transformar em variável reduzida primeiro.
 −  0,17 − 0,14
z= = = 3,00
/ 0,01
Agora, o problema é determinar a probabilidade P(Z>3,00). Na tabela de
probabilidades, encontramos P(Z<3,00) = 0,9987. Como a área total sob a
curva é 1, ou seja, como a curva é normalizada, então a probabilidade que se
deseja calcular é dada pelo cálculo abaixo.

J r > 3,00 = 1 − J r < 3,00 = 1 − 0,9987 = 0,0013

Concluímos que a probabilidade de que a concentração do gás poluente


SO2 venha a assumir um valor acima de 0,17 ppm, na cidade, é de 0,13%, o
que representa um valor muito baixo.

(d) A probabilidade de que a concentração de SO2 tenha um valor entre 0,141


ppm e 0,142 ppm.

Neste caso, queremos a probabilidade P(0,141 ppm < X > 0,142 ppm).
Vamos transformar em variáveis reduzidas primeiro.

 −  0,141 − 0,14
z = = = 0,100
/ 0,01
 −  0,142 − 0,14
z = = = 0,200
/ 0,01

A probabilidade que se quer pode ser obtida da tabela de probabilidades,


através do seguinte cálculo:

P(0,100 < Z< 0,200) = P(Z<0,200) – P(Z<0,100) = 0,5793 – 0,5398 = 0,0395

Concluímos que a probabilidade de que a concentração do gás poluente


SO2 venha a assumir valores entre 0,141 ppm e 0,142 ppm, na cidade, é de
3,95%.
A Distribuição Amostral das Médias

Já vimos que, para uma dada população, existe um grande número de


amostras possíveis. Cada amostra tem um tamanho , uma média 
 e um desvio-
padrão & .

Se estivermos amostrando uma população que tenha uma distribuição de


probabilidades desconhecida, com média x e variância 23 , caso o tamanho
amostral e seja grande o suficiente, a distribuição amostral das médias será
aproximadamente normal. A esperança, K 
 e a variância, t+ 
 da média
amostral são dadas, respectivamente, pelas equações abaixo. Esse resultado é
conhecido como Teorema do Limite Central.

K 
 = 

/
t+ 
 =


O desvio-padrão da média amostral, & 


 é a raiz quadrada da variância, ou
seja, é dado pela equação abaixo.

/
& 
 = <t+ 
 =
√
A Figura 10 ilustra a idéia por trás do Teorema do Limite Central, usando o
experimento aleatório da jogada de n dados. Quando se joga apenas 1 (um) dado, as
probabilidades são todas iguais para os seis números, ou seja P=1/6. Quando se joga
mais de um dado, as probabilidades de se obter cada número vão ficando diferentes,
podendo ser calculadas pela distribuição binomial. À medida que o número de jogadas
aumenta, a distribuição se aproxima da distribuição normal.

Figura 10. Ilustração do Teorema do Limite Central. À medida que o número


de jogadas de dados aumenta, a distribuição se aproxima da
distribuição normal.
Exercício Resolvido.

Suponha que a concentração do gás poluente SO2 apresente uma distribuição populacional desconhecida
em uma cidade brasileira. A média da concentração é µ = 0,140 ppm e o desvio-padrão, σ = 0,010 ppm
são conhecidos na população. Você coletou uma amostra aleatória de tamanho n=100, na cidade e mediu
o teor de SO2. Qual a probabilidade de a média amostral ter um valor entre 0,141 ppm e 0,142 ppm, ou
seja, calcule a seguinte probabilidade: P(0,141 ppm < 
< 0,142 ppm) = ?

Resolução:

Pelo Teorema do Limite Central, temos que a média amostral segue uma distribuição aproximadamente
/
normal, com esperança, K 
 = 0,14 ppm e desvio-padrão, & 
 = =
a,a a
√ √ aa
ppm = 0,001 ppm.

Vamos agora usar a variável reduzida Z, para calcular as probabilidades.


− 
z= /
√

0,141 − 0,14
z = = 1,00
0,001
0,142 − 0,14
z = = 2,00
0,001

A probabilidade que se quer pode ser obtida da tabela de probabilidades, através do seguinte cálculo:

P(1,00 < Z< 2,00) = P(Z<2,00) – P(Z<1,00) = 0,9772 – 0,8413 = 0,1359

Resposta: A probabilidade de a média amostral ter um valor entre 0,141 ppm e 0,142 ppm, na população
considerada, será de 13,59%.
Teste de Hipóteses

Muitas vezes precisamos aceitar ou rejeitar o valor de algum parâmetro. Para


tanto, devemos estabelecer critérios. Os critérios que iremos adotar são estatísticos e
obedecem a leis probabilísticas.

Uma afirmação sobre um parâmetro estatístico, tal como a média, µ ou a


variância, σ2 de uma, ou mais de uma população, é denominada hipótese estatística.
O procedimento de tomada de decisão sobre a hipótese é denominado teste de
hipótese. A hipótese que se quer testar é denominada hipótese nula e é
normalmente denotada por Ho. Por exemplo, a hipótese nula pode ser a de que a
média populacional seja zero. Podemos expressá-la da seguinte forma: Ho: µ = 0. A
hipótese oposta à hipótese nula é denominada hipótese alternativa e é denotada por
H1 ou por Ha. No exemplo usado, podemos expressá-la da seguinte forma: H1: µ π 0.
É importante ressaltar que as hipóteses estatísticas são sempre afirmações sobre
a população, nunca sobre a amostra.

• Rejeitar a hipótese nula Ho, quando de fato ela for verdadeira, é definido como
erro do tipo I.

Vamos supor que hipótese nula seja Ho: µ = 0 e que chegássemos, através de
um teste de hipótese, à conclusão de que ela devesse ser rejeitada. Nesse caso,
haveria uma probabilidade de cometer o erro do tipo I. Essa probabilidade é
denotada por a (alfa). O valor dessa probabilidade é denominado nível de
significância do teste e deve ser fixado pelo estatístico logo no início do teste de
hipótese. Normalmente, o nível de significância é estabelecido em 1% ou 5%, ou seja,
a = 0,01 ou a = 0,05.

a = nível de significância do teste.

O teste de hipótese tem determinadas etapas a serem seguidas. A ordem em


que elas aparecem abaixo deve ser respeitada, caso contrário o teste não funciona.

(1) Formular as hipóteses, nula e alternativa. Por exemplo: Ho: µ = 0; H1: µ ∫ 0.

(2) Fixar o nível de significância do teste de hipótese. Por exemplo: a = 0,05.


(3) Se a hipótese nula for verdadeira, então existe uma variável aleatória
denominada estatística de teste, que deve ser calculada e essa estatística de
teste segue uma distribuição de probabilidade conhecida.

Por exemplo: uma amostra de tamanho n=100 obteve média amostral 


= 0,10. O desvio-
padrão da população é conhecido, σ = 0,01. este caso, sabemos que, se a hipótese nula for

verdadeira, 
terá distribuição normal com média µ = 0 e desvio-padrão & = = =
ƒ a, a
√h √ aa

0,010. Portanto, a estatística de teste escolhida, denominada teste Z, será a distribuição normal

reduzida: z =
w

… .
à

(4) Estabelecer valores críticos para a estatística de teste, em função do nível de


significância fixado (a = 0,05). A Figura 11 mostra que acima de Z = 1,96 e
abaixo de Z = –1,96, a área total é igual a 0,05. Isto significa que a
probabilidade de a variável Z assumir valores na faixa –1,96 > Z >1,96 é de 5%.
Se a estatística de teste calculada assumir um valor nessa faixa, então Ho será
rejeitada com um nível de significância de 5%. O valor crítico é Zcrít. = ±1,96.
Esse valor foi encontrado a partir das tabelas de probabilidades. Como se quer
P(Z>a) = 0,025 (α/2), então se tem que P(Z<a)=1–0,025=0,975. Procurando na
tabela de probabilidades, encontra-se o valor crítico Z = 1,96. Este é um teste
bicaudal, ou bilateral.

Figura 11. Distribuição normal reduzida. Valores críticos Z = –1,96 e Z = 1,96.


Acima e abaixo desses valores, a área total é igual a 0,05. A região
de rejeição de Ho é denominada região de significância.
(5) Calcular a estatística de teste.


−  0,10 − 0
z‡‚ˆ‡. = / = 0,01 = 100
√ √100
(6) Decisão. Compara-se a estatística de teste calculada com o valor crítico. No
caso, verifica-se que |Zcalc.|>Zcrit. Em outras palavras, o valor de Zcalc. cai na
região de rejeição de Ho (vide Figura 11). Por isso, rejeita-se Ho com nível de
significância de 5% (α=0,05). Isso significa que a probabilidade de estarmos
rejeitando Ho, dado que de fato ela é verdadeira, ou seja, a probabilidade de
estamos cometendo um erro do tipo I é de 5%.

(7) Conclusão. No exemplo dado, pelos dados amostrais e pelo teste de hipótese
efetuado, não temos razões significativas (α=0,05) para supor que a média
populacional seja zero.

É costume chamar a estatística de teste (e os dados) de significantes quando a


hipótese nula Ho for rejeitada. Inclusive, a região de rejeição de Ho é denominada
região de significância.

Valor p

O valor p é o menor nível de significância que conduz à rejeição da hipótese


nula Ho, com os dados fornecidos.

Por exemplo, vamos supor que em um teste de hipótese, usando a estatística


de teste Z, calculou-se o seguinte valor, na etapa 5: Zcalc. = 2,56. Consultando a tabela
de probabilidades, para Z<2,56, encontra-se P(Z<2,56) = 0,9948. O valor p é calculado
pela expressão abaixo e possui o valor p = 0,0104. Isso quer dizer que o menor nível α
em que esses dados são sinificantes seria α = 0,0104.

p = 2 x [1 – P(Z<2,56)] = 2 x [1 – 0,9948] = 2 x [0,0052] = 0,0104

A Figura 12 ilustra a idéia do valor p. Ele é simplesmente a soma das áreas


sombreadas, à direita e à esquerda no gráfico. Quanto maior o valor de Zcalc., menor
o valor p. no exemplo usado para explicar o teste de hipótese, encontrou-se Zcalc. =
100. Nesse caso, recorrendo-se à tabela de probabilidades, conclui-se que o valor p é
praticamente zero nesse caso (p=0).
Figura 12. Valor p para Zcalc. = 2,56. p = 2 x [0,0052] = 0,0104.

Regras de decisão, baseadas em um valor p

1. Se p§α, então rejeite Ho.


2. Se p>α, então falhe em rejeitar Ho.

Erros do Tipo I e II

Tipo I

Vimos o erro do tipo I cuja probabilidade se expressa por a (alfa).

• Rejeitar a hipótese nula Ho, quando de fato ela for verdadeira, é definido como
erro do tipo I.
• Vimos que, em um teste de hipótese, essa probabilidade é o nível de
significância do teste e deve ser pré-estabelecida pelo estatístico.

Tipo II

Veremos agora o erro do tipo II cuja probabilidade se expressa por β (beta).

• Não rejeitar a hipótese nula Ho, quando de fato ela não for verdadeira, é
definido como erro do tipo II.
Para se calcular β é necessário ter uma hipótese alternativa bastante
específica. Vamos usar um exemplo para calcular a probabilidade de erro do tipo II.

Exemplo:

Suponha que o desvio-padrão da concentração do gás poluente SO2 em uma


população seja conhecido, σ = 0,040 ppm. Considere que tomamos uma amostra
de tamanho n =100 e que obtivemos uma média amostral 
= 0,147 ppm.

(a) Testar a hipótese nula de que a média populacional seja  = 0,140 ppm. Fixar
nível de significância em 5%.
(b) Calcular o valor p.

(b) Calcular a probabilidade, β de erro do tipo II, caso a média populacional de fato
fosse µ = 0,147 ppm.

Resolução:

(a) Teste de hipótese:

(1) Hipótese nula e alternativa: Ho: µ = 0,140 ppm; H1: µ ∫ 0,140 ppm

(2) Nível de significância: a = 0,05 ( = probabilidade do erro do tipo I)

w

(3) Estatística de teste: z = …
à

(4) Valores críticos (para a = 0,05): Zcrít. = ±1,96

a, ‰ba, a
(5) Cálculo da estatística de teste. z‡‚ˆ‡. = Š,ЋР= 1,75
√ŠŠ

(6) Decisão. |Zcalc.|<Zcrit. Como Zcalc. está na zona de aceitação, não se rejeita Ho.
(7) Conclusão. Não há razão significativa para rejeitar Ho. Portanto, não há razão
para não supor que a média populacional da concentração de SO2 seja
 = 0,140 ppm.

(b) Cálculo do valor p.

p = 2 x [1 – P(Z<1,75)] = 2 x [1 – 0,9599] = 2 x [0,0401] = 0,0802

Como p>α, então falhe em rejeitar Ho.

(c) Cálculo de β :

Primeiro vamos formular a hipótese nula, Ho original e uma hipótese alternativa,


H1 bastante específica.

Œ :  = 0,140 ppm

Œ :  = 0,147 ppm

Neste caso, um erro do tipo II será cometido se a média amostral, 


cair entre
os limites da região crítica, quando na verdade  = 0,147 ppm.

Vamos agora nos basear na transformação para variável reduzida, abaixo.


− 
z= /
√

Rearranjando a equação acima, encontramos em 


os valores críticos
correspondentes aos valores reduzidos: Zcrít. = ±1,96.

/

= z +
√
0,04

= −1,96 + 0,147 = 0,13916
√100
0,04

 = +1,96 + 0,147 = 0,15484
√100
A Figura 13 ilustra o significado da probabilidade de cometer o erro do
tipo II, ou seja, o valor de β. Trata-se da probabilidade condicional da variável
aleatória 
assumir valores na faixa 0,13916 < 
< 0,15484, dado que Œ é
verdadeira, ou seja, β é dada pelas expressões abaixo.

 =  =, B64B> < 
< =, B7?E?|‘B : x = =, B?’ ppm)

1 a, ”
b
w
ba, ‰y
“= | -  a,aay = 0,950
0,004√2v a, • 

“ = J −1,96 < z < 1,96 = J z < 1,96 − J z < −1,96

“ = = 0,975 − 0,025

“ = = 0,950

Figura 13. Probabilidade de erro do tipo II, “ = 0,950.


“ = J 0,13916 < 
< 0,15484|Œ :  = 0,147 ppm)

Veja que a probabilidade de falhar em rejeitar Ho neste caso é bastante alta,


β=95%.
Potência de um teste

A potência de um teste pode ser definida como a probabilidade de rejeitar


corretamente uma hipótese nula falsa. A potência de um teste é dada por 1−
−β.

No último exemplo, a potência do teste era 1−


−0,95 = 0,05, ou seja, apena 5%.

Alguns pontos importantes devem ser destacados.

1. O tamanho da região crítica sempre pode ser reduzida pela seleção apropriada
do valor de α (alfa).

2. Os erros do tipo I e do tipo II estão relacionados. Uma diminuição em α (alfa)


implica em um aumento em β (beta) e vice-versa, desde que o tamanho da
amostra não varie.

3. Um aumento no tamanho da amostra reduzirá o valor de β (beta), desde que o


valor de α (alfa) seja mantido constante.

4. Quando Ho for falsa, o valor de β (beta) aumenta à medida que o valor


verdadeiro do parâmetro (p.ex. a média, µ) se aproxima do valor usado em Ho.
valor de β (beta) diminui à medida que aumenta a diferença entre o valor
verdadeiro do parâmetro e o valor usado em Ho.
Teste t

Uma distribuição de probabilidade importante, relacionada à distribuição normal


é a distribuição t, também denominada distribuição t de Student. Ela tem esse
nome devido ao estatístico inglês William Sealy Gosset (1876-1937), que a criou
sob o pseudônimo de Student, em um artigo publicado em 1908.

A distribuição t é simétrica, tem forma de sino e é bem semelhante à curva


normal padrão, porém com caudas mais largas, ou seja, a distribuição t pode gerar
valores mais extremos que a curva normal. O único parâmetro que a define e que
caracteriza a sua forma é o número de graus de liberdade, gl. Quanto maior for
esse parâmetro, mais próxima da curva normal ela será.

A utilidade da distribuição t é para aqueles casos onde não se conhece a


variância populacional, σ2. Nestes casos, em um teste de hipóteses, ao invés
de se usar a estatística de teste Z, como temos usado até agora, passaremos a
usar a estatística de teste t, calculada de acordo com a equação abaixo.


− 
–= &
√

Na equação acima, & é o desvio-padrão amostral e  é o tamanho da


amostra. A distribuição t, neste caso possui —˜ = e − B graus de liberdade, ou
seja, o número de graus de liberdade depende do tamanho da amostra. As
probabilidades para uma distribuição t com ™š graus de liberdade também podem
ser encontradas em uma tabela de probabilidades.

No Apêndice A2 é mostrada a tabela de probabilidades para a distribuição t de


Student unilateral. No Apêndice A3 é mostrada a tabela de probabilidades para a
distribuição t de Student bilateral.
Exemplo. Considere uma amostra de n = 27 jogadores de um time de futebol com
média amostral de massa corpórea 
= 90 kg e desvio-padrão amostral & = 9,0 kg.
Testar a hipótese de que a amostra foi extraída de uma população com distribuição
normal com média  = 100 kg. (Considere nível de significância de 5%)

Resolução:

(1) Hipótese nula e alternativa: Ho:  = 90 kg; H1:  ≠ 90 kg.


(2) Nível de significância: œ = 0,05
w

(3) Estatística de teste: – = 
à

(4) Valores críticos (™š =  − 1 = 27 − 1 = 26): –a.a; =±2,056 (bilateral)


•ab aa
(5) Cálculo da estatística de teste. – = Ÿ,Š = −5,7735
√y 

(6) Decisão. |tcalc.|>tcrit. Como tcalc. está na região de rejeição, rejeita-se Ho com nível
de significância de 5%.
(7) Conclusão. Pelos dados amostrais e pelo teste de hipótese, não há razão
significativa (α=0,05) para supor que a média populacional tenha sido extraída
de uma população com distribuição normal com média  = 100 kg.
Problemas

• Teste Z para uma média. Nos problemas abaixo, utilize como critério de
decisão no teste de hipótese tanto o valor crítico Zcrit. quanto o valor p.

1. O Departamento de Agricultura dos EUA reportou que o custo médio


(populacional) para se criar um filho até a idade de 02 anos na zona rural é de
$ 10 460, com desvio-padrão (populacional) de $ 1 540. Uma amostra aleatória
de 900 crianças, com idades até 02 anos, na zona rural revelou um custo
médio (amostral) de $ 10 345. Há evidência significativa para se apoiar o
relatório do Departamento de Agricultura dos EUA, com α=0,05?

2. Um fabricante de chuveiros para proteção contra incêndios afirma que a


temperatura média (populacional) de ativação do sistema é de 57,2 oC, com
desvio-padrão (populacional) de 1,8 oC. Em uma amostra aleatória de 100
chuveiros, encontra-se uma temperatura média (amostral) de 56,1 oC. Há
evidência significativa para se apoiar a afirmação do fabricante, com α=0,05?

3. Segundo o Instituto Gallup, o tempo médio (populacional) que leva para os


fumantes pararem de fumar permanentemente é de 15 anos, com desvio-
padrão (populacional) de 4,3 anos. Uma amostra aleatória com 36 ex-fumantes
revelou um tempo médio (amostral) de 14,8 anos. Há evidência significativa
para se apoiar a afirmação do Instituto Gallup, com α=0,05?

4. Uma empresa fabrica um refrigerante e afirma que em uma lata de 350 mL de


refrigerante há uma massa média (populacional) 40 mg de cafeína com desvio-
padrão (populacional) de 7,5 mg. Uma amostra aleatória com 49 latas de
refrigerante apresentou massa média (amostral) de 39,2 mg. Há evidência
significativa para se apoiar a afirmação do fabricante, com α=0,05?

5. Certo fabricante de cereal matinal afirma que em cada porção de 100 g do


cereal há uma massa média (populacional) de 230 mg de sódio com desvio-
padrão (populacional) de 10,0 mg. Uma amostra aleatória de 64 porções de
cereal forneceu uma massa média (amostral) de 232 mg de sódio. Há
evidência significativa para se apoiar a afirmação do fabricante, com α=0,05?
Teste t para a uma média.

6. Uma indústria afirma que a média (populacional) do pH na água do rio mais


próximo é de 6,8. Uma amostra aleatória de 19 porções de água forneceu um
pH (amostral) de 6,7 e um desvio-padrão (amostral) de 0,24. Há evidência
significativa para se apoiar a afirmação da indústria, com α=0,05?

7. Uma universidade afirma que o número médio (populacional) de horas-aula


semanais do corpo docente é de 12 h. Um representante estudantil decide
estudar uma amostra aleatória de 09 professores e obtém os seguintes
resultados, em horas-aula semanais: 11, 08, 12, 13, 10, 12, 06, 12, 14. Há
evidência significativa para apoiar a afirmação da universidade, com α=0,05?
Capítulo 3. Métodos Gráficos e Numéricos.

Correlação

Há correlação entre duas variáveis aleatórias quando existe uma relação


estatística entre elas. A Tabela 9 mostra valores para dados amostrados das
variáveis x e y. Temos aqui uma correlação positiva, pois y tende a aumentar à
medida que x aumenta. A Figura 14 mostra o gráfico desses valores e é chamada de
diagrama de dispersão. A regressão dos dados permite encontrar a função
matemática que melhor representa a relação entre as variáveis. A curva em vermelho
na Figura 14 foi obtida por regressão dos dados.

Tabela 9. As variáveis x e y estão correlacionadas positivamente.


x y
0 0,0
1 0,8
2 4,8
3 7,2
4 19,2
5 20,0
6 43,2
7 39,2
8 76,8
9 64,8
10 120

120

100

80
y

60

40

20

0 2 4 6 8 10

Figura 14. Diagrama de dispersão para os dados da Tabela 9. Em vermelho está a


curva de regressão dos dados.
Muitas vezes busca-se correlação entre pares de variáveis aleatórias, tais
como peso vs. idade, renda vs. consumo, taxa de juros vs. empréstimos, etc.

Em Química Analítica, normalmente busca-se a correlação entre uma


propriedade física, como a absorbância (absorção de luz em um dado comprimento
de onda) e a concentração de um analito em solução. A Figura 15 mostra uma
solução em uma cubeta de comprimento l, contendo o analito de concentração c e
absortividade molar ε. A luz incidente tem intensidade I0. Após passar pela solução, a
luz transmitida possui intensidade I1. Parte da luz incidente foi absorvida pelo analito.
¢
Define-se transmitância, T pela relação: ¡ =  . A absorbância, A é definida pela
¢Š

equação abaixo.

¤
L = −š%™ a £ ¥
¤a

Figura 15. Cubeta de comprimento l, contendo uma solução do analito, de


concentração c e absortividade molar ε. A luz incidente tem intensidade
I0 e a luz transmitida, intensidade I1.

Se o sistema seguir a lei de Beer-Lambert, a absorbância, A será função


linear da concentração, c, conforme mostrado na equação abaixo, onde ε é a
absortividade molar da substância e l é o caminho ótico, ou seja, a distância que a luz
atravessa pelo material. Neste caso, temos uma correlação linear entre A e c.

L =¦∙š∙§
A Tabela 10 mostra os dados de uma análise química, onde foi medida a
absorbância, A para cada concentração c de um analito em solução.

Tabela 10. A absorbância e a concentração, c tem correlação linear positiva.


c / mol L–1 Absorbância
0.01 0.012
0.02 0.048
0.03 0.052
0.04 0.088
0.05 0.092
0.06 0.128
0.07 0.132
0.08 0.168
0.09 0.172
0.10 0.208

A Figura 16 mostra o diagrama de dispersão dos dados. Após a regressão dos


dados, constrói-se uma curva de calibração que permite obter a concentração, c do
analito em uma amostra, a partir da leitura da respectiva absorbância, A. A reta de
regressão é mostrada na Figura 16 e corresponde à seguinte equação de regressão:

L̈ = 2,048 § − 0,003

© corresponde ao valor previsto para a absorbância.


A notação L

0.20

0.15
Absorbância

0.10

0.05

0.00

0.00 0.02 0.04 0.06 0.08 0.10


-1
c / mol L

Figura 16. Diagrama de dispersão para os dados da Tabela 10. Em vermelho está a
curva de regressão dos dados, que corresponde à curva de calibração.
Coeficiente de Correlação Linear

O coeficiente de correlação linear, r mede a intensidade da relação linear entre


os valores das variáveis x e y. Ele também chamado de coeficiente de correlação de
Pearson. Ele é calculado pela equação abaixo, onde n é o número de pontos.

 ∑ « − ∑  ∑ «
=
< ∑    − ∑  < ∑ «   − ∑ «

A Tabela 11 apresenta a intensidade da correlação para cada faixa de valores


de r. Em geral, em Química Analítica interessam apenas as correlações fortes.

Tabela 11. Intensidade da correlação para cada faixa de valores de r.

Coeficiente de Correlação, r Intensidade da Correlação

=1 Perfeita Positiva

0,8 <  < 1 Forte Positiva

0,5 <  < 0,8 Moderada Positiva

0,1 <  < 0,5 Fraca Positiva

0 <  < 0,1 Ínfima Positiva

=0 Nula

−0,1 <  < 0 Ínfima Negativa

−0,5 <  < −0,1 Fraca Negativa

−0,8 <  < −0,5 Moderada Negativa

−1 <  < −0,8 Forte Negativa

 = −1 Perfeita Negativa
Vamos agora calcular o valor de r para os dados da Tabela 10. Vamos chamar
a concentração de x e a absorbância de y. Vamos reescrever a Tabela 10, abaixo,
acrescentando as colunas xy, x2 e y2 e depois calcular as somatórias que aparecem na
equação para r: Σx, Σy, Σxy, Σx2, Σy2. No caso, o número de pontos é n = 10.

x y xy x2 y2
0.01 0.012 0.00012 0.0001 0.000144
0.02 0.048 0.00096 0.0004 0.002304
0.03 0.052 0.00156 0.0009 0.002704
0.04 0.088 0.00352 0.0016 0.007744
0.05 0.092 0.00460 0.0025 0.008464
0.06 0.128 0.00768 0.0036 0.016384
0.07 0.132 0.00924 0.0049 0.017424
0.08 0.168 0.01344 0.0064 0.028224
0.09 0.172 0.01548 0.0081 0.029584
0.10 0.208 0.02080 0.0100 0.043264
Σx = 0,55 Σy = 1,1 Σxy = 0,0774 Σx = 0,0385
2 Σy2 = 0,15624

Usando a equação para r, calculamos o seguinte valor:

10 0,0774 − 0,55 1,1


= = 0,9912
<10 0,0385 − 0,55 <10 0,15624 − 1,1

De acordo com a Tabela 11, trata-se de uma correlação forte positiva. Isto é
bastante adequado para uma curva de calibração.

Regressão Linear

O objetivo da regressão linear é encontrar a equação da reta que melhor


descreve os dados. Para tanto, utiliza-se a equação da reta, dada abaixo, onde x e y
são as variáveis, a é o coeficiente angular e b é o coeficiente linear da reta.

« = + + ¬
A regressão linear é feita através do método dos mínimos quadrados. Neste
método, chamam-se yi os valores experimentais da variável y e chamam-se (yi)calc, os
valores de y calculados pela regressão linear, ou seja:

« ‡‚ˆ‡ = + + ¬

O objetivo do método é encontrar os valores dos coeficientes a e b, da equação


da reta, que minimizem ∑ *' 2, a somatória dos quadrados das diferenças entre yi e
(yi)calc, dados pela equação abaixo.

*  = « − « ‡‚ˆ‡ #

Para tanto, derivam-se os *' 2 em relação aos coeficientes a e b, da equação


da reta e igualam-se a zero, resultando em um sistema de duas equações e duas
incógnitas, a e b, conforme mostrado abaixo.

­ ∑ *' 2
=0
­+
­ ∑ *' 2
=0
­¬

Substituindo as expressões para *' 2 em termos de a e b, temos:

2
­ ∑®«' − +' − ¬¯
=0
­+
2
­ ∑®«' − +' − ¬¯
=0
­¬

Resolvendo as derivadas, chegamos às seguintes equações:

 2\«' − +' − ¬] −'  = 0




 2\«' − +' − ¬] −1 = 0




Dividindo as equações acima por –1/2, obtemos as equações abaixo:


 \«' − +' − ¬] '  = 0


 \«' − +' − ¬] = 0


As equações acima podem ser reescritas na forma:

 \' «' ] − +  '  − ¬  '  = 0


  

 \«' ] − +    − ¬  1 = 0
  

Como ∑ 1 = , ou seja, o número de pontos, podemos resolver o sistema de


duas equações acima e chegar às equações para as constantes a e b.

 ∑ « − ∑  ∑ «
+=
 ∑    − ∑ 


∑    ∑ « − ∑  ∑ «
¬=
 ∑    − ∑ 

Vamos agora calcular os valores de a e b para os dados da Tabela 10. Vamos


reescrevê-la, novamente.

x y xy x2 y2
0.01 0.012 0.00012 0.0001 0.000144
0.02 0.048 0.00096 0.0004 0.002304
0.03 0.052 0.00156 0.0009 0.002704
0.04 0.088 0.00352 0.0016 0.007744
0.05 0.092 0.00460 0.0025 0.008464
0.06 0.128 0.00768 0.0036 0.016384
0.07 0.132 0.00924 0.0049 0.017424
0.08 0.168 0.01344 0.0064 0.028224
0.09 0.172 0.01548 0.0081 0.029584
0.10 0.208 0.02080 0.0100 0.043264
Σx = 0,55 Σy = 1,1 Σxy = 0,0774 Σx2 = 0,0385 Σy2 = 0,15624
Vamos usar as equações para a e b.

10 0,0774 − 0,55 1,1


+= = 2,048
10 0,0385 − 0,55

0,0385 1,1 − 0,55 0,0774


¬= = −0,003
10 0,0385 − 0,55

Chegamos então, a seguinte reta de regressão:

«° = 2,048  − 0,003
Capítulo 4. Fontes de Erro em Análise Química.

Precisão e Exatidão

As medidas que são feitas em uma análise química (massas, volumes,


absorção de luz, corrente elétrica, etc.), têm por objetivo final determinar a
concentração, ou o teor de um analito em uma amostra.

Em análise química, uma técnica é um princípio químico, ou físico, que pode


ser usado para analisar uma amostra. Geralmente utiliza-se uma das seguintes
técnicas analíticas:

• Técnicas clássicas: gravimetria (pesagens) e volumetria (titulações).

• Técnicas espectroquímicas: espectroscopia de ultravioleta-visível (UV-vis),


espectroscopia no infravermelho com transformada de Fourier (FTIR),
espectroscopia de absorção atômica (AAS), etc.

• Técnicas eletroquímicas: potenciometria, coulometria, voltametria, etc.

Um método é a aplicação de uma técnica para a determinação de um analito


específico em uma matriz específica. Por exemplo, existem métodos para determinar a
concentração de chumbo (Pb) no solo, na água, ou no sangue, por espectroscopia de
absorção atômica com forno de grafite. Assim como existe um método para
determinação do teor de vitamina C, em suplementos vitamínicos, por volumetria de
oxirredução.

A repetição de uma medida, pelo mesmo método, indica a precisão


(reprodutibilidade) da medida. A diferença entre os valores medidos pelo mesmo
método é denominada desvio. Um tipo particularmente importante de desvio é o
desvio-padrão. Uma medida precisa é aquela que possui um desvio-padrão baixo.

A diferença entre a média dos valores medidos e um valor de referência,


assumido como o “valor verdadeiro”, é o erro da medida. Uma medida exata é aquela
que possui um erro baixo. A concordância entre resultados obtidos por métodos
diferentes também indica a exatidão (veracidade) da medida.

A Figura 17 ilustra os conceitos de precisão e exatidão, considerando uma


série de medidas efetuadas por um mesmo método. As causas dos erros e dos
desvios serão discutidas na seção de Teoria de Erros.
Figura 17. A precisão é a medida da dispersão dos valores medidos por um mesmo
método, geralmente dada pelo desvio-padrão. A exatidão é a diferença entre
a média dos valores medidos e um valor de referência, assumido como o
“valor verdadeiro”.

Incertezas Absoluta e Relativa

A incerteza absoluta expressa a margem de incerteza associada a uma


medida. Ela depende do instrumento, ou equipamento utilizado na medida.

• Se a incerteza na leitura da massa em uma balança for de ±0,01 g, chamamos


a grandeza ±0,01 g de incerteza absoluta na leitura da massa. Um objeto de
massa 2,68 g medido nessa balança deve ser reportada da seguinte forma:
(2,68±0,01) g.

• Se a incerteza na leitura do volume em uma bureta calibrada for de ±0,02 mL,


chamamos a grandeza ±0,02 mL de incerteza absoluta na leitura do volume.
Um volume de um líquido igual a 18,03 mL, medido nessa bureta, deve ser
reportado da seguinte forma: (18,03±0,02) mL.
A incerteza relativa compara o tamanho da incerteza absoluta, com o valor da
medida. Ela é definida pela razão entre a incerteza absoluta e o valor da medida. Por
isso, é adimensional, ou seja, não tem unidade. Quando multiplicada por 100, temos a
incerteza relativa percentual (%). Quando multiplicada por 1000, temos a incerteza
relativa em partes por mil (%o).

¤§-–-}+ L¬&%šY–+
¤§-–-}+ ±-š+–'.+ =
t+š% *+ ²-*'*+

• Para um objeto de massa (2,68±0,01) g, a incerteza relativa percentual é de


a,a ³
× 100% = 0,4%
,” ³

• Para um volume de um líquido igual a (18,03±0,02) mL, a incerteza relativa


a,a µ¶
percentual é de
”,a µ¶
× 100% = 0,1%

Algarismos Significativos

Algarismos significativos são o número mínimo de algarismos necessários


para expressar o valor de um resultado experimental, sem perda de exatidão. Esse
resultado experimental pode ser obtido de duas formas distintas:

(1) diretamente, como na medida da massa de uma substância, pela


pesagem em uma balança, ou na medida do volume de uma solução,
usando uma pipeta, ou uma bureta;

(2) indiretamente, como na determinação da concentração de uma espécie


em solução, através de cálculos envolvendo as massas e volumes
medidos experimentalmente.
O número de algarismos significativos expressa a precisão de uma medida.

Por exemplo, existem balanças analíticas cuja incerteza na medida da


massa é de ±0,00001 g a ±0,0001 g (ou ±0,01 mg a ±0,1 mg) e a balança técnica,
com incerteza de ±0,01 g. Assim, um objeto pesado como 2,30385 g, em uma balança
analítica, possui seis algarismos significativos. O último algarismo é denominado
algarismo duvidoso, pois o seu valor não é conhecido com certeza, já que a
incerteza na medida está na quinta casa decimal. Assim, representa-se
apropriadamente a medida da massa do corpo como (2,30385 ± 0,00001 g). Esse
mesmo objeto, pesado em uma balança técnica deveria apresentar o valor 2,30 g, com
três algarismos significativos. O algarismo duvidoso está agora na segunda casa
decimal. Essa medida é mais apropriadamente representada como (2,30 ± 0,01 g). A
medida feita com a balança analítica possui uma precisão maior que aquela efetuada
com a balança técnica, pois os desvios entre medidas efetuadas na balança analítica
são, em princípio, menores.

Existem também as microbalanças cuja incerteza é bem menor, ou seja


±0,0000001 g (ou ±0,1 µg).

O algarismo zero, à direita, é significativo se fizer parte da medida. Por


exemplo, em uma massa de 3,81900 g, medida em uma balança com incerteza de
±0,01 mg os dois últimos algarismo (os zeros) são significativos.

O algarismo zero não é significativo quando apenas expressar a ordem de


grandeza. Por exemplo, uma massa de 1,23 mg, medida em uma balança com
incerteza de ±0,01 mg pode ser expressa como 0,00123 g. Neste caso, a medida
possui apenas três algarismos significativos. Os zeros à esquerda não são
significativos neste caso, pois expressam apenas conversão 1 mg = 0,001 g. Neste
caso, é útil expressar a medida em notação científica, colocando apenas os
algarismos significativos e a potência de dez. Neste caso, ficaria 1,23 × 10–3 g.

O mesmo acontece no caso de uma massa de 2,46 g, medida em uma balança


com incerteza de ±0,01 g. Pode-se expressar essa massa como 2460 g. Entretanto, o
último algarismo, o zero, não é significativo, pois apenas expressa a relação de
conversão 1 g = 1000 mg. Esta medida possui apenas três algarismos significativos
que podem ser expressos de forma mais conveniente, usando a notação científica.
Neste caso, ficaria 2,46 × 103 mg.
Adição e Subtração com Algarismos Significativos

Na adição e subtração, envolvendo algarismos significativos, vale a seguinte


regra prática:

A soma ou a diferença, de duas ou mais quantidades, deverá ter tantas


casas decimais quantas existirem na parcela de menor número de casas
decimais.

Considere os seguintes exemplos:

(1) Uma massa foi determinada como 3,2 g em uma balança com incerteza de
±0,1 g e outra massa foi determinada como 0,2032 g em uma balança com
incerteza de ±0,0001 g. Calcule a soma das duas massas.
3,2
+0,2032
______
3,4032

O resultado deve ser expresso com uma casa decimal, ou seja, 3,4 g.

(2) A massa de um material foi determinada como 7,31 g em uma balança com
incerteza de ±0,01 g. Cortou-se um pedaço do material e a massa desse
pedaço foi determinada como 1,2058 g em uma balança com incerteza de
±0,0001 g. Calcule a massa do restante do material.
7,31
–1,2058
______
6,1042

O resultado deve ser expresso com duas casas decimais, ou seja, 6,10 g.
Arredondamento

Quando for necessário arredondar números, após operações matemáticas,


deve ser seguida a seguinte regra:

Se o dígito que segue o último algarismo significativo do resultado for


maior ou igual a 5, então se aumenta o último algarismo significativo do
resultado em uma unidade. Caso contrário, permanece inalterado o último
algarismo significativo do resultado.

Considere os seguintes exemplos:

(1) Uma massa foi determinada como 3,2 g em uma balança com incerteza de
±0,1 g e outra massa foi determinada como 0,4532 g em uma balança com
incerteza de ±0,0001 g. Calcule a soma das duas massas.
3,2
+0,4532
______
3,6532

O resultado deve ser expresso com uma casa decimal e deve ser arredondado,
aumentando uma unidade na primeira casa decimal, ou seja, 3,7 g.

(2) A massa de um material foi determinada como 7,31 g em uma balança com
incerteza de ±0,01 g. Cortou-se um pedaço do material e a massa desse
pedaço foi determinada como 1,1226 g em uma balança com incerteza de
±0,0001 g. Calcule a massa do restante do material.
7,31
–1,1226
______
6,1874

O resultado deve ser expresso com duas casas decimais, aumentando uma
unidade na segunda casa decimal, ou seja, 6,19 g.
Multiplicação e Divisão com Algarismos Significativos

Na multiplicação e divisão, envolvendo algarismos significativos, vale a


seguinte regra:

O produto ou o quociente, de duas ou mais quantidades, não poderá ter


uma incerteza relativa menor que o fator que possui a menor incerteza
relativa.

Felizmente, em muitos casos vale a seguinte regra prática:

O produto ou o quociente, de duas ou mais quantidades, deverá ter


tantos algarismos significativos quantos existirem no fator de menor
número de algarismos significativos.

Considere o seguinte exemplo:

(1) Na titulação de 24,98 mL de uma solução de HCl, foram gastos 25,11 mL de


solução de NaOH 0,1041 mol/L. Determine a concentração da solução de HCl.

tT‚¸¹ ∙ +ºŒ# 25,11 ,¼ ∙ 0,1041 ,%š/¼


Œ·š# = = = 0,1046417 …  ,%š/¼
t¹»ˆ 24,98 ,¼

O resultado deve ser expresso com quatro algarismos significativos, ou seja,


[HCl] =0,1046 mol/L.

Na seção sobre propagação da incerteza, a partir do erro aleatório,


aprenderemos que nem sempre a regra prática é válida para multiplicações e divisões.
Para tanto, deveremos calcular a propagação das incertezas e utilizar a regra que diz
que o resultado não poderá ter uma incerteza relativa menor que o fator que possui a
menor incerteza relativa.
Teoria de Erros

Existem dois tipos básicos de erros que acompanham uma medida:

• Erros sistemáticos (ou determinados). São devidos a falhas nos


equipamentos, na pureza dos reagentes, nos métodos, ou na realização dos
experimentos. Se realizarmos o experimento repetidas vezes, o erro
sistemático repete-se sempre da mesma forma, ou seja, é reprodutível. Por
isso, em princípio, os erros sistemáticos podem ser descobertos,
calculados e corrigidos. Um medidor de pH pode ter sido padronizado
incorretamente, levando a leituras de pH sistematicamente menores que o
valor verdadeiro, em por exemplo, 0,05 unidades. Neste caso, uma solução
cujo pH verdadeiro fosse 7,00 produziria uma leitura de 6,95 no medidor de pH.
Quando se faz uma análise por volumetria, o uso de um indicador inadequado
leva a um erro sistemático de método. Os erros de método são os mais
difíceis de serem detectados.

• Erros aleatórios (ou indeterminados). São devidos a variáveis que não estão
sob controle durante o experimento. A probabilidade de o erro aleatório ser
positivo ou negativo é a mesma. Este tipo de erro sempre está presente e
não pode ser corrigido. Uma pessoa, lendo a mesma escala de um
instrumento diversas vezes, provavelmente obterá leituras diferentes a cada
vez, devido às interpolações subjetivas que são feitas entre as marcações da
escala. Ruídos elétricos aleatórios em equipamentos também levam a
flutuações positivas e negativas nas medidas. Por sua natureza aleatória,
este tipo de erro pode ser tratado estatisticamente.
Propagação da Incerteza, a partir do Erro Aleatório

Considere que todos os erros sistemáticos foram detectados e corrigidos. Na


maioria dos experimentos é necessário realizar operações aritméticas envolvendo
diversos números, cada um deles associado a um erro aleatório. As incertezas se
propagam durante as operações aritméticas. Qual é a incerteza do resultado de uma
operação aritmética envolvendo números associados a erros aleatórios?

Adição e Subtração

Considere a operação aritmética abaixo, envolvendo adição e subtração de


números e suas respectivas incertezas absolutas (e1, e2, e3). Qual é o valor da
incerteza absoluta e4, do resultado?

1,76 (±0,03) ←e1


+1,89 (±0,02) ←e2
−0,59 (±0,02) ←e3
_______________
3,06 (±e4)

O valor da incerteza absoluta e4, do resultado de somas e adições é dado pela


equação abaixo:

- = ¾-  + - + -

No caso da operação aritmética acima, o valor da incerteza absoluta e4, do


resultado é calculado pela equação acima, conforme mostrado abaixo.

- = < 0,03 + 0,02 + 0,02

- = <0,0009 + 0,0004 + 0,0004

- = <0,0017

- = ±0,04
Normalmente, utiliza-se representar o primeiro algarismo não significativo como
subscrito (±0,041) para evitar erros de arredondamento nos cálculos subseqüentes
que utilizem esse número.

A incerteza relativa percentual, %- do resultado é dada pela equação abaixo.

0,04
%- = × 100% = 1, %
3,06

Resultado: 3,06(±0,04) incerteza absoluta; 3,06(±1%) incerteza relativa percentual.

Multiplicação e Divisão

Considere a operação aritmética abaixo, envolvendo multiplicação e divisão de


números e suas respectivas incertezas absolutas (e1=±0,03, e2=±0,02, e3=±0,02). Qual é
o valor da incerteza absoluta, e4 e da incerteza relativa percentual, %- do resultado?

1,76 ±0,03 ∙ 1,89 ±0,02


= 5,64 ±- 
0,59 ±0,02

O valor da incerteza relativa percentual %e4, do resultado de multiplicações e


divisões é dado pela equação abaixo, envolvendo as incertezas relativas percentuais
dos fatores da operação.

%- = ¾%-  + %- + %-

Primeiro temos que encontrar as incertezas relativas percentuais dos fatores da


operação.

0,03
%- = × 100% = 1,‰ %
1,76

0,02
%- = × 100% = 1, %
1,89

0,02
%- = × 100% = 3, %
0,59
Calcula-se, assim, o valor da incerteza relativa percentual %e4, do resultado da
operação acima, conforme mostrado abaixo.

%- = ¾\1,7 ] + \1,1 ] + \3,4 ]


2 2 2

%- = <2,89 + 1,21 + 11,56

%- = <15,66

%- = 4,a %

A incerteza absoluta, e4 do resultado é então encontrado conforme mostrado


abaixo.

%-
- = × .+š% *% -&Yš–+*%
100
4,0
- = × 5,64
100

- = ±0, 2

Resultado: 5,64(±0,23) incerteza absoluta; 5,64(±4,0%) incerteza relativa percentual. O


resultado possui apenas dois algarismos significativos.
Tratamento Estatístico dos Erros Aleatórios

Na ausência de erros sistemáticos, os erros aleatórios permanecem e não


podem ser detectados e corrigidos. Entretanto, os erros aleatórios seguem a lei de
distribuição normal, discutida no Capitulo 2.

Em uma série de medidas experimentais, tem-se um conjunto de dados


amostrais  ,  ,  , … . Com esses dados, pode-se calcular a média amostral, 
e o
desvio-padrão amostral, & utilizando as equações abaixo, discutidas anteriormente,
onde N é o número de dados amostrais, ou seja, o tamanho da amostra.

1

=  



1
&=¿   − 

 − 1


O intervalo de confiança para a média populacional, µ pode ser estimado a


partir da média amostral, 
, do tamanho da amostra, N e do desvio-padrão da
população, σ ou da amostra, s. Usam-se as equações abaixo, em cada caso.

/
 = 
± }
√
&
 = 
± –
√

Um intervalo de confiança diz que o valor da média populacional está


compreendido em um certo intervalo, com uma certa probabilidade. As probabilidades
são dadas pelos valores de z ou t e são encontradas nas tabelas dos Apêndices.
Exemplo 1. Uma série de  = 9 medidas de concentração de um analito produziu
uma média amostral de 
= 3,78 ,%š/¼. Sabe-se que o desvio-padrão populacional é
/ = ±0,03 ,%š/¼. Determine o intervalo de confiança da média com uma probabilidade
de 95%.

Solução: Usaremos a Tabela A1 do apêndice. Temos de encontrar o valor de z cuja área entre -z
e +z seja de 95%. Nesse caso, a área fora desse intervalo é dada pelo cálculo 1–0,95 = 0,05.
Logo, a área acima de z é dada por 0,05/2 = 0,025. A Tabela A1 fornece as áreas abaixo de z.
Portanto, temos de encontrar o valor de z cuja área à esquerda seja 1–0,025 = 0,975. Procurando
na Tabela A1, encontramos z = 1,96. Portanto a média populacional está no intervalo de
confiança abaixo, com probabilidade de 95%.

0,03
 = 3,78 ± 1,96 ×
√9
0,03
 = 3,78 ± 1,96 ×
3

 = 3,78 ± 1,96 × 0,01

 = 3,78 ± 0,01•

Exemplo 2. Uma série de  = 9 medidas de concentração de um analito produziu


uma média amostral de 
= 3,78 ,%š/¼. Sabe-se que o desvio-padrão amostral é
& = ±0,03 ,%š/¼. Determine o intervalo de confiança da média com uma probabilidade
de 95%.

Solução: Usaremos a Tabela A3 do apêndice. Temos de encontrar o valor de t cuja área entre -t
e +t seja de 95%, com N–1 = 9–1 = 8 graus de liberdade (gl). Procurando na Tabela A3, para
95% e gl=9, encontramos t = 2,306. Portanto a média populacional está no intervalo de
confiança abaixo, com probabilidade de 95%.

0,03
 = 3,78 ± 2,306 ×
√9
0,03
 = 3,78 ± 2,306 ×
3

 = 3,78 ± 2,306 × 0,01

 = 3,78 ± 0,02a

Na ausência de erro sistemático o valor da média populacional, µ coincide com o valor


verdadeiro Xv. Na presença de erro sistemático, o erro é dado por K =  − rÀ .
APÊNDICES
A1. Tabela de probabilidades para distribuição normal reduzida.

Probabilidades à Esquerda
P(Z<a)
a

a | 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
----+-------------------------------------------------------------------------------
0.0 | 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 | 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 | 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 | 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 | 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 | 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 | 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 | 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 | 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 | 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 | 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 | 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 | 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 | 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 | 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 | 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 | 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 | 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 | 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 | 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 | 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 | 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 | 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 | 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 | 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 | 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 | 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 | 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 | 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 | 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 | 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
™š graus de liberdade.
A2. Tabela de probabilidades para a distribuição t de Student unilateral com

Os valores tabelados correspondem aos pontos a tais que:  Á—˜ ≤ :


gl p=0,600 p=0,750 p=0,900 p=0,950 p=0,975 p=0,990 p=0,995 p=0,9995
1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 636,619
2 0,289 0,816 1,886 2,920 4,303 6,965 9,925 31,598
3 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,924
4 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,610
5 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,869
6 0,265 0,718 1,440 1,943 2,447 3,143 3,707 5,959
7 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,408
8 0,262 0,706 1,397 1,860 2,306 2,896 3,355 5,041
9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 4,781
10 0,260 0,700 1,372 1,812 2,228 2,764 3,169 4,587
11 0,260 0,697 1,363 1,796 2,201 2,718 3,106 4,437
12 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,318
13 0,259 0,694 1,350 1,771 2,160 2,650 3,012 4,221
14 0,258 0,692 1,345 1,761 2,145 2,624 2,977 4,140
15 0,258 0,691 1,341 1,753 2,131 2,602 2,947 4,073
16 0,258 0,690 1,337 1,746 2,120 2,583 2,921 4,015
17 0,257 0,689 1,333 1,740 2,110 2,567 2,898 3,965
18 0,257 0,688 1,330 1,734 2,101 2,552 2,878 3,922
19 0,257 0,688 1,328 1,729 2,093 2,539 2,861 3,883
20 0,257 0,687 1,325 1,725 2,086 2,528 2,845 3,850
21 0,257 0,686 1,323 1,721 2,080 2,518 2,831 3,819
22 0,256 0,686 1,321 1,717 2,074 2,508 2,819 3,792
23 0,256 0,685 1,319 1,714 2,069 2,500 2,807 3,768
24 0,256 0,685 1,318 1,711 2,064 2,492 2,797 3,745
25 0,256 0,684 1,316 1,708 2,060 2,485 2,787 3,725
26 0,256 0,684 1,315 1,706 2,056 2,479 2,779 3,707
27 0,256 0,684 1,314 1,703 2,052 2,473 2,771 3,689
28 0,256 0,683 1,313 1,701 2,048 2,467 2,763 3,674
29 0,256 0,683 1,311 1,699 2,045 2,462 2,756 3,660
30 0,256 0,683 1,310 1,697 2,042 2,457 2,750 3,646
40 0,255 0,681 1,303 1,684 2,021 2,423 2,704 3,551
60 0,254 0,679 1,296 1,671 2,000 2,390 2,660 3,460
120 0,254 0,677 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,253 0,674 1,282 1,645 1,960 2,326 2,576 3,291
A3. Tabela de probabilidades para a distribuição t de Student bilateral com
™š graus de liberdade.

A 0.80 0.90 0.95 0.98 0.99 0.995 0.998 0.999


gl
P 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001
1 3.078 6.314 12.706 31.820 63.657 127.321 318.309 636.619
2 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599
3 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924
4 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8 1.397 1.860 2.306 2.897 3.355 3.833 4.501 5.041
9 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 1.345 1.761 2.145 2.625 2.977 3.326 3.787 4.140
15 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 1.337 1.746 2.120 2.584 2.921 3.252 3.686 4.015
17 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.768
24 1.318 1.711 2.064 2.492 2.797 3.090 3.467 3.745
25 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
31 1.309 1.695 2.040 2.453 2.744 3.022 3.375 3.633
32 1.309 1.694 2.037 2.449 2.738 3.015 3.365 3.622
33 1.308 1.692 2.035 2.445 2.733 3.008 3.356 3.611
34 1.307 1.691 2.032 2.441 2.728 3.002 3.348 3.601
35 1.306 1.690 2.030 2.438 2.724 2.996 3.340 3.591
36 1.306 1.688 2.028 2.434 2.719 2.991 3.333 3.582
37 1.305 1.687 2.026 2.431 2.715 2.985 3.326 3.574
38 1.304 1.686 2.024 2.429 2.712 2.980 3.319 3.566
39 1.304 1.685 2.023 2.426 2.708 2.976 3.313 3.558
40 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
42 1.302 1.682 2.018 2.418 2.698 2.963 3.296 3.538
44 1.301 1.680 2.015 2.414 2.692 2.956 3.286 3.526
46 1.300 1.679 2.013 2.410 2.687 2.949 3.277 3.515
48 1.299 1.677 2.011 2.407 2.682 2.943 3.269 3.505
50 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
60 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
70 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435
80 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
90 1.291 1.662 1.987 2.369 2.632 2.878 3.183 3.402
100 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.391
120 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373
150 1.287 1.655 1.976 2.351 2.609 2.849 3.145 3.357
200 1.286 1.652 1.972 2.345 2.601 2.839 3.131 3.340
300 1.284 1.650 1.968 2.339 2.592 2.828 3.118 3.323
500 1.283 1.648 1.965 2.334 2.586 2.820 3.107 3.310
1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291

Você também pode gostar