Você está na página 1de 61
Centro Universitário Fundação Santo André Faculdade de Filosofia, Ciências e Letras CURSO: QUÍMICA QUIMIOMETRIA

Centro Universitário Fundação Santo André

Faculdade de Filosofia, Ciências e Letras

CURSO: QUÍMICA

QUIMIOMETRIA BÁSICA

3º ANO - DIURNO

NOME:

Nº:

TURMA:

CURSO: QUÍMICA QUIMIOMETRIA BÁSICA 3º ANO - DIURNO NOME: Nº: TURMA: Prof. Alcides Eduardo Jacomassi 201

Prof. Alcides Eduardo Jacomassi

2011u

Conteúdo

Introdução

- Arredondamento de dados

- Notação científica

- Algarismos significativos

- Operações com algarismos significativos

Estatística Descritiva

- Precisão e Exatidão

- Medidas de posição e dispersão

- Distribuição de freqüência

- Função de distribuição de probabilidade

Estatística Indutiva

- Estimação de parâmetros por intervalo

- Tamanho de amostras

- Comparação de resultados

- Teste de hipóteses

Planejamento e análise de experimentos

- Experimentos fatoriais

- Métodos e planejamentos

- Planejamento fatorial fracionário

Arredondamento de dados

O resultado do arredondamento de um número como 72,8 para o inteiro mais próximo é 73, posto que 72,8 está mais próximo do 73 que do 72. Semelhantemente, 72,8146 arredondado para o centésimo mais próximo (ou com duas decimais) é 72,81.

Ao arredondar 72,465 para o centésimo mais próximo deparamo-nos com um dilema, pois 72,465 dista igualmente de 72,46 e 72,47. Nestes casos devemos adotar alguma referência quanto a regra de arredondamento. Uma das opções é a Norma ASTM E-29 que determina que nestes casos o número deve ser arredondado para o número par mais próximo, que precede o algarismo 5. Assim, 72,465 deve ser arredondado para 72,46.

Outros exemplos:

183,575 (para o centésimo mais próximo) 183,58 1165 (para a dezena mais próxima) 1160

Esta prática é especialmente valiosa para reduzir ao mínimo os erros acumulados por arredondamentos.

Resumindo, se o algarismo após o último a ser mantido for:

Menor que 5

Maior que 5

Igual a 5

o algarismo a ser mantido permanece o mesmo o algarismo a ser mantido aumenta uma unidade o algarismo a ser mantido permanece o mesmo ou aumenta uma unidade de forma que seja sempre par.

Notação científica

Ao escrever números, especialmente aqueles que comportem muitos zeros, (antes ou após a decimal) é sempre conveniente empregar a notação científica que utiliza as potências de dez.

Vale relembrar algumas regras de operações com potências:

Multiplicação:

10 P x 10 Q = 10 P+Q

Divisão:

10 P / 10 Q

= 10 P-Q

Algarismos significativos

Se a altura de um aluno foi determinada com precisão como sendo 1,66 metro, isto significa que seu valor verdadeiro está compreendido entre 1,655 e 1,665 metro. Os algarismos corretos, separados dos zeros necessários para a localização da vírgula, chamam-se algarismos significativos, e o algarismo mais à direita não nulo (para números sem vírgula) chama-se algarismo duvidoso (atentar que o algarismo duvidoso é um algarismo significativo).

Exemplos:

1,65 tem 3 algarismos significativos e o 5 (cinco) é o algarismo duvidoso 0,0018 tem 2 algarismos significativos e o 8 (oito) é o algarismo duvidoso 0,00180 tem 3 algarismos significativos e o 0 (zero) é o algarismo duvidoso

Os números resultantes de enumerações ou de contagens (discretos), ao contrário daqueles obtidos em medições (contínuos), são naturalmente exatos e, assim, têm uma quantidade ilimitada de algarismos significativos.

Em alguns casos pode ser difícil saber quantos são os algarismos significativos. Por exemplo, o número 12 500 pode ter 3, 4 ou 5 algarismos significativos. Nestes casos é bastante importante registrar o número em notação científica, pois se o número fosse escrito como 1,250 x 10 4 poderíamos afirmar sem dúvidas que o número possui 4 algarismos significativos.

Operações com algarismos significativos

Na multiplicação e na

divisão, o resultado final não pode ter mais

algarismos significativos do que o que tem menor quantidade deles.

Na soma e na subtração, o resultado final não pode ter mais algarismos significativos depois da vírgula do que aquele que tiver menor quantidade deles nessa condição. Caso os números não possuam vírgulas, o resultado não poderá ter algarismos significativos mais à direita que aquele que tem menor precisão.

Definições

Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. Esta ciência se preocupa com a organização, descrição, análise e interpretação de dados experimentais. Ela é aplicada ao estudo de variáveis aleatórias e, principalmente, quando tais variações têm grande efeito sobre o fenômeno estudado. A Estatística pode ser dividida em duas partes:

Descritiva: que se preocupa com a organização e descrição dos dados experimentais;

Indutiva: que cuida da análise e interpretação, permitindo a realização de inferências e projeção de populações.

Dados Análisee Descritiva Indutiva
Dados
Análisee
Descritiva
Indutiva
Dados Análisee Descritiva Indutiva Conhecimento e informação Quimiometria é uma disciplina voltada à

Conhecimento e

informação

Quimiometria é uma disciplina voltada à aplicação de métodos estatísticos e matemáticos no planejamento e otimização de procedimentos e na obtenção de informações químicas nas análises de resultados relevantes. É reconhecida atualmente como um ramo da química analítica. O emprego dos computadores em laboratório impulsionou o desenvolvimento da quimiometria

Alguns campos de aplicação da quimiometria:

Otimização de experimentos

Curvas de calibração

Modelagem de fenômenos

Detecção e resolução

Comparação de métodos

Redes neurais

Procura bibliográfica

O método estatístico aplicado na avaliação de um processo se divide em quatro fases basicamente:

Coleta de dados: pode ser efetuada de dois modos

Direto: todo o universo dos dados é utilizado para análise;

Indireto: somente uma parte do universo é utilizada para análise – a amostra;

Em um determinado processo estatístico esta importante etapa deve atender os seguintes requisitos:

Definir claramente os objetivos;

Definir a técnica a ser utilizada;

Comprometer o coletor com o processo;

Planejar a coleta;

Definir os pontos mais adequados;

Treinar o coletor;

Utilizar instrumentos adequados.

Apuração dos dados: após a coleta dos dados efetua-se a tabulação de acordo com critérios pré-estabelecidos. Por exemplo: faixa de concentração, método utilizado, etc.

A apresentação dos dados: os dados podem ser apresentados em tabelas (ou quadros) e em gráficos.

Análise e interpretação: baseados na análise dos dados deverão ser tomadas medidas para resolução de problemas observados ou melhoria dos processos.

O emprego da quimiometria e de ferramentas estatísticas tem colaborado

com o químico nas suas diversas áreas de atuação, levando-lhe a melhor interpretação de dados experimentais obtidos e a grande economia de tempo e materiais.

Dois conceitos fundamentais devem ser considerados em quimiometria:

Nenhuma operação matemática melhora a medida do processo!

 

O

domínio

e

o

conhecimento

acerca

do

problema

ainda

são

imprescindíveis.

Noções de Amostragem

População ou universo estatístico: é um conjunto da totalidade dos elementos objeto da nossa análise. Pode ser finita ou infinita;

Amostra

é

uma

parte

significativa

da

população,

selecionada

com

critérios científicos, que nos permite tirar conclusões a respeito da população.

O esquema a seguir associa o conceito de população e amostra com a

estatística descritiva e indutiva.

É preciso garantir que a amostra usada seja obtida por processos adequados para seja representativa da população. Isso significa que, em maior ou menor grau, no processo de amostragem a amostra deve possuir as mesmas características básicas da população.

População existente

Amostra
Amostra

Estatística

Descritiva

População futura

Estatística

Indutiva

Amostra
Amostra

De acordo com o interesse ou propósito do trabalho a ser conduzido, a amostragem de uma determinada população pode ser assim classificada:

- Amostragem casual simples - Todos os elementos da população têm igual

probabilidade de pertencer à amostra;

- Amostragem sistemática - Quando os elementos da população se apresentam

ordenados e a retirada da amostra é feita em espaço e tempo definidos; - Amostragem por meio de conglomerados - Quando a população apresenta uma subdivisão em pequenos grupos, chamados conglomerados, é possível se realizar uma amostragem casual destes subconjuntos;

- Amostragem estratificada - Muitas vezes a população se divide em sub-

populações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento substancialmente diverso. A amostragem estratificada consiste em especificar os estratos e a porção da amostra retirada em cada um dele.

Precisão e Exatidão

Erros ou desvios são conseqüências naturais do processo de medida de uma determinada grandeza. Os erros podem ter como origem as seguintes fontes:

- Erro de julgamento: oriundo de uma medida subjetiva.

- Erro de leitura: oriundo de leituras errôneas.

- Erro de instrumento: oriundo de defeitos ou da precisão limitada de instrumento.

- Erro de fontes externas: devido a fatores que influem diretamente na medida.

- Erro de representação: devido às medidas não poderem ser representadas numa escala correta.

Os erros descritos acima nos levam a uma classificação genérica de dois tipos de erros, a saber:

Erro Sistemático: apresenta tendência e relaciona-se com a média. Ex:

utilizar uma balança não calibrada para pesagem. Para eliminá-lo necessitamos descobrir a fonte e caso não seja possível devemos utilizar tabelas ou fórmulas para sua correção.

- É unidirecional - Tem causa assinalável

- Está associada à exatidão

Erro Aleatório: não apresenta tendência e relaciona-se com o desvio padrão. Ex: leituras sucessivas em um equipamento com diferentes valores. Não são passíveis de eliminação, porém podem ser tratados estatisticamente.

- É bidirecional

- Não tem causa assinalável

- Está associado à precisão

Exatidão: É a concordância entre uma medida e valor verdadeiro ou mais provável da grandeza. É também referida como acurácia.

Precisão: É a concordância entre uma série de medidas da mesma grandeza. Expressa a reprodutibilidade da medida.

da mesma grandeza. Expressa a reprodutibilidade da medida. Precisão: Erros Aleatórios Exatidão: Erros Sistemáticos

Precisão: Erros Aleatórios Exatidão: Erros Sistemáticos

O grau de exatidão e precisão na tomada de uma determinada medida é determinado por um conjunto de propriedades estatísticas que relacionam posição e dispersão a um valor da população

Medidas de Posição e Dispersão

Medidas podem ser tomadas em função da amostra ou da população. A notação destas medidas encontra-se na tabela a seguir:

Notações de principais estatísticas para população e amostra.

População

Amostra

N o de elementos

Média

Variância

Desvio padrão

n

x

S 2

S

As medidas de posição servem para localizar a distribuição de freqüência sobre o eixo da variável em questão. Três tipos importantes de medidas de posição: média, mediana e moda.

=

Média aritmética: sendo x i (i = 1,2,3, aritmética ou simplesmente média:

n n ∑ x ∑ x i i i = 1 ou x = i
n
n
∑ x
∑ x
i
i
i = 1
ou
x =
i = 1

N

n

, n,), definimos com média

Média Ponderada: consiste na média dos valores ordenados por classes considerando o peso de cada classe no conjunto.

n

x

i

.

f

i

= i = 1

N ou

n

x

i

.

f

i

x

=

i = 1

n

Mediana ( x

~ ): A mediana é o valor médio ou a média aritmética dos dois

valores centrais de um conjunto de números, ordenados em ordem de grandeza, isto é, em um rol.

Moda ( xˆ ): é o valor que ocorre com maior freqüência, isto é, é o valor mais comum. A moda pode não existir e, mesmo que exista, pode não ser única.Uma distribuição que tem apenas uma única moda é denominada unimodal.

Exemplo

Encontrar média, mediana e moda do seguinte conjunto:

 

12

14

 

15

15

16

=

11

+

12

+

14

+

15

+

15

+

16

+

16

+

18 =

 

8

 

x

(4º: 5º)

=

15

+

15

=

15

 

2

11

x

mediana =

16

14,6

18

moda = 15 e 16 (universo bimodal)

As medidas de dispersão complementam as informações das medidas de posição, indicando o grau de variação existente num conjunto de dados. As principais medidas de dispersão são: amplitude, variância, desvio padrão e o coeficiente de variabilidade.

Amplitude: É a diferença entre o maior e o menor valor da série de dados.

R = x

máx

x

mín

Variância: Por definição é a média dos quadrados dos valores em relação à média. Podemos defini-la como:

2

2

=

=

n n 2 2 ∑ ( x ) ( x x ) i i i
n
n
2
2
(
x
)
(
x
x
)
i
i
i = 1
2
ou
= ∑
i = 1
S
N
n
1
2
2
n
n
x
x
i
i
n
n
2
i = 1
2
i = 1
x
x
i
i
N
n
i = 1
2
i
= 1
ou
S
=
N
n
1

As variações das outras fórmulas ocorrem de forma análoga às variações acima. As propriedades matemáticas da variância:

- Multiplicando-se todos os valores de um conjunto por uma constante, a variância do conjunto fica multiplicada pelo quadrado dessa constante;

- Somando-se ou subtraindo–se uma constante a todos os valores de um conjunto, a variância não se altera.

Desvio Padrão: É definido como sendo a raiz quadrada da variância. Sua vantagem em relação à variância é que se encontra na mesma unidade dos dados amostrais.

S =

2 S
2
S

Exemplo

Conjunto

de

dados

apresentados

na

determinação

de

Pb

(mg/L)

de

4

laboratórios:

48,4

50,2

50,8

x = 50,1 mg/L

51,0

S

2 4,2

=

4

1

x

i

x

(x

i

x)

2

 

48,4 – 50,1 = 50,2 – 50,1 = 50,8 – 50,1 = 51,0 – 50,1 =

-1,7

2,89

0,1

0,01

0,7

0,49

0,9

0,81

Σ

0

4,2

= 1,4

(mg/L) 2

 

S =

1,4 = 1,2 mg/L

1,4 = 1,2 mg/L

Coeficiente de variação (ou variabilidade): É definido como o quociente percentual entre o desvio padrão e a média. Sua vantagem é caracterizar a dispersão dos dados em termos relativos a seu valor médio.

CV =

S

dos dados em termos relativos a seu valor médio. CV = S x 100 Exemplo Um

x

100

Exemplo

Um químico, desejando avaliar um novo método para determinação de cobre, conduziu uma investigação preliminar usando uma solução de concentração conhecida. Esta solução de 60 mg/L de cobre foi analisada 6 vezes, tomando para cada determinação alíquotas de 10 mL. Encontrar a média, mediana, moda, amplitude, variância, desvio-padrão e o coeficiente de variação dos resultados encontrados.

58,2

61,0

56,6

53,8

56,9

58,3

x =

md

58,2

+

61,0

+

56,6

+

53,8

+

56,9

+

58,3

6

= x(56,9 : 58,2) = 57,6 mg/L

= 57,5

R = 61,0 53,8 = 7,2 mg/L

S

2

=

(58,2

57,5)

2

+

(61,0

57,5)

2

+

+

(58,3

57,5)

2

(6

1)

S =

= (58,2 57,5) 2 + (61,0 57,5) 2 + + (58,3 57,5) 2 (6 1) S

5,65 = 2,38 mg/L

CV =

2,38

57,5

100

=

4,1%

mg/L

= 5,65

conjunto amodal (sem moda)

Exemplo

(mg/L) 2

Foram realizadas análises de cloretos em meio aquoso por 4 técnicos em uma mesma amostra padrão de 10,0 mg/L, encontrando-se os seguintes resultados:

técnico A

9,0

9,0

9,2

9,1

9,3

técnico B

9,9

9,9

10,3

10,3

10,3

técnico C

8,0

9,0

9,5

8,5

9,8

técnico D

9,0

10,5

11,0

9,5

10,0

Em relação aos resultados encontrados, classifique-os quanto à precisão e exatidão, e diga qual o tipo de erro (sistemático ou aleatório) há em cada um dos casos.

Para estimarmos a exatidão vamos considerar a estatística x , e para a precisão o coeficiente de variação.

 

x

S

CV (%) classe

erro

técnico A

9,12

0,13

1,4

inexato e preciso exato e preciso inexato e impreciso

sistemático aleatório sistemático aleatório aleatório

técnico B

10,14

0,22

2,2

técnico C

8,96

0,73

8,1

técnico D

10,00

0,79

7,9

exato e impreciso

Distribuição de freqüência

É uma séria estatística específica, onde os dados encontram-se dispostos em classes ou categorias juntamente com as freqüências correspondentes. Pode ser dividida em dois tipos:

Distribuição Simples: Assume valores inteiros (pontuais) normalmente oriundos de contagem. Ex.: números de técnicos que participam de um plano de correlação laboratorial (dados discretos).

Distribuição acumulada: Assume valores contínuos, normalmente oriundos de medidas. Ex.: resultados de análises de enxofre realizadas em amostras de gasolina.

Exemplo

determinado processo:

de

uma

distribuição

contínua:

temperaturas

observadas

em

22

46

9

40

57

22

22

13

50

42

35

2

15

41

34

52

32

75

69

44

26

42

60

56

30

3

17

79

45

37

0

12

62

50

45

41

59

11

66

39

43

33

70

50

47

20

36

40

67

29

A distribuição de freqüência será expressa na seguinte ordem:

Temperaturas

nº observações

0

10

4

10

20

5

20

30

6

30

40

8

40

50

12

50

60

7

60

70

5

70

80

3

Para discutir os dados dispostos na tabela de distribuição devemos notar algumas definições:

Dados Brutos: São os dados não organizados.

Rol: Arranjo de dados em ordem decrescente ou decrescente.

Classe (i): Cada um dos intervalos. No exemplo temos 8 classes.

Limite de classe: São os extremos de cada classe (inferior e superior). No exemplo a terceira classe tem limite inferior igual a 20 e limite superior igual a 30.

Intervalo de classe ou amplitude: É a diferença entre o limite superior e o limite inferior de cada classe. No exemplo é 10.

Amplitude total: É a diferença entre a maior e a menor observação. No exemplo a amplitude total é 79.

Ponto médio de classe (x i ): É a média aritmética entre o limite superior e inferior de cada classe. No exemplo, x i da quinta classe é 45.

Número de classes: Pode ser encontrado pela regra de Sturges:

K =

1 + 3,3 logN

(N = número de elementos)

Também pode ser encontrado por outras fórmulas, como regra de Kelly e etc. No entanto, é utilizado um número conveniente. No exemplo optamos por 8 classes.

Freqüência absoluta simples (fi): Número de observações em cada classe.

Freqüência relativa simples (fir): É o quociente entre a frequência absoluta simples da classe (fi) e o número total de observações (N).

Freqüência

absolta

acumulada

(Fi):

Corresponde

a

soma

das

freqüências de determinada classe com todas as anteriores.

Freqüência relativa acumulada (Fir): Corresponde à soma das freqüências relativas simples (fir) de determinada classe com todas as anteriores.

Exemplo

Os valores abaixo se referem a uma série de resultados analíticos de determinado produto, já ordenados de forma crescente.

95

96

96

97

97

97

97

98

98

98

98

98

98

99

99

99

99

99

99

99

99

99

99

99

99

100

100

100

100

100

100

100

100

100

100

100

100

100

100

100

100

100

100

101

101

101

101

101

101

101

101

101

101

101

102

102

102

102

102

102

102

103

103

103

103

104

104

105

Em relação aos dados acima, organize uma tabela de distribuição de freqüência por intervalos e responda as seguintes questões:

a) % de resultados iguais ou superiores a 99;

b) % de resultados entre 98 (inclusive) e 102 (exclusive);

c) Número de resultados menores que 103.

Temperatura (ºC)

x i

f i

f ir

F i

F ir

95

96

95,5

1

0,015

1

0,015

96

97

96,5

2

0,029

3

0,044

97

98

97,5

4

0,059

7

0,103

98

99

98,5

6

0,088

13

0,191

99

100

99,5

12

0,176

25

0,368

100

101

100,5

18

0,265

43

0,632

101

102

101,5

11

0,162

54

0,794

102

103

102,5

7

0,103

61

0,897

103

104

103,5

4

0,059

65

0,956

104

105

104,5

2

0,029

67

0,985

105

106

105,5

1

0,015

68

1,000

a)

% resultados 99 (freqüência acumulada relativa até quarta classe): 1-0,191

=

0,809 (80,9 %) .

b)

% resultados 98, < 102 (soma das freqüências relativa entre quarta e sétima

classe): 0,088 + 0,176 + 0,265 + 0,162 = 0,691 (69,1 %) .

c) resultados < 103 (freqüência acumulada até a oitava classe): 61

Histogramas

São representações gráficas em forma de colunas justapostas, onde a base colocada no eixo das abscissas corresponde aos intervalos das classes, e

a altura é dada pela freqüência absoluta das classes. O processo de obtenção

do histograma é análogo ao utilizado para obtenção da distribuição de freqüência. As seguintes figuras apresentam as classificações de histogramas que podem ser obtidas.

Tipo Geral

16 14 12 10 8 6 4 2 0 Tipo Platô 14 12 10 8
16
14
12
10
8
6
4
2
0
Tipo Platô
14
12
10
8
6
4
2
0

Tipo Pente

18 16 14 12 10 8 6 4 2 0
18
16
14
12
10
8
6
4
2
0

Tipo Assimétrico

18 16 14 12 10 8 6 4 2 0
18
16
14
12
10
8
6
4
2
0

A figura a seguir demonstra o histograma construído a partir de dados do exercício anterior, de classificação assimétrica.

14 12 10 8 6 4 2 0 fi
14
12
10
8
6
4
2
0
fi

010

1020

2030

3040

4050

5060

6070

7080

Função de distribuições de probabilidade

Vamos considerar o seguinte exemplo: determinado lote de produtos fabricados com especificação A e B, respectivamente, foram classificados em uma escala própria de cor, de 1 a 2, conforme a seguinte tabela:

Escala cor

Especificação

1

2

Total

A

503

120

623

B

250

5

255

Total

753

125

878

Em um processo de escolha aleatória, qual a probabilidade de sorteamos:

a) Produto com especificação A

b) Produto com cor 2

c) Produto com especificação B e cor 1

d) Produto com especificação A ou cor 1

Quando conhecemos a distribuição dos dados sob determinados critérios podemos estabelecer facilmente a probabilidade de encontrarmos um resultado aleatório dentro de um intervalo.

A distribuição de probabilidade é determinada pela curva de densidade. No caso do histograma anterior podemos delimitar a curva de densidade da distribuição de probabilidade dos dados.

20 18 16 14 12 10 8 6 4 2 0 94 95 96 97
20
18
16
14
12
10
8
6
4
2
0
94
95
96
97
98
99
100
101
102
103
104
105
106
ºC
fi

Quando não conhecemos a distribuição dos dados, podemos admitir sob critérios rigorosos que a população pode seguir um padrão de distribuição determinado.

Distribuição Normal

Um dos mais importantes exemplos de uma distribuição continua de probabilidade é a distribuição normal, ou a distribuição de Gauss. A função de distribuição normal é definida pela equação:

( x ) 1 2 Y = e 2 2
(
x
)
1
2
Y
=
e
2
2
é definida pela equação: ( x ) 1 2 Y = e 2 2 A distribuição

A distribuição normal é a distribuição mais comumente utilizada quando se estuda variáveis. Podemos assim descrever as características de uma distribuição normal:

Apresenta simetria ao redor da média;

Tem um ponto de máximo para x = ;

É duplamente assintótica;

Tem dois pontos de inflexão;

A área sob é igual à unidade.

A probabilidade sob a curva de densidade da distribuição normal tem valores definidos em termos de .

99,7 % 95,4 % 68 3 % - - 2 2 - 3 3
99,7 %
95,4 %
68
3
%
-
- 2
2
- 3
3

Como exemplo, vamos ilustrar a aplicação de cálculo pela probabilidade normal no caso de uma análise química de cobre por método eletrogravimétrico, supondo que o resultado esperado para o teor de cobre seja de 20 % e que a

determinação analítica resultou em média x = 20 e desvio padrão

= 0,5.

P

(19 ≤ µ ≤ 21) =

P

(18,5 ≤ µ ≤ 21,5) =

P

(19 ≤ µ ≤ 21,5) =

Distribuição Normal Reduzida

Para facilitar o cálculo de áreas de probabilidades, converte-se a escala dos eixos de x (variável aleatória) para escala de unidades de desvio padrão. Assim, temos que:

( x ) z =
(
x
)
z =

onde o valor z representa o quanto um determinado valor dista da média em termos de desvio-padrão.

A tabela disposta no Apêndice deve ser empregada para determinar a probabilidade de um resultado ocorrer em uma distribuição normal

Exemplo

Um certo material foi analisado em laboratório. A média das determinações foi de 3,40 e o desvio padrão de 0,14. A especificação deste material fornecida pelo

produtor é de

3,36 ± 0,05. Qual a probabilidade de encontrar valores fora de

especificação?

µ = 3,40 = 0,14

Limites da especificação: x 1 = 3,36 – 0,05 = 3,31 x 2 = 3,36 + 0,05 = 3,41

 

(3,31

3,40)

0,642

z

=

1 0,14

=

 

(3,41

3,40)

= 0,071

z

2

=

0,14

P

(x < 3,31) = P (z < -0,642) = 0,5 - 0,2389 = 0,261

P

(x > 3,41) = P (z > 0,071) = 0,5 - 0,0279 = 0,472

P

(x < 3,31) + P (x > 3,41) = 0,733 ou 73,3 %

Estatística Indutiva

O objetivo da estatística indutiva é tirar conclusões sobre as populações

com base nos resultados observados nas amostras extraídas dessas populações. Os problemas de estatística indutiva se concentram em dois grupos:

- Estimação de Parâmetros por Intervalos de Confiança

- Avaliação por Testes de Hipóteses

Estimação dos parâmetros da população

Através de uma amostra representativa da população, procura-se estimar os parâmetros da população (média, mediana, moda, amplitude, desvio padrão, variância, coeficiente de correlação, etc.). A estimação amostral pode ser por ponto ou por intervalo de confiança.

A estimação pontual é a estimativa do parâmetro através de um único

valor resultante de observações sobre os valores da amostra. Em estatística, entende-se por população o conjunto de elementos que tem em comum determinada característica. Todo subconjunto de elementos retirado dessa população é uma amostra. As medidas obtidas com base na população são chamadas parâmetros, indicados por letras gregas. Assim, por exemplo, a média

de uma população é indicada por µ, e o desvio padrão por .

As medidas obtidas com base em amostras são denominadas estatísticas,

que são obtidas a partir de amostras como estimativas dos parâmetros. Na

estimação de parâmetros por ponto, x serve para estimar µ, assim como S serve para estimar .

Estimação por intervalo de confiança

Estimar o parâmetro por intervalo consiste na determinação de valores obtidos de observações da amostra no qual se espera que o mesmo contenha o valor do parâmetro. O intervalo estabelecido com uma determinada probabilidade é conhecido como intervalo de confiança. O nível ou grau de confiança, designado por 1- , é a probabilidade citada. Assim, será a probabilidade de erro na estimação por intervalo.

Admitiremos simetria na probabilidade que os intervalos de confiança contenham os valores dos parâmetros estimados e, dessa forma, a probabilidade de que o parâmetro fique fora do intervalo, à direita e à esquerda do mesmo, será igual a /2.

O intervalo de confiança pode ser determinado para uma série de

condições. Vamos considerar estas condições específicas como casos de estudo.

Caso 1. Intervalo de Confiança para µ com

conhecido.

0 , sendo os limites do

intervalo de confiança simétrico

determinar o e , fixando-se a probabilidade de erro na estimação, e fazendo uso do conceito da distribuição normal padronizada.

x e . O problema resume-se em

O intervalo de confiança será expresso como

0

x + e

0

e

0

x ± e

Admitindo-se:

µ = média da população

x = média da amostra x = valor da variável estudada = desvio padrão da população n = tamanho da amostra

e

0

= semi-amplitude do intervalo de confiança

e

z = x

x =

+ e

0

Em se tratando do estudo de amostras, o desvio padrão em z passa a ser

indicado por /

n .
n .

Substituindo as respectivas simbologias, temos que:

z

e ) 0 = ( n
e
)
0
= (
n

e

0

=

z

n
n

Portanto, a expressão do intervalo de confiança,

x ± z n
x ±
z
n

x ± e , resultará em:

0

e a interpretação desse intervalo será indicada por:

  P  x z x + z  =    n
P  x
z
x
+
z
 =
n
n 

1

o valor de z é obtido na tabela da área sob a curva normal .

Exemplo

Consideremos uma amostra de 49 elementos extraída de uma população com

distribuição normal, com média amostral x = 25 e = 1. Estabelecer um intervalo de 95 % de probabilidade com confiança para a média dessa população.

Através da tabela da curva normal:

z = z 2,5% = 1,96 (valor obtido para 1- = 1-0,05 = 0,95).

1 e 1,96. = 0,28 0 = 49
1
e
1,96.
=
0,28
0 =
49

o intervalo de confiança será dado por:

x ± e

0

=

25,00

±

0,28

com indicação dada por:

P (24,72 < µ < 25,28) = 0,95.

Caso 2. Intervalo de Confiança para µ com

desconhecido.

Quando os parâmetros da população são desconhecidos, podemos, com base em uma amostra, obter a média da amostra, o desvio padrão e o erro padrão da média. A probabilidade neste caso deve ser considerada conforme a distribuição t de Student que é adequada para amostras com menor número de elementos, em geral < 30.

A curva de densidade da distribuição t de Student se assemelha com a curva normal à medida que n tende a valores maiores.

A probabilidade sob a curva densidade da estatística t pode ser encontrada por meio de

A

probabilidade

sob

a

curva

densidade

da

estatística

t

pode

ser

encontrada por meio de dados tabelados (Apêndice).

Usando a distribuição de t de Student podemos estabelecer um intervalo

. Assim a

de confiança para a média, calculando os limites

expressão para o intervalo de confiança para µ para com

x ± tS

x , onde S

S

n
n

x =

desconhecido fica:

x

±

t

n

1,

/ 2

S

n
n

onde t é obtido por meio de tabela com n-1 graus de liberdade. A interpretação para o intervalo de confiança é dada por:

 S P  x . t n 1, / 2  n Exemplo
S
P
x
.
t n
1,
/ 2
n
Exemplo

x + t n

x

+

t

n

1,

/ 2

. S   = n 
.
S   =
n

1

Uma amostra de 10 elementos com média x = 16 e desvio padrão S = 2 é extraída de uma população de distribuição normal. Construir um intervalo de confiança de 90% para a média dessa população.

Da tabela de distribuição t temos:

t n-1 = t 9,90% = 1,833

e o = 1,833 .

2

t temos: t n-1 = t 9,90% = 1,833 e o = 1,833 . 2 =

= 1,159

o intervalo de confiança será:

x ± e

0

=

16,00

±

1,159

com indicação:

P(14,841 < µ< 17,159) = 0,90

Caso 3. Intervalo de confiança para a variância populacional.

A estimação do parâmetro variância pode ser realizada através de intervalos, de forma análoga à determinação de µ. Para tal, devemos empregar a

distribuição

2 (qui quadrado).

A distribuição de graus de liberdade.

2 estabelece a dependência da variância com o número

2 estabelece a dependência da variância com o número Seja: n 2 ( x x )

Seja:

n

2 ( x x ) i 2 i = 1 S = ∑ n 1
2
(
x
x
)
i
2
i = 1
S
= ∑
n
1
2
n
 x
2
= ∑
i
x  
i = 1
2
(
n
1)
S
2
=
2

n

1

n

1

=

n

1

2

S

2

O intervalo de confiança para a variância populacional é definido por:

P

(

n

1)

S

2

2

,

2

2

(

n

1)

S

2

2

,1

2

= 1-

Para o desvio padrão, o intervalo é definido por:

P

2 ( n 1) S 2 , 2
2
(
n
1)
S
2
,
2
2 ( n 1) S 2 ,1 2
2
(
n
1)
S
2
,1
2

Onde

(Apêndice).

os

Exemplo

valores

de

2

,
2

= 1-

e

2

,1

2

podem

ser

encontrados

em

Tabela

Uma amostra de 11 elementos extraída de uma população com distribuição normal forneceu S 2 = 7,08. Construir o intervalo com 90 % de confiança para 2 da população.

2

2

=18,307

 

,

2

=

10,5%

2

,1

 

=

2

10,95%

=3,94

 

2

limites do intervalo: LI =

LS =

10

10 7,08 =

7,08 =

18,307

3,87

10

7,08 =

3,94

18,0

P(3,87

2

18,0) = 0,90

P(1,97

4,24) = 0,90

Caso 4. Intervalo de confiança para a proporção populacional

Uma variável é uma função que confere um número real a cada resultado no espaço amostral de um experimento aleatório. As variáveis podem ser classificadas de duas formas:

Variáveis discretas – possuem uma faixa finita e contável. Exemplo:

número de lotes fabricados, número de analisadores em linha, número de certificados emitidos no mês, etc

Variáveis contínuas – possuem um intervalo de números reais para a sua faixa. Exemplo: temperatura, massa, tempo, concentração, etc

O tratamento estatístico dado às variáveis discretas refere-se à proporção dos eventos contáveis que ocorrem em uma determinada população. Baseados na distribuição binomial, podemos estabelecer o intervalo de confiança para uma determinada proporção populacional.

Seja:

n = número de elementos da amostra;

f = freqüência observada do evento;

p = proporção populacional (parâmetro);

p’= estimador do parâmetro (amostral);

p'=

f

n

Quando np 5 e n(1-p) 5

2

se

=

p'(1

p')

n

para a proporção populacional:

e

0

e 0

=

z

= z n p '(1 p ') n
=
z
n
p
'(1
p
')
n

O intervalo de confiança para p pode ser definido por:

 p '(1 p ') P  p ' z  n  Exemplo
p
'(1
p
')
P
p
'
z
n
Exemplo
p '(1 p ')  p p ' + z  =1-  n 
p
'(1
p
')
p
p
' +
z
=1-
n

Retirada uma amostra de 1000 peças da produção de uma máquina, verificou-se que 35 eram defeituosas. Qual o IC ao nível de 95 % para a produção de defeitos da máquina?

n = 1000

f = 35

p'=

35

1000

= 0,035

z 95 % = 1,96 0,035(1 0,035) e = 1,96 0 1000
z
95 % = 1,96
0,035(1
0,035)
e
= 1,96
0
1000

= 0,0114

P(0,035-0,0114 p 0,035+0,0114) = 1-

P(0,0236 p 0,0464) = 0,95

Tamanho das amostras

A amplitude do intervalo de confiança é inversamente proporcional ao nível de confiança, isto é, quanto maior o intervalo menor será a precisão na estimação. A determinação do tamanho de amostras necessárias para casos de estimação da média fica:

Com conhecido na estimação da média populacional

z

n =

e

0

2

Com desconhecido na estimação da média populacional

t

(

n

1,

S

n =

/ 2)

e

0

2

Nesta situação, dependemos de uma amostra piloto n’ para podermos

na expressão acima para o cálculo de n. Enquanto o

valor de n obtido for maior que o valor de n’ utilizada como amostra piloto, devemos escolher novo n’ e conseqüentemente teremos a tabela t de Student o valor correspondente com n’-1 graus de liberdade. Repetimos este procedimento até se obter n < n’.

considerar o valor de

t

n 1,

/ 2

Para a proporção populacional

n

=

 

z

e

0

2

p

'(1

p

')

Exemplo

O supervisor dos analistas do laboratório setorial deseja estimar o valor médio para a determinação de selênio em amostras de ração animal, para checar se o método que ele está utilizando atende ao erro de 0,2 mg/L, com 90 % de confiança. Baseado em dados do laboratório central, a estimativa para o desvio padrão do teor esperado é de = 0,50 mg/L. Qual o número mínimo de determinações que ele precisa efetuar?

Para 90 % de confiança (1- ): z = 1,65.

n =   1,65

0,50

0,2

2

= 17

Exemplo

Para verificar se determinado material está fora de especificação, ou seja, maior que 0,05 mg/L de Pb, o supervisor encaminhou ao analista 7 amostras, obtendo os seguintes resultados.

0,052 0,048 0,050 0,055 0,054 0,043 0,060

Ao nível de 10 % de significância, este número de amostras é suficiente para se afirmar que a amostra está fora de especificação? Considerar que não há mais informações a respeito do problema.

x

= 0,05171

 

S

= 0,005438

n’

= 7 > t 6;0,90 = 1 ,943

 

e

= x

0

=

0,05171

0,05

=

0,00171

n =   1,943

0,005438

0,00171

2

= 38

como n > n’ (38>7), devemos fazer novas determinações e procedermos aos

cálculos para a nova média x e a nova estimativa para desvio padrão, utilizando

a estatística “t” correspondente, ao nível de 5 %, e obtermos o novo número n; e assim por diante, até chegarmos em n menor ou igual a n’ . O n final vai nos indicar o número mínimo de amostras necessário para dizermos sobre a concordância a respeito da especificação.

Exemplo

Qual o tamanho da amostra suficiente para estimar a proporção de produtos com defeitos fornecidos por uma máquina, com precisão de 0,02 e 90 % de confiança, sabendo que seguramente esta proporção não é superior a 0,20.

n =   1,65


0,02

2

0,2(1

0,2)

=

1089

Rejeição de valores dispersos

Antes de se efetuar a avaliação e interpretação de uma série de resultados, é necessário verificar a existência de valores que eventualmente possam ser considerados como dispersos, ou seja, valores que muito provavelmente não pertençam ao mesmo conjunto de resultados (população).

Em geral, são feitas considerações dentro do critério de rejeição de valores :

Se proporção de valores dispersos < 10 %, estes devem ser rejeitados e o restante do conjunto pode ser tratado normalmente;

Se 10% < proporção de valores dispersos < 15%, o responsável pela avaliação dos resultados deve usar o bem senso acerca da preservação do conjunto de dados para estudo;

Se proporção de valores dispersos > 15 %, a amostra deve ser totalmente rejeitada.

ser

considerados dispersos. Vamos aqui nos concentrar no estudo dos procedimentos mais comumente empregados e recomendados.

Existem

métodos

de

verificar

se

um

ou

mais

valores

podem

Teste de Dixon

Dada uma série de dados, este teste é utilizado para se eliminar aqueles resultados considerados discrepantes.

A estatística utilizada é dada através da Tabela de Dixon, constante do final desta apostila. Nesta tabela pode ser encontrado o valor crítico, que é então comparado ao valor calculado a partir dos dados da amostra, obedecendo ao seguinte procedimento:

a) ordenar os dados amostrais em ordem crescente;

b) calcular o valor de Qc conforme fórmula constante da tabela (atentar sempre para o número de dados; a fórmula varia em função do tamanho da amostra);

c) obter o valor de Q tabelado;

d) comparar os valores de Q calculado e Q tabelado.

Exemplo

Usando o teste de Dixon, verifique se existe algum dado que deve ser descartado na análise de determinado produto. Os resultados obtidos foram os seguintes:

20,1

-

19,9 -

20,2

-

19,9

-

21,1

-

20,0

Teste de Cochran

Este teste é utilizado quando se deseja comparar variâncias, ou seja, verificar se a variância dos resultados obtidos por um laboratório é excessiva em relação à dos demais laboratórios. É um teste unilateral, isto é, só verifica o maior valor.

Para um conjunto de p laboratórios, com desvios padrão S i (i=1,2, ,p), todos computados com o mesmo número de repetições n, o teste de Cochran é dado por:

C

c

S

2

máx

= p

i = 1

S

2

i

onde:

S 2 = estimativa da variância

S 2 máx = maior valor encontrado como estimativa da variância, no conjunto

p = número de laboratórios

Os valores críticos para o teste de Cochran são tabelados (Apênice).

Se C c < C t 5 %

Valor aceito

Se C t 1 % > C c > C t 5 %

Valor suspeito

Se C c > C t 1 %

Valor disperso

Exemplo

Aplicar o Teste de Cochran no conjunto de dados abaixo para encontrar valores

dispersos. Laboratório

 

n

S

S 2

 

1 3

0,005

0,000025

2 3

0,010

0,000100

3 3

0,021

0,000441

4 3

0,010

.0,000100

5 3

0,019

0,000361

6 3

0,006

0,000036

7 3

0,012

0,000144

8 3

0,025

0,000625

Calcular a soma das variâncias

S 2 = 0,001832

i

Relacionar a maior variância encontrada, com a soma.

C

=

S

2

máx

0,000625

=

c p

S

2

i

0,001832

i

=

1

=

0,341

Comparar o valor calculado C c , com o valor tabelado (C t 1 % e C t 5 % )

Na tabela, para p = 8 e n = 3, temos:

C

t 5 % = 0,516

C

t 1 % = 0,615

Conclusão: Como C c < C t 5 % , então o valor da maior variância, Laboratório 8, é aceito.

Teste de Grubbs

O teste é primeiramente realizado verificando a existência de um valor disperso em cada extremidade do conjunto. Se nesta primeira análise, um dos dois valores for considerado disperso, ele é rejeitado, retirado do conjunto e novo teste, verificando a existência de um valor disperso em cada extremidade do conjunto, é realizado e assim sucessivamente. Caso contrário, se nesta primeira análise, ambos os valores forem aceitos como não dispersos, o teste é então realizado verificando-se a existência de dois valores dispersos em cada extremidade do conjunto. Se nesta segunda análise os dois resultados de uma das extremidades forem considerados como dispersos, eles devem ser rejeitados, retirados do conjunto e novo teste verificando a existência de dois valores dispersos em cada extremidade do conjunto é realizado e assim sucessivamente.

Os valores críticos para o teste de Grubbs são tabelados (Apêndice).

Teste de Grubbs para 1 valor disperso: dado um conjunto de resultados g i ,

, p, dispostos em ordem crescente, então para determinar se um

determinado valor é um disperso, usando o teste de Grubbs, devemos calcular as seguintes estatísticas:

para i=1, 2,

para testar o maior valor, utilizar

G

=

( g

p

g )

p S

para testar o menor valor, utilizar

G

1

=

(

g

g

1

)

S

Os valores críticos para o teste de Grubbs são tabelados.

Se G c < G t 5 %

Se G t 1 % > G c > G t 5 %

Se G c > G t 1 %

Valor aceito

Valor suspeito Valor disperso

Teste de Grubbs para 2 valores dispersos: dado um conjunto de resultados g i ,

para i=1,2,

(maiores ou menores) valores são considerados como dispersos, devemos calcular as seguintes estatísticas:

dispostos em ordem crescente, então para determinar se dois

,p,

Para testar se dois maiores valores podem ser considerados como dispersos, calcular a relação entre as diferenças quadráticas (G):

G

p

1,

p

onde:

=

2

S p

1, p

S

2

0

S

S

2

0

2

p

p

i = 1

=

=

1,

p

(

g

i

p

2

i = 1

(

g

g )

i

2

- é a diferença quadrática no conjunto com todos os valores

g

p

1,

p

)

2 - é a diferença quadrática no conjunto sem

os dois

maiores valores

g

p

1,

p

=

2 g

p

i = 1

i

(

p

2)

- é a média do conjunto, sem os dois maiores valores

Alternativamente, para os dois menores valores

G

1,2

=

S

2

1,2

S

2

0

S

S

2

0

2

1,2

=

p

(

i

=

1

p

=

=

i

3

g

i

(

g

i

valores

g

)

2

g

1,2

- é a diferença quadrática no conjunto com todos os valores

)

2 - é a diferença quadrática no conjunto, sem os dois menores

g

1,2

=

p

=

3

i

g

i

2) - é a média do conjunto, sem os dois menores valores

( p

Se G c > G t 5 %

Se G t 1 % < G c < G t 5 %

Se G c < G t 1 %

Exemplo

Valor aceito

Valor suspeito Valor disperso

Verificar se há dados dispersos no conjunto de dados abaixo:

Laboratório

n

x

1 3

0,708

2 3

0,680

3 3

0,667

4 3

0,660

5 3

0,690

6 3

0,733

7 3

0,703

8 3

0,677

Ordenando dados de forma crescente:

g(1)

0,660 0,667 0,677 0,680 0,690 0,703 0,708 0,733

g(2)

g(3)

g(4)

g(5)

g(6)

g(p-1) g(p)

Verificar dados tabelados para os níveis de significância dados. Valores tabelados G t 1% ou G t 5% . Para 8 laboratórios, testando um valor, temos: G t 5% = 2,126 e G t 1% = 2,274.

Selecionar o menor e o maior valor. Verificar se 0,660 é disperso. Verificar se 0,733 é disperso.

Calcular a média e o desvio padrão do conjunto de dados

g

S

g = ∑ i = 0,68975 p p 2 ( g g ) i =
g
=
i
= 0,68975
p
p
2
(
g
g
)
i
= ∑
i = 1
= 0,024022
p
1

Calcular a estatística. Para o menor valor:

G

1

=

(0,68975

0,660)

0,0240

= 1,238

Conclusão: como o valor calculado é menor do que os valores tabelados, tanto a

1 % como a 5 %, ele não é considerado nem disperso, nem suspeito, respectivamente.

Para o maior valor:

G

=

(0,733

(0,733 0,68975) =

0,68975) =

0,68975) =

p 0,0240

1,800

Conclusão: como o valor calculado é menor do que os valores tabelados, tanto a

1 % como a 5 %, ele não é considerado nem disperso, nem suspeito, respectivamente.

Obs. Tanto o menor valor como o maior valor foram aceitos, seguimos com o teste de Grubbs, agora com dois valores em cada extremidade.

Para 8 laboratórios, testando um valor, temos: G t 5% = 0,110 e G t 1% = 0,056.

Selecionar os dois menores valores e os dois maiores valores. Verificar se 0,660 e 0,667 são dispersos. Verificar se 0,708 e 0,733 são dispersos.

Calcular a média do conjunto de dados, sem os dois menores valores a serem testados.

Portanto, sem os dois menores valores teremos:

g

1,2

p

=

i

= 3

g

i

(

p

2)

= 0,6985

Calcular a soma das diferenças quadráticas, dos dois conjuntos, ou seja, um conjunto com todos os valores e o outro conjunto sem os dois valores a serem testados.

Conjunto com todos os valores

S

2

0

=

p

i = 1

(

g

i

g

)

2

=

0,00404

Laboratório

g

i

(g

i

g)

(g

i

g)

2

4

0,66

-0,02975

0,0008851

3

0,667

-0,02275

0,0005176

8

0,677

-0,01275

0,0001626

2

0,68

-0,00975

0,0000951

5

0,69

0,00025

0,0000001

7

0,703

0,01325

0,0001756

1

0,708

0,01825

0,0003331

6

0,733

0,04325

0,0018706

 

0,00404

 

conjunto sem os dois valores

S

2

1,2

=

p

i = 3

(

g

i

g

1,2

)

2

=

0,002178

Laboratório

g

i

(

g

i

g

1,2

)

(g

i

g

1,2

)

2

4

0,66

 

3

0,667

8

0,677

-0,0215

 

0,0004622

2

0,68

-0,0185

0,0003422

5

0,69

-0,0085

0,0000723

7

0,703

0,0045

 

0,0000202