Você está na página 1de 99

INSPETOR DE

INSTRUMENTAÇÃO
NÍVEL 1
ESTATÍSTICA APLICADA À
METROLOGIA

1- 1 -
2
INSPETOR DE INSTRUMENTAÇÃO NÍVEL 1
ESTATÍSTICA APLICADA À METROLOGIA

3
© PETROBRAS – Petróleo Brasileiro S.A.
Todos os direitos reservados e protegidos pela Lei 9.610, de 19.2.1998.

É proibida a reprodução total ou parcial, por quaisquer meios, bem como a produção de
apostilas, sem autorização prévia, por escrito, do Petróleo Brasileiro S.A. – PETROBRAS.

Direitos exclusivos da PETROBRAS – Petróleo Brasileiro S.A.

Silva, Adieci Vigannico da. Wagner, Eduardo. Inspetor De Instrumentação Nível 1 (Estatística
Aplicada a Metrologia.) / Prominp – SENAI. RS, 2007.

99 p.: 18 il.

PETROBRAS – Petróleo Brasileiro S.A.

Av. Almirante Barroso, 81 – 17º andar – Centro


CEP: 20030-003 – Rio de Janeiro – RJ – Brasil

4
INDICE

1 CONCEITOS BÁSICOS ESTATÍSTICA ..........................................................................................13


2 DESCRIÇÃO DOS DADOS .............................................................................................................15
2.1 MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO .................................................. 15
2.1.1 Média aritmética.................................................................................................................... 15
2.1.2 Média aritmética para dados não-agrupados ....................................................................... 15
2.1.3 Cálculo da média aritmética para dados agrupados em intervalos de classe ..................... 16
2.1.4 Mediana ................................................................................................................................ 16
2.1.5 Moda ..................................................................................................................................... 17
2.1.6 Relação entre a média, mediana e moda ............................................................................. 17
2.2 QUARTIS, DECIS E PERCENTIS ........................................................................................ 17
2.3 MEDIDAS DE DISPERSÃO OU VARIABILIDADE............................................................... 18
2.3.1 Amplitude de variação .......................................................................................................... 19
2.3.2 Variância ............................................................................................................................... 19
2.3.3 Desvio padrão ....................................................................................................................... 20
2.3.4 Coeficiente de variação ........................................................................................................ 21
2.3.5 Amplitude interquartílica ....................................................................................................... 21
3 DISTRIBUIÇÃO DE PROBABILIDADE NORMAL...........................................................................23
3.1 CARACTERÍSTICAS DA CURVA NORMAL ........................................................................ 23
3.2 CURVA NORMAL PADRONIZADA OU REDUZIDA ............................................................ 24
3.3 PARÂMETROS DA CURVA NORMAL................................................................................. 26
3.4 AS DISTRIBUIÇÕES DAS VARIÁVEIS NA PRÁTICA ......................................................... 27
3.5 TRANSFORMAÇÃO DE UMA VARIÁVEL X EM Z .............................................................. 27
3.5.1 Interpretação de z ................................................................................................................. 28
3.5.2 Aplicações práticas ............................................................................................................... 29
4 DISTRIBUIÇÃO AMOSTRAL ..........................................................................................................31
4.1 DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS ........................................................................ 31
4.1.1 Características da distribuição amostral das médias ........................................................... 32
4.2 SIGNIFICÂNCIA ESTATÍSTICA DE UM DESVIO ................................................................ 33
4.3 DECISÃO SOBRE A SIGNIFICÂNCIA DE UM DESVIO...................................................... 34
4.3.1 Desvio entre x e ................................................................................................................. 34
4.3.2 Método abreviado ................................................................................................................. 35
4.4 VALORES CRÍTICOS DE Z MAIS USADOS ....................................................................... 36
5 TESTES DE HIPÓTESES ...............................................................................................................37

5
5.1 HIPÓTESES ESTATÍSTICAS............................................................................................... 37
5.2 TESTES DE HIPÓTESES PARAMÉTRICOS ...................................................................... 37
5.3 ERRO TIPO I E ERRO TIPO II............................................................................................. 39
5.4 A DISTRIBUIÇÃO T.............................................................................................................. 40
5.5 TESTE DE HIPÓTESES PARA A MÉDIA ............................................................................ 41
5.5.1 Com σ conhecido................................................................................................................ 41
5.5.2 Com σ desconhecido .......................................................................................................... 42
5.6 TESTE DE HIPÓTESES PARA A DIFERENÇA ENTRE DUAS MÉDIAS. .......................... 42
5.6.1 Pressuposições ao uso do teste t para duas amostras independentes ............................... 42
5.7 COMPARAÇÃO ENTRE DUAS VARIÂNCIAS..................................................................... 43
5.8 TESTE DE HIPÓTESES PARA A DIFERENÇA ENTRE DUAS MÉDIAs............................ 44
5.9 TESTE DE HIPÓTESES PARA A DIFERENÇA ENTRE DUAS MÉDIAS (AMOSTRAS
PAREADAS)........................................................................................................................................... 44
5.10 INTERVALO DE CONFIANÇA ............................................................................................. 45
2
5.10.1 Intervalo de confiança para a média quando a variância populacional é conhecida....... 45
2
5.10.2 Intervalo de confiança para a média quando a variância populacional é desconhecida . 46
5.11 FORMA USADA NAS PUBLICAÇÕES E SOFTWARES DE ANÁLISE ESTATÍSTICA PARA
REPRESENTAR A SIGNIFICÂNCIA DE UM VALOR CALCULADO .................................................... 46
6 NOÇÕES DE AMOSTRAGEM ........................................................................................................49
6.1 PRINCIPAIS PROCEDIMENTOS DE AMOSTRAGEM ....................................................... 49
6.1.1 Amostragem aleatória simples ............................................................................................. 49
6.1.2 Amostragem aleatória estratificada ...................................................................................... 50
6.1.3 Amostragem aleatória sistemática........................................................................................ 51
6.1.4 Amostragem aleatória por conglomerados........................................................................... 51
6.2 CÁLCULO DO TAMANHO MÍNIMO DA AMOSTRA ............................................................ 51
6.2.1 Raciocínio do cálculo de n para estimar ............................................................................ 52
6.2.2 Fórmulas para o tamanho amostral quando se deseja estimar parâmetros ........................ 53
6.2.3 Fórmula para os tamanhos amostrais quando se deseja comparar dois grupos ................ 53
7 ANÁLISE DA VARIÂNCIA (ANOVA) ...............................................................................................55
7.1 ANOVA COM UM CRITÉRIO DE CLASSIFICAÇÃO ........................................................... 55
7.2 TESTE DE COMPARAÇÕES MÚLTIPLAS ENTRE MÉDIAS ............................................. 58
8 CORRELAÇÃO LINEAR SIMPLES.................................................................................................61
8.1 COEFICIENTE DE CORRELAÇÃO (R) ............................................................................... 62
8.1.1 Variação do coeficiente de correlação ................................................................................. 62
8.1.2 Cálculo do coeficiente de correlação em uma amostra ....................................................... 63
8.1.3 Teste de hipóteses sobre a correlação ................................................................................ 63
8.1.4 Etapas do teste de hipóteses da correlação ........................................................................ 64
8.1.5 Avaliação qualitativa do grau de correlação entre duas variáveis ....................................... 65

6
8.1.6 Coeficiente de determinação ................................................................................................ 65
9 REGRESSÃO LINEAR SIMPLES ...................................................................................................67
9.1 A RETA DE REGRESSÃO LINEAR ..................................................................................... 67
9.1.1 Equação da Reta .................................................................................................................. 67
9.1.2 Os pontos experimentais ...................................................................................................... 68
9.1.3 Obtenção da reta de regressão ............................................................................................ 69
9.1.4 Teste de significância da regressão ..................................................................................... 69
9.1.5 Etapas do teste de hipóteses da regressão ......................................................................... 70
9.1.6 Utilidades da reta de regressão ............................................................................................ 70
9.1.7 Requisitos ao estudo da regressão linear ............................................................................ 71
10 PROCESSO DE MEDIÇÃO.............................................................................................................73
11 MEDIDAS DE PRECISÃO ...............................................................................................................75
11.1 REPETITIVIDADE (REPE) ................................................................................................... 75
11.2 REPRODUTIBILIDADE (REPRO) ........................................................................................ 76
11.3 CÁLCULO DA REPETITIVIDADE E REPRODUTIBILIDADE .............................................. 76
11.3.1 Repetitividade (representada por r) ...................................................................................... 76
11.3.2 Repetitividade relativa percentual (representada por (r)) ..................................................... 77
11.3.3 Reprodutibilidade (representada por R) ............................................................................... 77
11.3.4 Reprodutibilidade relativa percentual (representada por (R)) .............................................. 77
12 ANÁLISE DE VALORES EXTREMOS (OUTLIERS).......................................................................79
12.1 MÉTODO PASSO-A-PASSO REFERENTE À IDENTIFICAÇÃO E SUBSTITUIÇÃO DE
VALORES EXTREMOS (ASTM D4483-03) ........................................................................................... 80
ANEXO ...................................................................................................................................................87
BIBLIOGRAFIA.....................................................................................................................................999

7
8
LISTA DE FIGURAS

Figura 1 – Curva norma (curva de Gauss)............................................................................................. 23


Figura 2 - Parâmetros da curva de Gauss ............................................................................................. 24
Figura 3 - Área da curva de Gauss ........................................................................................................ 25
Figura 4 - Área da curva de Gauss ........................................................................................................ 25
Figura 5 - Desenhos de três curvas normais (A, B e C) que diferem quanto à média ou ao desvio
padrão .................................................................................................................................................... 26
Figura 6 – Variável estatura x Variável padronizada ............................................................................. 28
Figura 7 - Teorema do Limite Central .................................................................................................... 32
Figura 8 - Curva de desvio ..................................................................................................................... 34
Figura 9 - Teste bilateral ........................................................................................................................ 38
Figura 10 - Teste unilateral .................................................................................................................... 38
Figura 11 - Curva normal ....................................................................................................................... 40
Figura 12 – Diagrama de dispersão correspondente ao número de horas de estudo e a nota obtida . 61
Figura 13 – Linha reta (Y = 10 - 2X)....................................................................................................... 68
Figura 14 – Pontos experimentais.......................................................................................................... 69
Figura 15 – Gráfico de médias em ordem crescente ............................................................................. 81
Figura 16 – Gráfico em ordem decrescente........................................................................................... 82
Figura 17 – Gráfico de valores estimados para a média dos laboratórios 9 e 6 respectivamente: 49,4 e
51,4......................................................................................................................................................... 84
Figura 18 – Gráfico de valores estimados para a variação do laboratório 4 : 0,85. .............................. 84

9
10
LISTA DE TABELAS

Tabela 1 – Cálculo da média aritmética ................................................................................................. 16


Tabela 2 – Números pares e ímpares.................................................................................................... 18
Tabela 3 – Produção diária .................................................................................................................... 20
Tabela 4 – Parâmetros e Estatísticas .................................................................................................... 31
Tabela 5 – Valores críticos dez .............................................................................................................. 36
Tabela 6 – Conclusão de teste............................................................................................................... 39
Tabela 7 – Carga de ruptura .................................................................................................................. 43
Tabela 8 – Anova ................................................................................................................................... 56
Tabela 9 – Teste de hipóteses ............................................................................................................... 58
Tabela 10 – Teste de Comparações Múltiplas – TUKEY ...................................................................... 59
Tabela 11 – Média das repetições ......................................................................................................... 59
Tabela 12 – Média das repetições ......................................................................................................... 60
Tabela 13 – Média de repetições conclusão.......................................................................................... 60
Tabela 14 – Horas / Notas ..................................................................................................................... 61
Tabela 15 – Cálculo do coeficiente de correlação ................................................................................. 63
Tabela 16 – Avaliação qualitativa........................................................................................................... 65
Tabela 17 – Valores para x e y .............................................................................................................. 68
Tabela 18 – Estudo da Regressão Linear.............................................................................................. 71
Tabela 19 – Principais fatores de variabilidade e seus estados ............................................................ 75
Tabela 20 – Relação de valores............................................................................................................. 80
Tabela 21 – Cálculo das médias e desvio padrão médio – dados originais .......................................... 80
Tabela 22 – Cálculos das médias dos dias e quadrado médio – dados originais ................................. 81
Tabela 23 – Cálculo de d (Diferença da média do laboratório com a médias das médias) .................. 81
e hcalculado e htabelado - dados originais............................................................................................ 81
Tabela 24 – Cálculo da variação e quadrado da variação - dados originais ......................................... 82
Tabela 25 – Cálculo do desvio padrão de cada laboratório e a variância - dados originais.................. 83
Tabela 26 – Cálculo kcalculado e ktabelado – dados originais ............................................................................ 83
Tabela 27 – regressão linear o PRV ...................................................................................................... 85

11
12
1 CONCEITOS BÁSICOS ESTATÍSTICA

A estatística é uma ciência rica em ferramentas para a tomada de decisão, aplicável em qualquer
ramo do conhecimento que trabalhe com dados experimentais. Seu uso é de grande importância e
muito difundido nos últimos tempos.

Estatística é a ciência que tem por objetivo orientar a coleta, a sumarização, a apresentação, a
análise e interpretação de dados. Pode ser dividida em duas grandes áreas, estatística descritiva e
inferencial.

Estatística descritiva: esta área está envolvida com o resumo e a apresentação dos dados. Onde
estão os valores centrais? Como os valores se estendem? Que forma tem a distribuição dos valores?
Existe alguma mudança nos valores com o passar do tempo? O objetivo da estatística descritiva é
providenciar respostas para este tipo de perguntas.

Estatística inferencial: ajuda a concluir sobre conjuntos maiores de dados (população) quando apenas
partes deles (amostras) foram estudadas. Como o processo de indução não é exato, se está sujeito a
um certo grau de incerteza. A estatística inferencial dirá até que ponto se pode estar errando nas
induções, e com que probabilidade.

População ou universo: conjunto de elementos que possuem alguma característica em comum. Pode
ser finito, quando se conhece o número total de elementos, ou infinito. Os objetos dos estudos são
sempre as populações; no entanto, como elas são constituídas de um número muito grande de
elementos, são estudadas através de alguns deles, que constituirão o que se denomina uma amostra.

Amostra: é um subconjunto da população, isto é, uma parte da população retirada segundo alguns
critérios estatísticos. Como a finalidade da amostra é representar a população, deseja-se que a
amostra escolhida apresente as mesmas características da população de origem, isto é, que seja uma
amostra “representativa” ou “não-tendenciosa”.

Amostragem: é o processo de obtenção de uma amostra; são técnicas cuja finalidade é tornar
representativa a amostra extraída da população.

Parâmetros: são medidas que caracterizam uma população. É um valor que resume, na população, a
informação relativa a uma variável. Os parâmetros são difíceis de serem obtidos, porque implicam no

13
estudo de toda a população e costumam ser substituídos por valores calculados de amostras
representativas da população de interesse.

Estatística: além de ser uma ciência, é a denominação dada a uma quantidade calculada com base
nos elementos de uma amostra, que descreve a informação contida neste conjunto de dados.

Variáveis: são características de interesse observadas de acordo com o que está sendo estudado. É
importante identificar que tipo de variável está sendo estudada, uma vez que procedimentos
estatísticos diferentes são recomendados em cada situação. As variáveis podem ser:
1) Variáveis qualitativas - Expressam uma qualidade, e podem ser chamadas de variáveis
categóricas ou atributos. Subdividem-se em:
Nominais: fornecem categorias ou nomes a alguma variável. Exemplo: sexo, estado
civil, profissão.
Ordinais: as categorias de uma variável são ordenadas de acordo com a intensidade
do fenômeno. Exemplo: classe social, grau de instrução.
2) Variáveis quantitativas - Expressam uma quantidade. Subdividem-se em:
Discretas: podem ser valores observados somente em partes isoladas ao longo de
uma escala, em geral números inteiros. Exemplo: número de pessoas, número de
carros fabricados por dia.
Contínuas: podem assumir qualquer valor ao longo de uma escala. Exemplo: altura,
idade, velocidade.

14
2 DESCRIÇÃO DOS DADOS

Um conjunto de números pode reduzir-se a algumas medidas numéricas que resumem os dados.
Quando se analisa um conjunto de dados, é necessário encontrar um ponto que represente a
localização dos dados (medidas de tendência central) e estudar a dispersão deste grupo (medidas de
variabilidade).

2.1 MEDIDAS DE TENDÊNCIA CENTRAL OU DE


POSIÇÃO

Medidas de tendência central são valores calculados com o objetivo de se representar os dados de
uma forma ainda mais condensada do que usando uma tabela. Geralmente, elas se localizam em
torno do meio ou do centro de uma distribuição, onde a maior parte dos dados está concentrada.

Há várias medidas de tendência central. As mais utilizadas em análises estatísticas são a média
aritmética, a mediana e a moda.

2.1.1 Média aritmética

É a medida de tendência central mais utilizada, pois apresenta grande facilidade de cálculo e de
interpretação. Denota o ponto de equilíbrio dos dados.

2.1.2 Média aritmética para dados não-agrupados

O cálculo da média aritmética para dados não-agrupados é dado pela seguinte fórmula:

___ n
X = xi / n
i =1

Exemplo: Suponha-se que, ao passar pelo acabamento, se observe o tempo que uma operária leva
para examinar cinco pneus de mesma medida. Considere-se o tempo em segundos:

15
60; 61; 59; 62; 61; 59; 60; 61; 59; 58.
___
n=10 X = 60+61+59+62+61+59+60+61+59+58 / 10 = 60 segundos.

2.1.3 Cálculo da média aritmética para dados agrupados em


intervalos de classe

Exemplo: Idade, em anos, em uma amostra de crianças da primeira série de uma escola.

Idade (anos) Freqüência (f) Ponto médio (M) fx


5,5 a 6,5 1 6 6
6,5 a 7,5 20 7 140
7,5 a 8,5 7 8 56
8,5 a 9,5 2 9 18
30 - 220

Tabela 1 – Cálculo da média aritmética

M = (limite inferior + limite superior) / 2


fx = f. M
___
X = fx / f = 220 / 30 = 7,3 anos

2.1.4 Mediana

A mediana (md) é o valor que divide uma série ordenada de dados em dois subgrupos de igual
tamanho, de forma que 50% das observações fiquem abaixo dela, e o restante, acima. Uma
característica importante da mediana é que ela não é afetada por valores extremos. O primeiro passo
em sua determinação é ordenar os dados, para que se possa identificar em que posição a mediana se
localiza. Mediana para dados não-agrupados:
1) Número de observações ímpar:
n=9
Considere-se a série: 60; 61; 59; 62; 61; 59; 60; 61; 59.
Série ordenada: 59; 59; 59; 60; 60; 61; 61; 61; 62.
Md = xi com i = (n+1) / 2
Md= x5 = 60
2) - Número de observações par:
n=10
Série ordenada: 58; 59; 59; 59; 60; 60; 61; 61; 61; 62.
Md = (xi + xj) / 2 com i = n / 2 e j = n / (2+1)

16
Md = (x5 + x6) / 2 = (60 + 60) / 2 =60

2.1.5 Moda

A moda é o valor que ocorre com maior freqüência, ou seja, valor ou valores onde se concentram as
observações da série de dados.

Exemplo: 58; 59; 59; 59; 60; 60; 61; 61; 61; 62.

Mo = 59 e 61 (neste caso o conjunto de dados é bimodal, pois possui duas modas).

2.1.6 Relação entre a média, mediana e moda

A média aritmética é a preferível às demais medidas para estimar a tendência central quando se trata
de muitas classes de populações, por haver menos variabilidade entre as médias aritméticas
calculadas a partir de várias amostras aleatórias do que entre as medianas e as modas.

Ela pode ser calculada a partir dos dados brutos, sem recorrer a qualquer agrupamento ou ordenação
de valores originais, o que não ocorre com a mediana e a moda.

A mediana é preferível à média quando se está interessado em conhecer exatamente o ponto médio
da distribuição, aquele valor que a divide em duas partes iguais. É preferível, ainda, quando os
resultados extremos são tais que podem afetar sensivelmente o valor da média.

A moda é utilizada essencialmente quando se pretende apenas uma medida rápida e aproximada da
tendência central.

QUARTIS, DECIS E PERCENTIS

Viu-se anteriormente que uma distribuição pode ser dividida em duas partes iguais através da
mediana. Uma distribuição pode, ainda, ser subdividida em quatro partes, em dez partes ou em cem
partes iguais, originando os quartis, os decis e os percentis, respectivamente.

17
O cálculo dos quartis, decis e percentis é realizado de modo semelhante ao da mediana. Para dados
não-agrupados, as posições ocupadas pelos elementos quartílicos de um conjunto ordenado serão:

n par n ímpar
0 0
i = (n + 2) / 4 - 1 Quartil (Q 1) i = (n + 1) / 4 - 1 Quartil (Q 1)
0 0
i = (2n + 2) / 4 - 2 Quartil (Q 2) i = 2(n + 1) / 4 - 2 Quartil (Q 2)
0 0
i = (3n + 2) / 4 - 3 Quartil (Q 3) i = 3( n + 1) / 4 - 3 Quartil (Q 3)
Tabela 2 – Números pares e ímpares

Se i for inteiro, então o elemento quartílico será Q=xi. Caso não seja inteiro, o elemento quartílico será
a média dos valores mais próximos.

O primeiro quartil é o valor que divide o conjunto em duas partes tais que um quarto ou 25% dos
valores sejam menores do que ele e três quartos, ou 75% dos restantes, sejam maiores. O segundo
quartil é o valor que divide em duas partes iguais quanto ao número de elementos, isto é, 50% dos
valores do conjunto são menores e os restantes são maiores (o segundo quartil é igual à mediana).
Analogamente, é a interpretação para o terceiro quartil.

Exemplo: Dada a série ordenada: 58; 59; 59; 59; 60; 60; 61; 61; 61; 62.

Q1 = (10 + 2) / 4 = 3 Q1 = 59

Q2 = (20 + 2) / 4 = 5,5 Q2 = 60 + 60 / 2 = 60

Q3 = (30 + 2) / 4 = 8 Q3 = 61

O cálculo dos decis e percentis segue processo análogo. Facilmente se verifica que Q1 = P25,Q2= Md =
D5 = P50 e Q3= P75.

2.2 MEDIDAS DE DISPERSÃO OU VARIABILIDADE

Freqüentemente se verifica na descrição de um conjunto de valores que as medidas de tendência


central são insuficientes para caracterizar completamente os resultados. Veja o seguinte exemplo:
dois alunos realizaram cinco verificações, obtendo as notas indicadas abaixo:
1) aluno A: 6;6;6;6;6 total de pontos: 30
2) aluno B: 7;5;6;4;8 total de pontos: 30.

18
Ambos os alunos têm média 6, mas o primeiro aluno apresenta um comportamento regular, ao passo
que o desempenho do aluno B é mais variável. Para mostrar a diversidade de desempenho destes
dois alunos, necessita-se de um valor que meça a dispersão ou variabilidade dos valores nos dois
casos.

2.2.1 Amplitude de variação

A medida mais simples de dispersão é a amplitude de variação (R), que é a diferença entre os valores
extremos.

Para o aluno A, a amplitude é zero (6 - 6) = 0 e para o aluno B, é 4. Quanto maior a amplitude, maior
a variação.

No entanto, como medida de variação a amplitude tem duas desvantagens:


1) só utilizam os valores extremos, nada informando sobre os intermediários; e
2) ao medir a amplitude em amostras, em geral se obtém uma subestimativa da amplitude na
população, pois dificilmente a amostra vai apresentar tanto o valor mais baixo como o mais
alto (geralmente os mais raros) que ocorreriam na população.

R = xmáx – xmin

2.2.2 Variância

Para levar em conta todos os valores observados na série, foi sugerido o uso dos desvios de cada
valor em relação à média, reunindo-se estas informações em uma quantidade denominada variância.
Usa-se o símbolo δ 2 2
para representar a variância calculada com dados de uma população, e s para
a variância calculada em uma amostra.

Fórmula conceitual:

n _
2
s =( (xi – x ) 2) / (n – 1)
i =1

n
2 2 2
s =( xi – ( xi) / n ) / (n – 1)
i =1

19
Fórmula operacional: esta fórmula alternativa leva a um valor mais correto para a variância, pois não
depende da média, que pode ter sofrido arredondamentos.

Observação:
O numerador da variância é chamado de soma de quadrados (SQ), e o denominador é o número de
graus de liberdade (gI).

Exemplo: produção diária de determinada peça pelo empregado “A”

2
Produção (x) x
60 3.600
80 6.400
70 4.900
62 3.844
83 6.889
: 355 25.633

Tabela 3 – Produção diária

2 2 2
s = (25.633 – (355) / 5 ) / (5 - 1) = (25.633 – 25.205 ) / 4 = 107 peças

Observação:
A variância de uma série de dados pode ter valor numérico maior do que o da média. Isso geralmente
é uma indicação de que a distribuição dos dados é assimétrica. Quanto maior a variância de uma
série, maior a dispersão dos valores que a compõem.

2.2.3 Desvio padrão

Uma dificuldade com a variância, como medida descritiva, é o fato de não poder ser apresentada com
a mesma unidade com que foi medida (se você observar como o cálculo da variância foi feito, vai ver
que a unidade que acompanha o valor da variância é o quadrado da unidade de mensuração da
variável em estudo). A solução é extrair a raiz quadrada da variância para retornar à unidade original
de medida da variável. Esta nova medida de variabilidade é denominada desvio padrão.

s= s2

No exemplo: s= 107 = 10,34 peças

20
2.2.4 Coeficiente de variação

Quando se analisa a mesma variável em duas amostras, podem-se comparar os desvios padrões
observados e verificar onde a variação é maior. No entanto, o mesmo não pode ser feito em se
tratando de variáveis diferentes.

Para comparar variabilidades neste caso deve-se usar o coeficiente de variação (CV), que é uma
medida de dispersão independente da unidade de mensuração da variável. Quanto menor o
coeficiente de variação, mais homogêneo será o grupo de dados.

O coeficiente de variação representa uma fração em relação à média e é calculado do seguinte modo:
CV = s / x ou CV% = (s / x) .100

Para o exemplo anterior: CV = (10,34 / 71) .100 = 14,56%

2.2.5 Amplitude interquartílica


0
É definida como sendo a diferença do 3 e o 1° quartil. A amplitude interquartílica (IQ) vem sendo
utilizada, em alguns casos, na substituição do desvio padrão como alternativa para o cálculo do
escore “Z” quando se trata de tratamento dos dados através de estatística robusta.

Exemplo: Q1 = 65 mm
Q3 = 162 mm
lQ = 162 – 65 = 97 mm

Indicando que os 50% dos valores centrais possuem uma amplitude de 97 mm.

21
22
3 DISTRIBUIÇÃO DE PROBABILIDADE
NORMAL

Esta distribuição foi “descoberta” no início do século XIX, quando astrônomos faziam sucessivas
medidas (como, por exemplo, à distância da lua) e observaram estas variavam e, com um grande
número de observações, chegaram a uma figura similar à abaixo:

Figura 1 – Curva norma (curva de Gauss)

onde se tem uma concentração em torno de um valor, e à medida que se afasta — para ambos os
lados, as observações (ou probabilidades) diminuem. A curva normal também é conhecida por curva
de Gauss, em homenagem a seu descobridor, K. F. Gauss.

CARACTERÍSTICAS DA CURVA NORMAL

1) A curva normal tem a forma de um sino com caudas assintóticas ao eixo x. Isto significa que,
teoricamente, os valores de x podem variar de − α até + α ; a curva jamais toca o eixo x e,
portanto, determina uma figura aberta nas caudas. Na prática, no entanto, utiliza-se a curva
normal com limites; mais adiante ver-se-á como estes limites são estabelecidos.
2) A curva é simétrica em relação à perpendicular que passa pela média (µ).
3) A média, a mediana e a moda são coincidentes.
4) A curva tem dois pontos de inflexão que correspondem a valores de x situados,
respectivamente, à distância de um desvio padrão ( δ ) acima da média.

23
5) A área total sob a curva totaliza 1 ou 100%.
6) Aproximadamente 68% (~=2/3) dos valores de x situam-se entre os pontos (µ – δ ) e (µ + δ )
7) Aproximadamente 95% dos valores de x estão entre (µ - 2 δ ) e (µ + 2 δ ).
8) Aproximadamente 99,7% dos valores de x estão entre (µ- 3 δ ) e (µ + 3 δ ).

Figura 2 - Parâmetros da curva de Gauss

As características da curva normal fazem com que ela tenha ampla aplicação prática. É necessário,
porém, assegurar-se de que a distribuição observada da variável seja realmente normal.

CURVA NORMAL PADRONIZADA OU REDUZIDA

As propriedades referentes às áreas sob a curva foram obtidas de uma curva normal especial, que
tem média µ = 0 e desvio padrão δ = 1. Esta curva chama-se curva normal padronizada, ou curva
normal reduzida. As áreas situadas debaixo desta curva estão tabeladas. Para evitar confusão, a
variável tabelada é denominada z, reservando-se a letra x para representar as variáveis do mundo
real.

A tabela informa áreas entre a média (zero) e um valor de z qualquer. Quando z for 1 (isto é, igual a
δ ), a área compreendida entre este valor e a média é 0,3413, ou 34,13%. A área entre z = -1 e z =
a
+1 é 0,6826, o que confirma a 6 propriedade da curva normal indicada acima. Para a obtenção de
áreas que não estão entre 0 e z devem-se realizar operações simples de subtração ou soma com as
áreas.

24
Exemplo 1: Qual é a área correspondente a valores de z acima de 2,3?

Figura 3 - Área da curva de Gauss

A curva toda tem área = 1; portanto, a área à direita de zero é 0,5.


Na tabela da curva normal, verifica-se que a área entre z = 0 e z = 2,3 é 0,4893.
A área à direita de 2,3; portanto, é 0,5 – 0,4893 = 0,0107.

Exemplo 2: Qual é a área compreendida entre z = -1,5 e z = 1?

Figura 4 - Área da curva de Gauss

Segundo a tabela da curva normal, a área entre z = O e z -1,5 é 0,4332.

A área entre z = 0 e z = 1 é 0,3413.

Portanto, a área desejada é 0,4332 + 0,3413 = 0,7745.

25
Figura 5 - Desenhos de três curvas normais (A, B e C) que diferem quanto à média ou ao desvio padrão

Diferem quanto à média ou ao desvio padrão:


Curva A: µ = 4 δ =1
Curva B: µ = 8 δ =1
Curva C: µ = 8 δ = 0,5

PARÂMETROS DA CURVA NORMAL

A média (µ) e o desvio padrão ( δ ) são chamados parâmetros de uma curva normal, porque são
suficientes para defini-la completamente. A média é o parâmetro de tendência central ou de posição,
indicando em que ponto da reta se centraliza a curva; δ , o parâmetro de dispersão ou variabilidade,
esclarece sobre a forma da distribuição, se mais larga ou mais estreita.

A figura 5 apresenta três curvas que ajudam a esclarecer essas denominações. As curvas A e B
diferem apenas pelas posições (definidas pelas médias) em que se encontram na reta real. Já as
curvas B e C têm a mesma média, diferindo pela dispersão dos valores. Note-se que a curva C, com
desvio padrão menor, é mais estreita que B.

26
AS DISTRIBUIÇÕES DAS VARIÁVEIS NA PRÁTICA

A distribuição normal, como uma linha suave, existe apenas teoricamente. Na prática, o que se
observa são distribuições que se aproximam, mais ou menos, de uma curva normal. Se o histograma
lembra uma distribuição normal e se a amostra é relativamente grande, as probabilidades fornecidas
pela curva e as freqüências relativas observadas são bastante próximas. Por isso, para um grande
número de variáveis, a curva normal constitui uma ferramenta útil, dispensando a elaboração de
tabelas de freqüência para o cálculo da probabilidade de ocorrência de valores de interesse do
pesquisador.

No entanto, existem variáveis de distribuição claramente assimétrica (número de irmãos, salários etc.)
para os quais seria ingenuidade utilizar o modelo de curva normal e esperar conclusões confiáveis.
Para elas, deve-se procurar outro modelo que se adapte melhor aos dados observados ou tentar
transformações que tornem suas distribuições mais próximas de uma normal.

Algumas das transformações mais comuns são:


1) x = log x (logaritmo na base 10) ou x = In x (logaritmo na base e)

2) x = x
3) x = 1 / x
2
4) x = x

As três primeiras são indicadas para distribuições com assimetria à direita (isto é, com a cauda da
direita mais longa), e a última é indicada para corrigir uma assimetria à esquerda.

TRANSFORMAÇÃO DE UMA VARIÁVEL X EM Z

As variáveis observadas na prática (x) apresentam valores cujas áreas não estão tabeladas. Através
de uma operação simples, os valores de x podem ser transformados na variável tabelada z. A
maneira de transformar x em z é a seguinte:
z = (x – µ) / δ , onde µ e δ são a média e o desvio padrão populacionais da variável em estudo.

27
Exemplo: Um treinador deseja selecionar, dentre os jovens que estão prestando serviço militar no
quartel Q, aqueles com 180 cm de estatura ou mais altos, para formar um time de basquete. Que
percentagem é esperada de jogadores em potencial, sabendo-se que a estatura tem distribuição
normal e, nesses jovens, a média é 175 cm e o desvio padrão é 6 cm?

Para melhor visualizar o problema, inicia-se desenhando a curva normal correspondente à estatura,
localizando a média e o valor 180 cm e identificando a área de interesse, que fica à direita de 180 cm.

Figura 6 – Variável estatura x Variável padronizada

A seguir, transforma-se a variável estatura (x) na variável padronizada z:


1) para x = 175 z= (175 - 175) / 6 = 0
2) para x = 180 z= (180 - 175) / 6 = 0,83
3) a área entre z = 0 e z= 0,83 é 0,2967
4) a área além de 0,83 é (0,5 – 0,2967) = 0,2033.

Portanto, 20,33% dos jovens que estão prestando serviço militar no quartel Q; esta população é
constituída de indivíduos com estatura igual ou superior a 180 cm.

3.1.1 Interpretação de z

Um recruta do quartel Q, com 181 cm de altura, tem uma estatura situada a um desvio padrão (6 cm)
acima da média (175 cm), enquanto uma estatura igual a 169 cm está a um desvio padrão abaixo da
média. Isto se pode ver facilmente usando a fórmula de transformação de x em z:
1) z (para 181) = (181 – 175) / 6 = 1
2) z (para 169) = (169 – 175) / 6 = -1

28
Portanto, z pode ser interpretado como o número de desvios padrões envolvidos no afastamento de
um determinado valor x em relação à média. Em outras palavras: z é a diferença, em unidades de
desvios padrões, entre um valor de x e a média.

3.1.2 Aplicações práticas

Nos vestibulares da UFRGS calcula-se, para cada candidato (e para cada prova), um escore
padronizado do seguinte modo: Escore = z (100) + 500.

O valor de z é multiplicado por 100 para evitar valores muito pequenos, que dificultem a classificação,
e a constante 500 é somada para evitar valores negativos.

Suponha-se que um candidato acertou 19 questões na prova de Matemática, na qual a média geral
dos candidatos foi 11 e o desvio padrão 5; na prova de Química, cuja média foi 15 e o desvio padrão
6, ele acertou 22 questões. Em que prova o aluno obteve maior escore padronizado?

Matemática: zmat = (19 - 11)/ 5 = 1,6 então Escoremat = 1,6 (100) + 500 = 660

Química: zqujm = (22 - 15) / 6 = 1,2 então Escorequjm= 1,2 (100) + 500 = 620.

Conclui-se que o aluno teve melhor desempenho na prova de Matemática, quando comparado com os
demais candidatos.

29
30
4 DISTRIBUIÇÃO AMOSTRAL

A finalidade da amostragem é obter uma indicação de um ou mais parâmetros de uma população, tais
como média variância da população ou proporção.

Quando se extrai aleatoriamente repetidas amostras de uma mesma população, a estatística amostral
varia de uma amostra para outra. Chama-se esta variação de variabilidade amostral.

O objetivo é saber o quão próximo está a estatística amostral do verdadeiro parâmetro. Para isso, três
fatores são importantes:
1) o estudo da distribuição de probabilidade da estatística amostral;
2) o tamanho da amostra (grandes amostras têm menor variabilidade entre as estatísticas do
que pequenas amostras);
3) a variabilidade na população (populações com muita variabilidade produzem estatísticas
amostrais com maior variabilidade).

A variabilidade amostral pode ser expressa em uma distribuição de probabilidade que associa aos
possíveis resultados de uma estatística amostral suas respectivas probabilidades.

Parâmetros e estatísticas: como já visto anteriormente, parâmetros são medidas obtidas através do
censo para descrever uma característica da população, e estatísticas são medidas características
obtidas através de uma amostra.

Medida Parâmetro Estatística


média µ x
variância σ2 s
2

desvio padrão σ s
proporção II p
Tabela 4 – Parâmetros e Estatísticas

DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS

Uma distribuição amostral das médias indica a probabilidade de ocorrência de uma média amostral.
As médias amostrais tendem a agrupar-se em torno da média populacional. Veja-se figura a seguir:

31
Figura 7 - Teorema do Limite Central

Na verdade, já foi demonstrado que, quando as amostras são grandes, as médias de todas as
amostras possíveis, de iguais tamanhos, retiradas aleatoriamente desta população, se distribuem
segundo uma curva normal, não importando como se distribuem os dados na população original. A
esta conclusão se denominou Teorema do Limite Central.

Uma extensão do teorema afirma que, se x tiver distribuição normal, as médias também vão
apresentar distribuição normal, mesmo que as amostras não sejam grandes.

4.1.1 Características da distribuição amostral das médias

1) Se a variável x tem distribuição normal, as médias de todas as amostras aleatórias de igual


tamanho, originárias desta população, se distribuem segundo uma curva normal. Se a
distribuição de x não é normal, é necessário que as amostras sejam grandes para que a
distribuição amostral das médias tenha distribuição normal.
2) A distribuição amostral das médias tem centro em µ (isto é, na média na população
amostrada). A variabilidade é expressa pelo desvio padrão das médias ou erro padrão σ x. O
erro padrão é dado por:

σx= σ / n

3) As áreas da distribuição amostral das médias são as mesmas da curva normal. Portanto, a
área total é 1, aproximadamente 68% das médias entre µ - σ x e µ + σ x, aproximadamente
95% estão entre µ - 2 σ x e µ + 2 σ x e assim por diante.

32
SIGNIFICÂNCIA ESTATÍSTICA DE UM DESVIO

Considere-se a variável “estatura” em universitárias gaúchas. As jovens cujas estaturas não se


desviam da média não chamam atenção por esta característica, como acontece com as muito altas e
as muito baixas. Não há dúvida deque uma estudante com 180 cm se desvia bastante da média do
grupo; já uma jovem que apresenta estatura igual a 175 cm pode parecer bastante alta para os
observadores de baixa estatura, mas não surpreenderá observadores quando eles mesmos forem
altos. Um critério científico para o estabelecimento de uma diferença ou desvio significativo entre dois
valores não pode ser uma questão de opinião, dependente do sujeito, mas deve ser um critério
objetivo.

O critério estatístico para a significância de um desvio pressupõe que:


1) a distribuição da variável seja normal e
2) os valores desviantes sejam uma fração pequena da população, e que esta fração seja
determinada a priori.

Partindo destes pressupostos, uma atitude razoável será considerar como estatisticamente não-
significativos os desvios apresentados por valores ao redor da média populacional. Estipula-se que
esta fração de indivíduos deve ser grande, por exemplo, 95%, já que um valor discrepante deve ser
raro. Metade desta fração (47,5%) corresponde a valores adjacentes e acima da média, e a outra
metade, a valores adjacentes e menores do que a média. Deste modo, se estabelece um intervalo ao
redor da média, o intervalo de desvios não-significativos, que corresponde a 95% dos valores da
população. A fração escolhida (0,95 ou 95%) é arbitrária e denomina-se área de não-significância ou
região de não-significância, sendo indicada por C ou C%.

Os valores que ficam fora do intervalo de desvios não-significativos são considerados desvios
significativos e correspondem a uma fração α do tal de valores possíveis. A letra α (alfa) indica o
que se costuma chamar de região de significância ou nível de significância, a qual equivale a α = 1 -
C (ou α % = 100% - C%). Esta região é geralmente dividida em duas áreas iguais: uma situada na
cauda esquerda da curva normal e outra, igual à primeira, na cauda direita. Todos estes conceitos
estão representados graficamente na figura a seguir.

Note-se que os intervalos de desvios significativos e não-significativos estão diretamente ligados ao


tamanho da área de significância, pois C = 1 – α . Os valores mais usados de α são: 0,05 (ou 5%),
0,01 (ou 1%) e 0,001 (0,1%).

33
Regiões de significância ( α ), não-significância (C) e respectivos intervalos

Figura 8 - Curva de desvio

DECISÃO SOBRE A SIGNIFICÂNCIA DE UM DESVIO

4.1.2 Desvio entre x e µ

Como as médias das amostras costumam se distribuir segundo uma curva normal, parece lógico
utilizar o critério acima indicado para decidir sobre a significância estatística da diferença entre uma
média amostral e uma média populacional.

Exemplo: Certo pesquisador mediu a pressão arterial de cinco executivos, da faixa de 40 a 44 anos,
de determinada empresa, e obteve os valores 135, 143, 149, 128 e 158 mmHg. A média observada
nesta amostra foi 142,6 mmHg. Serão estes dados suficientes para afirmar que este grupo de
pessoas se desvia em relação aos demais integrantes da população de homens adultos?

Revisando a literatura, o pesquisador verificou que, nesta faixa etária, a média da pressão arterial é
129 mmHg e o desvio padrão é 15,1 mmHg. Então, para saber se a média deste grupo se desvia
significativamente da média tomada como referência (129 mmHg), é necessário saber quais os limites
do intervalo de desvios não-significativos para médias de amostras de cinco pessoas retiradas
aleatoriamente desta população. Decide usar um nível de significância de 5%.

34
Como o critério é 0,95, os limites devem ser dados por µ -1,96 σ x e µ + 1,96 σ x, já que são
necessários 1,96 erros padrão para se limitar uma área de 95% ao redor da média, conforme a tabela
de áreas da curva normal.

O erro padrão para o exemplo é: σ x = 15,1 / 5 = 6,8

Os limites do intervalo de não-significância, portanto, são:


1) 129 – 1,96 (6,8) = 115,7 (limite inferior do intervalo)
2) 129 + 1,96 (6,8) = 142,3 (limite superior do intervalo).

Assim, as médias amostrais com valor entre 115,7 e 142,3 mmHg não apresentam desvios
significativos em relação a média populacional. Médias com valores fora deste intervalo desviam-se
significativamente de µ = 129. Portanto, para o critério escolhido, a média obtida nos cinco executivos
(142,6) se desvia significativamente da média da população de homens da mesma faixa etária,
estando mais elevada.

4.1.3 Método abreviado

Pelo raciocínio visto acima, uma média amostral se desvia significativamente da média populacional
se estiver 1,96 erros padrões acima ou abaixo desta. Como o número crítico de erros padrão é o valor
de z que limita a área central de interesse, um desvio será significativo se estiver a uma distância

superior a zα erros padrão da média e será não-significativo se a distância for inferior a zα erros
padrão. Se a distância for exatamente igual a zα erros padrão, o desvio é dito significativo, por
convenção.

Desta forma, uma maneira abreviada de determinar se um desvio é significativo consiste em calcular
o desvio em erros padrão e depois comparar o valor obtido com o número crítico de erros padrão
escolhido.

A seqüência dos procedimentos, portanto, para determinar a significância de um desvio é:


1) Escolher inicialmente o critério ou nível de significância desejado (por exemplo, α = 0,05).
2) Obter o valor crítico de z da tabela (neste caso, zα = z0,05 = 1,96).
_
3) Calcular o afastamento entre x - µ em erros padrão:
_
zcalc = ( x – µ)) / σ x

35
zcalc = (142,6 – 129) / (15,1 / 5 ) = 13,6 / 6,75 = 2,01
A média amostral situa-se a 2,01 erros padrão acima de µ.
4) Regra de decisão:

Se | z calc | < zα , o desvio é dito “não-significativo”;


Se | z calc | ≥ zα , o desvio é dito “significativo”.
Como zcalc = 2,01 > z0,05 = 1,96, o desvio é significativo.
5) Conclusão: A média da amostra de executivos desta empresa desvia-se significativamente da
média de adultos desta faixa etária, para α = 0,05.

VALORES CRÍTICOS DE Z MAIS USADOS

A tabela 5 indica os níveis de significância mais usados e os respectivos valores críticos de zα .

Nível de significância ( α ) z crítico ( zα )


0,10 1,64
0,05 1,96
0,01 2,58
0,001 3,29
Tabela 5 – Valores críticos dez

36
5 TESTES DE HIPÓTESES

Os trabalhos científicos são realizados com objetivos bem estabelecidos, expressos através de
afirmações que o pesquisador deseja verificar. Estas afirmações provisórias são denominadas
hipóteses. Após formulá-las adequadamente, o pesquisador realiza o levantamento dos dados e
analisa-os estatisticamente, buscando resultados que confirmem ou não as hipóteses. Como na
maioria das vezes os dados provêm de amostras, a decisão final a respeito de uma hipótese científica
está associada a uma probabilidade de erro. O erro de decisão não pode ser evitado, mas sua
probabilidade pode ser controlada ou mensurada, obtendo-se, assim, uma medida de validade das
conclusões obtidas.

A Estatística Inferencial é o ramo da Estatística que oferece métodos para que o pesquisador possa
tomar sua decisão a respeito de hipóteses formuladas, informando também sobre o risco de erro que
acompanha a decisão.

HIPÓTESES ESTATÍSTICAS

Hipóteses estatísticas são suposições feitas sobre o valor dos parâmetros nas populações. As
hipóteses estatísticas sempre comparam dois ou mais valores, quer afirmando que são iguais, quer
que não o sejam. Elas são de dois tipos:
1) Hipótese nula ou de nulidade (Ho): estabelece a ausência de diferença entre os parâmetros. É
sempre a primeira a ser formulada.
2) Hipótese alternativa (HA ou H1): é a hipótese contrária à hipótese nula. Geralmente, é a que o
pesquisador quer ver confirmada.

TESTES DE HIPÓTESES PARAMÉTRICOS

O teste de hipóteses é um procedimento estatístico através do qual se rejeita ou não uma hipótese,
associado à conclusão um risco máximo de erro. Consiste em verificar uma declaração feita sobre um
parâmetro populacional.

37
Devido à maneira como os testes são elaborados, a hipótese testada é sempre H0. Se ela for
rejeitada, a alternativa é automaticamente aceita; se não for rejeitada, HA é automaticamente
descartada.

Etapas para realizar um teste de hipóteses:


1) Estabelecimento das hipóteses estatísticas – Exemplo:
H0: µA = µ0 ou µA - µ0 = 0
HA: µA ≠ µ0 ou µA - µ0 ≠ 0.
2) Escolha o nível de significância: nível de significância de um teste é a probabilidade máxima
de rejeitar H0. Se, por exemplo, se utilizar o nível de significância de 5% (ou 0,05), a hipótese
nula (H0) será rejeitada somente se o resultado da amostra for tão diferente do valor suposto
que uma diferença igual ou maior ocorreria com uma probabilidade máxima de 0,05.
3) Determinação do valor crítico do teste (valor tabelado): demarca a região onde os valores da
estatística do teste levam à rejeição da hipótese nula (EX: z0,05 = 1,96).
4) Determinação do valor calculado do teste: é o valor calculado a partir da amostra que será
usado na tomada de decisão. Exemplo:
_
zcalc= ( x – µ0) / σ x

zcalc= (142,6 – 129) / (15,1 / 5 ) = 13,6 / 6,75 = 2,01.


5) Regra de decisão: se o valor calculado do teste cair dentro da região crítica, rejeita-se H0; ou
seja, se o valor calculado do teste for que o valor tabelado – rejeita-se H0. Exemplo:

se | z calc | < ztab, não se rejeita H0.


se | z calc | ≥ ztab, rejeita-se H0.

Figura 9 - Teste bilateral Figura 10 - Teste unilateral

6) Conclusão: A maioria dos testes de hipóteses envolvendo médias são testes bilaterais, isto é,
testam a hipótese nula de ausência de diferença contra a alternativa de que existe uma
diferença entre as médias. Há casos, porém, em que somente haverá interesse prático se µA
for menor (ou maior) do que µ0. Quando se está interessado apenas na diferença negativa (ou

38
positiva) entre as médias, a região de significância deve ser toda colocada em um lado
somente da cauda da curva, O teste, neste caso, é dito unilateral e exige uma modificação no
valor crítico. Exemplo: Se o nível de significância for 5%, o valor crítico de z passa de 1,96
para -1,64 para diferenças negativas e 1,64 para positivas. Ou seja, para testes unilaterais
deve-se consultar na tabela o valor correspondente ao dobro de α .

ERRO TIPO I E ERRO TIPO II

Todo teste de hipótese tem sua conclusão sujeita a erro. O erro de afirmar que existe uma diferença
quando ela efetivamente não existe (rejeitar incorretamente a hipótese nula) é chamado de Erro Tipo I
e tem uma probabilidade de ocorrer igual a α .

No entanto, é também possível que se cometa o erro de aceitar H0 quando não se deveria, ou seja, de
afirmar uma igualdade quando o correto seria afirmar uma diferença. A este erro se denomina Erro
Tipo II, e é muito difícil calcular sua probabilidade, pois para isso seria necessário conhecer o valor do
parâmetro na população amostrada. (Lembre-se de que é exatamente por não conhecer o parâmetro
na população que se realizam os experimentos). A probabilidade de se cometer o erro tipo lI é
denominada β . Como a probabilidade complementar deste erro representa a probabilidade de afirmar

corretamente que existe uma diferença quando ela realmente existe, diz-se que (1 – β ) é o poder do

teste estatístico de detectar uma diferença real.

Conclusão do Teste
Realidade
Aceitar H0 rejeitar H0
decisão correta Erro tipo I
H0 verdadeira
probabilidade: 1 - α probabilidade: α
Erro tipo II decisão correta
H0 falsa probabilidade: β probabilidade: 1 – β (poder do teste)

Tabela 6 – Conclusão de teste

É importante salientar que quanto maior o α , menor o β , de modo que uma alteração em uma destas

probabilidades afeta também a outra. Além disso, é afetado também o poder do teste. Estudos
mostram que valores como 0,05 e 0,01 para α são os mais adequados por causa desta relação entre
as duas probabilidades.

39
A DISTRIBUIÇÃO T

Uma situação bastante comum é ter-se uma idéia da média da população tomada como referência
(µ0), mas desconhecer-se o desvio padrão populacional ( σ ). Não conhecendo σ , se desconhece o
desvio padrão, o que impede a realização do teste de hipótese da maneira com se viu utilizando a
curva normal. A solução é substituir o desvio padrão populacional por seu estimador, o desvio padrão
amostral (s), e obter desta forma um erro padrão estimado (EP) para a média: EP = s / n.

Note-se que, ao assim proceder, se está admitindo que a variação dos valores na amostra é
semelhante à da população, isso é, que s não difere demasiadamente de σ . Isso geralmente é
verdade para amostras grandes, obtidas aleatoriamente.

As dificuldades do emprego de s com uma estimativa de σ no cálculo do erro padrão foram


estudadas por William Sealy Gosset (1876-1937), pesquisador da firma Guinness, famosa cervejaria
de Dublin, na Irlanda. Gosset não era um matemático. Seu interesse em estatística tinha fortes
motivos práticos, uma vez que os métodos empregados na época eram adequados a amostras
grandes, muito diferentes das amostras pequenas com as quais tinha que trabalhar.

Após estudar com Karl Pearson no Laboratório de Biometria do University Coliege de Londres (1971),
Gosset publicou um artigo, em 1908, com a solução para o problema adotando o pseudônimo de
Student. Neste artigo, ele propôs que, quando σ fosse desconhecido, se substituísse o valor crítico
obtido da curva normal pelo valor crítico de uma nova distribuição. Esta distribuição foi chamada de
distribuição t.

Para entender a distribuição t, imagine-se uma população gaussiana de dados, com µ e σ


conhecidos. Retira-se aleatoriamente uma amostra de n=9 elementos, por exemplo, para a qual se
_ _
obtém x e s. Calcula-se então: t = ( x - µ)) / (s/
( n ).

Figura 11 - Curva normal

40
A forma da distribuição t é semelhante à curva normal, com média zero, mas ligeiramente mais
achatadas e com as caudas mais elevadas. Como conseqüência deste formato da curva, os valores
que limitam uma área de significância, por exemplo 1,96 para α = 0,05, passam a limitar, na curva de
t, uma área um pouco maior.

A discrepância observada entre as curvas z e t é função da diferença entre usar o desvio padrão
populacional ( σ ) e usar o desvio padrão calculado a partir dos dados amostrais (s). A diferença entre
σ e s depende do tamanho da amostra. Nas amostras grandes a diferença é mínima, sendo que a
possibilidade de diferenças maiores aumenta à medida que o tamanho amostral diminui. É por esta
razão que a tabela t de Student apresenta valores críticos que dependem não só do nível de
significância ( α ) como também da precisão com que o valor de σ foi estimado, isto é, do tamanho da
amostra usada para calcular s. A precisão é influenciada por n -1, que é chamado o número de graus

de liberdade (gl). O valor crítico de t é indicado por t α / gl .

Para o caso em que o tamanho da amostra é 9, como exemplificado anteriormente, o valor crítico
para α = 0,05 passa de 1,96 para t0,05;8 = 2,31. Isso significa que, agora, para que uma diferença entre
médias seja estatisticamente significativa ao nível de 0,05, é necessário que seja igual ou maior do
que 2,31 erros padrão e não apenas 1,96 erros padrão, como antes.

Concluindo: se o desvio padrão (e, conseqüentemente, o erro padrão) populacional for desconhecido,
ele pode ser estimado através de s, mas, neste caso, toda a inferência deve ser feita usando-se a
distribuição t de Student. Note-se, porém, que a distribuição t só pode ser corretamente aplicada se a
distribuição dos valores de x for razoavelmente próxima de uma distribuição normal. Se a distribuição
de x não for normal, a distribuição t não resolve satisfatoriamente o problema, devendo-se procurar
outras soluções, como a transformação dos dados ou o uso de técnicas não-paramétricas.

TESTE DE HIPÓTESES PARA A MÉDIA

5.1.1 Com σ conhecido


_
Estatística do teste: zcalc = ( x – µ)) / ( σ / n ).

41
5.1.2 Com σ desconhecido
_
Estatística do teste: tcalc = ( x – µ)) / (s / n)

ttab = t α / gl (gl = n - 1).

TESTE DE HIPÓTESES PARA A DIFERENÇA ENTRE


DUAS MÉDIAS.

Teste de hipóteses para a diferença entre duas médias (Amostras Independentes – Sa2 = Sb2).
_ _

Estatística do teste: tcalc = ( x A – x B) / [( s02 1/nA + 1/nB) ]


1/2

ttab = t α / gl (gl = nA + nB – 2)

2 2 2
s0 = [( nA – 1) sA + (nB – 1) sB ] / (nA + nB – 2).

O denominador da estatística do teste para a diferença entre duas médias é o erro padrão da
2
diferença entre a média amostral. S0 é a média ponderada das variâncias amostrais das duas
amostras.

5.1.3 Pressuposições ao uso do teste t para duas amostras


independentes

O teste t para amostras independentes faz duas pressuposições que devem ser satisfeitas para que
sua aplicação seja correta:
1) As variáveis xA e xB devem ter distribuição normal ou aproximadamente normal. Este
pressuposto garante que a diferença entre a média amostral tenha uma distribuição normal e,
portanto, se possa realizar o teste t. Se as variáveis não apresentarem distribuição normal,
pode-se tentar uma transformação dos dados ou utilizar uma das várias técnicas existentes
de análise estatística não-paramétrica.
2) A segunda pressuposição importante é a de que as variâncias são iguais, isto é, se houver
efeito de alguma intervenção na amostra A quando comparado com a amostra B, este efeito
altera de modo uniforme os valores, de modo que a dispersão dos dados não se altera. Se

42
esta pressuposição não for satisfeita, o nível de significância ( α ) do teste se altera. Deve-se,
portanto, testá-la antes de realizar o teste t.

Exemplo: Sejam as amostras obtidas aleatoriamente de dois tipos de cabos de aço em relação à
carga de ruptura. Ao nível de significância de 5%, pode-se concluir que um cabo é mais resistente do
que o outro?

Carga de ruptura Kgf


Cabo tipo I Cabo tipo II
760 758
755 748
758 757
761 753
755 755
n:5 5
Média: 757,8 754,2
Variância: 7,7 15,7
DP: 2,77 3,96
Tabela 7 – Carga de ruptura
_ _ _ _
H0: x 1 = x 2 ou H0 : x 1 – x 2 = 0
_ _ _ _
HA : x 1 ≠ x 2 ou HA : x 1 – x 2 ≠ 0
2
s0 = [(5 – 1) 7,7 + (5 – 1) 15,7] / (5 + 5 – 2) = 11,7
tcalc = ( 757,8 – 754,2 ) / 11,7 ( 1/5 + 1/5 ) = 3,6 / 4,68 = 1,664

gl = 5 + 5 – 2 = 8
tab = t0,005;8 = 2,306
tcalc < ttab : Aceito H0.

Não há evidências de que exista diferença entre as resistências dos dois tipos de cabos.

COMPARAÇÃO ENTRE DUAS VARIÂNCIAS

A estatística calculada para o teste é a razão entre as variâncias amostrais e é denominada


2 2
distribuição F. Estatística do Teste: Fcalc = s MAIOR /s MENOR

Ftab = F α ; gIN ; gID

43
gIN: graus de liberdade do numerador (n numerador – 1)
glD: graus de liberdade do denominador (n denominador – 1)

Exemplo: Teste das variâncias para o exemplo anterior ( α = 0,10)

Fcalc = 15,7 / 7,7 = 2,04

Como o teste é bilateral, dividir α por 2 para olhar na tabela:


1) Ftab = F0,05;4;4 = 6,39
2) Fcalc < Ftab: Aceito H0

Não existe diferença entre as variâncias das duas amostras analisadas.

5.2 TESTE DE HIPÓTESES PARA A DIFERENÇA


ENTRE DUAS MÉDIAS.

Teste de hipóteses para a diferença entre duas médias (Amostras Independentes – SA2 SB2).
_ _

Estatística do teste: tcalc = ( x A – x B) / 2


[( s A / n A + s B 2 / n B )]

2 2 2 2
ttab = t α ; gl , gl =( wA + wB) /( wA /nA – 1 + wB / nB-1) onde w = s / n

As etapas do teste são as mesmas utilizadas anteriormente para os demais testes.

TESTE DE HIPÓTESES PARA A DIFERENÇA ENTRE


DUAS MÉDIAS (AMOSTRAS PAREADAS)

A técnica do pareamento ou emparelhamento aumenta a eficiência do teste estatístico, tornando-o


mais sensível a diferenças pequenas entre procedimentos. Amostras organizadas desta forma
denominam-se dependentes, pareadas ou emparelhadas.

44
Havendo emparelhamento, calculam-se as diferenças di para cada par de valores, recaindo assim em
uma única amostra de n diferenças (é claro que as duas amostras são de mesmo tamanho).

_
Estatística do teste: t calc = d / ( sD / n)

onde:
_
1) d = média das diferenças
2) sd = desvio padrão das diferenças
3) n = tamanho da amostra das diferenças

4) ttab = t α ; gl (gI = n - 1).

INTERVALO DE CONFIANÇA

As estimações por ponto só são usadas quando se necessita, ao menos aproximadamente, conhecer
o valor do parâmetro para utilizá-lo numa expressão analítica qualquer. No entanto, como os
estimadores são variáveis aleatórias, muitas vezes contínuas, as estimativas obtidas quase
certamente serão distintas do valor do parâmetro, ou seja, quase certamente se estará cometendo um
erro de estimação.

Desse fato surge a idéia de se construir um intervalo em torno da estimativa por ponto, de modo que
ele tenha uma probabilidade conhecida (que será designada por 1 - α ) de conter o verdadeiro valor
do parâmetro. Essa é a configuração da estimação por intervalo, e o intervalo assim construído é
denominado intervalo de confiança.

O valor da probabilidade (1 - α ), que usualmente assume os valores de 90%, 95%, 98%, etc., é
denominado nível de confiança, e o valor é chamado de nível de significância, isto é, representa o
erro que se está cometendo quando se afirma que a probabilidade de o intervalo ( θ 1 ≤ θ ≥ θ 2)
conter o verdadeiro valor do parâmetro populacional θ é 1- α .

5.2.1 Intervalo de confiança para a média quando a variância


populacional 2 é conhecida
_
x ± zα /2 = σ / n

45
Exemplo: Feito um ensaio de corrosão com 64 peças de um lote de produção, verificou-se que o
_
tempo que a peça suportou nesse teste apresentou uma média x = 200 horas. Calcular um intervalo
de 95% de confiança para a verdadeira média µ, sabendo que σ = 16 horas.

α = 0,05 z0,05 = 1,96


lC (95%): 200 ± 1,96.16 / 64
200 ± 3,92
IC (95%): (196,08 h; 203,92 h).

5.2.2 Intervalo de confiança para a média quando a variância


populacional 2 é desconhecida
_
x ± tα /2 s / n

Exemplo: A seguinte amostra foi extraída de uma população normal: 6,6,7,8,9,9,9,10,11,12. Construir
um intervalo de confiança para µ, ao nível de significância de 10%.

α = 0,10 t0,10;9 = 1,833


gl = 10 – 1 = 9
_
x = 8,7 s=2
IC (90%): 8,7 ± 1,833 (2/ 10 )
8,7 ± 1,16
IC (90%) : (7,54 ; 9,86).

FORMA USADA NAS PUBLICAÇÕES E SOFTWARES


DE ANÁLISE ESTATÍSTICA PARA REPRESENTAR A
SIGNIFICÂNCIA DE UM VALOR CALCULADO

A área caudal associada a um valor calculado de teste é denominada nível descritivo amostral, ou
nível crítico amostral, e é indicada por p. O valor de p é a área que fica além de uma estatística do
teste calculada, e representa a probabilidade de se obter, ao acaso, um valor igual ou mais extremo
que o valor crítico no teste estatístico se a hipótese nula for verdadeira.

O nível de significância de um teste ( α ) é um valor particular de p, escolhido como critério para


estabelecer a significância estatística em um teste de hipóteses. Se α for 0,05, está se considerando
que um valor, por exemplo, tcalc com p < 0,05, é estatisticamente significativo. Deve-se, então, rejeitar

46
H0, porque a probabilidade de se obter, ao acaso, este valor t, ou ainda um valor mais extremo, se a
hipótese nula for verdadeira, é menor do que 5%.

47
48
6 NOÇÕES DE AMOSTRAGEM

De uma forma geral, as populações são grandes demais para serem estudadas em sua totalidade.
Por outro lado, mesmo sendo viável um estudo de tal tamanho, ele é em geral abandonado devido às
despesas e ao dispêndio de tempo implicado. O mais comum é se estudarem amostras retiradas da
população de interesse.

Para que os resultados obtidos em uma amostra possam ser generalizados para a população, isto é,
para que se possam realizar inferências válidas, a amostra deve ser representativa da população. A
melhor maneira de se obter uma amostra representativa é empregar um procedimento aleatório para
a seleção dos indivíduos.

Uma vantagem de se usar amostras aleatórias é a de que, para este tipo de amostras, existem
inúmeros métodos estatísticos que poderão auxiliar o pesquisador. Na verdade, todas as técnicas
apresentadas neste texto pressupõem o uso de amostras aleatórias, Além disto, este tipo de
amostragem não dá oportunidade ao pesquisador de escolher, mesmo de forma inconsciente, uma
amostra que favoreça a hipótese que quer ver confirmada.

PRINCIPAIS PROCEDIMENTOS DE AMOSTRAGEM

6.1.1 Amostragem aleatória simples

Uma amostra aleatória simples é obtida de tal modo que todos os indivíduos da população têm igual
chance de serem selecionados. Para obtê-la, pode-se iniciar atribuindo um número de ordem a cada
elemento da população. A seguir, através de um dispositivo aleatório qualquer, retira-se ao acaso a
quantidade de indivíduos desejada.

Um procedimento aleatório a ser utilizado pode ser colocar em uma urna todos os números que serão
submetidos ao sorteio, retirando depois alguns às cegas. Podem-se ainda usar os números de loteria
sorteados nos últimos anos, ou uma tabela de números aleatórios, ou, ainda, programas de
computador para selecionar aleatoriamente os componentes da amostra.

Um ponto importante é que nenhum indivíduo, por ter esta ou aquela característica, terá oportunidade
maior de ser escolhido, pois a escolha independe da vontade do selecionador da amostra.

49
6.1.2 Amostragem aleatória estratificada

Às vezes, a população é constituída de subpopulações, ou estratos, e pode ser razoável supor que a
variável de interesse apresenta comportamento diferente nos distintos estratos. Neste caso, para que
uma amostra seja representativa, ela deve apresentar a mesma estratificação do universo de origem.
Para garantir que o procedimento aleatório produza uma amostra estratificada adequada, deve-se:
1) verificar quais são os estratos presentes na população;
2) calcular seus tamanhos relativos (proporções);
3) determinar o tamanho dos estratos na amostra, observando estas mesmas proporções;
4) obter aleatoriamente os elementos para cada estrato, sorteando dentro dele, ou sorteando a
partir da população, e preencher os espaços reservados para cada estrato.

Exemplo: Deseja-se avaliar o número médio de cáries em escolares de 8 anos de certa escola. Como
parece razoável supor que esta variável depende do nível sócio-econômico da criança, o
procedimento de amostragem escolhido é o de amostragem por estratos.

Para isto:
1) Verificar, inicialmente, que níveis sócio-econômicos existem nesta escola (suponha-se que
sejam três: A, B e C).
2) Verificar, por exemplo, que o nível A abrange 3% da população, o nível B, 22% e o nível C,
75%.
3) Determinar então que, para uma amostra de 120 crianças, quatro deverão ser do nível A (pois
3% de 120 é 3,6), 26 do nível B e 90 do C.
4) Sortear aleatoriamente quatro dentre as crianças do nível A, 26 do B e 90 do C. Ou então
realizar o sorteio diretamente do total de crianças da escola e preencher as subamostras
conforme os indivíduos vão sendo selecionados. Caso seja sorteado um número que
corresponda a um aluno A e já tenham sido selecionadas as quatro crianças para este
estrato, o número é desprezado e o sorteio prossegue.

Os extratos podem ser estabelecidos com base em variáveis qualitativas, como no exemplo acima, ou
variáveis quantitativas, como faixas etárias.

50
6.1.3 Amostragem aleatória sistemática

Se os elementos da população estão ordenados de alguma maneira (em listas, filas, prateleiras,
linhas de produção), é possível realizar uma amostragem sistemática, que é feita do seguinte modo:
1) escolhe-se uma constante conveniente;
2) sorteia-se o primeiro indivíduo;
3) evitam-se tantos indivíduos quantos forem indicados pela constante e toma-se o indivíduo
seguinte;
4) repete-se o processo a partir do segundo passo até obter o tamanho amostral desejado.

Exemplo: Em um hospital há 10.000 fichas de pacientes. Deseja-se uma amostra de 500 pacientes,
isto é, 5%, ou um a cada 20 pacientes da população. O ponto de partida será uma ficha selecionada
aleatoriamente dentre as primeiras 20, por exemplo, a de número 9. A próxima a ser retirada será a
29ª a seguinte a 49ª etc.

6.1.4 Amostragem aleatória por conglomerados

Se a população se apresenta subdivida em pequenos grupos ou conglomerados, é muitas vezes


conveniente realizar-se a amostragem diretamente nos conglomerados, do seguinte modo:
1) identificam-se os conglomerados através de números de ordem;
2) sorteiam-se os conglomerados;
3) analisam-se todos os indivíduos pertencentes aos conglomerados sorteados.

Exemplo: Deseja-se fazer uma pesquisa de opinião em uma vila. Numeram-se os quarteirões, que
são os conglomerados, em um mapa. Sorteia-se uma determinada quantidade de quarteirões. Todas
as residências do quarteirão escolhido devem ser visitadas para se obter os dados desejados.

CÁLCULO DO TAMANHO MÍNIMO DA AMOSTRA

Não existe número fixo para o tamanho da amostra a ser estudada. Há uma solução para cada caso,
dependendo:
1) Do tipo de problema que se quer resolver. Exemplos possíveis podem ser: caracterizar uma
variável ainda não investigada na população; comparar duas populações quanto a uma
variável dada; verificar se duas variáveis estão associadas.
2) Do tipo de variável. Estudos envolvendo variáveis qualitativas geralmente exigem amostras

51
maiores. Dentre as variáveis quantitativas, as que representam maior variabilidade nos dados
também exigem amostras maiores.
3) Da magnitude do erro aleatório aceito pelo pesquisador. Quanto menos o pesquisador quer
errar, maior deverá ser o tamanho da amostra.
4) Do tamanho da diferença, entre os grupos, considerada importante pelo pesquisador.
Diferenças menores exigem amostras maiores.
5) Do tempo, verbas e pessoal disponível, bem como da dificuldade em se obter os dados e da
complexidade do experimento.

O tamanho mínimo amostral é obtido a partir da análise estatística que se pretende realizar,
posteriormente, com os dados do experimento. Tanto nos testes de hipóteses como no cálculo de
intervalos de confiança, está envolvida uma medida do erro de amostragem, que é o erro padrão. Ora,
este envolve o tamanho amostral (n), sendo, portanto, um ponto de partida natural para a
determinação de n, com será visto a seguir.

O número de fórmulas para obter n acompanha a multiplicidade de tratamentos estatísticos possíveis.


Será apresentado a seguir o raciocínio que acompanha o cálculo de n para estimar a média de uma
população. Os demais raciocínios seguem o mesmo padrão e serão dadas apenas fórmulas
correspondentes a alguns dos principais modelos de análise estatística.

6.1.5 Raciocínio do cálculo de n para estimar µ


_
2 2 2
n= s (t α ; gl ) / ( x – µ))

O número n é o tamanho amostral mínimo a ser utilizado pelo pesquisador. Para calcular n, é
2
necessário ter uma estimativa da variabilidade da característica (s ), que pode ser obtida de uma
amostra piloto ou da literatura.

Em segundo lugar, é necessário estabelecer uma diferença máxima, aceita como um erro de
_
estimativa razoável, entre a média verdadeira e aquela obtida na amostra ( x - µ). Pela fórmula, pode-
se ver que, quanto menor for esta diferença, maior será o n.

Resta então, estabelecer um nível de confiança (1 - α ) desejado para a estimativa e de n - 1 (gI).


Mas, como resolver o problema de encontrar gI se não se tem ainda o n? A solução é escolher um

tamanho amostral provisório n0, calcular gI e obter t α ; gl I. Estas informações são colocadas na fórmula,

52
encontra-se no valor de n e volta-se à tabela para obter no valor de t α ; gl Realizam-se vários cálculos

interativamente, até que n estabilize.

Portanto, há dois grandes enfoques a serem considerados no cálculo de n para análises estatísticas
univariadas básicas:
1) cálculo de n para estimar um parâmetro (média, porcentagem, coeficiente de correlação) e
2) cálculo de n para comparar amostras.

6.1.6 Fórmulas para o tamanho amostral quando se deseja estimar


parâmetros

Para estimar a média da população:


_
2 2 2
1) n = s (t α ; gl ) / ( x – µ))

2) Observação: gl = n – 1. É necessário ter uma estimativa provisória de s e realizar interações.

Para estimar a proporção (P):


2 2
1) n = (Z α pq) / (p – P)

2) Observação: É necessária uma estimativa provisória da proporção p (de uma amostra piloto
ou da literatura); não são necessárias interações; q = 1- p.

6.1.7 Fórmula para os tamanhos amostrais quando se deseja


comparar dois grupos
_ _
Para comparar x e µ (H0: x = µ):
_
2 2 2
1) n= s / (µ – x ) (t α ; gl + u) , sendo:

gl = n – 1
u é o valor de (lembre-se que o poder do teste = 1 - ).

Para comparar duas médias (H0: x1 = x2):


_ _
2 2 2 2
1) n = (sA + sB ) / ( x A - x B) = (t α ; gl + u) (n calculado para cada amostra ), sendo:

gI = nA + nB.

Para comparar p e P (H0: p = P):

53
2 2
1) n = [ u ( pq) + z (PQ) ] / (p – P) .

54
7 ANÁLISE DA VARIÂNCIA (ANOVA)

Existem muitas situações nas quais se deseja comparar mais do que dois grupos experimentais com
respeito a uma variável quantitativa. Pode parecer correto, em um primeiro momento, realizar então
vários testes t entre os grupos, comparando-os dois a dois. No entanto, este procedimento é
inadequado. O teste t foi delineado para, em um mesmo experimento, comparar uma determinada
média A com apenas uma outra, digamos B, com uma probabilidade (por exemplo: 0,05) de se
concluir incorretamente por uma diferença que não existe. Se for feita mais de uma comparação
envolvendo a média A, a probabilidade de um erro deste tipo passa a ser maior do que 0,05.

E. S. Pearson (1942), pressupondo variâncias populacionais iguais e amostras grandes, mostrou que
a probabilidade de se cometer um erro de conclusão do tipo I (concluir por uma diferença que não
existe) aumenta com o número de médias que estão sendo comparadas. Para α = 5%, esta
probabilidade é realmente 0,05 se a comparação for entre duas médias, porém para a 0,13 se for feita
entre três médias e chega a 0,21 se for entre quatro médias.

O procedimento correto para se evitar este aumento no nível global de significância do experimento
consiste em utilizar a técnica de Análise de Variância. Este método compara todas as médias em um
único teste, e visa identificar a existência de ao menos uma diferença entre os grupos, se alguma
existir. Caso o resultado seja estatisticamente significativo, aplica-se posteriormente uma das várias
técnicas existentes de comparações múltiplas entre as médias.

ANOVA COM UM CRITÉRIO DE CLASSIFICAÇÃO

A Análise de Variância é uma poderosa técnica estatística desenvolvida por R. A. Fisher. Ela consiste
em um procedimento que decompõe a variação total entre os valores obtidos do experimento em
componentes separados. Cada componente atribui a variação a uma causa ou fonte de variação
diferente; o número de causas de variação ou “fatores” depende do delineamento da investigação.

55
Um dos modelos mais simples de ANOVA é o que possui um critério de classificação. Neste modelo,
a variação global é subdividida em duas frações. A primeira é a variação entre as médias dos vários
grupos quando comparadas com a média geral do experimento, e representa o efeito dos diferentes
tratamentos. A outra é a variação observada entre as unidades experimentais de um mesmo grupo ou
tratamento com relação à média deste grupo: trata-se das diferenças individuais, ou aleatórias, nas
respostas.

A variação entre grupos experimentais é estimada pela variância entre. A variação dentro do mesmo
grupo é estimada através da média das variâncias de cada grupo: e por isso é chamada de variância
dentro. Como ela representa também a fração da variabilidade que não é explicada pelo efeito dos
grupos, é também chamada de variância residual ou, ainda, de variância do erro experimental.

O teste baseia-se na pressuposição de que os K grupos A, B,... podem originar médias diferentes,
2
mas a variação entre as médias (s ) é igual em todos os grupos que estão sendo comparadas. Em
outras palavras, deseja-se testar a hipótese:

_ _ _
2 2 2
H0: x A = x B = ... = x K... supondo que sA + sB + ... sK .

Raciocina-se, a partir daí, que, se houver efeito diferencial entre os grupos, a variação entre eles deve
ser maior do que a variação dentro do mesmo grupo. Ou seja, a variância entre deve ser maior do que
a variância dentro. Isso equivale a dizer que, se houver diferença entre grupos, o resultado da divisão
da variância entre pela variância dentro deve ser maior do que 1. Este cálculo é chamado razão F de
variâncias, em homenagem a Fisher, e seu resultado é comparado com um valor tabelado.

Fonte de Variação SQ GL QM Teste F (F calç)


entre grupos SQE K-1 SQE / GLentre QMentre / QM dentro
dentro dos grupos (resíduo) SQD ( n)-K SQD / GLdentro
Total SQT ( n)–1 - -

Tabela 8 – Anova

Observação:
A variância entre grupos representa a diferença média entre os grupos multiplicada pelo tamanho
amostral, acrescida da variação entre indivíduos (observações), ao passo que a variância dentro

56
mede apenas a variação entre indivíduos (observações).

Fórmulas da ANOVA:
2
1) Termo de correção (C): constante a ser usada em várias fórmulas C = ( x) / n
2
2) SQT = x -C
2
3) SQE = ( xi / ni) - C
4) SQD = SQT - SQE
5) GLtotal = ( n) – 1
6) GLentre = k – 1 (k é o número de grupos que estão sendo comparados)
7) GLdentro = ( n) - k
8) QMentre = SQE / GLentre
9) QMdentro = SQD / GLdentro.

Se H0 é verdadeira, isto é, se não há diferença entre as populações, então a variância entre deve ser
igual à variância dentro, e a razão F entre elas é 1. No entanto, mesmo sendo H0 verdadeira, podem-
se esperar diferenças aleatórias entre as variâncias entre e dentro porque os experimentos são
realizados com amostras. Há, portanto, possibilidade de flutuações ao acaso nos resultados.

Para testar a significância do valor de F obtido no experimento, compara-se o valor calculado como o
valor de F tabelado que estipula o limite para uma diferença aleatória entre as variâncias entre e

dentro. Se Fcalc for maior do que Ftab (F α ;gIN;gID ), então há diferença entre as populações.

Fcalc = QM entre / QM dentro

O valor crítico de F α ;gIN;gID , tem o seguinte número de graus de liberdade:

1) GIN = gI do numerador = GL entre


2) GID = gl do denominador GL dentro.

As etapas de realização do teste seguem a mesma conformação vista anteriormente nos testes de
hipóteses.

Exemplo: Verificando-se os índices de produção, segundo os postos de trabalho, durante certo


período, analisar se as diferenças se devem aos postos de trabalho ( α = 5%).

57
A B C
90,8 85,5 65,9
100,0 83,0 77,1
81,1 73,7 68,5 Total
ni 3 3 3 9
xi 271,9 242,2 211,5 725,6
2
xi 24.821,85 19.630,94 14.979,47 59.432,26
2
x /ni 24.643,20 19.553,61 14.910,75 59.107,56
_
x
90,6 80,7 70,5
s 9,45 6,22 5,86
Tabela 9 – Teste de hipóteses

2
C = (725,6) / 9 = 58.499,48
SQT = 59.432,26 – 58.499,48 = 932,78
SQE = 59.107,56 – 58.499,48 = 608,08
SQD = 932,78 – 608,08 = 324,70
GL Total = 9 – 1 =8
GL entre = 3 -1 = 2
GL dentro = 9 – 3 = 6
QM entre = 608,08 / 2 = 304,04
QM dentro = 324,70 / 6 = 54,12
_ _ _
H0 : x A = x B = x C
HA: pelo menos uma diferente
F = 304,04/54,12 = 5,62
F0,005;2;6 = 5,14

Conclusão: Rejeita-se H0.

TESTE DE COMPARAÇÕES MÚLTIPLAS ENTRE


MÉDIAS

Um valor de F significativo na ANOVA não indica que grupos diferem entre si: ele apenas mostra que
existe ao menos uma diferença entre os grupos estudados. A identificação de diferenças particulares
entre médias deve ser feita usando um dos vários testes de Comparações Múltiplas entre médias
existentes na literatura. Estes testes são semelhantes ao teste t, com a diferença de que controlam o
nível de significância, levando em conta o número de comparações feitas no experimento.

58
Vários procedimentos têm sido propostos, tais como:
1) Teste de Tukey
2) Teste de Student Newman Keuls (SNK)
3) Teste de Dunnett
4) Teste de Scheffé etc.

Os dois testes de comparações múltiplas mais utilizadas são os testes de Tukey e SNK.

Exemplo:

Fonte de Variação SQ gl MQ F Valor – p


entre grupos 2193,442 4 548,361 56,155 0,000
dentro dos grupos 244,13 25 9,765
Total 2437,572 29
Tabela 10 – Teste de Comparações Múltiplas – TUKEY

Média das repetições

Média das repetições


cdp1 32,1
cdp2 40,2
cdp3 44,1
cdp4 41,1
cdp5 58,3
Tabela 11 – Média das repetições

o
SE = ((MQ-dentro)/ n de repetições), SE = 1,28

1) q-calculado = (média (cdpi) – média (cdpj) / SE

α ; gl − dentro ;n º cdp 's


2) q-tabelado = q
3) q 0,05;25;5 = 4,166
4) n=6 repetições para todos os cdps,

59
Comparação Diferença * SE q- calculado q-tabelado Conclusão
cdp1-cdp2 -8,10 1,28 -6,33 4,166 diferentes
cdp1-cdp3 -12,0 1,28 -9,38 4,166 diferente
cdp1-cdp4 -9,00 1,28 -7,03 4,166 diferente
cdp1-cdp5 -26,20 1,28 -20,47 4,166 diferente
cdp2-cdp3 -3,90 1,28 -3,05 4,166 iguais
cdp2-cdp4 -0,90 1,28 -0,70 4,166 iguais
cdp2-cdp5 -18,10 1,28 -14,14 4,166 diferente
cdp3-cdp4 3,00 1,28 2,34 4,166 iguais
cdp3-cdp5 -14,20 1,28 -11,09 4,166 diferente
cdp4-cdp5 -17,20 1,28 -13,44 4,166 diferente
Tabela 12 – Média das repetições

* Não levar em consideração o sinal (retornar o número positivo)

Conclusão
Grupo 1 Grupo 2 Grupo 3
cdp1 cdp2 cdp5
cdp3
cdp4
Tabela 13 – Média de repetições conclusão

60
8 CORRELAÇÃO LINEAR SIMPLES

Um assunto de interesse freqüente em algumas áreas é estudar a associação entre duas


características. Quando se pode demonstrar que existe associação entre duas variáveis quantitativas,
ou seja, quando se constata que elas “variam juntas”, diz-se que as variáveis estão correlacionadas.

Exemplo: Deseja-se saber se existe correlação entre o tempo dedicado ao estudo e o desempenho
dos alunos em determinada disciplina. Sorteados 8 estudantes desta disciplina, obtém-se as
informações abaixo, onde x representa o número de horas de estudo e y a nota obtida em uma prova,
para cada aluno.

Fica difícil concluir alguma coisa observando diretamente os dados na tabela, Por isso o primeiro
passo é tentar organizá-los em um gráfico, para melhor visualizar as relações entre as variáveis.

Aluno X ( horas ) Y ( nota )


A 8 10
B 7 8
C 6 4
D 3 8
E 3 6
F 6 9
G 5 7
H 2 4
Tabela 14 – Horas / Notas

Figura 12 – Diagrama de dispersão correspondente ao número de horas de estudo e a nota obtida

61
Diagrama de Dispersão (ver figura 12):
1) Para avaliar a correlação entre características quantitativas, pode-se inicialmente representar
os dados em um gráfico cartesiano de pontos, denominado diagrama de pontos ou diagrama
de dispersão. Cada ponto do gráfico corresponde a um aluno e é marcado segundo seu valor
para x e para y.
2) Analisando o gráfico, pode-se observar que os alunos que estudaram durante mais tempo
tendem a ter notas mais altas, e os que dedicaram menos horas ao estudo, a ter um
desempenho pior na prova. No entanto, podem-se observar exceções (como o aluno D), o
que indica que, embora pareça existir uma associação entre horas de estudo e nota, ela não
é uma relação perfeita.

COEFICIENTE DE CORRELAÇÃO (R)

Outra maneira de se avaliar a correlação é utilizar um coeficiente, que tem a vantagem de ser um
número puro, isto é, independente da unidade de medida das variáveis. Isto interessa bastante, pois
se pode ter unidades de medida diferentes para as variáveis (como nota e horas), dificultando a
interpretação da associação. O coeficiente que se calcula para variáveis quantitativas que têm uma
distribuição normal ou aproximada denomina-se coeficiente de correlação de Pearson, e é indicado
pela letra r. Este coeficiente representa uma medida de intensidade da associação existente entre
duas variáveis quantitativas.

8.1.1 Variação do coeficiente de correlação

O coeficiente de correlação pode variar entre –1 e +1. Valores negativos de r indicam uma correlação
do tipo inversa, isto é, quando x aumenta, y diminui. Os valores positivos ocorrem quando a
correlação é direta, isto é, x e y variam no mesmo sentido.

O valor máximo (tanto r = +1 como r = -1) é obtido quando todos os pontos do diagrama estão em
uma linha reta inclinada. Por outro lado, quando não existe correlação entre x e y, os pontos se
distribuem em nuvens circulares. Quando os pontos formam uma nuvem cujo eixo principal é uma
curva, o valor de r não mede corretamente a associação entre as variáveis. Isto ocorre porque a
técnica para calcular este coeficiente supõe que os pontos formam nuvens elípticas cujo eixo principal
é uma reta. Neste caso, deve-se tentar transformar uma das variáveis ou, então, usar diretamente um
coeficiente de correlação não-paramétrico, como o coeficiente de Spearman.

62
8.1.2 Cálculo do coeficiente de correlação em uma amostra
2 2 2 2
R = (SPxy) / (SQx . SQy) = ( xy - x. x y / n) / {[ x – ( x) / n ] [ y – ( y) / n ]}

Note-se que SP representa a soma dos produtos xy, e SQx e SQy são as somas de quadrados de x e
y, respectivamente.

Exemplo: Cálculo do coeficiente de correlação do exemplo anterior (horas de estudo x notas).

2 2
Aluno x (horas) y (horas) x y xy
A 8 10 64 100 80
B 7 8 49 64 56
C 6 4 36 16 24
D 3 8 9 64 24
E 3 6 9 36 18
F 6 9 36 81 54
G 5 7 25 49 35
H 2 4 4 16 8
40 56 232 426 299
Tabela 15 – Cálculo do coeficiente de correlação

2 2
R = (299 - (40)(56)/8 ) / {[ 232 – (40) /8] [416 – (56) / 8]} = 0,58.

Note-se que o coeficiente de correlação (r = 0,58) não é acompanhado de qualquer unidade de medida.

8.1.3 Teste de hipóteses sobre a correlação

Quando se calcula o coeficiente r em uma amostra, é necessário ter presente o fato de que se está,
na realidade, estimando a associação verdadeira entre x e y que ocorre na população. No exemplo
visto anteriormente foi obtido o valor de r = 0,58. Não se pode, no entanto, ter certeza de que na
população de alunos existe efetivamente correlação entre horas de estudo e nota da prova, pois foi
estudada apenas uma parte da população. O valor obtido poderia ser casual, representando um erro
devido à amostragem. Para realizar um teste de hipóteses sobre a existência de correlação na
população, o raciocínio é análogo àquele visto nos outros testes de hipóteses.

Para a realização do teste, supõe-se inicialmente que não existe correlação entre x e y. Se for
realizado um processo de amostragem aleatória em uma população onde = 0, os valores de r
obtidos nas amostras geralmente serão próximos de zero. Podem ocorrer valores afastados de zero,
mas eles serão raros. A distribuição amostral de r é simétrica quando a correlação populacional for 0.
Por outro lado, vai ficando mais e mais assimétrica à medida que se afasta deste valor.

63
8.1.4 Etapas do teste de hipóteses da correlação

As etapas do teste são:


1) Elaboração das hipóteses estatísticas:
H0 r = 0
H A: r 0.
2) Escolha do nível de significância: . = 0,05.
3) Determinação do valor crítico do teste (valor tabelado):
t ;gl = t0,05;6 = 2,447, (gI = n - 2, onde n é o número de pares de valores x e y).
4) Determinação do valor calculado de t:
2
tcalc= r / ( [(1 – r ) / (n – 2)] = 0,58 / 0,333 = 1,74
Como tcalc < ttab não se rejeita H0.
5) Conclusão: Não existe correlação entre o tempo dedicado ao estudo e o desempenho obtido
na prova. O valor r obtido foi casual.

Suponha-se, agora, que existem razões para se acreditar que a conclusão acima não espelha a
realidade. Como interpretar esse resultado?

O teste permitiu concluir que os dados amostrais são comprovam a existência de correlação. Isto
pode ser devido a:
1) não existir realmente correlação entre x e y na população e
2) existir correlação entre x e y, mas o experimento foi incapaz de detectar esta associação,
devido ao pequeno tamanho de amostra.

Para decidir por uma destas alternativas, só há uma solução: aumentar o tamanho da amostra. Se
efetivamente existir correlação, e se ela for do grau de magnitude observado, um aumento em n
ocasionará um aumento no tcalc que poderá vir a ser estatisticamente significativo. Se, por outro lado,
não existir realmente correlação, o valor de r na amostra tenderá a se aproximar de zero, levando a
um tcalc cada vez menor e, conseqüentemente, não significativo.

64
8.1.5 Avaliação qualitativa do grau de correlação entre duas
variáveis

|r| Avaliação
0 nula
0- 0,3 frança
03|---- 0,6 regular
0,6|-----0,9 forte
0,9|------1 muito forte
1 plena ou perfeita
Tabela 16 – Avaliação qualitativa

8.1.6 Coeficiente de determinação

O coeficiente de determinação significa a variação explicada em relação à variação total, e é o


quadrado do coeficiente de correlação.

2 2
r = (0,52) = 0,2704 = 27,04%.

Ele é expresso em percentagem, indicando quanto por cento da variação da variável “y” está
relacionada com a variável “x”.

Exemplo: Seja o estudo de um automóvel da marca W ano 2000:


1) X: preço do automóvel
2) Y: quilometragem
3) Suponha que r = -0,80
2
4) r = 0,64 indica que 64% das variações do preço são devidas às variações da quilometragem.

65
66
9 REGRESSÃO LINEAR SIMPLES

O estudo da regressão aplica-se àquelas situações nas quais há razões para se supor uma relação
de causa-efeito entre duas variáveis quantitativas e se deseja expressar matematicamente esta
relação. Geralmente, chama-se a variável dependente (ou variável resposta) de y, e a variável
independente (fator, variável explicativa ou variável preditiva) de x.

O termo regressão deve-se a Francis Galton, que publicou, em 1889, um livro no qual discute
problemas de herança genética (Remington & Schork, 1974). Como observou que pais de alta
estatura apresentavam filhos com estatura mais baixa, e pais de baixa estatura tinham filhos mais
altos, Galton chamou este fenômeno de “regressão a médio”, termo que, apesar de não ser adequado
para expressar dependência, acabou sendo incorporado à linguagem estatística pelo uso.

Os objetivos do estudo da regressão são:


1) estudar a existência de dependência de y em relação à x, e
2) expressar matematicamente esta relação através de uma equação.

Todo estudo de regressão deve iniciar pela elaboração de um gráfico de dispersão dos pontos. Este
passo é fundamental, pois o gráfico já dá uma boa idéia da existência, ou não, de regressão, bem
como evita o erro de aplicar esta técnica a dados para os quais não é adequada. Muitas são as
relações de causa e efeito que podem ser resumidas por linhas retas, evitando-se a necessidade de
extensas tabelas mostrando a relação. A regressão linear simples é um procedimento que fornece
equações de linhas retas (por isso o termo “linear”), que descrevem fenômenos nos quais há uma
variável independente apenas (por isso, “simples”).

A RETA DE REGRESSÃO LINEAR

9.1.1 Equação da Reta

A equação da reta pode ser dada por:


Y = A + ßX, onde:
1) Y = variável dependente
2) A = coeficiente linear (valor de Y quando X = 0)

67
3) ß = coeficiente angular (inclinação da reta; acréscimo positivo ou negativo ocorrido em Y para
cada acréscimo de uma unidade em X)
4) X = variável independente.

A figura 13 ilustra estes conceitos. A linha reta corta o eixo Y no valor 10, logo A = 10, e para cada
aumento de uma unidade em X há um decréscimo correspondente de duas unidades em Y, logo, ß = -2.
A letra Y representa um valor que é fixo para um determinado valor de X, isto é, Y é um valor que não
pode variar quando X assume determinada quantidade.

X Y
0 10
1 8
2 6
3 4
4 2
5 0
Y = 10 – 2X
Tabela 17 – Valores para x e y

Figura 13 – Linha reta (Y = 10 - 2X)

9.1.2 Os pontos experimentais

Os pontos obtidos pelo experimentador dificilmente se colocam exatamente em linha, embora se


possa muitas vezes observar uma nítida tendência ao alinhamento. Os “desalinhamentos” são
interpretados como desvios, ao acaso, do comportamento geral do fenômeno. Por esta razão, pensa-
se em ajustar uma linha reta a pontos que não estão perfeitamente alinhados. Na verdade, a linha
reta representa o comportamento das médias esperadas para os distintos valores de X, isto é, a reta
representa uma média que se modifica na medida que os valores de X aumentam.

68
Figura 14 – Pontos experimentais

9.1.3 Obtenção da reta de regressão

A reta de regressão verdadeira seria obtida se fossem disponíveis os valores de X e Y para todos os
indivíduos da população. Neste caso, se conheceria a inclinação verdadeira da reta (o coeficiente de
regressão ß) e a altura verdadeira da reta (o coeficiente linear A).

No entanto, o mais comum são estudos de regressão entre x e y utilizando amostras da população de
pontos. São calculados, então, a e b, que são as estimativas dos parâmetros A e ß. Estes valores são
obtidos pelo Método dos Mínimos Quadrados, que tem este nome entre os valores observados (y) e a
própria reta.

Os coeficientes a e b são calculados da seguinte maneira:


2 2
1) B = ( xy – ( x) ( y) / n) / ( x - ( x) / n)
2) a = y – bx.

A reta estimada de regressão é: y = a + b x, onde:


1) a: representa a “cota” do valor de y que independe de x.
2) b: indica a variação de y por unidade da variação de x.

9.1.4 Teste de significância da regressão

A dependência de y em relação à x é representada pelo coeficiente b. No entanto, este é quase


sempre determinado com base em uma amostra de dados. Não se trata, portanto, do valor verdadeiro
do coeficiente de regressão, mas de sua estimativa. Para poder afirmar que o valor de b representa
uma dependência real de y em relação a x, deve-se realizar um teste de hipótese sobre a existência

69
de regressão na população.

Raciocínio do Teste – Quando não existe regressão entre x e y, o coeficiente de regressão


populacional ß é igual a zero. Neste caso, os valores de b obtidos em amostras aleatórias desta
população devem variar em torno de zero. A distribuição de b será normal se a distribuição de y for
normal. Para testar a hipótese de que ß não é zero, determina-se o número crítico de erros padrão
permitido para um afastamento não-significativo entre b e ß = O. Calcula-se, a seguir, o afastamento
observado (b - ß) em unidades de erros padrão (tcalc). A decisão é semelhante àquelas vistas nas
comparações entre médias e no teste de significância de r: se o valor calculado de t exceder o valor
crítico, rejeita-se a hipótese de que b seja um desvio ao acaso de ß = O e conclui-se pela existência
de regressão de y em relação a x.

9.1.5 Etapas do teste de hipóteses da regressão

São estas as etapas do teste:


1) Elaboração das hipóteses estatísticas:
H0: ß = O
H A: ß 0 ou ß >0 ou ß < 0.
2) Escolha no nível de significância .
3) Determinação do valor crítico do teste t ; gl
(gI = n - 2).
4) Determinação do valor calculado do teste:
tcalc = b / EPb
2 2 2
EPb = [ y - a y – b xy] / {(n – 2) [ x – ( x) / n ]}.
5) Decisão:
Itcalc| < ttab - aceita - se H0
ltcaIcl ttab - rejeita - se H0.

9.1.6 Utilidades da reta de regressão

A reta de regressão permite:


1) representar a dependência de uma variável quantitativa em relação à outra através de uma
equação simples;
2) prever valores para a variável dependente (y) em relação a valores não observados da
variável independente x. Isto é permitindo dentro da faixa de valores estudados para x ou
mesmo fora, desde que a extrapolação não seja exagerada, isto é, não haja uma distância
muito grande entre o valor de x desejado e o primeiro (ou último) valor de x estudado.

70
9.1.7 Requisitos ao estudo da regressão linear

Certas exigências devem ser satisfeitas para se realizar inferências válidas sobre o coeficiente de
regressão:
1) A variável y deve ter distribuição normal ou aproximadamente normal.
2) A variação de y deve ser a mesma em cada valor de x (homocedasticidade). Se não houver
homocedasticidade, será necessário transformar os dados.
3) Os pontos do gráfico devem apresentar uma tendência linear; caso contrário, a equação que
melhor representará o fenômeno não será uma reta, mas outra linha qualquer.
4) Os valores de y foram obtidos ao acaso da população e são independentes uns dos outros.
5) A variável x foi medida sem erro.

Exemplo: Uma amostra de funcionários de uma repartição pública foi selecionada aleatoriamente.
Relacionou-se o tempo de serviço (em anos) com seu salário bruto mensal:

2
Funcionário Tempo (x) Sal. Min. (y) xy x
A 3 5,2 15,6 9
B 4 6,1 24,4 16
C 3 5,0 15,0 9
D 2 4,8 9,6 4
E 5 6,1 30,5 25
F 4 6,4 25,6 16
21 33,6 120,7 79
Tabela 18 – Estudo da Regressão Linear

b= {120,7 - [( 21)( 33,6)/6]} / [ 79 – ( 441/6) ] = 0,56


a= ( 33,6 / 6 ) – 0,56 ( 21/6 ) = 3,54
y = 3,54 + 0,56 x

Interpretação: O salário médio esperado para um funcionário desta repartição é de 3,54 salários
mínimos,mais 0,56 salários mínimos para cada ano de serviço.

Desejando-se saber o salário esperado de um funcionário que tenha 3,5 anos de serviço, basta
substituir x por 3,5 na equação:

y = 3,54 + 0,56 (3,5) = 5,6 salários mínimos.

71
72
10 PROCESSO DE MEDIÇÃO

O objetivo de uma medição é determinar o valor do mensurando, isto é, o valor da grandeza


específica a ser medida. Uma medição começa, portanto, com uma especificação apropriada do
mensurando, do método de medição e do procedimento de medição. Em geral, o resultado de uma
medição é somente uma aproximação ou estimativa do valor do mensurando e, assim, só é completa
quando acompanhada pela declaração da incerteza (indicação quantitativa da qualidade do
resultado).

Em geral, uma medição tem imperfeições que dão origem a um erro em seu resultado. Um erro é
visto tradicionalmente como tendo dois componentes: o componente aleatório e o sistemático.

Erro aleatório – Constatou-se repetidamente que os dados dos ensaios experimentais mostram
variações de leitura para leitura, mesmo após se atender a todas as fontes conhecidas de erro. Há, se
dúvida, uma razão, ou melhor, um conjunto de razões para essas variações, mas não é possível
determiná-las. O evento físico que se estiver medindo é afetado por muitos acontecimentos que
ocorrem no universo, e se está prevenido contra os mais óbvios; os restantes são agrupados e
denominados “aleatórios” ou “residuais”.

Os erros considerados nesta classe podem ser olhados como o resíduo do erro quando todos os
conhecidos efeitos sistemáticos tiverem sido levados em conta. Daí o termo “residual”. As condições
de ensaios estão sujeitas a variações devido a uma multiplicidade de pequenas causas, que não
podem ser pesquisadas separadamente. Quando as correções forem feitas para os efeitos
conhecidos, elas são também aproximadas, deixando um pequeno resíduo de erro. Embora não seja
possível compensar o erro aleatório de um resultado de medição, ele pode geralmente ser reduzido
aumentando-se o número de observações.

Erro sistemático – Como o erro aleatório, o sistemático não pode ser eliminado, porém pode ser
reduzido. Se um erro sistemático se origina de um efeito reconhecido de uma grandeza de influência
em um resultado de medição, o efeito pode ser quantificado e, se for significativo com relação à
exatidão requerida da medição, uma correção ou fator de correção pode ser aplicada para compensar
o efeito. Supõe-se que, após esta correção, o valor esperado do erro provocado por um efeito
sistemático seja zero. Algumas fontes de erros consideradas como erros sistemáticos: Instrumental,
Ambiental e de Observação.

73
74
11 MEDIDAS DE PRECISÃO

Precisão é o grau de dispersão entre resultados independentes obtidos sob condições estipuladas.
Trata-se, portanto, da propriedade referente a uma seqüência de medições.

Os quatro fatores principais que influenciam a precisão de um método de medição estão descritos na
Tabela 19, bem como as condições desses fatores que determinam as distintas medidas de precisão.

Fatores principais Condições de medida de um laboratório


Estado 1 Estado 2
tempo medidas realizadas ao medidas realizadas em
mesmo tempo tempos diferentes

nenhum ajuste de ajuste do equipamento


Principais fatores ajuste
equipamento entre medidas executado entre medições

operador mesmo operador operadores diferentes

equipamento mesmo equipamento equipamentos diferentes


Denominação da precisão REPETIBILIDADE REPRODUTIBILIDADE
NOTA: Considera-se reprodutibilidade quando um ou mais fatores do estado 1 foram variados, e
neste caso devem ser indicados na expressão dos resultados.
Tabela 19 – Principais fatores de variabilidade e seus estados

REPETITIVIDADE (REPE)

Exprime a precisão de resultados de ensaio obtidos sob condições de repetitividade; ou seja,


expressa o grau de concordância entre os resultados de medições sucessivas de um mesmo
mensurando, efetuadas sob as mesmas condições de medição.

As condições de repetitividade incluem:


1) mesmo procedimento de medição;
2) mesmo observador;
3) mesmo instrumento de medição, utilizado nas mesmas condições;
4) mesmo local;
5) repetição em curto período de tempo.

75
REPRODUTIBILIDADE (REPRO)

Exprime a precisão de resultados de ensaio obtidos sob condições de reprodutibilidade; ou seja,


expressa o grau de concordância entre os resultados das medições de um mesmo mensurando,
efetuadas sob condições variadas de medição.

As condições de reprodutibilidade (ou condições variadas) podem incluir:


1) princípios de medição;
2) método de medição;
3) observador;
4) instrumento de medição;
5) padrão de referência;
6) local;
7) condições de utilização;
8) tempo.

CÁLCULO DA REPETITIVIDADE E
REPRODUTIBILIDADE

11.1.1 Repetitividade (representada por r)

r: medida abaixo da qual se espera encontrar a diferença absoluta de dois resultados individuais de
ensaio obtidos sob condições de repetitividade com probabilidade de aproximadamente 0,95 (95%).

r = 2,8 sr

onde:
2,8 = 1,96 2 (independente do tamanho do estudo),
sr = desvio padrão da repetitividade.

76
11.1.2 Repetitividade relativa percentual (representada por (r))

Expressa a repetitividade em base relativa, como percentual de um valor médio (análogo ao


coeficiente de variação).

(r) = (r / x) 100

x: média das médias individuais de cada laboratório participante.

11.1.3 Reprodutibilidade (representada por R)

R: medida abaixo da qual se espera encontrar a diferença absoluta de dois resultados individuais de
ensaio obtidos sob condições de reprodutibilidade com probabilidade de aproximadamente 0,95
(95%).

R = 2,8 sR

onde:
2,8 = 1 ,96 2 (independente do tamanho do estudo),
sR = desvio padrão da reprodutibilidade.

11.1.4 Reprodutibilidade relativa percentual (representada por (R))

Expressa a reprodutibilidade em base relativa, como percentual de um valor médio (análogo ao


coeficiente de variação).

(R) = (R / x ) 100

O detalhamento dos componentes de cada fórmula será visto no próximo capítulo.

77
78
12 ANÁLISE DE VALORES EXTREMOS
(OUTLIERS)

As pessoas que analisam os dados devem sempre decidir se as medições obtidas são válidas, isto é,
se elas são representativas dos sistemas de medição:
1) Se as medições são representativas da variabilidade inerente ao sistema, não deveriam ser
descartadas.
2) Se alguma medida é o resultado de um desvio grande do procedimento analítico ou dos
cálculos necessários para a obtenção do resultado final, ou do próprio processo de
tabelamento dos dados, a observação deveria ser descartada para evitar o efeito dela nas
conclusões, ou substituída por um valor que represente a “melhor estimativa” desta
observação.

Antes de iniciar a análise dos resultados para calcular uma medida de precisão, é importante realizar
uma avaliação dos resultados em relação à presença de observações aberrantes ou extremas
(outliers). A variância (ou desvio padrão) e a média são muito afetadas pela presença de valores
extremos.

Muitos são os métodos utilizados na identificação de valores extremos (tais como: teste de Grubbs,
Cochran etc.), bem como o método de substituição destes valores. Para efeitos ilustrativos, trata-se
aqui do método descrito na norma ASTM D4483-03: Standard Practice for Evaluating Precision for
Method Standards in the Rubber and Carbon Black Manufacturing Industries.

79
MÉTODO PASSO-A-PASSO REFERENTE À
IDENTIFICAÇÃO E SUBSTITUIÇÃO DE VALORES
EXTREMOS (ASTM D4483-03)

Exemplo: Seja o exemplo do material 1 - Mooney dado pela norma:

0 Material 1
N Laboratório
Dia 1 Dia 2
1 48,8 49,9
2 51,0 51,0
3 50,4 49,9
4 51,0 49,5
5 50,3 50,1
6 52,4 52,3
7 50,8 50,8
8 51,0 51,0
9 48,1 48,3
Tabela 20 – Relação de valores

Observação:
A primeira medida a ser calculada é o h e o k para identificação da existência de valores extremos em
relação a média (h) e em relação a variabilidade (k) — passos 1 a 6.

Passo 1:

0 Material 1
N Laboratório
Dia 1 Dia 2
1 48,8 49,9
2 51,0 51,0
3 50,4 49,9
4 51,0 49,5
5 50,3 50,1
6 52,4 52,3
7 50,8 50,8
8 51,0 51,0
9 48,1 48,3
média / dia 50,42 50,31
média das médias 50,37
DP/dia 1,28 1,13
DP médio 1,21
Tabela 21 – Cálculo das médias e desvio padrão médio – dados originais

80
Passo 2:

0 0
N Laboratório Média N Laboratório Quadro Médio
1 49,35 1 2435,42
2 51,00 2 2601,00
3 50,15 3 2515,02
4 50,25 4 2525,06
5 50,20 5 2520,04
6 51,35 6 2740,52
7 50,80 7 2580,64
8 51,00 8 2601,00
9 48,20 9 2323,24
T1 ( média ) 453,300 T2 ( QM) 22841,950
média das médias 50,37
variância 1,3425
DP 1,159
Tabela 22 – Cálculos das médias dos dias e quadrado médio – dados originais

Ordenar as médias em ordem crescente e gerar um gráfico destes valores.

Figura 15 – Gráfico de médias em ordem crescente

Passo 3:

o
N Laboratório d h calc
1 -1,02 -0,88
2 0,63 0,55
3 -0,22 -0,19
4 -0,12 -0,10
5 -0,17 -0,14
6 1,98 1,71
7 0,43 0,37
8 0,63 0,55
9 -2,17 -1,87
Tabela 23 – Cálculo de d (Diferença da média do laboratório com a médias das médias)
e hcalculado e htabelado - dados originais

81
d média do lab. – média das médias
hcalc d / dp das médias (passo 2)
p = número de laboratórios participantes
2
htab = (p-1) t / [p ( t + p-2) ] htab = 1,78
tp-2;0,05 = 2,365 nível de significância = 5%

Comparar o hcalc com o htab (vale a regra de decisão vista nos capítulos anteriores para teste de
hipóteses). Pela regra, somente o laboratório 12 é significativo, ou seja, identificado um valor extremo
em relação à média neste laboratório.

Passo 4:

0 0
N Laboratório Variação N Laboratório Quadrado Médio
1 1,100 1 1,210
2 0,000 2 0,000
3 0,500 3 0,250
4 1,500 4 2,250
5 0,200 5 0,040
6 0,100 6 0,010
7 0,000 7 0,000
8 0,000 8 0,000
9 0,200 9 0,040
T3 ( QM) 3,8000
Tabela 24 – Cálculo da variação e quadrado da variação - dados originais

Ordenar a variação em ordem decrescente e gerar um gráfico destes valores.

Figura 16 – Gráfico em ordem decrescente

82
Passo 5:

0
N Laboratório dp Variância
1 0,778 0,605
2 0,000 0,000
3 0,354 0,125
4 1,061 1,125
5 0,141 0,020
6 0,071 0,005
7 0,000 0,000
8 0,000 0,000
9 0,141 0,020
dp (conjunto) 0,459
T4 ( var) 1,900
var (conjunta) 0,211
Tabela 25 – Cálculo do desvio padrão de cada laboratório e a variância - dados originais

Passo 6

0
N Laboratório K calc
1 1,69
2 0,00
3 0,77
4 2,31
5 0,31
6 0,15
7 0,00
8 0,00
9 0,31
dp ( conjunto ) 0,459
Tabela 26 – Cálculo kcalculado e ktabelado – dados originais

kcal = dp de cada laboratório / dp conjunto


P = número de laboratórios participantes
ktab = [p/(1+(p–1))/F]
ktab = 1,90
F0,05; n-1; (p-1) (n – 1)
Nível de significância = 5 %
n = número de repetições por célula.

Comparar o kcalc com o ktab (vale a regra de decisão, vista nos capítulos anteriores para teste de
hipóteses). Pela regra, somente o laboratório 4 é significativo, ou seja, identificado um valor extremo
em relação a variabilidade neste laboratório.

83
Passo 7: Cálculo da precisão: repetitividade e reprodutibilidade - dados originais:
1) n= 2
2) p= 9
3) T1 = 453,300
4) T2 = 22841,950
5) T4 = 1,90000
2
6) (Sr) = T4 / p = 0,2111
2 2 2
7) (SL) = {[pT2 – (T1) ] / p (p-1)} – [ (Sr ) / 2] = 1,2369
2 2 2
8) (SR) = (SL) + (Sr) = 1,4481
2
9) r = 2,8 (Sr) = 1,287 (repetitividade)
2
10) R = 2,8 (SR) = 2,37 (reprodutibilidade)
11) (r) = 2,55
12) (R) = 6,69
13) Valores extremos identificados: para h: laboratório 9, para k: laboratório 4.

Passo 8 (Tabela 27): Estimar, através da regressão linear, o PRV (parameter replacement value).

A estimativa do PRV na regressão linear não deve considerar as observações “potencialmente”


extremas da reta. Portanto, para a estimativa do PRV foram excluídas as observações dos
laboratórios 9 e 6, para a média, e a observação do laboratório 4 para a variação.

Figura 17 – Gráfico de valores estimados para a média dos Figura 18 – Gráfico de valores estimados para a variação do

laboratórios 9 e 6 respectivamente: 49,4 e 51,4 laboratório 4 : 0,85.

Identificados os valores extremos (nível de significância de 5%), tanto para a média (h) quanto para as
variações (k), proceder à sua substituição pelo método AOT Rep Value (Ascending Order Trend
Replacement Value).

84
0
N Laboratório Material 1
Dia 1 Dia 2
1 48,8 49,9
2 51,0 51,0
3 50,4 49,9
4 49,8 50,7
5 50,3 50,1
6 52,4 52,3
7 50,8 50,8
8 51,0 51,0
9 49,3 49,5
Tabela 27 – regressão linear o PRV

O método AOT replacement value é aplicado de acordo com a seguinte regra:


1) Laboratório com valor extremo somente para a média:
DRV1 =PRV (média) + (ECR /2)
DRV2= PRV (média) – (ECR /2)
DRV: data replacement value
PRV: parameter replacement value
ECR: existing (or original) celI range
2) Laboratório com valor extremo tanto para a média quanto para as variações:
DRV1= PRV (média) + [PRV (variação) /2]
DRV2= PRV (média) - [PRV (variação) / 2]
3) Laboratório com valor extremo somente para as variações:
DRV1= ECA + [PRV (variação) / 2]
DRV2= ECA – [PRV (variação) / 2]
ECA = existing (or original) cell average.
Portanto:
1) Para o laboratório 4, que apresentou somente valores extremos para as variações:
DRV1= 50,25 + (0,85 / 2) = 50,7
DRV2= 50,25 – (0,85 / 2) = 49,8
2) Para o laboratório 9, que apresentou somente valores extremos para a média:
DRV1= 49,4 + (0,2 / 2) = 49,5
DRV2 = 49,4 – (0,2 / 2) = 49,3.

Passo 9: repetir os passos de 1 a 2 com os novos valores substituídos.

Passo 10: Calcular o valor de h conforme o passo 3.


(Observação: adotar o nível de significância de 2%).

85
Passo 11: repetir os passos de 4 a 5 com os novos valores substituídos.

Passo 12: Calcular o valor de k conforme o passo 6.


(Observação: adotar o nível de significância de 2%).

Passo 13: Calcular a repetitividade e a reprodutibilidade com os novos valores substituídos, conforme
descrito no passo 7.

Passo 14: Proceder à substituição, conforme descrita no passo 8.

Passo 15: Calcular novamente a repetitividade e a reprodutibilidade com os dados substituídos.

86
ANEXO

MODELO DE PROCEDIMENTO

OBJETIVO

Este documento descreve a metodologia para avaliação das Incertezas de Medição nas medições dos
Laboratórios da Empresa...

CAMPO DE APLICAÇÃO

O conteúdo deste documento é válido para a realização de Ensaios da Empresa...

DOCUMENTOS DE REFERÊNCIA

Expressão da Incerteza de Medição na Calibração, versão Brasileira do Documento de Referência


EA-4/02.
Guia para Expressão da Incerteza de Medição, segunda Edição Brasileira do Guide to the Expression
Uncertainty in Measurement.
ISO 5725:1994 - Parte 2 Cálculo de repetitividade e reprodutibilidade.
Outros documentos que se fizerem necessários.

DEFINIÇÕES
Incerteza de medição

Parâmetro, associado ao resultado de uma medição, que caracteriza a dispersão dos valores que

87
podem ser razoavelmente atribuídos a um mensurando.

Coeficiente de sensibilidade associado a uma estimativa de entrada

Variação diferencial na estimativa de saída gerada por uma variação diferencial em uma estimativa de
entrada dividida por esta variação na estimativa de entrada.

AUTORIDADE E RESPONSABILIDADE

Deve-se designar uma pessoa que fique responsável pela coordenação da atividade e o coordenador
deve designar um técnico para o controle e a implementação de documentos e verificação dos status
dos equipamentos utilizados no ensaio.

METODOLOGIA/DETALHAMENTO

A avaliação da incerteza de medição é divida em:

1 Avaliação da incerteza de medição das estimativas de entrada;


2 Cálculo da incerteza padrão;
3 Cálculo da incerteza combinada da estimativa de saída;
4 Cálculo da incerteza expandida de medição.

Nota: Em alguns casos a natureza do método de ensaio pode impedir o cálculo rigoroso,
metrologicamente e estatisticamente válido da incerteza de medição. Nesses casos, deve-se pelo
menos tentar identificar todos os componentes de incerteza e fazer uma estimativa razoável.

Avaliação da incerteza de medição das estimativas de entrada

A incerteza de medição associada as estimativas de entrada é avaliada de acordo com os métodos de


avaliação do Tipo A ou do Tipo B.

88
Avaliação tipo a da incerteza padrão
1) A avaliação Tipo A da incerteza padrão é o método de avaliação da incerteza pela análise
estatística de uma série de observações. Neste caso, a incerteza padrão é o desvio padrão
experimental da média que se obtêm do cálculo da média aritmética.

2) Quando for identificado que o técnico influenciou no resultado de uma medição e quando
existir mais de um técnico que realiza a medição deve-se realizar um estudo estatístico de
Repetitividade e Reprodutibilidade (R e r). As equações para os cálculos do estudo estatístico
R e r estão apresentados na tabela 28.

Descrição Símbolo e fórmula


Número de Técnicos p
Número de medições por técnico n
Somatório das médias individuais T1=somatório yi
Soma quadrática das médias individuais T2=somatório yi^2
Somatório das variâncias individuais T3=somatório si^2
Variância da repetitividade Sr^2=T3/p
Variância entre técnicos SL^2=pT2-T1^2 - Sr^2
p(p-1) n
Variância da reprodutibilidade SR^2= SL^2+ Sr^2
Média do estudo m= T1/p
Repetitividade r=2,8(Sr^2)^(1/2)
Tabela 28 - Equações para os cálculos do estudo estatístico R e r

Avaliação tipo b da incerteza padrão


A avaliação Tipo B da incerteza padrão é o método de avaliação da incerteza por outros meios que
não a análise estatística de uma série de observações. Neste caso, a avaliação da incerteza padrão é
baseada em algum outro conhecimento científico baseado em todas as informações disponíveis sobre
a possível variabilidade, que podem ser obtidos a partir de:

1) dados de medições anteriores;


2) experiência ou conhecimento geral do comportamento e propriedades de materiais e
instrumentos relevantes;
3) a calibrações e de outros certificados;
4) incertezas atribuídas a dados de referência provenientes de manuais e publicações;

89
5) dados provenientes da norma/método de ensaio
6) especificações e fabricantes
7) valores aceitos de constantes associadas a materiais e grandezas.

Cáculo da incerteza padrão


Nas avaliações das incertezas padrões tipo A e tipo B, encontraremos as mais diversas distribuições
de probabilidades, por isso devemos ajustá-las, para uma distribuição de probabilidade normal, para
que posteriormente possamos associá-las.

Como a incerteza padrão é derivada da incerteza da grandeza de entrada, tal ajuste é obtido
dividindo-se a grandeza de entrada por um número associado a distribuição de probabilidade
assumida. Os divisores para as distribuições de probabilidade são descritos na tabela 29.

Distribuição de Probabilidade Divisor


Normal 1
Normal (certificados de calibração) k (obtido no certificado de calibração)
Normal (R e r) 2
Retangular Raiz de 3
Triangular Raiz de 6
Em forma de U Raiz de 2
Avaliação Tipo A da incerteza padrão
resultante do cálculo de desvio padrão Raiz de n onde: n = nº de repetições
experimental da média
Tabela 29 - Divisores ajuste da distribuição de probabilidade

Distribuição de Probabilidade Divisor


Normal 1
Normal (certificados de calibração) k (obtido no certificado de calibração)
Normal (R e r) 2
Retangular Raiz de 3
Triangular Raiz de 6
Em forma de U Raiz de 2
Avaliação Tipo A da incerteza padrão resultante do cálculo de desvio padrão
experimental da média Raiz de n onde: n = nº de repetições

90
Nota: Quando não temos certeza da distribuição de probabilidade deve-se assumir distribuição de
probabilidade retangular.

Cáculo da incerteza combinada da estimativa de saída

1) Incerteza combinada :
A incerteza combinada é o cálculo utilizado para associar em um único valor todas as incertezas
padrões. A incerteza combinada é dada por:
n
µi²(y) = (Ci µ(xi))² onde: µi(y): incerteza combinada
i=1 Ci: coeficiente de sensibilidade
µ(xi): incertezas padrões

2) Coeficiente de sensibilidade:
O coeficiente de sensibilidade é o coeficiente associado com a estimativa de entrada(xi), isto é, a
derivada parcial da função • com relação à variável Xi, avaliada para as estimativas de entrada(xi):

Ci = ∂ƒ = ∂ƒ
∂xi ∂Xi Xi = xi...Xn= xn
Notas:
A equação acima é utilizada quando a estimativa de saída estiver em função de um
cálculo (ex.: Tensão de ruptura que é dada em função da força por unidade de área =
kgf/mm²).
Normalmente, quando a unidade de medida da estimativa de entrada for igual a
estimativa de saída, o coeficiente de sensibilidade é 1 e não é necessária a utilização
da equação acima.

Cáculo da incerteza expandida de medição

1) Incerteza expandida
A incerteza expandida(U) é obtida pela multiplicação da incerteza combinada(•i(y))
i(y)) por um fator de
abrangência(k)

U = k µi(y)

2) Fator de abrangência (k)

91
O fator de abrangência (k) é obtido a partir dos graus de liberdade efetivos •ii que é dado a partir da
equação de Welch-Satterhwaite.

veƒƒ
µi4(y)
= N
µ4(xi)
i
i=1

Onde: µi4(y) = incerteza combinada elevada a quarta potência;


µ4(xi) = incerteza padrão elevada a quarta potência;
i = graus de liberdade.

Notas:
Os graus de liberdade são definidos para cada incerteza padrão, sendo:
Para avaliação Tipo A da incerteza padrão •ii = n - 1 (onde n = número de repetições);
Para avaliação Tipo B da incerteza padrão •ii = infinito.

Por isso, temos que calcular os graus de liberdade efetivos, quando existir, da incerteza padrão Tipo
A somente para as incertezas padrão Tipo A, quando existir somente incerteza padrão Tipo B
devemos considerar os graus de liberdades efetivos igual a infinito. O fator de abrangência (k) é
obtido através da tabela 30, que está baseada na distribuição-t avaliada para uma probabilidade de
abrangência de 95,45%. Se •ve••
ve•• não for inteiro, o que usualmente é o caso, deve
deve-se truncar •ve••
ve••
para o próximo menor inteiro.

veƒƒ
•ve 1 2 3 4 5 6 7 8 10 20 50 ∞
K 13,97 4,53 3,31 2,87 2,87 2,52 2,43 2,37 2,28 2,13 2,05 2,00
Tabela 30 - Fatores de abrangência k para diferentes graus de liberdade veff

Relatório de avaliação da incerteza de medição

1) Todos os estudos, cálculos, decisões e informações devem ser estruturados em forma de um


Relatório de Avaliação da Incerteza de Medição, a fim de apresentar toda a sistemática
utilizada na Avaliação da Incerteza de Medição.

92
Tabela de cálculo da incerteza de medição

Nº Fonte de Valor Distribuição Divisor Ci Incerteza •ii


incerteza padrão
1 2 3 4 5 6 7 11

Incerteza combinada 8
Incerteza expandida 9
Normal k= 10 veff 12
Tabela 31- Tabela de Cálculo da Incerteza de Medição

Validação dos cálculos/fórmulas das planilhas

As planilhas de cálculo para incerteza de medição devem ser validadas conforme orientações de um
procedimento específico(procedimento para validação de planilhas), Controle de Computadores,
Periféricos, Softwares, Documentos Informatizados e Planilhas Eletrônicas.

Revalidação dos cálculos/fórmulas das planilhas

Quando pertinente, as planilhas eletrônicas devem ter seus cálculos/ fórmulas revalidados. A
periodicidade das revalidações deve ser indicada no Plano de Revalidação dos Cálculos/Fórmulas
das Planilhas Eletrônicas deste documento.

Registro da qualidade e arquivamento

É uma planilha que deve ser elaborada e disponibilizada em papel ou em meio eletrônico, e depois de
registradas as informações obtidas no ensaio deve-se arquiva-la em um local para futuras consultas.

Deverá existir um procedimento que determine o local e o tempo de armazenamento do registro da


qualidade.

93
ALTERAÇÕES

1ª Edição Revisão: xy
Formatação da letra para arial;
Atualização do logotipo da Empresa;
O sumário foi excluído;
1ª Edição Revisão: yz
Alterado o campo de aplicação do documento, sendo que é aplicável para todos os laboratórios de
ensaios do Centro.
Foi incluído campo data no plano de ação para implementação da incerteza de medição em ensiaos
técnicos.

Exemplo de Plano para Implementação da Incerteza de Medição dos Ensaios Laboratoriais – Modelo
LOGO TIPO
Empresa XYZ
PLANO PARA IMPLEMENTAÇÃO DA INCERTEZA DE MEDIÇÃO DOS ENSAIOS

Núcleo/ Laboratório:______________________________ Data: _____/ _____/ ______


Página: _____/_____

Procedimento Ensaio
Ensaio Norma(s) Interno Prazo Responsável do tipo*

________________________________ ____________________________
Responsável pela elaboração do Plano Coordenador dos Ensaios

94
Exemplo de modelo para relatório de avaliação da incerteza de medição

CAPA SUMÁRIO

(Título do procedimento,norma de
referência, Procedimento Interno
correspondente).

DIAGRAMA DE CAUSA E
EFEITO TABELA DE CÁLCULOS
DE INCERTEZAS
(Todas as fontes de incerteza do (constam todos os cálculos e a
ensaio com respectivas unidades) incerteza determinada para o
ensaio)

MEMÓRIA DE CÁLCULO

(Justificativa de todas as fontes de


incerteza do ensaio)

Exemplo de Plano para Revalidação dos Cálculos/Fórmulas das Planilhas Eletrônicas- Modelo

LOGO TIPO
EMPRESA XYZ
Plano para Revalidação dos Cálculos/Fórmulas das Planilhas Eletrônicas
Código do Título do Procedimento Data Prevista Data Realizada Responsável
Procedimento pela
Revalidação
-
-
-
-
-

95
Exemplo de Determinação de Incerteza
LOGO TIPO
EMPRESA XYZ
Fontes de Incerteza
Detector de Vazamento:
Vazão (V) Resolução Incerteza de Medição
V -
Vazamento
Detectado
3

Cm3/h Erro Repetitividade

Repetitividade
1 – Vazão (V)
3
cm /h
3
dm /h Fuga
Resolução 1 1,00E-03 1 50
Incerteza na 3 0,003 2 50
calibração
3 50
Erro 1 0,001
Repetitividade 0,894427191 8,94E-01 4 50
5 52
Média 50,4
DP 0,894427191
n 5

LOGO TIPO
EMPRESA XYZ

Valor de Distribuição Incerteza Coeficiente Contribuição


Fontes de Incerteza Unid. Entrada de Divisor de de para Incerteza veff
+- ( ) Probabilidade Padrão Sensibilidade (UC)
1 - Resolução do Detector
de Vazamento Scch
1,00 retangular 1,7320 0,5773 1,000 0,5773 inf
2 - Incerteza na calibração
do Detector de Vazamento Scch
3,00 t 2,00 1,5 1,000 1,5 inf
3 - Erro de medição de
vazamento Scch
1,00 retangular 1,7320 0,5773 1,000 0,5773 inf
4 - Repetitividade na
Medição de Vazamento Scch
0,894 t 2,00 0,4472 1,000 0,4472 4
5 - Desvio padrão medição
de vazamento Scch
0,894 t 2,00 0,4472 1,000 0,4472 4

Grau de Liberdade efetivo 550,0138


K 2
Uc Incerteza Combinada 1,821 Scch
U Incerteza Expandida 3,642 Scch

Modelo de planilha de incerteza para detecção de vazamento

96
Cálculo da incerteza combinada (UC):

Uc = (0,57735) 2 + 1,5 2 + 0,57735 2 + 0,447213 2 + 0,447213 2 = 1,82117

Cálculo do Grau de liberdade Efetivo Veff :

Uc 4 Uc 4
4
= 4 4 4 4 4
Ii I1 I2 I3 I4 I5
+ + + +
Vi ∞ ∞ ∞ 4 4

Uc 4 1,82117 4
4
= Veff = 550,01466
Ii (0,57735) 4 1,5 4 0,5773 4 0,447213 4 0,447213 4
+ + + +
Vi ∞ ∞ ∞ 4 4

Cálculo de K, fator de Abrangência:


Como Veff > 100, considerou-se K = 2.

Cálculo da Incerteza Expandida para a estanqueidade:


U = K x Uc = 2,00 x 1,82117 = 3,65 scch

LOGO TIPO
EMPRESA XYZ
Dados de Apoio

Divisores e Graus de Liberdade para Fontes de Incerteza

Divisor para distribuições Fonte de Incerteza Divisor Graus de Libersdade


estatisticas conhecidas
Incertezas do Tipo
Graus de 2 •3 •6
•2 •
Distribuição Divisor B
Liberdade Desvio Padrão
Retangular 3
•3 • experimental da n
•n n-1
Triangular 6
•6 • média
Bimodal 2
•2 • Desvio Padrão de
R&R e Cartas de 1 n-1
Controle
Desvio Padrão de
(n - 1) - graus do
resíduos de curvas 1
polinômio
de correção
Observações :
Incerteza herdada é a que está presente nos equipamentos calibrados e nos padrões utilizados nos
ensaios. Este tipo está sempre presente em qualquer cálculo de incerteza de medição.
Fontes de incerteza tipo ERRO têm distribuição estatística retangular, divisor •3
3 e grau de
liberdade •..

97
Fontes de incerteza tipo RESOLUÇÃO têm distribuição estatística retangular, divisor 3 e grau de
liberdade . Nestes casos, o "valor de entrada" é a resolução dividida por 2.

Tabela t-student para valores de fator de abrangência em função dos graus de liberdade efetivos
Veff 1 2 3 4 5 6 7 8 10 12 14 16
K 13,90 4,53 3,31 2,87 2,65 2,52 2,43 2,37 2,28 2,23 2,20 2,17

Veff 18 20 25 30 35 40 45 50 60 80 100
K 2,15 2,13 2,11 2,09 2,07 2,06 2,06 2,05 2,04 2,03 2,02 2,00

LOGO TIPO
EMPRESA XYZ
Fontes de Incerteza
FONTES MEMÓRIA DE CÁLCULO

* Distribuição Retangular devido a pouca informação disponível (pior caso)


1 - Resolução do Detector de
Vazamento * Para Distribuição Retangular o divisor é raiz de 3
* vi = infinito pois é uma Incerteza Padrão Tipo B (alta confiabilidade)

* Valores obtidos do Certificado de Calibração do Medidor


* Distribuição normal pois foi obtida através de uma análise estatistica, é
2 - Incerteza na calibração do Detector uma
de Vazamento Incerteza Padrão Tipo A
* Divisor é o valor de Kp obtido no Certificado de Calibração do Medidor
* vi = obtidos do Certificado de Calibração do Medidor
* Valores obtidos do Certificado de Calibração do Medidor
* Distribuição Retangular devido a pouca informação disponível (pior caso)
3 - Erro de medição de vazamento
* Divisor é o valor de Kp obtido no Certificado de Calibração do Medidor
* vi = infinito pois é uma Incerteza Padrão Tipo B (alta confiabilidade)

* Valor obtido de um estudo de Repetitividade


* Distribuição normal pois foi obtida através de uma análise estatistica, é
uma
4 - Repetitividade na Medição de
Vazamento Incerteza Padrão Tipo A
* Divisor é n -1 do estudo
* vi =calculado (n-1) é uma Incerteza Padrão Tipo A

* Valores obtidos do desvio padrão dos resultados da Medição


5 - Desvio padrão medição de
vazamento * Divisor para distribuição normal de uma Incerteza Padrão Tipo A é raiz de n
* vi =calculado (n-1) é uma Incerteza Padrão Tipo A

98
BIBLIOGRAFIA
ASTM D4483-03: Standard Practice for Evaluating Precision for Test Method Standards in the Rubber and
Carbon Black Manufacturing Industries.

GUERRA, Mauri José; DONAIRE, Denis. Estatística Indutiva: teoria e aplicações. 3. ed. São Paulo: Ciência e
Tecnologia, 1986.

GUIA para a expressão da incerteza de medição. 2. ed. [s.l.]: Brasileira, ago. 1998.
nd
HINKLE, D. E. Applied Statistics for the Behavioral Sciences. 2 ed. Houghton Mifflin Company, 1988.

JUNIOR, P. S.; MACHADO, A. A.; ZONTA, E. P.; SILVA, J. B. Curso de Estatística. V. 1 e 2. [s.l.]: Universitária,
1989.

MONTGOMERY, Douglas. Introduction to Statistical Quality Control. New York: John Willey & Sons, 1985.

NBR14597-2000: Precisão de métodos analíticos – Determinação da repetibilidade e reprodutibilidade de


métodos para ensaios de produtos químicos – Estudo intralaboratorial.

TOLEDO, G. L. Estatística Básica. 2. ed. São Paulo: Atlas, 1985.


nd
ZAR, J. Biostatistical Analysis. 2 ed. New York: Prentice-Hall, Englewood Cliffs, 1984.

99

Você também pode gostar