Escolar Documentos
Profissional Documentos
Cultura Documentos
br
P A U LO A FON S O LOPES
E S T A T ÍSTICA A P LICA D A e EX C ELÊN C I A E M G E S T Ã O
Estatística Aplicada
à Análise de Resultados
de Ensaios de Proficiência
na Avaliação de Laboratórios
CADERNO DE ATIVIDADES
ANVISA
INSTITUTO ADOLPHO LUTZ
11 a 15 de agosto de 2003
A. Ementa
1. A Estatística nas normas ABNT ISO/IEC.
2. Introdução aos métodos estatísticos para a tomada de decisão.
3. Procedimentos para um estudo estatístico.
4. Início de um estudo: retirada de uma amostra.
5. Estatística Descritiva (E.D.): medidas de representatividade (tendência central) e de dispersão.
6. Ainda E.D.: o z-escore.
7. Inferência Estatística (I.E.): questão de confiança e risco de errar.
8. Intervalo para a Estatística Descritiva: apresentando os valores observados em uma tabela e em um
gráfico.
9. Introdução às Probabilidades, a segunda ferramenta para a Inferência.
10. A primeira parte da I.E.: testes de hipóteses.
11. A segunda parte da I.E.: estimando parâmetros da população.
12. Voltando à Inferência: começando a estimar a média da população a partir de uma amostra
13. I.E., continuando a testar hipóteses: um valor extremo, em relação ao seu conjunto, pode ser
considerado válido? (assunto também conhecido como "rejeição de dispersos").
14. I.E., teste de hipóteses: repetitividade e reprodutibilidade.
15. I.E., teste de hipóteses: diagrama de Youden.
16. I.E.: continuando a testar hipóteses e usando tudo o que foi visto: os gráficos de controle.
17. Começando na Matemática e acabando na Inferência Estatística: descobrindo a "melhor" de todas as
retas (chamam de "regressão linear ").
18. Um outro olhar: Estatística Robusta
C. Objetivo
Proporcionar ao pessoal do Instituto Adolpho Lutz o conhecimento dos conceitos estatísticos básicos
necessários ao entendimento e à interpretação dos requisitos específicos da norma ABNT ISO/IEC 17025:
2001, tornando-se -se capaz de compreender e analisar os resultados para uma correta tomada de decisão.
D. Metodologia
Exposição dialogada dará suporte aos debates, estudos de caso, vivências e exercícios.
E. Bibliografia recomendada
• ABNT ISO/IEC Guia 43-1: 1999, Ensaios de proficiência por comparações interlaboratoriais -
Parte 1: Desenvolvimento e operação de programas de ensaio de proficiência.
• ABNT ISO/IEC Guia 43-2: 1999, Ensaios de proficiência por comparações interlaboratoriais -
Parte 2: Seleção e uso de programas de ensaio de proficiência por organismos de
credenciamento de laboratórios.
• ABNT ISO/IEC 17025: 2001, Requisitos gerais para competência de laboratórios de ensaio e
calibração.
• LOPES, Paulo Afonso. Probabilidades e Estatística – conceitos, modelos, aplicações em
Excel. Rio de Janeiro: Reichmann&Affonso Editores, 3ª reimpressão, 2003.
A Norma ABNT ISO/IEC Guia 43-1: 1999, Ensaios de proficiência por comparações interlaboratoriais, na sua
Parte 1: Desenvolvimento e operação de programas de ensaio de proficiência, apresenta as seguintes
afirmações a respeito da Estatística:
• “os anexos a esta Parte da ABNT ISO/IEC Guia 43 fornecem diretrizes estatísticas para o
tratamento de dados obtidos em programas de ensaios de proficiência.” - Prefácio (p. 1).
• “Amostragem – por exemplo, quando indivíduos ou organizações são solicitados a coletar
amostras para análises subseqüentes.” - NOTA f) do item 3.6.
• “valor disperso - parte de um grupo de valores que é inconsistente com as outras partes
daquele grupo (também definido na ISO 5725-1).” - item 3.16.
• “resultados extremos - valores dispersos e outros valores que sejam grosseiramente
inconsistentes com outras partes do grupo de dados." item 3.17.
• "Estes resultados podem ter uma profunda influência em sumários estatísticos, tais como a
média e o desvio padrão.” - Nota do item 3.17.
• “técnicas estatísticas robustas - técnicas para minimizar a influência que resultados
extremos podem ter sobre estimativas de média e desvio padrão." - item 3.18.
• "Estas técnicas admitem menor peso para os resultados extremos, ao invés de eliminar
estes resultados do grupo de dados.” - Nota do item 3.18.
• “Programas de ensaios interlaboratoriais envolvem subamostras selecionadas
aleatoriamente de uma fonte de material .... É essencial que o lote de itens de ensaio fornecido aos
participantes em cada rodada seja suficientemente homogêneo, para que quaisquer resultados
posteriormente identificados como extremos não sejam atribuídos a qualquer variabilidade significativa
do item de ensaio.” - item 4.3.
Mais ainda, a norma ABNT ISO/IEC 17025: 2001 afirma, no item 5.9, que "O laboratório deve ter procedimentos
de controle da qualidade para monitorar a validade dos ensaios e calibrações realizados. Os dados resultantes
devem ser registrados de forma que as tendências sejam detectáveis e, quando praticável, devem ser aplicadas
técnicas estatísticas para a análise crítica dos resultados."
Desse modo, justifica-se que os Avaliadores saibam corretamente interpretar os resultados apresentados pelos
organismos a serem avaliados. No segundo dia deste curso, será analisado o relatório (Draft) da APLAC (Asia
Pacific Laboratory Accreditation Cooperation), número T026 (Low Alloy Steel Proficiency Testing Programme),
cuja leitura prévia é recomendável.
1. Formular um plano para coleta dos dados: conhecida a natureza da avaliação, identificar os prováveis
elementos a coletar, restringindo a pesquisa aos dados de interesse.
1. Conceito de amostra: usualmente, significa um determinado item, ao passo que, para a Estatística, significa
um conjunto de itens.
2. Tamanho da amostra: deve ser o maior que se puder conseguir.
3. O laboratório deve informar qual o plano de amostragem para a retirada das amostras.
4. Dois tipos de amostragem: aleatória simples e sistemática.
5. Cuidado: a amostra deve ser representativa da população
5. Estatística Descritiva:
medidas de representatividade (tendência central) e de dispersão
• VARIÂNCIA amostral, s2
EXCEL: Livro, p. 37, "Colar função/VAR"
Uma versão modificada para calcular a variância da amostra é
( )
2
∑i=1 X i2 − ∑i=1 X i
n n
n
s2 =
n −1
• DESVIO-PADRÃO amostral, s
EXCEL: Livro, p. 37, "Colar função/DESVPAD"
1
para alguns autores de língua inglesa, também conhecido como RSD (relative standard deviation), desvio-
padrão relativo.
O CV é razoável somente quando o desvio-padrão é estritamente proporcional à média aritmética; se o desvio-
padrão é constante em uma faixa extensa dos níveis da propriedade sendo observada, o CV é, neste caso,
ilusório; outra desvantagem é que seu valor não é muito útil quando a média é próxima do valor zero.
A maioria dos resultados fornece valores numéricos que não têm significado único e há poucas, se
existir alguma, medidas absolutas. Entretanto, a média aritmética tornou-se um clássico ponto de
referência para comparações, e as diferenças entre os elementos da população são apresentadas
com base em uma escala a partir da média, escala que permite comparações. Como há infinitos
valores para a média aritmética, é essencial existir uma forma de converter valores brutos medidos
em várias escalas, a partir da média desses valores, para uma escala comum.
Analisando-se apenas a média, pode-se tomar uma decisão baseada apenas nessa medida absoluta,
não se considerando a posição relativa de um determinado em valor em relação a todos os
resultados. Entretanto, normalmente, uma população pode ter média elevada e pequena dispersão e
outra pode ter média pequena e elevada dispersão. Como compará-las? A despeito dessas
dificuldades, é quase certo que escalas padronizadas fornecem melhores resultados do que
comparações baseadas em dados brutos.
Dados absolutos podem ser transformados em valores relativos, uma escala de resultados-padrão
com média zero e desvio-padrão 1, resultando no chamado z-score, calculado pela seguinte
expressão:
Exemplo
A Norma NIT-DICLA-026, revisão 01, aprovada em AGO/01 afirma:
OBSERVAÇÃO IMPORTANTE: Quando se tem os dados originais, todos os cálculos devem ser
feitos com eles. A construção de tabelas, nos dias de hoje, tem o objetivo de facilitar a apresentação
dos resultados, não sendo recomendada para cálculos. Usar os valores da tabela era natural nos
milênios passados, quando não existiam os modernos recursos computacionais.
9. Introdução às probabilidades,
a segunda ferramenta para a Inferência
1. O que é probabilidade:
• conceito axiomático
a) após observar o experimento inúmeras vezes, verifica-se o comportamento do
fenômeno: para que repetir o experimento sempre que se quiser verificar o resultado?
b) modelos matemáticos a partir dos resultados da parte experimental.
• OBSERVAÇÃO: para melhor compreensão pelas pessoas, as probabilidades devem ser
expressas em porcentagens.
b) Não estatisticamente significante = Não rejeitar a hipótese nula = O valor amostral é compatível com o
valor da hipótese nula = A variação amostral é uma explicação razoável da discrepância entre os valores da
hipótese nula e os valores amostrais
A maior utilidade da Estatística é ajudar a formular conclusões sobre uma população baseadas em
informações limitadas. Normalmente, os parâmetros de um processo ou de um produto, tais como a
Na estimativa pontual, um valor numérico simples é obtido como uma estimativa do parâmetro da
população. Na estimativa por intervalo, um intervalo é determinado tal que exista alguma
probabilidade de que o verdadeiro valor do parâmetro esteja contido nele. Estimativas por intervalos
são também chamadas de intervalos de confiança.
I - Estimativas Pontuais
Uma estimativa pontual consiste de um valor numérico único, usado para fazer uma inferência sobre
um parâmetro desconhecido do processo, produto ou serviço. Por exemplo, para estimar a média de
uma população, pode-se selecionar uma amostra de 100 elementos e calcular a média amostral; se
este valor for 27, a estimativa pontual da média da população é, portanto, 27.
Quanto maior o intervalo de confiança, mais confiante se está de que o intervalo realmente conterá o
verdadeiro valor do parâmetro. Por outro lado, quanto maior o intervalo, menos informação obtém-se
para esse mesmo parâmetro. Na situação desejável, obtém-se um intervalo relativamente pequeno
com uma confiança elevada. Para um tamanho fixo de amostra e para a mesma variância, quanto
maior o nível de confiança, maior o intervalo de confiança.
É importante enfatizar que toda afirmação deve vir acompanhada de um grau de certeza (ou
confiança), o quanto se está certo ao comunicar aquela informação. A interpretação desse enfoque é
a seguinte: se um grande número de intervalos de confiança forem construídos a partir de amostras
independentes da mesma população, então espera-se que uma porcentagem desses intervalos
contenha o valor verdadeiro do parâmetro da população.
Por exemplo, ao desejar-se um intervalo de confiança de 90% para estimar a média de uma
população, uma amostra pode fornecer um intervalo entre (48,5, 51,5). Embora se desconheça o
verdadeiro valor da média da população, se 100 desses intervalos forem construídos a partir de 100
amostras, deve-se esperar que 90 desses intervalos contenham o verdadeiro valor da média da
população.
ts
Limites de confiança do parâmetro µ = X +
n
Antes de se interpretar uma série de resultados obtidos a partir de uma ou mais amostras, é
necessário verificar a existência de valores que, eventualmente, possam ser considerados como
dispersos, ou seja, valores que muito provavelmente não pertençam ao mesmo conjunto de
resultados.
Uma ampla variedade de testes de estatística tem sido sugerida para determinar se uma observação
deve ser rejeitada; em todas essa, um intervalo é estabelecido com uma determinada significância
estatística. Infelizmente, não há um critério uniforme que pode ser usado para decidir se um resultado
suspeito pode ser devido a erro acidental ao invés de ser resultado de uma variação aleatória. A
única base confiável para rejeição ocorre quando se sabe que alguns erros específicos teriam sido
cometidos na obtenção de um resultado duvidoso. O importante é usar o mesmo critério ao longo de
todo o trabalho.
Freqüentemente, um analista que conhece o desvio-padrão dos resultados espera que um método
rejeitará um conjunto de pontos que estejam distantes 2s ou 2,5s da média, porque há,
aproximadamente, uma chance em 20 (caso de 2s) ou 1 em 100 (caso de 2,5s) de que isto ocorrerá .
Existem várias maneiras de verificar se um ou mais valores podem ser considerados dispersos, e os
mais comuns são os seguintes testes:
- Chauvenet;
- Cochran;
- Dixon, e
- razão Q.
I - Teste de CHAUVENET
PROCEDIMENTO:
1. Calcular a média aritmética e o desvio-padrão amostral dos valores.
2. Identificar os valores extremos: maior valor e menor valor.
3. Determinar, para cada um dos valores extremos, a diferença d entre ele e a média aritmética.
d
4. Calcular a relação .
s
5. Determinar o valor tabelado para o tamanho da amostra em estudo.
6. Se a relação for menor que o valor tabelado, aceitar o ponto extremo; caso contrário, eliminá-lo da amostra.
7. Eliminado o valor disperso, refazer a análise com os valores restantes, até que todos os valores sejam
considerados não dispersos.
Exemplo
Sejam os seguintes valores:
X1 = 858, 77 X2 = 819,29 X3 = 777,37 X4 = 724,51 X5 = 752,39 X6 = 736,69
X7 = 1050,51 X8 = 996,85 X9 = 1097,35 X10 = 824,16 X11 = 1086,09 X12 = 1077,09
X13 = 936,85 X14 = 831,41 X15 = 845,40 X16 = 812,86 X17 = 842,69 X18 = 986,83
X19 = 859,49 X20 = 1568,60
II - Teste de COCHRAN
Neste teste, comparam-se variâncias, ou seja, verifica-se se a variância dos resultados obtidos por
um grupo é excessiva em relação à dos demais grupos, sendo um teste unilateral, isto é, só verifica o
maior valor.
s2max
Ccalculado =
n
∑ s2
i
i =1
onde:
2
s = estimativa da variância
2
s max = maior valor encontrado no conjunto como estimativa da variância, no conjunto
n = número de inspetores
Para um conjunto de resultados Z(h), h = 1,2,....H, agrupados em ordem crescente, o Teste de Dixon
utiliza o seguinte critério:
IV - razão Q
Começa-se a calcular a razão Q ordenando-se os dados de modo decrescente. A diferença entre o
número suspeito e seu vizinho mais próximo é dividida pela amplitude total; esta razão é comparada
com o valor tabelado de Q. Se for igual or maior que o valor tabelado, a observação suspeita pode
ser rejeitada. Os valores tabelados de Q para 90%,95% e 99% de nível de confiança são fornecidos
na Tabela 2. Se Q excede o valor tabelado para um dado número de observações e um nível de
significância, a medição questionável é com, por exemplo, 95% de confiança.
Tabela 2. Valores críticos de Q
Nível de confiança
No. de observações Q90 Q95 Q99
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
15 0,338 0,384 0,475
20 0,300 0,342 0,425
25 0,277 0,317 0,393
30 0,260 0,298 0,372
O desvio padrão do resultado de teste obtido sob condições de repetitividade denomina-se desvio
padrão de repetitividade. É um parâmetro de dispersão da distribuição dos resultados de testes.
Como o desvio padrão de repetitividade, calcula-se o chamado valor de repetitividade r; a partir dos
dois resultados de testes obtidos sob condições de repetitividade, calcula-se o módulo da diferença
entre eles. A probabilidade de que esta diferença seja menor do que o valor de repetitividade r é
igual a 95%.
O desvio padrão do resultado de teste obtido sob condições de reprodutibilidade denomina-se desvio-
padrão de reprodutibilidade. É um parâmetro de dispersão da distribuição dos resultados de testes.
Exemplo
Observe, agora, uma definição de reprodutibilidade, segundo a Norma XYZ4 de uma empresa
avaliada:
6.7. Reprodutibilidade
NORMA 1 - A diferença entre dois resultados individuais e independentes, obtidos por dois
operadores, operando em laboratórios diferentes a partir de uma mesma amostra submetida ao
ensaio, não deve ultrapassar ..... em valor absoluto.
III - APLICAÇÃO DOS ÍNDICES
A repetitividade e a reprodutibilidade são dois valores extremos, sendo a repetitividade a mínima
variabilidade entre resultados e a reprodutibilidade a máxima variabilidade entre resultados. A
repetitividade é representada pelo símbolo r e a reprodutibilidade pelo símbolo R. Convém enfatizar
que tanto uma quanto outra têm unidades.
Um laboratório, efetuando duas repetições, obteve em um teste os valores 0,17 e 0,18. A diferença
0,01 é aceitável e as duas análises são válidas, porque essa diferença é menor que r; caso se
obtivesse 0,17 e 0,20, a diferença 0,03 é inaceitável, e um dos valores deve ser rejeitado; não
havendo informações mais específicas, a rejeição deve ser do valor mais afastado da média.
Considere-se agora que o laboratório 1 obteve 0,18 e o laboratório 5 obteve 0,20. A diferença 0,02 é
inferior a R = 0,03 e os dois valores são aceitáveis. No caso de ser necessário rejeitar um resultado,
este deve ser o mais disperso, como no caso da repetitividade.
Convém relembrar que R e r são índices intimamente ligados à precisão de resultados de medições.
É importante, portanto, que esses índices sejam expressos de modo correto para que não se perca
de vista o significado físico que deve ser associado a esses números.
É preciso cuidado com um índice com valor muito pequeno, o qual pode cair em descrédito por ser
muito difícil a sua reprodução. É lógico, portanto, iniciar a utilização desses índices com valores
maiores (toleram-se variações em faixa ampla de valores) que possam ir sendo reduzidos.
I - Elipse de Confiança
A interpretação do programa interlaboratorial pode ser feita através do estudo estatístico entre duas
variáveis, utilizando uma técnica gráfica, baseada na elaboração de um diagrama de dispersão dos
resultados, associados a uma região de confiança (elipse). Esta técnica permite que uma
interpretação dos resultados seja feita por meio de uma visualização simples e rápida, embora não
forneça os parâmetros de repetitividade e reprodutibilidade.
Para cada uma das propriedades analisadas em um programa interlaboratorial é feito o diagrama,
onde cada laboratório é representado por um ponto, cuja abcissa é a média das medições obtidas
pelo laboratório para a amostra A e a ordenada é a média das medições do mesmo laboratório para
a amostra B.
Para duas variáveis, tem-se não mais um intervalo de confiança, mas sim uma região de confiança
com a forma de elipse, denominada elipse de confiança. A elipse é traçada de tal modo que a
probabilidade de um ponto se situar dentro da elipse é igual a 100x(1-α)%. A dispersão dos pontos
ao longo do eixo maior está associada aos erros sistemáticos, enquanto que ao longo do eixo menor
está associada aos erros aleatórios.
Como se supõe que os valores se comportam segundo a distribuição de deM-L-G (nos relatórios
pode aparecer o texto "as distribuições são gaussianas"), ao se combinar as duas medidas, o gráfico
resultante é uma elipse, cujo centro tem como abcissa a média de todas as medidas da amostra A e
como ordenada a média de todas as medidas da amostra B. A elipse é traçada com base na
confiança que se deseja apresentar a conclusão.
A dispersão dos pontos ao longo do eixo maior está associada aos erros sistemáticos, enquanto que
ao longo do eixo menor está associada aos erros aleatórios.
Exemplo
4.2. Elipse de Confiança
Os resultados obtidos pelos laboratórios participantes, relativos ao par de amostras A e B
permitiram a construção de diagramas de dispersão elaborados em um sistema de eixos
cartesianos, onde a escala do eixo X cobre a faixa de resultados referentes à amostra A e
Paulo Afonso Lopes Instituto Adolfo Lutz/IAL, 11 a 15 de agosto de 2003
www.cliqueapostilas.com.br
Estatística aplicada à análise de resultados de ensaios de proficiência na avaliação de laboratórios p. 12
Para cada uma das propriedades (ensaios) foi construído um diagrama em que cada
laboratório é representado por um ponto. A abcissa do ponto é o resultado de ensaio da
amostra A e a ordenada, o resultado de ensaio da amostra B.
As retas que passam pelos valores médios de todos os laboratórios dividem o diagrama em
quadrantes. Numa situação ideal os pontos devem se encontrar igualmente distribuídos
pelos quadrantes; isto acontece somente quando ocorrem erros aleatórios em níveis não
significativos, Quando os pontos se encontram mais concentrados nos quadrantes superior
direito e inferior esquerdo, significando que os laboratórios tendem a obter valores maiores
do que a média para as duas amostras ou valores menores do que a média para ambas
amostras do par, isto evidencia ocorrência de erros sistemáticos.
A Elipse de Confiança delimita uma região em que qualquer ponto tem a mesma
probabilidade P de se situar dentro da elipse.
Os tipos de erros que podem ocorrer são função da posição do ponto em relação à elipse e
estão representados na Figura 1.
Erros aleatórios ocorrem devido à variabilidade dentro do laboratório podendo ter origem
em operador não devidamente treinado e/ou erros ocasionais como: erro de leitura, erro de
cálculo, erro em transcrição de dados, etc.
Exemplo
5.1. Resíduo Peneira de Abertura 75/m (%)
De acordo com a NBR XYZ2 o resultado expresso em porcentagem de massa é calculado até
os décimos.
Tabela 5
LABORATóRIO AMOSTRA A AMOSTRA B F
1 1,1 1,2 O
2 1,2 1,4 O
3 1,2 1,4 O
4 1,7 1,6 O
5 1,5 1,8 O
6 1,2 1,3 O
7 1,0 1,0 O
8 1,4 1,6 O
9 1,3 1,4 O
10 0,6 0,7 O
11 1,2 1,1 O
16 1,4 1,6 O
13 2,0 2,0 O
14 1,8 2,1 O
15 1,5 1,6 O
12 2,3 2,7 *
20 0,6 1,2 *
Média Geral 1,34 1,45
Desvio Padrão 0,3418 0,3701
A Norma NBR ISO 9000: 2000, Sistemas de gestão da qualidade - Fundamentos e vocabulário
define controle da qualidade como parte da gestão focada no atendimento dos requisitos da
qualidade (item 3.2.10).
1. REGRESSÃO: compreende a análise de dados amostrais para saber se e como duas ou mais
variáveis estão relacionadas uma com a outra na população. Não implica, necessariamente, em
relação de causa e efeito.
2. REGRESSÃO LINEAR (Livro, p. 130)
• O modelo matemático: y = α + βx+ ε
• ε denomina-se resíduo ou erro aleatório e tem os seguintes pressupostos:
? variável aleatória com distribuição de deMoivre-Laplace-Gauss, média zero e
desvio-padrão constante
? corresponde a observações independentes e não correlacionadas
• elementos básicos:
? variáveis: dependente (Y), ou explicada, e independente (X), ou explicativa,
esta podendo ser qualitativa ou quantitativa
? equação
? parâmetros: são as grandezas das relações (coeficientes)
? termo aleatório ou de erro
• método dos mínimos quadrados
• EXCEL: Livro, p. 134, "Colar Função"/INCLINAÇÃO e INTERCEPÇÃO
X
Figura 2. Variação de α, devida à amostragem
Y
Usualmente, a mediana é adotada como a medida de tendência central e o intervalo quartílico como
medida de dispersão. Para compreensão do intervalo quartílico, é preciso entender o que são
percentis (também chamados porcentis).
Um percentil é uma medida da posição relativa de uma unidade observacional em relação a todas as
outras. O p-ésimo porcentil tem no mínimo p% dos valores abaixo daquele ponto e no mínimo (100 -
p)% dos valores acima.
Por exemplo, se uma altura de 1,80m é o 90o. percentil de uma turma de estudantes, então 90% da
turma tem alturas menores que 1,80m e 10% têm altura superior a 1,80m; se o peso de uma pessoa
de 75kg é o 40o. percentil de um conjunto de empregados. então 40% dos empregados pesam
menos que 75kg e 60% pesam mais.
Há inúmeras maneiras de se calcular percentis. Considere a notação X[np]+ , que significa anotar a
próxima observação acima de np (onde n é o total de valores e p o percentil em decimais) se np não
é inteiro, e a média desta e da observação seguinte se np é inteiro Os colchetes em torno do índice
representam a posição daquele valor após os dados terem sido ordenados de modo crescente. Por
exemplo, se o conjunto de dados tem 75 observações, então o 25o. percentil é o X[(75) x (0,25)]+ = X[19],
isto é, a 19a. menor observação após a ordenação. O 40o. percentil é X[(75) x (0,40)] + = (X(30) + X(31))/2,
isto é, a média das 30a. e 31a. observações após a ordenação.
Os percentis de números 10, 20, 30, ..., 90 são chamados Decis; tem-se, respectivamente, Primeiro
Decil (simbolizado por D1), Segundo Decil (D2), ... e Nono Decil (D9). O 5o. decil é a Mediana.
EXEMPLO
Em determinado relatório, as seguintes expressões apareceram:
a) média de três medidas em cada laboratório
b) z para métodos robustos = (valor do laboratório - mediana)/amplitude interquartílica normalizada
EXEMPLO NUMÉRICO
do relatório APLAC
Considere os seguintes extratos de resultados para uma determinada característica de um
conjunto de 63 laboratórios. Cada laboratório fez duas medidas, X e Y.:
Média escore z Avaliação
LAB aritmética robusta clássica robusta
X Y X Y X Y Entre Dentro Z Y
1 0,1510 0,4027 -0,660 -0,471 -0,522 -0,283 -0,867 0,000
... ... ... ... ... ... ... ... ... ... ...
63 0,1610 0,3633 0,660 -3,562 0,273 -2,749 -2,891 4,033 * *
(*) disperso segundo este critério
Perguntas:
a) para o conjunto de medidas X e Y, indique como foram determinados
• o número de resultados
• a mediana
• a amplitude interquartílica normalizada (AIN)
• a média
• o desvio-padrão
• o coeficiente de correlação
• t x AIN/ n
c) para o Laboratório 63, indique como foi decidida a eliminação dele pelos dois critérios de
avaliação
Média escore z Avaliação
LAB aritmética robusta clássica robusta
X Y X Y X Y Entre Dentro Z Y
63 0,1610 0,3633 0,660 -3,562 0,273 -2,749 -2,891 4,033 * *
BIBLIOGRAFIA
p = número de grupos
n = número de observações em cada grupo