Aula 2

AULA 2
CONTROLE ESTATÍSTICO
DA QUALIDADE
Prof. Rafael Simões Ribeiro

INTRODUÇÃO
Nosso objetivo, nesta aula, é entender, com base na teoria de

probabilidades, se uma inferência sobre um determinado processo é
estatisticamente relevante. Em outras palavras, iremos nos basear em algumas
hipóteses probabilísticas para entender, com relação a uma dada amostragem, e
para um certo nível de confiança, o que podemos concluir sobre um processo.
TEMA 1 – CONCEITOS ESTATÍSTICOS BÁSICOS
Chamamos de amostra um conjunto de observações sobre determinada

população. Por exemplo, para uma pesquisa de intenção de votos presidenciais,
podemos ter um tamanho amostral de duas mil observações, um valor muito
menor do que o tamanho da população do Brasil, que se caracteriza como o
número exato de todos os brasileiros. Ao levarmos em consideração amostras
(que é o que geralmente fazemos quando falamos em Qualidade), devemos
prestar atenção em diferenças sutis, dadas pelo desenvolvimento da estatística
que veremos a seguir.
A divisão de amostra por percentis se caracteriza por uma divisão por cem.
O quinquagésimo percentil é a mediana amostral, ou seja, o valor que divide a
amostra ao meio. Se 𝑛, o número de observações, for ímpar, a mediana é o valor
da observação que ocupa o posto [(𝑛 − 1)/2 + 1]. Se 𝑛 é par, a mediana é a
média aritmética das amostras que ocupam os postos [𝑛/2] e [𝑛/2 + 1]. A divisão
por quartis se caracteriza pela divisão da amostra total em quatro partes. O
primeiro quartil se refere à posição [0,25. 𝑛 + 0,5], o que, para uma amostra de
tamanho 𝑛 = 50, traz como resultado a posição 12,5; isso significa a média
aritmética entre a 12ª e a 13ª posição. O segundo quartil é a mediana, ao passo
que o terceiro quartil se refere à posição [0,75. 𝑛 + 0,5].
Podemos representar dados por meio de um gráfico chamado histograma,
que leva em consideração no eixo das ordenadas as frequências de aparecimento
de certos valores de uma amostra, representados em classes (faixas de valores)
do que está sendo levado em consideração, no eixo das abscissas. A definição
do tamanho de cada classe é arbitrária, mas alguns livros-texto de estatística
básica sugerem a aplicação da regra de Sturge [ℎ = 1 + log 2 𝑛], em que h é o
número de classes e n o número do tamanho da amostra (Montgomery, 2019).
2
Figura 1 – Histograma de n=40 com 6 classes seguindo regra de Sturge
10
0
27 a 28,5 28,5 a 30 30 a 31,5 31,5 a 33 33 a 34,5 34,5 a 36
O histograma é uma representação visual de três informações importantes:

a forma de distribuição dos dados, a tendência central e o espalhamento
(dispersão) dos dados. Essas duas últimas informações podem ser obtidas
numericamente:
• A média aritmética das n amostras é a média de tendência central mais

importante (além dela, temos, por exemplo, a mediana e a moda).
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛1 𝑥𝑖
𝑥̅ = = (1)
𝑛 𝑛
• A variância amostral é a soma dos quadrados dos desvios de cada

observação em relação à média amostral, dividida pelo número de graus
de liberdade (número de observações menos um)1.
2
∑𝑛1(𝑥𝑖 − 𝑥̅ )2
𝑠 = (2)
𝑛−1
Como a unidade de variância amostral é a unidade das observações ao

quadrado, geralmente tira-se a raiz quadrada, obtendo-se o desvio-padrão
amostral:
∑𝑛1(𝑥𝑖 − 𝑥̅ )2
𝑠=√ (3)
𝑛−1
1 Grau de liberdade é o número de informações independentes sobre a qual a estimativa é

baseada. A média amostral é baseada nas 𝑛 amostras e possui 𝑛 graus de liberdade. A variância
𝑠 2 é estimada com 𝑛 amostras mais a média amostral 𝑥̅ . Assim, uma das informações não é
independente (pois 𝑥̅ depende das 𝑛 amostras), e, em consequência, o número de graus de
liberdade é 𝑛 − 1.
3
Note que “o desvio-padrão não reflete a magnitude dos dados amostrais,
reflete apenas a dispersão em torno da média” (Montgomery, 2019). Por exemplo,
repare que o desvio-padrão das amostras de números [1,2,3] e [11,12,13] é o
mesmo, de valor igual a 1.
Outro método gráfico interessante é o diagrama de caixa (box plot) que
apresenta, segundo Montgomery (2019), “aspectos importantes dos dados, tais
como tendência central ou posição, dispersão ou variabilidade, afastamento da
simetria e identificação de observações muito afastadas da maior parte dos dados
(chamadas de valores atípicos ou outliers)”. Assim, um diagrama de caixa exibe
os três quartis (25%, 50% e 75%), abrangidos pela caixa, e os valores extremos
(máximo e mínimo).
Figura 2 – diagrama de caixa (box plot) para a mesma amostra da Figura 1
TEMA 2 – DISTRIBUIÇÕES DE PROBABILIDADES
Utilizando métodos estatísticos, podemos analisar os dados coletados de

uma amostra para estimar o comportamento de uma população. Isso é feito com
o uso de uma distribuição de probabilidades; que é, em outras palavras, uma
forma de modelar, matematicamente, o comportamento de determinada
população com base nos dados obtidos de uma amostra.
Tanto amostras como distribuições podem ser classificadas como
contínuas ou discretas, de acordo com o comportamento da variável que está
sendo medida. Uma cota da espessura de chapas metálicas é uma variável
contínua, já o número de peças defeituosas em um lote de um produto é uma
variável discreta.
A Figura 3 mostra, na esquerda, um exemplo de distribuição de
probabilidade discreta em que a probabilidade de uma variável aleatória 𝑥 assumir
o valor 𝑥𝑖 é 𝑃{𝑥 = 𝑥𝑖 } = 𝑝(𝑥𝑖 ) e, na figura da direita, uma distribuição de
4
probabilidade contínua, em que a probabilidade de x estar entre a e b é dada por
𝑏
𝑃{𝑎 ≤ 𝑥 ≤ 𝑏} = ∫𝑎 𝑓(𝑥)𝑑𝑥, em que 𝑓(𝑥) é a função característica da distribuição.
Figura 3 – Distribuições de probabilidade discreta e contínua
A média é uma medida de tendência central para a distribuição, ou, em

outras palavras, indica a posição da distribuição. É definida como:
∞
∫ 𝑥𝑓(𝑥)𝑑𝑥 𝑞𝑢𝑎𝑛𝑑𝑜 𝑥 é 𝑐𝑜𝑛𝑡í𝑛𝑢𝑎
−∞
𝜇= ∞ (4)
∑ 𝑥𝑖 𝑝(𝑥𝑖 ) 𝑞𝑢𝑎𝑛𝑑𝑜 𝑥 é 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎
{ 𝑖=1
Repare que, no caso da distribuição discreta, se 𝑛 amostras possuírem

igual probabilidade de ocorrência [𝑝(𝑥1 ) = 𝑝(𝑥2 ) = ⋯ = 𝑝(𝑥𝑛 )], a Equação 4 se
transforma na Equação 1, uma média aritmética das amostras.
A variância, que representa a variabilidade na distribuição, é definida como:
∞
∫ (𝑥 − 𝜇)2 𝑓(𝑥)𝑑𝑥 𝑞𝑢𝑎𝑛𝑑𝑜 𝑥 é 𝑐𝑜𝑛𝑡í𝑛𝑢𝑎
−∞
𝜎2 = ∞ (5)
2
∑(𝑥𝑖 − 𝜇) 𝑝(𝑥𝑖 ) 𝑞𝑢𝑎𝑛𝑑𝑜 𝑥 é 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎
{ 𝑖=1
No caso da distribuição discreta com igual probabilidade de ocorrência das

amostras, a Equação 5 se torna a variância populacional:
2
∑𝑛1(𝑥𝑖 − 𝜇)2
𝜎 = (6)
𝑛
E, segundo o mesmo raciocínio, temos o desvio-padrão, que mede a

dispersão da população expresso na unidade original:
5
∑𝑛1(𝑥𝑖 − 𝜇)2
𝜎=√ (7)
𝑛
Existem vários tipos de distribuições, cada uma para modelar diferentes

problemas no dia a dia do controle de qualidade. Falaremos, a título ilustrativo, de
algumas das principais distribuições discretas e contínuas, tendo em mente que
nosso objetivo principal é entender se podemos considerar uma inferência
estatística relevante ou não, em relação a um processo que estejamos analisando.
2.1 Distribuições discretas
Utilizamos a distribuição hipergeométrica quando queremos selecionar,

sem reposição e de forma aleatória, uma amostra de 𝑛 itens de um lote de 𝑁, dos
quais 𝐷 é o número de itens não-conformes. A distribuição de probabilidades é:
(𝐷𝑥)(𝑁−𝐷
𝑛−𝑥
)
𝑝(𝑥) = (8)
(𝑁𝑛)
em que 𝑥 = 0,1,2, … , min (𝑛, 𝐷).

A média e a variância da distribuição hipergeométrica são dados por:
𝑛𝐷
𝜇= (9)
𝑁
𝑛𝐷 𝐷 𝑁−𝑛
𝜎2 = (1 − ) ( ) (10)
𝑁 𝑁 𝑁−1
A distribuição binomial é uma distribuição comum na engenharia da

qualidade. É utilizada quando queremos obter uma amostragem de uma
população infinitamente grande, com 𝑝 representando uma fração de itens
defeituosos na população e 𝑥 representando o número de itens defeituosos em
uma amostra de tamanho 𝑛. A distribuição binomial é:
𝑛
𝑝(𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 (11)
𝑥
em que 𝑥 = 0,1,2, … , n.
A média e a variância da distribuição binomial são dados por:
𝜇 = 𝑛𝑝 (12)
𝜎 2 = 𝑛𝑝(1 − 𝑝) (13)
6
A distribuição de Poisson possui aplicação típica no controle de
qualidade, pois é bem aproximada ao modelo do número de defeitos por base
unitária (unidade de tempo, volume, área etc.). A distribuição de Poisson é:
𝑒 −𝜆 𝜆𝑥
𝑝(𝑥) = (14)
𝑥!
em que 𝑥 = 0,1,2, …
Na distribuição de Poisson, tanto a média como a variância possuem o valor
do parâmetro 𝜆:
𝜇=𝜆 (15)
𝜎2 = 𝜆 (16)
2.1 Distribuições contínuas
Devido à sua importância, dedicaremos o Tema 3, a seguir, para o estudo

da principal distribuição contínua – a distribuição normal – e de outras distribuições
úteis ao controle estatístico da qualidade.
TEMA 3 – A DISTRIBUIÇÃO NORMAL E OUTRAS DISTRIBUIÇÕES CONTÍNUAS
A distribuição normal possui o formato de um sino, em uma curva

simétrica e unimodal. Os desvios-padrão em relação à média (que é também
mediana e moda) limitam faixas de valores populacionais; 𝜇 ± 𝜎 abrange 68,26%
da população, 𝜇 ± 2𝜎 abrange 95,46% e 𝜇 ± 3𝜎 abrange 99,73%. Dessa forma, “o
desvio-padrão mede a distância na escala horizontal associada aos limites de
abrangência” citados (Montgomery, 2019).
Figura 4 – Distribuição normal
7
A distribuição normal é definida como a função:
1 1 𝑥−𝜇 2
𝑒 −2( )
𝑓(𝑥) = 𝜎 (17)
𝜎√2𝜋
para −∞ < 𝑥 < ∞, em que 𝜇 é a média e 𝜎 2 é a variância. Uma nomenclatura

especial para referenciarmos distribuições normais é 𝑥 − 𝑁(𝜇, 𝜎 2 ), que se refere
ao fato da variável 𝑥 ser normalmente distribuída com média 𝜇 e variância 𝜎 2 .
A distribuição normal é uma função, mas, para cálculos estatísticos
práticos, utilizamos a distribuição normal acumulada, que é a probabilidade de
uma variável aleatória 𝑥 ser menor ou igual a um valor 𝑎; e vimos que tal
probabilidade é a área sob a curva, dada pela integração da função:
𝑎 1 𝑥−𝜇 2
1
𝑒 −2( )
𝑃{𝑥 ≤ 𝑎} = ∫ 𝜎 𝑑𝑥 (18)
−∞ 𝜎√2𝜋
Para realizar essa integração, e, mais ainda, termos condições de tabelar

seus resultados para muitos valores (por motivos de praticidade), vamos realizar
uma substituição de variáveis. Utilizaremos a variável 𝑧, definida como:
𝑥−𝜇
𝑧= (19)
𝜎
Assim, a probabilidade de uma variável aleatória 𝑥 ser menor ou igual a um

𝑎−𝜇 𝑎−𝜇
valor 𝑎, 𝑃{𝑥 ≤ 𝑎} é igual a 𝑃 {𝑧 ≤ } = Φ( ), em que o símbolo Φ é a função
𝜎 𝜎
de distribuição acumulada da distribuição normal padrão (𝜇 = 0 𝑒 𝜎 = 1). Dessa

maneira, com a substituição de variável, temos uma padronização que converte
uma distribuição 𝑁(𝜇; 𝜎 2 ) em uma distribuição 𝑁(0; 1).
A distribuição modelada pela função Φ é apresentada no anexo, e
apresenta as probabilidades dos valores à esquerda de 𝑧. Para o uso estatístico
da tabela, podemos utilizar as propriedades de simetria da distribuição normal:
𝑃{𝑥 ≥ 𝑎} = 1 − 𝑃{𝑥 ≤ 𝑎} (20)
𝑃{𝑥 ≥ −𝑎} = 𝑃{𝑥 ≤ 𝑎} (21)
Outra propriedade útil da distribuição normal é a capacidade de realização

de combinações lineares; se 𝑥1 , 𝑥2 , … , 𝑥𝑛 são variáveis aleatórias independentes
e normalmente distribuídas com médias 𝜇1 , 𝜇2 , … , 𝜇𝑛 e variâncias 𝜎12 , 𝜎22 , … , 𝜎𝑛2 ,
então a distribuição da combinação linear 𝑦 = 𝑎1 𝑥1 + 𝑎2 𝑥2 + ⋯ + 𝑎𝑛 𝑥𝑛 é também
normal com média 𝜇𝑦 = 𝑎1 𝜇1 + 𝑎2 𝜇2 + ⋯ + 𝑎𝑛 𝜇𝑛 e variância 𝜎𝑦2 = 𝑎12 𝜎12 + 𝑎22 𝜎22 +
⋯ + 𝑎𝑛2 𝜎𝑛2 , em que 𝑎1 , 𝑎2 , … , 𝑎𝑛 são constantes. Isso é também referido como
8
Teorema do Limite Central (ou Teorema Central do Limite) para a distribuição
normal, que diz que a distribuição de:
𝑦 − ∑𝑛1 𝜇𝑖
(22)
√∑𝑛1 𝜎𝑖2
se aproxima da distribuição 𝑁(0; 1) à medida que 𝑛 tende ao infinito. Falaremos,

também, do mesmo teorema considerando sua definição mais usual na
sequência.
Segundo Montgomery (2019),
O teorema limite central estabelece que a distribuição da soma de 𝑛

variáveis aleatórias independentes é aproximadamente normal,
independentemente das distribuições individuais das variáveis; [...] se as
𝑥𝑖 são identicamente distribuídas e a distribuição de cada 𝑥𝑖 não se
afasta drasticamente da distribuição normal, então o teorema limite
central funciona bastante bem para 𝑛 ≥ 3; tais condições são
frequentemente encontradas em problemas de controle de qualidade.
Uma distribuição comum para a vida útil de um produto que se degrada ao

longo do tempo é a distribuição lognormal. Sendo uma variável aleatória
normalmente distribuída 𝑤, com média 𝜃 e variância 𝜔, que se relaciona de
maneira exponencial com uma variável aleatória 𝑥, como 𝑥 = exp (𝑤). A
distribuição de 𝑥 é chamada lognormal pois a distribuição normal 𝑤 é ln(𝑥) = 𝑤,
logo, o logaritmo natural de 𝑥 é normalmente distribuído. A função de distribuição
acumulada para 𝑥 é:
𝑃{𝑥 ≤ 𝑎} = 𝑃{exp(𝑤) ≤ 𝑎} = 𝑃{𝑤 ≤ ln(𝑎)} (23)
Podemos, também, utilizar a substituição de variável para 𝑧, e, assim,

calcular a função de distribuição acumulada por meio da tabela do anexo:
ln(𝑎) − 𝜃 ln(𝑎) − 𝜃
𝑃 {𝑧 ≤ } = Φ[ ] (24)
𝜔 𝜔
A definição da distribuição lognormal é:
1 (ln(𝑥) − 𝜃)2
𝑓(𝑥) = 𝑒𝑥𝑝 [− ] (25)
𝑥𝜔√2𝜋 2𝜔 2
para 0 < 𝑥 < ∞.

A média e a variância de 𝑥 não são as mesmas que de 𝑤:
2 /2
𝜇 = 𝑒 𝜃+𝜔 (26)
9
2 2
𝜎 2 = 𝑒 2𝜃+𝜔 (𝑒 𝜔 − 1) (27)
Outra distribuição importante, utilizada na engenharia de confiabilidade, é

a distribuição exponencial, utilizada como modelo do tempo de falha de um
produto (especialmente componentes eletrônicos). Ela é definida como:
(28)
𝑓(𝑥) = 𝜆𝑒 −𝜆𝑥
para 𝑥 ≥ 𝑜 e 𝜆 > 0, sendo 𝜆 chamado de taxa de falha.

A média da distribuição é chamada de tempo médio de falha e é definida,
junto da variância, como:
1 (29)
𝜇=
𝜆
1
𝜎2 = 2 (30)
𝜆
A distribuição exponencial acumulada é:

𝑎
𝑃{𝑥 ≤ 𝑎} = ∫ 𝜆𝑒 −𝜆𝑡 𝑑𝑡 = 1 − 𝑒 −𝜆𝑎 (31)
0
Há, ainda, a distribuição gama e a distribuição de Weibull, esta última

utilizada para confiabilidade de peças mecânicas e eletrônicas, servindo de
referência, por exemplo, para quando queremos determinar fatores que permitam
a realização de testes acelerados. Sugere-se a leitura complementar de uma
referência como Montgomery (2019) com vistas à complementação de seus
estudos.
Falamos de diferentes distribuições de probabilidades como modelos
matemáticos para processos reais. Mas como saber qual tipo de distribuição
melhor se ajusta a nosso processo físico? A simples construção de um histograma
não nos permite concluir de maneira assertiva a melhor distribuição, apenas
olhando sua forma. Outra forma gráfica, dessa vez mais relevante, é construindo
um gráfico de probabilidade. A Figura 5 mostra um gráfico de probabilidade
normal (também conhecido como normal plot). Sua interpretação é que os dados
são bem ajustados a uma distribuição normal caso eles tenham pouca dispersão
em relação à reta que melhor se ajusta a eles. Isso acontece pela própria
construção do gráfico, com os valores das observações no eixo das abscissas e
o valor das frequências acumuladas das observações no eixo das ordenadas,
construído com uma escala específica, presente em papeis especialmente
impressos para sua construção, e calculadas como (𝑗 − 0,5)/𝑛, em que 𝑛 é o
10
número de observações, e 𝑗 é a posição de cada observação ordenada da menor
para a maior.
Em vez de utilizarmos uma relação percentual marcada em uma escala
principal, podemos realizar uma transformação de variáveis e utilizar a distribuição
normal acumulada, presente no anexo, para o cálculo do eixo das ordenadas:
𝑗 − 0,5
= 𝑃(𝑍 ≤ 𝑧𝑗 ) = Φ(𝑧𝑗 ) (32)
𝑛
Figura 5 – Gráficos de probabilidade normal com bom ajuste (esq.) e com mal
ajuste (dir.)
Fonte: Montgomery, 2019, p. 69-70.
Gráficos de probabilidade podem ser construídos, também, para as outras

distribuições, fazendo com que o eixo das abscissas reflita cada distribuição. A
interpretação do ajuste é a mesma.
TEMA 4 – DISTRIBUIÇÕES AMOSTRAIS
Falamos, até o momento, de distribuições que implicam um sentido

“populacional”. Porém, em casos práticos, lidamos com amostras. Chamamos de
estatística qualquer função de dados amostrais que não contenha parâmetros
desconhecidos; os cálculos amostrais presentes nas Equações 1, 2 e 3 são
estatísticas. A distribuição de probabilidades de uma estatística, por sua vez, é
chamada de distribuição amostral.
A definição mais comum do Teorema do Limite Central é a de que a
distribuição amostral das médias 𝑥̅ de tamanho 𝑛 de variáveis aleatórias
𝑥1 , 𝑥2 , … , 𝑥𝑛 que possuem média 𝜇 e variância 𝜎 2 se aproxima de uma distribuição
normal 𝑁(𝜇, 𝜎 2 /𝑛) quando 𝑛 tende ao infinito. Repare, na Figura 6, uma
distribuição qualquer, não normal, à esquerda, e as distribuições amostrais das
médias para 𝑛 = 5 ao centro e 𝑛 = 25 à direita. Veja como o aumento do número
11
de amostras para o cálculo da média faz com que a curva se aproxime da normal
e o desvio-padrão dessa distribuição amostral diminua.
Figura 6 – Teorema do Limite Central para a distribuição amostral das médias
𝜇 = 18,11 / 𝜎 = 10,80 𝑛 = 5 / 𝜇 = 18,09 / 𝜎 = 4,85 𝑛 = 25 / 𝜇 = 18,12 / 𝜎 = 2,17

Fonte: Adaptado de Lane, 2021.
Ao escrever 𝑧 na Equação 19 em termos da média amostral, temos a

estatística de teste 𝑍, que será abordada no Tema 5:
𝑥̅ − 𝜇
𝑍= (33)
𝜎/√𝑛
Existem algumas distribuições amostrais importantes, definidas em termos

da distribuição normal; estudaremos elas de forma breve.
A distribuição qui-quadrado (𝜒 2 ) é aquela que modela a variável aleatória
𝑦 = 𝑥12 + 𝑥22 + ⋯ + 𝑥𝑛2 , em que 𝑥1 , 𝑥2 , … , 𝑥𝑛 são variáveis aleatórias independentes
e normalmente distribuídas. A distribuição qui-quadrado com 𝑛 graus de liberdade:
1
𝑓(𝑦) = 𝑛 𝑦 (𝑛/2)−1 𝑒 −𝑦/2 (34)
2𝑛/2 Γ ( )
2
∞
em que Γ(𝑟) = ∫0 𝑥 𝑟−1 𝑒 −𝑥 𝑑𝑥 é a função Gama que se torna Γ(𝑟) = (𝑟 − 1)! para
𝑟 inteiro positivo. A distribuição qui-quadrado é assimétrica, com média 𝜇 = 𝑛 e
variância 𝜎 2 = 2𝑛.
Para um mostra aleatória 𝑥1 , 𝑥2 , … , 𝑥𝑛 de distribuição 𝑁(𝜇; 𝜎 2 ), a variável
aleatória 𝑦 da diferença entre cada valor e a média amostral, ao quadrado, dividida
pela variância terá uma distribuição qui-quadrado com 𝑛 − 1 graus de liberdade
(repare que 𝑦 é uma combinação linear dessa distribuição):
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑦= (35)
𝜎2
Substituindo a Equação 2 na Equação 34, temos:
(𝑛 − 1)𝑠 2
𝑦= (36)
𝜎2
12
ou seja, a distribuição de (𝑛 − 1)𝑠 2 /𝜎 2 é qui-quadrado quando a amostra é
retirada de uma distribuição normal.
A distribuição t de Student2 combina uma variável aleatória normal
padrão 𝑥 com uma variável aleatória qui-quadrado 𝑦, com 𝑘 graus de liberdade
obtendo a variável aleatória:
𝑥
𝑡= (37)
√𝑦⁄𝑘
que possui uma distribuição t com 𝑘 graus de liberdade:
(𝑘 + 1)
Γ[ 2 ] 𝑡2
−(𝑘+1)/2
𝑓(𝑡) = ( + 1) (38)
𝑘 𝑘
√𝑘. 𝜋Γ (2)
A distribuição t possui média 𝜇 = 0 e variância 𝜎 2 = 𝑘/(𝑘 − 2), para 𝑘 > 2.

Aqui também temos a estatística de teste t, escrita em função da variância
amostral:
𝑥̅ − 𝜇
𝑥̅ − 𝜇 𝜎/√𝑛 𝑁(0; 1) (39)
= ~
𝑠/√𝑛 𝑠/𝜎 2
√𝜒𝑛−1 /(𝑛 − 1)
Repare que a Equação 36 permitiu que correlacionássemos a estatística

(𝑥̅ − 𝜇)/(𝑠/√𝑛) com a distribuição normal padrão e com a distribuição qui-
quadrado. Disso resulta que essa estatística possui distribuição 𝑡 com 𝑛 − 1 graus
de liberdade.
A distribuição F combina duas variáveis aleatórias qui-quadrado, 𝑤 e 𝑦
com 𝑢 e 𝑣 graus de liberdade, respectivamente. Então:
𝑤/𝑢
𝐹= (40)
𝑦/𝑣
terá uma distribuição 𝐹 como:

𝑢
𝑢+𝑣 𝑢 2
Γ ( 2 ) (𝑣 ) 𝑥 (𝑢/2)−1
𝑓(𝑡) = . (41)
𝑢 𝑣 (𝑢+𝑣)/2
Γ (2) Γ (2) [(𝑢) 𝑥 + 1]
𝑣
A estatística de teste para 𝐹 é dada pela Equação 42 e utilizada quando

comparamos duas distribuições diferentes:
2Pseudônimo do químico W. S. Gosset que deduziu sua teoria com base em seu trabalho na
cervejaria Guiness, em Dublin, e foi proibido de publicá-lo por seu patrão.
13
𝑠12 /𝜎12
~𝐹 (42)
𝑠22 /𝜎22 𝑛1 −1,𝑛2−1
Assim como temos uma tabela (no anexo) para a distribuição de 𝑍, temos
também para as distribuições amostrais 𝜒 2 , 𝑡 e 𝐹, uma vez que a realização
desses cálculos não é prática – o que é evidente pela forma das equações.
TEMA 5 – INFERÊNCIAS ESTATÍSTICAS
Finalmente chegamos ao objetivo principal desta aula. Para fazermos

inferências, precisamos de uma hipótese estatística, que é realizada como duas
ou três afirmativas sobre parâmetros de uma distribuição de probabilidades
(populacional ou amostral). 𝐻0 é chamada hipótese nula e 𝐻1 hipótese alternativa
(como dito, pode haver diferentes 𝐻1 ).
Após a definição das hipóteses, devemos testá-las. Para isso, é necessário
tomar uma amostra aleatória de uma população que queremos estudar, calcular
uma estatística de teste que seja apropriada e rejeitar, ou não, a hipótese nula.
Ao testarmos hipóteses, podemos incorrer em dois tipos de erros. O erro
tipo I ocorre se a hipótese nula for rejeitada mesmo sendo verdadeira. O erro tipo
II ocorre se a hipótese nula não for rejeitada mesmo sendo falsa. Mais usual do
que falar dos tipos de erro é falar das probabilidades associadas a eles:
𝛼 = 𝑃{𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼} = 𝑃{𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 |𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎} (43)
𝛽 = 𝑃{𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼𝐼} = 𝑃{𝑑𝑒𝑖𝑥𝑎𝑟 𝑑𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 |𝐻0 é 𝑓𝑎𝑙𝑠𝑎} (44)
Podemos também calcular o poder do teste estatístico, que é a

probabilidade de rejeitar 𝐻0 corretamente:
(45)
𝑃𝑜𝑑𝑒𝑟 = 1 − 𝛽 = 𝑃{𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 |𝐻0 é 𝑓𝑎𝑙𝑠𝑎}
É comum chamar 𝛼 e 𝛽 de erros, mas, na realidade, isso é incorreto, já que

eles são as probabilidades de ocorrência dos erros tipo I e tipo II. No controle de
qualidade, 𝛼 pode ser entendido como risco do fabricante, “porque denota a
probabilidade de um lote bom ser rejeitado” (Montgomery, 2019. p. 83). Já 𝛽 é às
vezes chamado de risco do consumidor, “por denotar a probabilidade de aceitação
de um lote de baixa qualidade” (Montgomery, 2019, p. 83).
O procedimento geral de teste de hipótese consiste em se especificar

um valor para a probabilidade 𝛼 do erro tipo I, e, planejar-se um
procedimento de teste de tal forma que um valor pequeno da
probabilidade 𝛽 do erro tipo II seja obtido [...] Como podemos controlar
14
a probabilidade de cometermos um erro tipo I, a rejeição da hipótese
nula é considerada uma conclusão forte” (Montgomery, 2019, p. 83).
5.1 Inferências sobre a média de uma população com variância conhecida
Para uma variável aleatória 𝑥 com média desconhecida 𝜇 e variância

conhecida 𝜎 2 , queremos testar a hipótese de que a média é igual a um valor
nominal 𝜇0 :
𝐻0 : 𝜇 = 𝜇0
(46)
𝐻1 : 𝜇 ≠ 𝜇0
Pegamos, então, uma amostra aleatória de 𝑛 observações de 𝑥 e

calculamos a estatística de teste:
𝑥̅ − 𝜇0
𝑍0 = (47)
𝜎/√𝑛
Se |𝑍0 | > 𝑍𝛼/2 , em que 𝑍𝛼/2 é o local na distribuição normal padrão que
corresponde à porcentagem superior 𝛼/2, rejeitamos a hipótese nula 𝐻0 . Como,
nesse caso, a hipótese alternativa é bilateral (pois é a hipótese da média ser
menor ou maior que 𝜇0 ), utilizamos o valor de 𝛼/2. Se a hipótese alternativa fosse
unilateral 𝐻1 : 𝜇 > 𝜇0 , rejeitaríamos 𝐻0 apenas se 𝑍0 > 𝑍 𝛼 ; se fosse unilateral
𝐻1 : 𝜇 < 𝜇0 , rejeitaríamos 𝐻0 apenas se 𝑍0 < −𝑍 𝛼 . Repare que 𝛼 é a probabilidade
do erro tipo I, ou seja, de rejeitarmos 𝐻0 mesmo sendo verdadeiro. É comum
usarmos 𝛼 = 0,05. O risco desse valor deve ser avaliado pelo engenheiro.
Podemos definir o intervalo de confiança para a média como:
𝜎 𝜎
𝑥̅ − 𝑍𝛼/2 ≤ 𝜇 ≤ 𝑥̅ + 𝑍𝛼/2 (48)
√𝑛 √𝑛
De modo a evitarmos a dúvida de quão longe nosso teste está do nível de

significância 𝛼 definido, usamos o conceito de valor P (que vem de probability
value, ou p value). O valor P é o menor nível de significância que levaria à rejeição
da hipótese nula 𝐻0 . O cálculo do valor P para o caso em questão é:
2[1 − Φ(|𝑍0 |) 𝑡𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙

𝑃 = { 1 − Φ(𝑍0 ) 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 (49)
Φ(𝑍0 ) 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟
15
5.2 Inferências sobre a média com variância desconhecida
𝐻0 : 𝜇 = 𝜇0
(50)
𝐻1 : 𝜇 ≠ 𝜇0
𝑥̅ − 𝜇0 (51)
𝑡0 =
𝑠/√𝑛
𝑠 𝑠
𝑥̅ − 𝑡𝛼/2,𝑛−1 ≤ 𝜇 ≤ 𝑥̅ + 𝑍𝛼/2,𝑛−1 (52)
√𝑛 √𝑛
5.3 Inferências sobre a variância
𝐻0 : 𝜎 2 = 𝜎02
(53)
𝐻1 : 𝜎 2 ≠ 𝜎02
(𝑛 − 1)𝑠 2 (54)
𝜒02 =
𝜎02
(𝑛 − 1)𝑠 2 2
(𝑛 − 1)𝑠 2
2 ≤ 𝜎 ≤ 2 (55)
𝜒𝛼/2,𝑛−1 𝜒1−𝛼/2,𝑛−1
Há, ainda, testes estatísticos para diferenças de médias, para médias e

variâncias de duas distribuições (em que usamos o teste 𝐹) e outras. Nosso
objetivo, aqui, foi entender de onde vieram os conceitos e como são aplicados
para testes simples. Na prática do dia a dia, é recomendável, por questões de
praticidade e economia de recursos, que o engenheiro utilize algum software
estatístico, entre os quais estão: SAS, JMP, Minitab, R (versão open source).
16
REFERÊNCIAS
MONTGOMERY, D. C. Introdução ao controle estatístico da qualidade. 7. ed.

Rio de Janeiro: LTC, 2019.
LANE, D. M. Online Statistics Education: A Multimedia Course of Study. Rice

University. Houston. Disponível em: <http://onlinestatbook.com/>. Acesso em: 15
mar. 2021.
17
ANEXOS
Tabelas de probabilidades disponíveis em (acesso em: 15 mar. 2021):

<http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf>.
Tabela 1 – Distribuição Normal Padrão Acumulada
Fonte: <http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf>.
18
Tabela 2 – Distribuição qui-quadrado
19
Tabela 3 – Distribuição 𝑡 de Student
20
Tabela 4 – Distribuição 𝐹 de Fischer-Snedecor
21

Aula 2 - Distribuição de Probabilidades

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 2 - Distribuição de Probabilidades

Enviado por

Direitos autorais:

Formatos disponíveis

Prof. Rafael Simões Ribeiro

Nosso objetivo, nesta aula, é entender, com base na teoria de

TEMA 1 – CONCEITOS ESTATÍSTICOS BÁSICOS

Chamamos de amostra um conjunto de observações sobre determinada

O histograma é uma representação visual de três informações importantes:

• A média aritmética das n amostras é a média de tendência central mais

• A variância amostral é a soma dos quadrados dos desvios de cada

Como a unidade de variância amostral é a unidade das observações ao

1 Grau de liberdade é o número de informações independentes sobre a qual a estimativa é

Figura 2 – diagrama de caixa (box plot) para a mesma amostra da Figura 1

TEMA 2 – DISTRIBUIÇÕES DE PROBABILIDADES

Utilizando métodos estatísticos, podemos analisar os dados coletados de

Figura 3 – Distribuições de probabilidade discreta e contínua

A média é uma medida de tendência central para a distribuição, ou, em

Repare que, no caso da distribuição discreta, se 𝑛 amostras possuírem

No caso da distribuição discreta com igual probabilidade de ocorrência das

E, segundo o mesmo raciocínio, temos o desvio-padrão, que mede a

Existem vários tipos de distribuições, cada uma para modelar diferentes

2.1 Distribuições discretas

Utilizamos a distribuição hipergeométrica quando queremos selecionar,

em que 𝑥 = 0,1,2, … , min (𝑛, 𝐷).

A distribuição binomial é uma distribuição comum na engenharia da

2.1 Distribuições contínuas

Devido à sua importância, dedicaremos o Tema 3, a seguir, para o estudo

TEMA 3 – A DISTRIBUIÇÃO NORMAL E OUTRAS DISTRIBUIÇÕES CONTÍNUAS

A distribuição normal possui o formato de um sino, em uma curva

Figura 4 – Distribuição normal

para −∞ < 𝑥 < ∞, em que 𝜇 é a média e 𝜎 2 é a variância. Uma nomenclatura

Para realizar essa integração, e, mais ainda, termos condições de tabelar

Assim, a probabilidade de uma variável aleatória 𝑥 ser menor ou igual a um

de distribuição acumulada da distribuição normal padrão (𝜇 = 0 𝑒 𝜎 = 1). Dessa

𝑃{𝑥 ≥ 𝑎} = 1 − 𝑃{𝑥 ≤ 𝑎} (20)

𝑃{𝑥 ≥ −𝑎} = 𝑃{𝑥 ≤ 𝑎} (21)

Outra propriedade útil da distribuição normal é a capacidade de realização

se aproxima da distribuição 𝑁(0; 1) à medida que 𝑛 tende ao infinito. Falaremos,

O teorema limite central estabelece que a distribuição da soma de 𝑛

Uma distribuição comum para a vida útil de um produto que se degrada ao

𝑃{𝑥 ≤ 𝑎} = 𝑃{exp(𝑤) ≤ 𝑎} = 𝑃{𝑤 ≤ ln(𝑎)} (23)

Podemos, também, utilizar a substituição de variável para 𝑧, e, assim,

A definição da distribuição lognormal é:

para 0 < 𝑥 < ∞.

Outra distribuição importante, utilizada na engenharia de confiabilidade, é

para 𝑥 ≥ 𝑜 e 𝜆 > 0, sendo 𝜆 chamado de taxa de falha.

A distribuição exponencial acumulada é:

Há, ainda, a distribuição gama e a distribuição de Weibull, esta última

Fonte: Montgomery, 2019, p. 69-70.

Gráficos de probabilidade podem ser construídos, também, para as outras

TEMA 4 – DISTRIBUIÇÕES AMOSTRAIS

Falamos, até o momento, de distribuições que implicam um sentido

Figura 6 – Teorema do Limite Central para a distribuição amostral das médias

𝜇 = 18,11 / 𝜎 = 10,80 𝑛 = 5 / 𝜇 = 18,09 / 𝜎 = 4,85 𝑛 = 25 / 𝜇 = 18,12 / 𝜎 = 2,17

Ao escrever 𝑧 na Equação 19 em termos da média amostral, temos a

Existem algumas distribuições amostrais importantes, definidas em termos

Substituindo a Equação 2 na Equação 34, temos:

que possui uma distribuição t com 𝑘 graus de liberdade:

A distribuição t possui média 𝜇 = 0 e variância 𝜎 2 = 𝑘/(𝑘 − 2), para 𝑘 > 2.

Repare que a Equação 36 permitiu que correlacionássemos a estatística

terá uma distribuição 𝐹 como:

A estatística de teste para 𝐹 é dada pela Equação 42 e utilizada quando

TEMA 5 – INFERÊNCIAS ESTATÍSTICAS

Finalmente chegamos ao objetivo principal desta aula. Para fazermos

𝛼 = 𝑃{𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼} = 𝑃{𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 |𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎} (43)

𝛽 = 𝑃{𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼𝐼} = 𝑃{𝑑𝑒𝑖𝑥𝑎𝑟 𝑑𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 |𝐻0 é 𝑓𝑎𝑙𝑠𝑎} (44)