Escolar Documentos
Profissional Documentos
Cultura Documentos
Este material descreve de modo sintetizado, os tópicos a serem estudados nesta fase
da disciplina. São enfocados aqui alguns pontos, o que não exclui a utilização de bibliografias.
ESTATÍSTICA
Fonte: http://www.portalaction.com.br/incerteza-de-medicao/11-erros-efeitos-e-correcoes
2
7.3 EVENTOS DEPENDENTES E INDEPENDENTES ...................................................................................... 44
7.4 CÁLCULO DE PROBABILIDADES ........................................................................................................ 44
7.5 REGRAS BÁSICAS ............................................................................................................................. 45
7.6 PROBABILIDADE CLÁSSICA............................................................................................................... 45
7.7 PROBABILIDADE EMPÍRICA ............................................................................................................... 45
7.8 PROBABILIDADE SUBJETIVA ............................................................................................................. 46
7.9 LEI DOS GRANDES NÚMEROS ........................................................................................................... 47
7.10 EXERCÍCIOS (LARSON E FARBER, P. 138) ........................................................................................ 47
8 DISTRIBUIÇÕES DE PROBABILIDADE ........................................................................................ 48
8.1 DISTRIBUIÇÃO BINOMIAL DE PROBABILIDADE ................................................................................. 49
8.2 EXERCÍCIOS: ..................................................................................................................................... 49
8.3 DISTRIBUIÇÃO NORMAL DE PROBABILIDADE ................................................................................... 50
8.3.1 Distribuição Normal Teórica ................................................................................................... 52
8.4 O TEOREMA DO LIMITE CENTRAL ..................................................................................................... 53
9 ESTIMAÇÃO DE PARÂMETROS ..................................................................................................... 57
9.1 INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO ..................................................... 57
9.1.1 Nível de 95% de confiança....................................................................................................... 58
9.1.2 Outros níveis de confiança....................................................................................................... 59
9.2 INTERVALO DE CONFIANÇA PARA UMA MÉDIA ................................................................ 61
9.3 EXERCÍCIOS .................................................................................................................................. 63
9.4 RESUMO SOBRE INTERVALOS DE CONFIANÇA: .................................................................. 64
10. TESTES DE HIPÓTESES ................................................................................................................. 65
10.1 HIPÓTESES ESTATÍSTICAS ............................................................................................................... 65
10.2 TESTES DE NORMALIDADE ............................................................................................................. 65
10.2.1 Teste de Normalidade de Shapiro-Wilk (Software: R-Project) .............................................. 66
10.2.2 Teste de Normalidade de Anderson-Darling (Software utilizado: Minitab) .......................... 66
10.2.3 Teste de Normalidade de Kolmogorov-Smirnov (Software utilizado: Minitab) ..................... 67
10.3 TESTE T DE STUDENT ...................................................................................................................... 68
10.3.1 Teste t para amostras pareadas ............................................................................................. 69
10.3.2 Teste de Variâncias ................................................................................................................ 74
10.3.3 Teste t para duas amostras independentes presumindo variâncias iguais ............................ 77
10.3.4 Teste t para duas amostras independentes presumindo variâncias diferentes....................... 77
11. ANÁLISE DE VARIÂNCIA – ANOVA ........................................................................................... 81
11.1 EXIGÊNCIAS PARA EXECUTAR A ANÁLISE DE VARIÂNCIA............................................................... 81
11.2 HIPÓTESES DO TESTE ...................................................................................................................... 81
11.3 FORMULAÇÃO MATEMÁTICA DA ANOVA ..................................................................................... 82
11.4 EXEMPLOS DE APLICAÇÃO PRÁTICA DA ANOVA........................................................................... 87
12 EXPERIMENTO FATORIAL (TIPO 2K) ......................................................................................... 94
12.1 ESTUDO EXPERIMENTAL................................................................................................................. 94
12.2 ESTRATÉGIAS PARA UM ESTUDO EXPERIMENTAL ........................................................................... 95
12.3 CONCEITOS BÁSICOS ...................................................................................................................... 95
13 APÊNDICES E ANEXOS ................................................................................................................. 101
14 BIBLIOGRAFIA ............................................................................................................................... 106
3
PARTE 1: ESTATÍSTICA DESCRITIVA
1. INTRODUÇÃO À ESTATÍSTICA
1.2 Variáveis
Variáveis são características que podem ser observadas (ou medidas) em cada
elemento da população, sob as mesmas condições. Dependendo do tipo do dado, as
variáveis podem ser classificadas em qualitativas ou quantitativas.
Variáveis
Qualitativas Quantitativas
Discretas Contínuas
4
1.3 Séries Estatísticas
Exemplo:
Vendas das Seções A e B. Loja X. 1° Bimestre. 2022.
Unidades Vendidas
Meses
Seção A Seção B
Janeiro 22 102
Fevereiro 35 99
Março 24 250
Total 81 451
Fonte: Departamento de Vendas
5
1.5 Gráficos Estatísticos
Pictogramas:
6
1.6 Diagrama Ramo e Folhas e Diagrama de Pontos
7
8
Exercícios
QUESTÃO 1: Construa um gráfico de colunas (verticais) para representar a tabela a seguir. Não
se esqueça de colocar os elementos que compõe o título e de citar a fonte dos dados.
Número de automóveis vendidos pela Concessionária
Brasil Multimarcas no mês de janeiro de 2022
Marcas Semi-Novos Novos
Fiat 32 23
Ford 20 24
Renault 25 15
Chevrolet 5 10
Total 82 72
Fonte: Dados Fictícios
QUESTÃO 3: Use um gráfico de Pareto para retratar os dados. Eles representam o número de
vezes que foram detectados erros na composição de medicamentos, durante um estudo de 2
meses. (Fonte: PubMed Central.)
9
QUESTÃO 6:
Dados: Um teste foi aplicado em uma amostra de 30 estudantes. As pontuações são mostradas na
tabela a seguir:
44 51 11 90 76 36 64 37
43 72 53 62 36 74 51 72
37 28 38 61 47 63 36 41
22 37 51 46 85 13 - -
QUESTÃO 7:
10
2 SÉRIE DE DISTRIBUIÇÃO DE FREQUÊNCIA
Pode-se classificar as séries de distribuições de frequência em: simples e em
classes como veremos a seguir.
11
Amplitude da classe (h):
ℎ = = = 7,9 h = 8 anos.
Distribuição das idades em anos de um grupo de pessoas.
xi (anos) fi xi fr Fa
10 l— 18 19 14 0,2969 19
18 l— 26 12 22 0,1875 31
26 l— 34 9 30 0,1406 40
34 l— 42 5 38 0,0781 45
42 l— 50 8 46 0,1250 53
50 l— 58 8 54 0,1250 61
58 l— 66 3 62 0,0469 64
Total 64 - 1,0000 -
10
6
f
0
148 152 156 160 164 168 172 176
Estaturas [cm]
2.4 No Excel
A distribuição de frequência pode Exemplo: Distribuição de frequência
facilmente ser construída através da função simples da amostra: {1, 3, 3, 3, 5, 5, 5,
=FREQUÊNCIA(matriz_dados;matriz_ 4, 8, 2, 5, 1, 3, 6, 3, 4, 8, 7}.
bin) onde: matriz_dados é uma matriz ou
12
uma referência a um conjunto de valores
cujas frequências se deseja contar;
matriz_bin é uma matriz ou referência a
intervalos nos quais se deseja agrupar os
valores contidos em matriz_dados.
Exercícios
0 2 1 2 4 3 3 3 1 0 4 1 5 0 4
3 1 0 1 0 1 3 3 4 2 2 1 2 5 2
3 2 4 1 4 0 3 0 5 4 2 4 2 1 2
0 3 1 0 2 3 3 2 1 2 4 1 0 1 4
2.Durante 70 dias foram verificadas quantas peças um certo operador, em uma máquina
conseguia produzir. Construa uma tabela de distribuição de frequência (em classes).
Apresente na tabela a Fr%.
191 162 207 238 236 252 134 193 233 167
179 149 145 171 177 136 183 188 204 189
190 189 240 197 194 185 259 226 271 180
250 152 216 227 258 197 184 220 189 223
157 175 154 189 199 201 190 266 148 178
123 243 162 180 223 214 226 218 159 167
221 210 172 193 204 217 204 173 257 215
13
Mais exercícios: Construa uma tabela de distribuição de frequência e histograma. Fonte:
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 6. ed. São Paulo: Pearson Prentice
Hall, 2016. p. 50:
14
No laboratório:
Número de mortes por COVID por dia (de 01/01/2021 até 27/09/2021)
445 1.316 1.330 1.641 1.383 1.803 2.656 2.215 2.504 2.081 1.424 411 298 935
331 1.096 1.351 1.910 3.251 1.480 1.202 1.899 2.216 2.029 1.424 1.211 266 244
293 1.202 1.288 1.699 1.999 3.808 983 860 2.037 1.857 1.412 975 839 203
466 592 1.043 1.800 2.787 3.459 2.966 790 1.129 1.635 1.324 1.148 737 485
1.248 627 713 1.555 3.650 3.560 2.811 2.173 827 830 1.108 966 764 876
925 1.214 528 1.086 3.438 3.305 2.550 2.398 2.468 695 476 926 756 648
1.841 1.283 1.167 987 1.656 2.929 2.165 2.245 2.997 1.780 578 270 692 699
962 1.386 1.150 1.972 1.660 1.657 2.202 2.371 2.311 1.648 1.333 434 266 537
1.171 1.119 1.367 2.286 3.780 1.347 1.024 2.012 2.495 1.639 1.344 1.106 182 243
469 1.279 1.308 2.233 3.869 3.321 889 874 2.301 1.509 1.318 1.064 361 210
480 559 1.212 2.216 3.769 3.472 2.311 860 1.025 1.205 963 979 250
1.110 595 527 1.986 2.922 2.027 2.494 2.408 761 595 910 870 753
1.274 1.210 639 1.138 1.987 2.914 2.383 2.507 2.131 745 464 698 672
1.131 1.254 1.386 1.057 1.240 3.076 2.211 1.682 2.392 1.605 389 318 712
1.038 1.232 1.428 2.340 1.319 1.305 2.087 1.454 2.032 1.556 1.209 321 293
1.163 1.279 1.541 3.149 4.195 1.139 1.036 1.689 2.001 1.548 1.175 894 215
551 978 1.337 2.724 3.829 3.086 786 873 1.593 1.456 1.099 903 731
452 522 1.386 2.815 4.249 3.163 2.513 1.010 739 868 1.056 920 800
1.192 636 721 2.438 3.693 3.001 2.641 2.378 618 948 990 761 643
1.340 1.350 778 1.290 2.616 2.595 2.403 2.723 1.893 542 399 684 333
15
3 MEDIDAS DE TENDÊNCIA CENTRAL
3.1 Média
x i
x i 1
n
Onde:
n: o número total de dados.
xi: valores (dados).
Exemplo: Imagine que na inspeção de um produto foram obtidas sete amostras de uma
substância cujas massas em gramas resultaram no seguinte conjunto: {3,2 - 3,3 - 3,4 - 3,4
- 3,6 - 3,5 - 3,4}.
3,2 3,3 3,4 3,4 3,6 3,5 3,4
x 3,4 g
7
Portanto a massa média das sete amostras é igual a 3,4 gramas.
x
i 1
i fi
A média é calculada por x k
f
i 1
i
Onde:
k: número de linhas na tabela; fi: frequência simples; xi: valores da coluna indicadora.
16
Exemplo 1: Seja X o número de filhos dos empregados no setor de produção de uma
empresa:
Distribuição do número de filhos dos empregados no setor de produção
xi (Número de fi (Número de
xifi
Filhos) Empregados)
0 3 0
1 10 10
2 13 26
3 11 33
4 7 28
5 4 20
6 2 12
Total 50 129
k
x i fi
129
i 1
k
2,58 filhos.
50
f
i 1
i
x i fi
i 1
k
= 102 reais.
f
i 1
i
17
3.1.3 Média Aritmética Ponderada
Neste tipo de média, os dados que a compõe podem apresentar pesos diferentes.
x P i i
x i 1
n
Pi 1
i
3.2 Mediana
Exemplo: Voltando ao exemplo das sete amostras de uma substância dada em gramas. A
amostra é constituída pelos valores 3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4.
Ordenando os dados:
3,2 – 3,3 – 3,4 – 3,4 – 3,4 – 3,5 – 3,6.
Portanto a mediana é 3,4 gramas. Ou seja, a metade das amostras obteve até 3,4
gramas de massa.
Se o número de dados for par, a mediana é tomada como sendo a média dos dois
dados centrais.
18
3.3 Moda
A moda, representada por Mo, é o valor ou valores que ocorrem com maior
frequência, logo é uma medida de concentração. É o valor que mais repete. Numa tabela
de frequências, identifica-se através da ocorrência da maior frequência.
3.3.1 Para pequenas quantidades de dados (dados brutos)
Voltando ao exemplo das 7 amostras de uma substância cujas massas em gramas:
3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4.
Ordenam-se os dados para ter uma visão melhor:
3,2 – 3,3 – 3,4 – 3,4 – 3,4 – 3,5 – 3,6
Podemos afirmar que a moda é igual a 3,4 gramas, pois é o valor que mais ocorre.
3.4No Excel
As medidas de tendência central podem ser obtidas através das funções:
=MÉDIA(num1,num2,..) para a média; =MED(num1,num2,..) para a mediana e
=MODO(num1,num2,..) para a moda.
19
3.5 Exercícios Propostos
3. (Larson e Farber) Encontre a média, a mediana e a moda da amostra das idades dos
alunos de uma turma mostradas na tabela a seguir:
20
5
Determine:
a) Média: ....................
b) Mediana: ....................
c) Moda: ....................
6. Cálculo de médias:
a) Calcule a média dos dados da questão 1 da página 15 dessa apostila, que mosta os casos
de COVID. Para isso, cole os dados no Excel e utilize a função MÉDIA().
c) Houve diferença no resultado entre os itens (a) e (b)? Explique por quê.
21
4 MEDIDAS SEPARATRIZES
4.1 Quartis
Q1 1 quartil
Q2 2 quartil (Me) 25% 25% 25% 25%
Q3 3 quartil
Q1 Q2 Q3
4.2 Percentil
1
A mediana também pode ser considerada como uma separatriz e nos quartis recebe o nome de Q2.
22
Figura 4-1. Obtenção das separatrizes no Excel.
Fonte:
http://portal.inep.gov.br/documents/186968/484154/Resumo+T%C3%A9cnico+Censo+da+Educa%C3%A7%C3%A
3o+Superior+2015/dd2d280c-f644-4776-95ae-28029c928e20?version=1.0
23
As posições dos quartis Q1, Q2 e Q3 fornecem evidência sobre o nível de
assimetria da distribuição dos dados.
Um ponto será considerado outlier quando estiver fora do intervalo denotado por
(LS ; LI), onde:
LS: Limite superior: .
LI: Limite inferior: .
Os pontos fora destes limites são considerados valores discrepantes (outliers) e
são denotados por asterisco (*).
As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior
até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor
não superior ao limite superior. (Fonte: http://www.portalaction.com.br/estatistica-
basica/31-boxplot)
O Boxplot pode ainda ser utilizado para uma comparação visual entre dois ou
mais grupos. Por exemplo, duas ou mais caixas são colocadas lado a lado e se compara a
variabilidade entre elas, a mediana e assim por diante.
Exemplo:
A seguir temos as medidas da altura de 16 peças e o Boxplot correspondente.
Medidas de algumas peças
903,88 1036,92 1098,04 1011,26
1020,70 915,38 1014,53 1097,79
934,52 1214,08 993,45 1120,19
860,41 1039,19 950,38 941,83
24
Exemplo de Box Plot
Fonte: https://i0.wp.com/statisticsbyjim.com/wp-content/uploads/2019/01/boxplot_teaching.png?resize=576%2C384
Exercícios: Boxplots.
1 Considere que 22 pessoas foram entrevistadas e forneceram a informação de idade,
conforme os dados a seguir. Construir um Boxplot.
25
5 MEDIDAS DE DISPERSÃO
5.1.2 Desvio-padrão
O desvio-padrão é apresentado em duas formas: para população, s para amostra.
Também chamado afastamento médio quadrático, consiste em achar a média quadrática dos
desvios di = xi – x em relação à média. Dependendo de como os dados se apresentam, temos as
seguintes fórmulas para o cálculo do desvio-padrão.
da população (x i x )²
i 1
n
k
da amostra (x i x )²
s i 1
n 1
onde:
n: número de elementos
k: número de linhas na tabela
xi: valores da coluna indicadora (1ª coluna da tabela)
x: média da distribuição
5.1.3 Variância
A variância é o quadrado do desvio-padrão, ou seja, o desvio-padrão é a raiz quadrada da
variância. (2 para a população e s2 para a amostra).
26
quando os grupos são essencialmente diferentes; por exemplo: comparar notas com alturas ou
alturas de um grupo de crianças com alturas de um grupo de adultos1.
1
O coeficiente de variação tanto pode ser utilizado para fazer comparação entre duas ou mais distribuições bem
como para classificar uma distribuição.
27
xi ( xi x ) ( xi x ) 2
(x i x )²
0,1
Desvio-padrão: s i 1
0,0167 0,1291g
n 1 7 1
k
(x i x )²
0,1
Variância: s
2 i 1
0,0167 g 2
n 1 7 1
s 100 0,1291 100
Coeficiente de variação: CV 3,8% (variação baixa)
x 3,4
5.3 No Excel
As medidas de dispersão podem ser obtidas através das fórmulas:
=DESVPAD(num1,num2,..) para o desvio-padrão; =VAR(num1,num2,..) para a variância.
Algumas medidas não têm fórmulas prontas, portanto devem ser criadas.
Exemplo:
É também possível usar uma ferramenta fornece várias estatísticas simultâneas de uma
amostra. Para acessá-la, vá pelo menu Ferramentas e selecione a opção Análise de dados2. Uma
lista de opções será apresentada. Entre estas, encontra-se uma denominada Estatística descritiva.
Exercícios
1. Os valores abaixo se referem a idade de um grupo de 6 pessoas.
2
Se não encontrar Análise de dados, você deverá antes habilitar a disponibilidade das duas formas de Ferramentas
de análise através do caminho de menu Ferramentas / Suplementos.
28
40 – 30 – 35 – 20 - 50 - 29
Calcule o desvio padrão amostral.
2.
Dados:
74 76 76 79 80 80 80 80
82 84 84 85 85 85 85 89
89 90 90 93 94 95 96 98
29
3. (Use calculadora e apresente somente os resultados)
Peso de um grupo de adultos:
Dados:
74 76 76 79 80 80 80 80
82 84 84 85 85 85 85 89
89 90 90 93 94 95 96 98
4. Mostre manualmente, que o desvio padrão dos dados a seguir é aproximadamente 1,92,
conforme já calculado no Excel.
5. O gráfico a seguir expressa o número de animais doentes encontrados num levantamento de 350
propriedades rurais em MG, 2008:
Determine:
a) Desvio Padrão: .......................
b) Coeficiente de Variação: .......................
30
6.
7. Construa uma distribuição de frequência para os dados. A seguir, use a tabela para estimar a
média e o desvio padrão amostral do conjunto de dados.
8. Construa uma distribuição de frequência para os dados. A seguir, use a tabela para estimar a
média e o desvio padrão amostral do conjunto de dados.
31
6. CORRELAÇÃO E REGRESSÃO
Como observa-se, duas ou mais variáveis podem expressar uma relação de causa e efeito,
estando assim correlacionadas. O grau de relacionamento para dados amostrais é dado pela
seguinte expressão:
32
Onde: n é o numero de observações;
r é o coeficiente de correlação linear para uma amostra (chamado r de Pearson).
EXEMPLO: Encontre o coeficiente de correlação para os dados da tabela a seguir, sendo
X a nota de Cálculo e Y a nota de Física de cada acadêmico.
33
6.2.1 Regressão Linear Simples
As estimativas dos parâmetros “a” e “b”, são obtidas a partir de uma amostra de n pares
de valores (xi, yi) que correspondem a n pontos no diagrama de dispersão.
Exemplo:
34
6.2.2 Coeficiente de determinação R²
35
6.2.3 Regressão Linear Utilizando Excel
1º) Digitar a tabela com os dados e clicar em assistente de gráfico. Escolher gráfico: Dispersão
XY.
36
6º) Escolha o modelo adequado, neste caso o modelo linear.
7º) Nesta mesma janela, clique na guia “Opções” e marque as opções: “Exibir equação do
gráfico” e “Exibir valor R-quadrado no gráfico”.
8º) Será demonstrada a equação de regressão linear no gráfico bem como o valor de R-
quadrado. O “R-quadrado” (R²: Coeficiente de Determinação) se refere ao ajustamento da reta aos
pontos. Esse valor varia de 0 a 1 (0% a 100%).
37
6.2.4 Regressão Polinomial
1 2
3 4
5 10
6 14
8 15
10 18
10 16
12 19
16 17
18 14
20 15
20 12
22 8
25 6
28 3
Pede-se:
a) Construir o gráfico de dispersão xy. Observe o gráfico e verifique qual o modelo que mais
se adapta se é o linear ou o polinomial.
b) Calcular a equação de regressão: y = ax2 + bx + c, bem como o valor de R2
c) Calcular a melhor opção de investimento em propaganda. Use as fórmulas para vértices da
parábola: 𝑥 =
Calcule o vértice yv substituindo o valor na própria função. Isso evita o cálculo do valor
de delta.
d) Fazer um previsões para investimentos em propaganda no valor de R$ 15.000,00 e de R$
20.000,00.
e) Faça seus comentários para previsão de R$ 20.000,00 observando os valores na tabela
inicial.
38
Bibliografia: Ron Larson, Betsy Farber. Estatística Aplicada. São Paulo : Pearson, 2015:
Completando o quadro:
39
Exemplo:
40
41
EXERCÍCIOS
Questão 1: A seguir é mostrado o número de horas que 9 estudantes passaram estudando para um
teste e suas respectivas pontuações. Calcule o coeficiente de correlação linear.
X (Horas Y
de estudo) (Pontuação)
0 40
2 51
3 64
5 69
5 80
6 68
6 80
7 90
8 95
Totais: 42 637
42
3. Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades
monetárias). A amostra é pequena propositalmente, para facilitar os cálculos.
Obtenha a equação de regressão do gasto com alimentação em função da renda familiar (para os
dados da questão anterior).
4. Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da renda
familiar (X) e plote a linha de tendência. Faça uma previsão do gasto com alimentação para renda
familiar igual a 30.
Questão 5: Os dados a seguir representam as idades (em anos) e as pressões sanguíneas sistólicas
(em mmHg) de 10 homens.
b) A equação de regressão referente a esses dados é: y = 1,71x + 80,3. Com base nessa
equação, trace a linha de tendência no diagrama de dispersão acima desenvolvido.
d) Faça uma previsão do valor da pressão arterial para uma pessoa de 40 anos.
43
PARTE 2: ESTATÍSTICA INFERENCIAL
7 PROBABILIDADE
7.1 Introdução
São encontrados na natureza dois tipos de fenômenos: determinísticos e aleatórios.
Os fenômenos determinísticos são aqueles em que os resultados são sempre os mesmos,
qualquer que seja o número de ocorrências.
Nos fenômenos aleatórios, os resultados não serão previsíveis, mesmo que haja um grande
número de repetições do mesmo fenômeno.
Ensaio ou Tentativa: é todo procedimento que envolve probabilidades. Por exemplo, jogar
uma moeda é um ensaio ou uma tentativa.
Espaço Amostral (geralmente simbolizado por Ω ou S): é a lista de todos os resultados
possíveis.
Evento (A): é cada resultado possível de um ensaio.
Experimento aleatório: é o processo de coleta de dados relativos a um fenômeno que acusa
variabilidade em seus resultados.
44
7.5 Regras Básicas
Se A e B são dois eventos do espaço amostral W, então valem as seguintes regras básicas:
0 ≤ P(A) ≤ 1
P(A) = 0 o evento e impossível e P(A) = 1 o evento é certo.
P(Ω) = 1
P(A) = 1- P(A)
P(A U B) = P(A) + P(B) - P(A ∩ B).
Quando um experimento e repetido muitas vezes, são formados padrões regulares. Esses
padrões permitem encontrar a probabilidade empírica, a qual pode ser usada mesmo quando cada
resultado de um evento não e igualmente provável de ocorrer.
45
7.8 Probabilidade Subjetiva
46
7.9 Lei dos Grandes Números
Como exemplo dessa lei, suponha que queiramos determinar a probabilidade de obter
uma cara com uma moeda honesta. Lançamos lança a moeda 10 vezes e obtém-se 3 caras. Dessa
forma obtemos uma probabilidade empírica de 3/10. Como lançamos a moeda apenas algumas
vezes, sua probabilidade empírica não é representativa da probabilidade teórica, que é 1/2. A lei
dos grandes números diz que a probabilidade empírica, após lançar a moeda algumas milhares de
vezes, será bem próxima da probabilidade teórica ou real.
47
8 DISTRIBUIÇÕES DE PROBABILIDADE
Probabilidade
0,6
0,5
0,4
0,3
0,2
0,1
0
0 1 2
Nº de Caras
Exemplo de variável aleatória discreta: Dez unidades são selecionadas ao acaso numa
linha de produção. Essas unidades são inspecionadas e é anotado o número de produtos com
defeito. Esse número que indicaremos por X é uma variável aleatória discreta porque X só pode
assumir valores entre 0 e 10.
Exemplo de variável aleatória contínua: Foi obtida uma amostra aleatória de 5 unidades
de um produto. Essas unidades foram pesadas e os resultados foram anotados. O peso do produto
é uma variável aleatória contínua porque a exatidão dos resultados depende apenas da qualidade
da balança.
48
8.1 Distribuição Binomial de Probabilidade
8.2 Exercícios:
Exercício 1) Seis parafusos são escolhidos ao acaso da produção de uma certa máquina, que
apresenta 10% de peças defeituosas. Qual a probabilidade de serem defeituosos dois deles ? Resp:
p = 0,0984
Exercício 2) Dos estudantes de uma instituição, 41 % possuem CNH. Escolhem-se seis ao acaso
para darem uma opinião sobre o assunto. Determine a probabilidade de:
a) nenhum dos seis ter CNH
b) todos os seis terem CNH
c) ao menos a metade dos seis ter CNH.
Resp: a) p = 4,22% b) p = 0,48% c) 47,65%
49
8.3 Distribuição Normal de Probabilidade
( x )²
1
2 ²
Área sob a curva Gaussiana: A e dx
2 ²
Quando se tem em mão uma variável aleatória com distribuição normal, o principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado
intervalo. Essa probabilidade é representada pela área sob a curva dentro desse intervalo. A área
total sob a curva é 1. O cálculo desse valor é tabelado (Tabela disponível no final da apostila).
Exemplos:
Exemplo 1) Seja um teste aplicado a um grupo de 50 pessoas. Obteve-se uma distribuição Normal
com média 50 e desvio padrão 6. Pergunta-se qual a proporção de pessoas com notas superiores a
60 ?
Transformando a nota 60 em desvios reduzidos tem-se:
50
Exemplo 2) Com os dados do problema anterior, averiguar o número de alunos com notas entre
35 e 45.
Calculando os desvios reduzidos tem-se:
Exemplo 3) Com os dados do problema anterior, qual é a nota abaixo da qual estão 75% dos
alunos?
Consultando a tabela, a área é de 0,5 + 0,25 = 0,75
O valor de z correspondente a área de 0,2486 é 0,67
O valor de z correspondente a área de 0,2518 é 0,68
Pode-se adotar um valor médio z = 0,675
Exercícios
1) Achar a probabilidade de um valor escolhido ao acaso seja superior a 50 em uma distribuição
normal de média 35 e desvio padrão 8.
Resp: 0,0304 ou 3,04 %
2) Seja a distribuição normal de média 6,74 e desvio padrão de 2,3. Qual a probabilidade de
encontrar um valor inferior a 3,4 ?
Resp: 0,0735 ou 7,35 %
3) Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão
25. Determine a probabilidade de um indivíduo submetido ao teste ter nota:
a) maior que 120
b) entre 75 e 125
c) entre 115 e 125
d) qual é a nota abaixo da qual estão 70% dos alunos
Resp: a) p = 21,19 % b) p = 68,26% c) p = 11,55% d) 113
51
8.3.1 Distribuição Normal Teórica
A grande vantagem de pressupor que uma variável tem distribuição normal, é o fato de ser
possível calcular as probabilidades relacionadas a essa variável. Essas probabilidades são dadas
pelas áreas sob a curva.
Na distribuição Normal, também chamada de Regra Empírica (ou Regra 68-95-99,7):
68,26% dos dados estão entre (µ - σ) e (µ + σ), ou seja: média ± 1 desvio padrão.
95,44% dos dados estão entre (µ - 2σ) e (µ + 2σ), ou seja: média ± 2 desvios padrão.
99,74% dos dados estão entre (µ - 3σ) e (µ + 3σ), ou seja: média ± 3 desvios padrão.
52
8.4 O teorema do Limite Central
O teorema do limite central forma a base para o ramo inferencial da estatística. Esse
teorema descreve a relação entre a distribuição amostral das medias e a população da qual as
amostras são retiradas. O teorema do limite central e uma ferramenta importante que fornece a
informação que precisamos ao usar estatísticas amostrais para fazer inferências sobre a média de
uma população (Larson e Farber).
Obs: O desvio padrão da distribuição amostral das medias amostrais, também é chamado
de erro padrão da media.
53
Exemplos: Teorema do Limite Central (Larson e Farber 2016, p. 248-249):
EXERCÍCIOS
Exercício 1: Considere as curvas Normais apresentadas a seguir:
Responda:
a) Quais as médias das distribuições.
Média da distribuição A: ....................
Média da distribuição B: ....................
Média da distribuição C: ....................
c) Qual das 3 distribuições é relativamente mais dispersa (calcule CV)? Resp: ..............................
54
Exercício 2: Dada a figura que representa distribuição Normal:
Qual curva normal tem a maior média?
Resp: ...............
Exercício 3: Conforme uma pesquisa publicada por Bertagnon (2010), recém nascidos do estado
de São Paulo, nascidos com 37 a 41 semanas de gestação possuem média de peso de 3223g e
desvio padrão de 415g. Visto que os dados provém de uma distribuição Normal de probabilidade,
determine a probabilidade de um recém nascido possuir um peso maior ou igual a 3800g.
Fonte: Bertagnon, J. R. D. et al. Distribuição do peso ao nascer da população do Hospital Geral do Grajaú, comparada à população do Estado
de São Paulo. Revista Einstein v.8, 2010
Média = ..............
Desvio padrão = ...............
55
Exercício 6: Distribuição Normal de Probabilidade: O tempo de espera (EUA, em dias) para
um transplante renal, para pessoas com idade entre 35 e 49 anos, pode ser aproximado por
uma distribuição normal, como pode ser visto na figura a seguir. (Adaptado de: Organ
Procurement and Transplantation Network.). Calcule a probabilidade de uma pessoa ter que
esperar mais de 2000 dias pelo transplante.
56
9 ESTIMAÇÃO DE PARÂMETROS
A Figura a seguir mostra a forma aproximada da distribuição amostral de P. Note que esta
distribuição está centrada no próprio valor do parâmetro de interesse, π.
57
Pela teoria da distribuição normal, sabemos que existe 95% de probabilidade, de um valor
ser observado a menos de 1,96 desvios padrão da média. Desta forma, se exigirmos nível de 95%
de confiança, podemos explicitar um limite superior provável para o erro amostral, considerando
a faixa de 1,96 desvios padrão, acima e abaixo do centro da distribuição.
O desvio padrão da distribuição amostral de P, Sp, também conhecido como erro padrão
de P, pode ser estimado pelos dados da amostra, usando a expressão:
.( )
𝑆 = onde P é a proporção do atributo na amostra.
𝐼𝐶 = 𝑃 ± (1,96)𝑆
58
9.1.2 Outros níveis de confiança
Arbitrado um nível de confiança, podemos obter o limite provável para o erro amostral,
multiplicando Sp por um determinado valor z da curva normal padrão. A figura a seguir mostra
uma tabela, construída a partir da tabela da distribuição normal padrão, que associa os níveis
de confiança mais usados, com valores de z.
𝐼𝐶 = 𝑃 ± 𝑧. 𝑆
59
Observe que, ao exigir maior nível de confiança, o intervalo de confiança aumenta em
magnitude. Tente entender o porquê disto! Para um dado nível de confiança, dizemos que uma
estimativa é tão mais precisa quanto menor for a amplitude de seu intervalo de confiança.
Exercícios
3)
60
9.2 INTERVALO DE CONFIANÇA PARA UMA MÉDIA
𝑆
𝑆 =
√𝑛
onde:
S: desvio padrão da amostra
n: Número de elementos da amostra
𝐼𝐶 = 𝑋 ± 𝑧. 𝑆
61
9.2.1 Amostras Pequenas
Quando dispomos de uma amostra pequena (n < 30), não temos a garantia de que a
distribuição amostral da média se aproxime de uma distribuição Normal. Porém, se a variável em
estudo tiver uma distribuição razoavelmente simétrica, parecida com uma normal, a teoria
estatística mostra que é possível construir estimativas intervalares para a média populacional, μ,
utilizando a distribuição t de Student, que também é tabelada (ver final da apostila).
Para obter o valor t da distribuição t de Student, basta calcular os graus de liberdade: gl =
n - 1, fixar o nível de confiança desejado e usar a tabela da distribuição t de Student. Por exemplo,
para gl = 9 e nível de confiança de 95%, devemos usar a Tabela da distribuição t de Student, como
mostram as figuras a seguir:
Sendo assim, para uma amostra pequena (n < 30), o intervalo de confiança para uma média
μ tem a seguinte expressão geral: 𝐼𝐶 = 𝑋 ± 𝑡. 𝑆
62
9.3 EXERCÍCIOS
Exercício 1:
Exercício 2:
63
9.4 RESUMO SOBRE INTERVALOS DE CONFIANÇA:
64
10. TESTES DE HIPÓTESES
Os testes estatísticos paramétricos supõem que os dados seguem uma distribuição Normal,
portanto é necessário testar se esta suposição é verdadeira antes de aplicá-los. Uma forma empírica
de fazer isso é através da análise do histograma.
Existem vários testes estatísticos que têm por objetivo verificar se os dados seguem uma
distribuição Normal.
65
10.2.1 Teste de Normalidade de Shapiro-Wilk (Software: R-Project)
Regra de decisão: Se P-Value (P-valor) for maior que o nível de significância (geralmente
α = 0,05) , os dados apresentam distribuição normal:
Para verificar se os dados pertencem a uma distribuição normal pode-se aplicar o teste
de Shapiro-Wilk.
Inserindo os dados no R-Project:
shapiro.test(pimenta)
Para que os dados pertençam a uma distribuição normal de probabilidade tem que ser
satisfeita a seguinte proposição: p-Value > α. Assim, tem-se: 0,5494 > 0,05 (Verdadeiro). Portanto,
os dados provém de uma distribuição Normal.
Regra de decisão: Se P-Value (P-valor) for maior que o nível de significância (geralmente
α = 0,05) , os dados apresentam distribuição normal:
66
Interpretação da estatística: Conforme o teste de Anderson-Darling, os valores referentes
à concentração de contaminante no solo em mg/kg vêm de uma distribuição Normal de
probabilidade, pois p-valor = 0,731 é maior que α = 0,05.
Regra de decisão: Se P-Value (P-valor) for maior que o nível de significância (geralmente
α = 0,05), os dados apresentam distribuição normal:
67
10.3 Teste t de Student
Distribuição t de Student
Regra de decisão: Se P-Value (P-valor) for menor que o nível de significância (geralmente
α = 0,05), rejeita-se H0.
68
Distribuição t de Student:
Exemplo: A tabela mostra o valor da produtividade média dos funcionários antes e depois
de um programa de treinamento.
Funcionário Antes Depois
F1 22 25
F2 21 28
F3 28 26
F4 30 36
F5 33 32
F6 33 39
F7 26 28
F8 24 33
F9 31 30
F10 22 27
Testar as Hipóteses:
H0: A produtividade média dos funcionários não se altera com o programa de treinamento.
H1: A produtividade média dos funcionários se altera com o programa de treinamento.
Ou seja:
H0: μ depois = μ antes
H1: μ depois > μ antes
69
Observa-se na tabela uma tendência de ocorrer diferença positiva entre os valores “antes”
e “depois”. O teste t permite verificar se essa diferença não poderia ser explicada apenas por efeitos
casuais.
70
Nesse caso, o teste é unicaudal (μ depois > μ antes).
Obs: seria bicaudal se estivéssemos interessados em (μ depois ≠ μ antes).
Verificando na tabela (nível de confiança 95% o que implica em α=0,05.
(Usar g.l.= n - 1 = 10 – 1 = 9):
Esse é o t crítico
Procurar o valor (aproximado pois a tabela ao contrário dos softwares é discretizada) 2,82
na tabela da distribuição t de Student para teste Unicaudal e g.l. = 9:
71
Nota-se que a probabilidade p é aproximadamente 1% (p-Value = 0,01)
Comparando o p-Valor com o α:
Tem-se a Regra de Decisão: Se p-Valor < α então: Rejeita-se H0
Nesse caso:
0,01 < 0,05
Conclusão: Rejeita-se H0, ou seja, admite-se com 95% de confiança que μ depois > μ antes
mostrando que o treinamento aplicado aos funcionários foi eficiente.
No Excel:
72
Exercícios – Testes t para amostras pareadas
73
10.3.2 Teste de Variâncias
Um teste que pode ser feito para comparar variâncias é o Teste F, proposto por Snedecor,
em 1934, em homenagem a Fisher, em que:
𝑠
𝐹=
𝑠
74
Exemplo: Os dados abaixo se referem aos dados da resistência à tensão de duas máquinas.
Verificar se as variâncias das peças produzidas pelas duas máquinas são iguais.
Máquina A: 145 127 136 142 141 137
Máquina B: 143 128 132 138 142 132
1º passo: Hipóteses do teste:
𝐻 :𝜎 =𝜎
𝐻 :𝜎 ≠ 𝜎
40
𝐹= F 1,08
37
Conclusão:
Como F < Fcrítico, ou seja 1,08 < 7,15, as variâncias não diferem significativamente
No Excel:
75
Obs: Para instalar o Suplemento Análise de Dados, clicar em Arquivo:
76
10.3.3 Teste t para duas amostras independentes presumindo variâncias iguais
Este teste só deve ser usado quando podemos assumir que as duas distribuições
possuem a mesma variância.
A estatística t é calculada conforme a fórmula:
Este teste é usado quando as amostras possuem variâncias diferentes. Para confirmar se
as variâncias são realmente diferentes, é recomendável realizar um teste de variâncias.
A estatística t é calculada conforme a fórmula:
77
Resumo sobre testes de hipóteses
Teste t
(Verificar se os dados
vem de uma
distibuição Normal)
a) Formular hipóteses
b) Definir nível de confiança
c) Verificar: Uni ou bicaudal
Amostras
Amostras Pareadas
Independentes
Teste de Variâncias
Exercício 1 (Comentado): Dez cobaias foram submetidas ao tratamento de engorda com certa ração. Os
pesos em gramas, antes e após o teste são dados a seguir (supõe-se que provenham de distribuições
normais). A 5% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso
médio dos animais?
Cobaia 1 2 3 4 5 6 7 8 9 10
Antes 635 704 662 560 603 745 698 575 633 669
Depois 640 712 681 558 610 740 707 585 635 682
78
Exercício 2 (Comentado): Deseja-se saber se 2 máquinas de empacotar café estão fornecendo o mesmo
peso médio em kg. Extraem-se duas amostras, uma de cada máquina:
Máq. 1 488 494 499 505 503 510 501 489 497 491
Máq. 2 504 503 500 499 497 498 502 505 497 495
Qual é a sua conclusão a 5% de significância?
Exercício 3: Uma companhia distribuidora tem por hipótese que uma chamada telefônica é mais eficiente
que uma carta para acelerar s cobrança de contas atrasadas. Esta companhia fez uma experiência usando
duas amostras e obteve os resultados da tabela abaixo. Dê uma sugestão a respeito da tomada de decisão
mais viável para a companhia. Adote =5%.(Não esqueça de elaborar as hipóteses estatísticas)
Exercício 4: Uma fábrica de pneus fez um estudo comparativo entre motoristas homens e mulheres com
respeito a durabilidade dos pneus por ela fabricados. Teste, usando um nível de significância de 5% e diga
a conclusão que o fabricante pode tirar com base nos resultados ( em Km rodado) apresentados a seguir.
Em quais as suposições que você se baseou?
79
Exercício 5: A distribuição abaixo representa os batimentos cardíacos de oito estudantes, escolhidos ao
acaso, antes e após esforço físico programado. Teste, ao nível de significância de 5%, a probabilidade desta
alteração de frequência ocorrer ao acaso.
Antes 80 76 84 72 68 76 64 88
Depois 88 96 100 92 88 92 80 104
Exercício 6: Um engarrafador de vinho tem duas máquinas funcionando e suspeita que a quantidade
média de vinho por garrafa que sai da máquina A seja maior do que a da máquina B .Para verificar se
realmente isto está ocorrendo colheu duas amostra de 5 garrafas, uma de cada máquina e mediu a
quantidade de vinho. Qual a conclusão do engarrafador utilizando um nível de significância de 5%?
Máquina A 990 995 998 1 004 1 000
Máquina B 975 990 1 002 980 985
Exercício7: Uma operação de montagem em um processo de fabricação requer cerca de um mês de treino
para que um empregado novo possa atingir o nível desejado de eficiência máxima. Sugeriu-se um novo
método de treinamento e um teste foi realizado, visando comparar o método antigo com o novo. Dois grupos
de novos empregados novos foram treinados durante três semanas, segundo o método novo e o antigo,
respectivamente. O tempo necessário, em minutos, para que cada novo empregado conseguisse montar as
peças de um dispositivo, foi anotado e está expresso abaixo. Será que estes dados permitem suficiente
evidência, ao nível de 5%, de que a média de rendimento do novo processo de três semanas é melhor (exige
menos tempo) do que o método antigo, que levava um mês ? Quais as suposições que devem ser feitas
Antigo 37 35 28 41 44 35 31 34 32
Novo 37 29 25 34 40 27 32 31 35
80
11. ANÁLISE DE VARIÂNCIA – ANOVA
Assim:
Se p < α: há pelo menos uma média, ou seja um grupo (ou tratamento) diferente dos demais.
Se p ≥ α: não há diferença significativa entre as médias, dos grupos (ou tratamento) testados.
81
11.3 Formulação Matemática da ANOVA
1
Média 𝑦 . 𝑦 . ... 𝑦 .
𝑦.. = 𝑦.
𝑔
Onde:
n: Número de replicações
g: Número de tratamentos (nº de grupos diferentes)
N: Número de observações (N = n . g)
Dentro dos 𝑆𝑄
𝑄𝑀 =
Tratamentos 𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄 𝑁−𝑔 𝑔𝑙 -
(Erro)
𝑦..
Total 𝑆𝑄 = 𝑦 − 𝑁−1 - -
𝑁
Quadrado Médio do Tratamento (𝑸𝑴𝑻𝒓𝒂𝒕 ): é uma medida de variância entre as médias dos
grupos.
Quadrado Médio do Erro (𝑸𝑴𝑬𝒓𝒓𝒐 ): é uma medida de variância dentro dos grupos.
Hipóteses do teste:
H0: as médias dos vários tratamentos são iguais
H1: pelo menos uma das médias é diferente das demais.
82
Interpretação do valor f (esse é o f calculado)
Se f < fcrítico, então aceita H0
Se f ≥ fcrítico, então rejeita H0
(Obs: f tabelado e f crítico são sinônimos)
Resultados do Experimento
Tipo de Rede
Replicação
C1 C2 C3
1 7,2 7,8 6,3
2 9,3 8,2 6,0
3 8,7 7,1 5,3
4 8,9 8,6 5,1
5 7,6 8,7 6,2
6 7,2 8,2 5,2
7 8,8 7,1 7,2
8 8,0 7,8 6,8
Soma 65,7 63,5 48,1
Média 8,21 7,94 6,01
Nesse caso:
Número de replicações: n = 8
Número de tratamentos: g = 3
Número de observações (N = n.g): N = 24
83
Cálculos:
Soma global: 𝑦.. = 177,3
𝑦 . 𝑦..
𝑆𝑄 = −
𝑛 𝑁
(65,7) + (63,5) + (48,1)² (177,3)
𝑆𝑄 = − = 22,99
8 24
𝑦..
𝑆𝑄 = 𝑦 −
𝑁
(177,3)
𝑆𝑄 = (7,2) + (9,3) + ⋯ + (6,8) − = 34,45
24
𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄
𝑆𝑄 = 34,45 − 22,99 = 11,46
Adotando α= 0,05, temos o valor crítico fcrítico = 3,47 (ou seja, f tabelado). Como o valor
calculado (f calculado = 21,07) é superior ao valor crítico, então o teste rejeita H0 provando
estatisticamente que há diferença entre os 3 tipos de rede, em termos do tempo médio de
transmissão.
Quando se trabalha com softwares estatísticos, estes apresentam também o valor p
calculado. Desta forma, ao invés de comparar o valor f calculado com o fcrítico, basta comparar o
valor p com o valor α.
Considerando por exemplo α = 0,05 (95% de confiança) então:
Se p > α aceita-se H0, ou seja, não há evidência de diferença entre as médias dos grupos
testados (as médias são iguais).
Se p ≤ α rejeita-se H0, ou seja, há evidência de diferença entre as médias dos grupos
testados (a média de pelo menos um dos grupos é diferente das demais).
O valor p é a área à direita da estatística f na Distribuição F de Snedecor.
84
Em todo teste estatístico feito com abordagem do valor de p tem-se:
p > α aceita H0
p ≤ α rejeita H0
Para achar o valor de fcrítico =na Tabela F de Snedecor, utilize: grau de liberdade do
: ..
numerador e do denominador: : ..
𝑄𝑀𝐸
𝑑𝑚𝑠 = 𝑞 (𝑔, 𝑁 − 𝑔)
𝑛
onde:
dms: diferença média significativa
𝑞 (𝑔, 𝑁 − 𝑔): Obtido na tabela Tukey conforme 𝛼, número de tratamentos (g) e g.l. do erro, ou
seja , g.l. do 𝑁 − 𝑔.
QME: quadrado médio do erro (ou seja, o QM dentro dos grupos)
n: Número de replicações:
85
Objetivo do teste: calcular a diferença (em módulo) entre as médias dos grupos (de 2 a
dois) e comparar com dms. Se a diferença entre as médias dos 2 grupos testados for maior que a
dms, os 2 grupos diferem entre si. Fazer todas as combinações necessárias de testes.
Tabela Tukey: Valores da amplitude total studentizada (q), para uso no teste de Tukey
aos níveis de significância de 5% e 1%.
v t (número de tratamentos)
α
(gl erro) 2 3 4 5 6 7 8 9 10
0,05 3,64 4,60 5,22 5,67 6,03 6,33 6,58 6,80 6,99
5
0,01 5,70 6,98 7,80 8,42 8,91 9,32 9,67 9,97 10,24
0,05 3,46 4,34 4,90 5,30 5,63 5,90 6,12 6,32 6,49
6
0,01 5,24 6,33 7,03 7,56 7,97 8,32 8,61 8,87 9,10
0,05 3,34 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16
7
0,01 4,95 5,92 6,54 7,01 7,37 7,68 7,94 8,17 8,37
0,05 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92
8
0,01 4,75 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86
0,05 3,20 3,95 4,41 4,76 5,02 5,24 5,43 5,59 5,74
9
0,01 4,60 5,43 5,96 6,35 6,66 6,91 7,13 7,33 7,49
0,05 3,15 3,88 4,33 4,65 4,91 5,12 5,30 5,46 5,60
10
0,01 4,48 5,27 5,77 6,14 6,43 6,67 6,87 7,05 7,21
0,05 3,11 3,82 4,26 4,57 4,82 5,03 5,20 5,35 5,49
11
0,01 4,39 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99
0,05 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,39
12
0,01 4,32 5,05 5,50 5,84 6,1 6,32 6,51 6,67 6,81
0,05 3,06 3,73 4,15 4,45 4,69 4,88 5,05 5,19 5,32
13
0,01 4,26 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67
0,05 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25
14
0,01 4,21 4,89 5,32 5,63 5,88 6,08 6,26 6,41 6,54
0,05 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,08 5,20
15
0,01 4,17 4,84 5,25 5,56 5,8 5,99 6,16 6,31 6,44
0,05 3,00 3,65 4,05 4,33 4,56 4,74 4,90 5,03 5,15
16
0,01 4,13 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35
0,05 2,98 3,63 4,02 4,30 4,52 4,70 4,86 4,99 5,11
17
0,01 4,10 4,74 5,14 5,43 5,66 5,85 6,01 6,15 6,27
0,05 2,97 3,61 4,00 4,28 4,49 4,67 4,82 4,96 5,07
18
0,01 4,07 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20
0,05 2,96 3,59 3,98 4,25 4,47 4,65 4,79 4,92 5,04
19
0,01 4,05 4,67 5,05 5,33 5,55 5,73 5,89 6,02 6,14
0,05 2,95 3,58 3,96 4,23 4,45 4,62 4,77 4,90 5,01
20
0,01 4,02 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09
0,05 2,92 3,53 3,90 4,17 4,37 4,54 4,68 4,81 4,92
24
0,01 3,96 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92
0,05 2,89 3,49 3,85 4,10 4,30 4,46 4,60 4,72 4,82
30
0,01 3,89 4,45 4,80 5,05 5,24 5,40 5,54 5,65 5,76
0,05 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,63 4,73
40
0,01 3,82 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60
0,05 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65
60
0,01 3,76 4,28 4,59 4,82 4,99 5,13 5,25 5,36 5,45
0,05 2,80 3,36 3,68 3,92 4,10 4,24 4,36 4,47 4,56
120
0,01 3,70 4,20 4,50 4,71 4,87 5,01 5,12 5,21 5,30
0,05 2,77 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47
∞
0,01 3,64 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16
86
11.4 Exemplos de Aplicação prática da ANOVA
Resumo:
Grupo Contagem Soma Média Variância
50 A 10 2781 278,1 773,6556
55 A 10 2863 286,3 498,4556
60 A 10 2888 288,8 449,9556
65 A 10 2994 299,4 144,0444
70 A 10 2916 291,6 953,6
ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Entre grupos 2409,32 4 602,33 1,06807 0,383424 2,578739
Dentro dos grupos 25377,4 45 563,9422
Total 27786,72 49
Conclusão:
Verifica-se pela análise, que o valor-p calculado na ANOVA, é maior que o valor p
teórico (0,383 > 0,05), o que significa que a diferença entre os tratamentos, ou seja, entre os
diferentes tipos de corrente a que os corpos de prova foram submetidos não é significativa.
Isso pode ser explicado, pelo fato de haver variáveis externas não controladas, que podem
ser causa de variabilidade nos dados, como por exemplo, o comprimento do arco.
87
Observa-se ainda, que embora existam diferenças entre as médias encontradas (embora
essas diferenças não sejam significativas conforme demonstrado na ANOVA), a variância em
praticamente todos os tratamentos é alta, o que mostra que há grande variabilidade nas medições
encontradas nos diferentes corpos de prova.
Método
Análise de Variância
Sumário do Modelo
S R2 R2(aj) R2(pred)
23,7475 8,67% 0,55% 0,00%
Médias
88
Fator N Média DesvPad IC de 95%
50 A 10 278,10 27,81 (262,97; 293,23)
55 A 10 286,30 22,33 (271,17; 301,43)
60 A 10 288,80 21,21 (273,67; 303,93)
65 A 10 299,40 12,00 (284,27; 314,53)
70 A 10 291,60 30,88 (276,47; 306,73)
89
No Minitab 17, aplicando a ANOVA One Way (ANOVA com um fator):
90
ANOVA utilizando Dois Fatores
Neste mesmo exemplo (Exemplo 2), é interessante verificar se as medidas das peças
diferem quanto à combinação utilizada, ou quanto ao tipo da peça. Nesse caso, aplica-se a ANOVA
Two Way.
91
92
Verifica-se através do gráfico acima, as seguintes observações:
1) Nas combinações 1, 2 e 3, onde foi utilizado o mesmo avanço (0,2mm), percebe-se
que não houve diferença significativa entre as peças 1, 2 e 3. Raciocínio semelhante
para as combinações 4, 5 e 6 entre si.
2) Houve diferença entre dois grupos, o primeiro formado pelas combinações 1,2 e 3 e o
segundo por 4, 5 e 6.
3) Continuar as análises... podem ser feitos mais comentários...
93
12 EXPERIMENTO FATORIAL (Tipo 2k)
Bibliografia:
Um experimento fatorial é um tipo de experimento
planejado que permite estudar os efeitos de diversos fatores sobre
uma resposta. Ao realizar um experimento, variar os níveis de
todos os fatores ao mesmo tempo em vez de um de cada vez
permite estudar as interações entre os fatores.
Situação 1: Verificar quais são os fatores que mais interferem na resistência à compressão
(Y) de um concreto.
A resposta Y será a resistência à compressão e os fatores a serem estudados podem ser:
− tempo de hidratação (A);
− Relação água/cimento (B);
− a qualidade do cimento (C) e
− o uso de aditivos (D).
94
12.2 Estratégias para um Estudo Experimental
Antes de realizar um Estudo Experimental é importante dar atenção aos seguintes fatores:
reconhecer, estabelecer e delimitar claramente o problema;
identificar os possíveis fatores que podem afetar o problema em estudo;
verificar quais fatores que poderão ser mantidos fixos e, portanto, não terão os seus
efeitos avaliados no estudo experimental;
identificar, para cada fator, o intervalo de variação e os níveis que entrarão no estudo;
escolher um projeto experimental adequado, isto é, saber como combinar os níveis dos
fatores de forma que se possa resolver o problema proposto com o menor custo possível;
escolher a resposta adequada, ou seja, a variável Y que mede adequadamente o resultado
(a qualidade, o desempenho, etc.) do processo.
O experimento que foi realizado com duas replicações. Os resultados são apresentados na
Tabela 13.1:
95
Tabela 13.1: Resultados de duas replicadas para cada Condição Experimental
Condição
A B C Replicada 1 Replicada 2
Experimental
1 - - - 32,5 32,3
2 - - + 35,7 35,9
3 - + - 33,1 33,4
4 - + + 35,9 36,1
5 + - - 34,1 34,4
6 + - + 36,6 36,9
7 + + - 34,2 34,2
8 + + + 37,1 36,9
A Tabela 2, a seguir, inclui os sinais de todas as interações possíveis (AB, AC, BC, ABC).
Os sinais de cada interação correspondem aos sinais da multiplicação de elemento a elemento dos
fatores nela envolvidos. Nota-se que nesse caso há 16 ensaios, pois cada condição experimental
possui 2 replicações.
96
12.5 Análise do Experimento Fatorial
Soma de Quadrados
Soma de quadrados total (𝑆𝑄 ):
1
𝑆𝑄 = 𝑦 − 𝑦
𝑁
Soma de quadrados do erro (𝑺𝑸𝑬𝒓𝒓𝒐 ): Veja que o somatório refere-se a j=1,..., 2k-
1. Como temos k=3 fatores, vai de j=1,..., 7, ou seja, a soma de todos os 7 𝑆𝑄 .
𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄
1
𝑆𝑄 = (−32,5 − 32,3 − 35,7 − 35,9 − 33,1 − 33,4 − 35,9 − 36,1 + 34,1 + 34,4 + 36,6
16
+ 36,9 + 34,2 + 34,2 + 37,1 + 36,9) = 5,641
1
𝑆𝑄 = (−32,5 − 32,3 − 35,7 − 35,9 + 33,1 + 33,4 + 35,9 + 36,1 − 34,1 − 34,4 − 36,6
16
− 36,9 + 34,2 + 34,2 + 37,1 + 36,9) = 0,391
97
1
𝑆𝑄 = (−32,5 − 32,3 + 35,7 + 35,9 − 33,1 − 33,4 + 35,9 + 36,1 − 34,1 − 34,4 + 36,6
16
+ 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 32,776
1
𝑆𝑄 = (+32,5 + 32,3 + 35,7 + 35,9 − 33,1 − 33,4 − 35,9 − 36,1 − 34,1 − 34,4 − 36,6
16
− 36,9 + 34,2 + 34,2 + 37,1 + 36,9) = 0,181
1
𝑆𝑄 = (+32,5 + 32,3 − 35,7 − 35,9 + 33,1 + 33,4 − 35,9 − 36,1 − 34,1 − 34,4 + 36,6
16
+ 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 0,181
1
𝑆𝑄 = (+32,5 + 32,3 − 35,7 − 35,9 − 33,1 − 33,4 + 35,9 + 36,1 + 34,1 + 34,4 − 36,6
16
− 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 0,031
1
𝑆𝑄 = (−32,5 − 32,3 + 35,7 + 35,9 + 33,1 + 33,4 − 35,9 − 36,1 + 34,1 + 34,4 − 36,6
16
− 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 0,226
𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄
98
Passo 5: Achar o Valor f Tabelado (também chamado de f Crítico)
Para Achar o Valor f Tabelado, deve-se verificar na tabela F de Snedecor. Usar:
gl do numerador = 1 (é o gl das fontes de variação)
gl do denominador = gl do erro
99
Tabela 13.4: Distribuição F de Snedecor (para α = 0,05).
Bibliografia:
BARBETTA, Pedro Alberto; REIS, Marcelo Menezes; BORNIA, Antonio Cezar. Estatística: para cursos
de Engenharia e Informática. 3. ed. São Paulo: Atlas, 2010.
100
13 APÊNDICES E ANEXOS
𝑍∝ . 𝜎
𝑛=
𝐸
Onde:
n: Número de indivíduos da amostra
𝑍∝ : Valor crítico correspondente ao grau de confiança. Geralmente utiliza-se 95% de
confiança, logo 𝑍∝ = 1,96.
𝜎: desvio padrão populacional da variável estudada.
E: Margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre a média
amostral e a verdadeira média populacional.
Obs: Quando 𝜎 não for conhecido, pode-se usar 𝜎 ≅ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒/4. Ou ainda, pode-se
realizar estudo piloto com pelo menos 31 indivíduos (valores amostrais) e calcular o desvio padrão
amostral (s), e usá-lo no valor de 𝜎.
Logo:
, .
𝑛= n=96,04. Amostra deverá ser de tamanho n=97.
101
II. TAMANHO DA AMOSTRA PARA ESTIMAR UMA PROPORÇÃO
(Considerando Tamanho da População Desconhecido)
𝑍²∝ . 𝑝 . 𝑞
𝑛=
𝐸²
Onde:
n: Número de indivíduos da amostra
𝑍∝ : Valor crítico correspondente ao grau de confiança. Geralmente utiliza-se 95% de
confiança, logo 𝑍∝ = 1,96.
p: proporção de indivíduos que pertencem à categoria que estamos interessados em estudar.
q=1- p
E: margem de erro em percentual (%)
Obs: Quando p e q não forem conhecidos, usa-se p = q = 0,5, pois usando esse valor para
esses parâmetros, o tamanho da amostra é máximo.
Logo:
, ². , . ,
𝑛= , ²
n = 1067,11. Amostra deverá ser de tamanho n = 1068.
102
III. TABELA
Tabela com graus de confiança mais utilizados (geralmente usa-se 95%).
GRAU DE CONFIANÇA (ALFA) VALOR CRÍTICO 𝒁∝
𝟐
103
ANEXO 1: TABELA DISTRIBUIÇÃO NORMAL PADRÃO
104
ANEXO 2: TABELA DISTRIBUIÇÃO t DE STUDENT (95% de confiança)
105
14 BIBLIOGRAFIA
BARBETTA, Pedro Alberto; REIS, Marcelo Menezes; BORNIA, Antonio Cezar. Estatística:
para cursos de engenharia e informática. 3. ed. São Paulo: Atlas, 2010.
LARSON, R; FARBER, B. Estatística Aplicada. São Paulo: Person- Prentice Hall, 2016.
VIEIRA, Sonia. Estatística para a qualidade. 2. ed. Rio de Janeiro: Elsevier, 2012.
Site: http://www.portalaction.com.br/
106